Ejercicios Resueltos de Estadística y Probabilidad

Anuncio
ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA
1. Las estaturas en centímetros y pesos en kilogramos de 10 jugadores de baloncesto son:
Estatura (X)
Peso (Y)
186
85
189
85
190
86
192
90
193
87
193
91
198
93
201
103
203
100
205
101
a) Hallar la recta de regresión de Y sobre X.
b) Hallar el coeficiente de correlación.
c) ¿Qué estatura, se puede predecir, según la recta obtenida, de un jugador que pesa 92
kilogramos? ¿Y de uno que pesa 103 kilogramos?
d) Interpreta la bondad de estas predicciones en función del coeficiente de correlación.
a)
Necesitamos calcular los siguientes datos:


x 
Media de Y  y 

Desviación típica de x

Desviación típica de y

Media de X

Se tiene:
x
y


i
fi
N
yi f i
N
x
2
i
s 
y
xy
Covarianza
x
sx 
s 
s x 

186  189  190  192  193  193  198  201 203  205
 195
10

85  85  86  90  87  91  93  103  100  101
 92,1
10
fi
N
cm
kg.
 x2 
1862  1892  1902  1922  1932  1932  1982  2012  2032  2052
 1952  6,07
10
sy 
y
2
i
N
fi
 y2 
852  852  862  902  872  912  932  1032  1002  1012
 92,1 2  6,56
10
x i y j f ij
s xy 
 xy 
N
186 85  189 85  190 86  192 90  193 87 



193 91  198 93  201 103  203 100  202 101
 195 92,1 
10

179971
 17959,5  37,6
10
Con todo ello, la recta de regresión de Y sobre X es:
y y
s xy
s
2
x
 x  x   y  92,1 
37,6
 x  195  y  92,1  1,02 x  195 
6,072
 y  1,02x  106,8
Que es la forma explícita de la recta pedida:
1
b)
Para el coeficiente de correlación tenemos:
s xy
r
c)
sx  s y

37,6
 0,94
6,07  6,56
En la recta de regresión obtenida en a) para y=92 kg., se espera una estatura de:
92  1,02x  106,8  x 
92  106,8
 194,9
1,02
Para y=103 kg. se espera:
103  1,02x  106,8  x 
cm
103  106,8
 205,69
1,02
cm
d)
Dado el coeficiente de correlación obtenido en b) positivo (correlación directa) y muy próximo a 1, se
puede afirmar que los valores obtenidos en c) son muy buenos.
___________________________________________________________________
2. a) ¿Cuál es la probabilidad de observar dos caras al lanzara dos monedas?
b) Si lanzamos 5 veces 2 monedas ¿Cuál es la probabilidad de observar dos caras en más de tres
lanzamientos?
a)
Al lanzar dos monedas pueden darse
espacio muestral:
RV22  2 2  4 casos posibles. Dado que son pocos construimos el
CC, C+, +C, ++
Casos favorables sólo hay uno (CC), por tanto, según la probabilidad de Laplace:
p
b)
1
 0,25
4
1
Al lanzar 5 veces dos monedas tenemos una distribución binomial B(5, 4 ) con lo que:
 5  1   3   5  1 
1 3
1
15  1
16
p  3                 5 
 


 0,0156
256 4 1024 1024 1024
 4  4   4   5  4 
4
5
________________________________________________________________
3.
De una urna con 2 bolas blancas y 3 rojas se extraen, con reemplazamiento, 4 bolas. Si las 3
primeras fueron blancas, ¿Cuál es la probabilidad de que la cuarta también lo sea?
Si de la misma urna se extraen 4 bolas, sin reemplazamiento, ¿Cuál es la probabilidad de que
dejemos en la urna la bola blanca?
La probabilidad de que las cuatro bolas extraídas sena blancas es, dado que cada suceso B="extraer bola
blanca" es independiente de los siguientes por hacerse con reemplazamiento:
4
2
16
 2
p( B)   p(4B)    
 0,0256
5
625
 5
Para la segunda cuestión los casos posibles son las permutaciones con repetición de 5 elementos de entre los
cuales hay dos iguales y tres iguales, o sea:
P53 , 2 
5!
54

 10
3!2!
2
Los casos favorables son (dado que sólo hay dos bolas blancas), los siguientes, en todos los cuales queda
dentro una blanca:
RRRB_
RRBR_
RBRR_
BRRR_
2
Según la probabilidad de Laplace, la probabilidad pedida es:
p
4
2
  0, 4
10 5
____________________________________________________________________
4.
La probabilidad de que una persona nacida en 1973 viva hasta los 40 años es 0,97, y la
probabilidad de que viva hasta los 65 es 0,66. Sabiendo que ha alcanzado los 40, calcular la
probabilidad de que viva hasta los 65.
Llamemos:
A= suceso "vive hasta los 40"
B= suceso "vive hasta los 65"
Nos piden la probabilidad condicionada p(B/A) y por definición de la misma, tenemos:
p B / A  
p( A  B ) p( B )

p( A)
p( A)
Ya que al estar el suceso B contenido en A, su intersección es el primero, entonces:
p( B / A) 
0,66
 0,68
0,97
____________________________________________________________________
5.
Se han pasado dos test A y B a un mismo grupo de personas obteniendo los siguientes
parámetros: medias aritméticas 56,8 y 62,2 (respectivamente), desviaciones típicas 15,6 y 10,8
(respectivamente) y covarianza 164,4
a)
Si una persona ha obtenido 60 en el test A y 64 en el B ¿En qué test ha obtenido una
puntuación mayor en relación al grupo?
b) Calcula el coeficiente de correlación lineal e interprétalo.
c)
Utiliza la recta de regresión apropiada para predecir qué puntuación debe obtener una persona
en el test B si en el A ha obtenido 73
a)
Vamos a tipificar las variables X (puntuación del test A) e Y (puntuación en el test B) para tener acceso a
las tablas de la distribución normal N(1, 0). Calculando con ella las probabilidades de que una persona
cualquiera haya obtenido puntuaciones por debajo de 60 en el A y de 64 en el B sabremos en cuál de los dos la
puntuación obtenida es más significativa.
Se tienen los siguientes datos:
x  56,8
y  62,2
s x  15,6
s y  10,8
s xy  164,64
Tipificando las puntuaciones obtenidas por nuestro sujeto con la expresión:
z1 
x  x 60  56,8

 0,205
sx
15,6
z2 
y  y 64  62,2

 0,166
sy
10,8
Con las tablas de la normal obtenemos:
p( X  60)  p( z  z1 )  0,5987
p(Y  64)  p( z  z 2 )  0,5636
3
O sea, es más probable que una persona obtenga una puntuación por debajo de 60 en el test A que
obtenga una por debajo de 64 en el test B, luego la puntuación obtenida es mayor con relación al grupo A
que al B
b)
El coeficiente de correlación es:
r
s xy
sx  s y

164,64
 0,97
15,6  10,8
Siendo la correlación directa (r>0) y muy significativa (r próximo a 1)
c)
Calcularemos la recta de regresión de Y sobre X para despejar en ella directamente la puntuación
correspondiente del test A. Será:
y y 
s xy
s
2
x
( x  x )  y  62,2 
164,64
( x  56,8)  y  62,2  0,68( x  56,8) 
15,6 2
 y  0,68x  23,58
Y para x=73
y  0,68  73  23,58  73,22
6. Un juego consiste en lanzar repetidamente un dado hasta que salga 6. Calcula la probabilidad de que
el juego se acabe antes del cuarto lanzamiento.

p1 
Si sale un 6 en el primer lanzamiento el juego acaba y
p2 
1
6
5 1
5
 
6 6 36

Si sale el 6 en el segundo pero no en el primero

 5  1 25
p3     
 6  6 216
Si sale el 6 en el tercero pero no en los dos anteriores

 5  1 125
p4     
 6  6 1296
Si sale el 6 en el cuarto pero no en los tres anteriores
2
3
La probabilidad pedida en la suma de las cuatro anteriores ya que los sucesos expresados en ellos son
incompatibles, o sea:
p  p1  p 2  p3  p4 
1 5
25
125
671




 0,518
6 36 216 1296 1296
____________________________________________________________________
7.
Se midieron las estaturas de una población obteniendo una media de 170 cm. y una desviación
típica de 10 cm. Suponiendo que se distribuyen normalmente, calcula qué porcentaje de la población
mide entre 160 y 190 cm.
Se trata de la distribución normal N(170, 10) en la que vamos a tipificar las estaturas extremas del intervalo
dado para tener acceso a la tabla:
160  170
 1
10
190  170
z2 
2
10
z1 
Entonces (usando la tabla de la distribución normal):
p(160    190)  p 1  z  2  p( z  2)  p( z  1)  p( z  2)  1  p( z  1) 
 pz  2  p( z  1)  1  0,9772 0,8413 1  0,8185
O lo que es lo mismo, el 81,85 % de la población en estudio tiene estaturas entre 160 y 190 cm.
4
____________________________________________________________________
8.
¿Qué significa en una distribución bidimensional que el coeficiente de correlación sea:
a)
b)
c)
r=1
r=-1
r=0,75
Las notas obtenidas por cinco alumnos en Latín y Griego son:
Latín
Griego
6
6,5
4
4,5
8
7
5
5
3,5
4
Determinar la recta de regresión de Y sobre X y calcular la nota esperada en Griego de un alumno
que tiene 7,5 en Latín.
a)
r=1 significa que la correlación es directa (al crecer X crece Y y viceversa) y que ambas variables son
totalmente dependientes (dependencia funcional).
b)
r=-1 igual que antes (dependencia funcional) pero con correlación inversa (al crecer X decrece Y y
viceversa).
c)
R=0,75 la correlación es directa pero poco significativa, apenas hay dependencia entre las variables
(empieza a ser considerada a partir de r=0,8)
Para la segunda parte del problema determinamos:
x
x
y

i
fi
N
yi f i
N
sx 
s xy 
x
2
i

6  4  8  5  3,5
 5,3
5

6,5  4,5  7  5  4
 5,4
5
fi
N
x y
i
j
 x2 
f ij
N
 xy 
6 2  4 2  8 2  5 2  3,5 2
 5,3 2  1,16
5
1
6  6,5  4  4,5  8  7  5  5  3,5  4  5,3  5,4  1,78
5
La recta pedida es:
y y 
s xy
s
2
x
 x  x   y  5,4 
1,78
 x  5,3  y  5,4  1,32( x  5,3) 
1,162
 y  1,32x  1,6
Y la puntuación estimada en Latín para una de Griego de 7,5 es:
7,5  1,32x  1,6  x 
7,5  1,6
 6,89
1,32
___________________________________________________________________
9.
La nota necesaria para aprobar un examen teórico de conducir es superior a 6. Si la nota media de
los exámenes de un día es 5,8 y la desviación típica es 1,75. ¿Cuál fue el porcentaje de admitidos ese
día si la distribución es normal?
Tipificamos la nota 6 para tener acceso a la tabla de la normal:
z
x  x 6  5,8

 0,11
sx
1,75
Entonces:
p x  6  p( z  0,11)  1  p( z  0,11)  1  0,5438 0,4562
Lo que supone un 45,62 % de aprobados ese día.
5
10. Las notas obtenidas por 10 alumnos en matemáticas y en inglés son:
Alumnos
Matemáticas.
Inglés
1
6
6,5
2
4
4,5
3
8
7
4
5
5
5
3,5
4
6
7
8
7
5
7
8
10
10
9
5
6
10
4
5
a)
Calcular la covarianza, las varianzas y el coeficiente de correlación lineal.
b) ¿Existe correlación entre las dos variables? Razónese la respuesta.
c)
Calcular la recta de regresión. ¿Cuál sería la nota esperada en inglés para un alumno que hubiera
obtenido un 8,3 en matemáticas?
a)
Se tiene:
x
x
y

s x2 
i

6  4  8  5  3,5  7  5  1  5  4 57,5

 5,75
10
10

6,5  4,5  7  5  4  8  7  10  6  5 63

 6, 3
10
10
fi
N
yi f i
N
x i2 f i

 x2 
36  16  64  25  12,25  49  25  100  25  16
 33,0625 
10
N
368,25

 33,0625  36,825  33,0625  3,7625
10
y i2 f i
42,25  20,25  49  25  16  64  49  100  36  25
2
sy 
 y2 
 39,69 
N
10
426,5

 39,69  42,65  39,69  2,96
10
x i y j f ij
39  18  56  25  14  56  35  100  30  20
s xy 
 xy 
 5,75  6,3 
N
10
393
 36,225  39,3  36,225  3,075
10
s xy
3,075
3,075
r


 0,92
sx  sy
3,7625 2,96 1,94  1,72


b)
La correlación que existe es directa (r>0) y muy significativa (r próximo a 1).
c)
La recta de regresión de Y sobre X es:
y y
s xy
s
2
x
 x  x   y  6,3 
3,075
( x  5,75)  y  6,3  0,82( x  5,75) 
3,7625
 y  0,82x  1,59
Y la nota esperada en inglés para un alumno que tuviera 8,3 en matemáticas (x=8,3) sería:
y  0,82  8,3  1,59  8,4
___________________________________________________________________
6
11. Una caja contiene tres monedas. Una moneda corriente, otra tiene 2 caras y la otra está cargada de
modo que la probabilidad de obtener cara es 1/3. Se selecciona una moneda al azar y se lanza al aire.
Hallar la probabilidad de que salga cara.
Podemos construir el siguiente diagrama en árbol:
1/2
C
1
1/3
1/2
+
1/3
1
C
0
+
1/3
C
2/3
+
2
1/3
3
La probabilidad de que salga cara es:
p(C ) 
1 1 1
1 1 1 1 1 3  6  2 11
  1      

 0,61
3 2 3
3 3 6 3 9
18
18
_____________________________________________________________________
12. Lanzamos una moneda perfecta 100 veces.
a) Calcula el riesgo (probabilidad de que no ocurra) de que el número de caras no esté entre 46 y 54.
b) Calcula el valor de L del intervalo de confianza [50-L, 50+L] correspondiente a un riesgo de
a)
  5%
Se trata de una distribución binomial con n=100 y probabilidad 1/2, es decir B(100, 1/2)
La probabilidad de que el número de caras esté entre 46 y 54 al lanzarla 100 veces sería:
 n  1   1 
       
p46    54 
 2
i  46  i   2 
54

i
n i
Como esta cantidad es muy tediosa de calcular y no está tabulada, recurriremos a la aproximación de la
binomial B(100, 1/2) por la normal N (  ,  ) , donde:
1
 50
2
1 1
  npq  100   25  5
2 2
  np  100
Siendo:
p= probabilidad de que salga cara.
q= probabilidad de que salga cruz
n= número de lanzamientos.
 = media de la distribución normal equivalente.
 = desviación típica de la distribución normal equivalente.
Tipificando ahora los extremos del intervalo:
z1 
z2 
x


46  50
 0,8
5
54  50
 0,8
5
Y se tiene, usando las tablas de la normal tipificada:
p(46    54)  p( 0,8  z  0,8)  p( z  0,8)  p( z  0,8) 
 p( z  0,8)  1  p( z  0,8)  2 p( z  0,8)  1  2  0,7881 1  0,5762
7
Esta es la probabilidad de que ocurra el suceso indicado, el riesgo es la probabilidad de que no ocurra, o sea:
riesgo  1  0,5762 0,4238
b)
Si el riesgo es del 5%, entonces la probabilidad de que el número de caras no esté en el intervalo [50-L,
50+L] o, usando la variable tipificada en el intervalo [-L, L], es 0,05 y la probabilidad que el número de caras sí
que esté en ese intervalo es 0,95 y usando las tablas de la distribución normal tipificada se encuentra:
p(   1,64)  0,9495
p(   1,65)  0,9505
E interpolando linealmente mediante la proporcionalidad:
Si para una diferencia de 0,01(en las variables) las probabilidades se diferencian en 0,001
Para una diferencia de x (en las variables), las probabilidades se diferenciarán en 0,0005
De donde:
x
0,0005 0,01
 0,005
0,001
con lo que  L  1,64  0,005  1,645
Que corresponde a un valor no tipificado de:
z
x

 x  z    5  1,645  50  58,225
Siendo L=8,225
_____________________________________________________________________
13. a) Estudiando las calificaciones en Matemáticas y en Educación Física de los alumnos de un centro
se ha obtenido un coeficiente de correlación entre las dos variables de -0,02 ¿Cómo interpretas el
resultado?
b)En el mismo centro hemos revisado las notas del examen de Matemáticas de dos clases de 40
alumnos. En el grupo A hemos obtenido una media 5,2 y una desviación típica de 1, en el grupo B la
media es de 5,4 y la desviación típica de 3. En uno de los grupos ha habido 13 suspensos y 7
sobresalientes, mientras que en el otro hemos contado 4 suspensos y 2 sobresalientes. Razona cuál de
estos resultados se corresponde mejor con cada uno de los grupos.
a) Dado el valor obtenido del coeficiente de correlación, ésta es prácticamente nula (casi independencia de
ambas variables) y además inversa (al aumentar una disminuye otra y viceversa).
b) Vamos a calcular el porcentaje de alumnos de cada grupo con notas menores que 5 (suspensos) ó mayores
o iguales que 9 (sobresalientes). Para ello recurrimos a la tabla de variable normal tipificada, se tiene:
5  5, 2

 0,2

1
 para
9  5,2
z1 ' 
 3,8 
1

5  5,4

z2 
 0,13

3
 para
9  5,4
z2 ' 
 1,2 
3

z1 
grupo
grupo
A
B
En el grupo A, la probabilidad de estar suspenso es:
p(   5)  p( z  0,2)  1  p( z  0,2)  1  0,5793 0,4207
Y la de ser sobresaliente es:
p(   9)  p( z  3,8)  1  p( z  3,8)  1  1  0
8
En el grupo B, la probabilidad de estar suspenso es:
p(   5)  p( z  0,13)  1  p( z  0,13)  1  0,5517  0,4483
Y la de ser sobresaliente es:
p(   9)  p( z  1,2)  1  p( z  1,2)  1  0,8849 0,1151
Por tanto si la distribución de notas siguiera una ley normal, debería haber:
En A un 42,07 % de suspensos y un 0% de sobresalientes
En B un 44,83 % de suspensos y un 11,51 % de sobresalientes
Teniendo en cuenta el número de alumnos de ambos grupos (40), tendríamos:
En A 42,07 % de 40= 17 alumnos suspendidos y 0 sobresalientes.
En B 44,83 % de 40= 18 alumnos suspendidos y unos 5 sobresalientes.
Resumamos en una tabla:
Hay
suspensos
13
4
Grupo A
Grupo B
Debería haber
suspensos
17
18
Hay
sobresalientes
7
2
Debería haber
sobresalientes
0
5
Los resultados no se ajustan demasiado en ninguno de los dos grupos pero quizás lo hagan un poco mejor en
el grupo A ya que siendo la diferencia del número de suspensos teóricos y reales de 4 en A y 14 en B, la
diferencia del número de sobresalientes teóricos y reales es 7 en A y 3 en B. La suma de estas diferencias es
de 11 en el grupo A y de 17 en el grupo B.
_____________________________________________________________________
14. La nota media del expediente (X) y la nota obtenida en las pruebas de acceso (Y) de ocho personas
ha sido:
X
Y
6,24
4,20
7,91
4,65
7,04
6,51
6,13
6,73
6,38
5,20
6,48
4,60
6,44
5,69
5,99
3,42
a)
Obtener el coeficiente de correlación lineal entre las dos variables e interpretar el resultado.
b) Calcular la recta de regresión de Y sobre X.
c)
Según el ajuste que ofrece la recta de regresión, ¿Qué nota sería esperable que obtuviera en
las pruebas de acceso una persona con nota media de expediente de 7,31?
a)
Procediendo en los cálculos como en problemas similares anteriores se llega a los siguientes resultados:
x
x
y

sx 
sy 
s xy 
i
fi
N
yi f i
N
x
2
i
 6,58
 5,13
fi
N
y
2
i
fi
N
x y
 x 2  0,54
 y 2  1,04
f ij
 xy  0,02
N
0,02
r
 0,04
0,54  1,04
i
j
El resultado obtenido para r indica una correlación insignificante (prácticamente nula) entre ambas
variables. Al ser r positivo la correlación es directa.
9
b)
La recta de regresión será:
y y 
c)
s xy
s
2
x
( x  x )  y  5,13 
0,02
( x  6,58)  y  0,07x  4,68
0,542
Para x=7,31, la recta obtenida da:
y  0,07  7,31  4,68  5,19
____________________________________________________________________
15. Lanzamos una moneda hasta observar la segunda cara. ¿Cuál es la probabilidad de observar dos
cruces antes de que se observe la segunda cara?
Para que se cumplan las condiciones del enunciado, el mínimo de tiradas ha de ser 4 pues han de salir dos
caras (para que acabe el juego) y dos cruces antes. El máximo también ha de ser cuatro pues con más de
cuatro tiradas saldrían más de dos caras o más de dos cruces en contra de lo establecido. Es decir, hay que
tirar la moneda exactamente 4 veces.
Los casos posibles son las variaciones con repetición de 2 elementos tomados de 4 en 4, es decir
RV24  2 4  16
De ellos son favorables los siguientes:
C++C
+C+C
++CC
Ya que en los otros doce:
CCCC
CCC+
CC+C
C+CC
+CCC
CC++
C+C+
+++C
++C+
+C++
C+++
++++
No se cumplen las condiciones del enunciado
Y la probabilidad pedida es, según la definición de Laplace:
p
3
 0,1875
16
___________________________________________________________________
10
Descargar