ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA 1. Las estaturas en centímetros y pesos en kilogramos de 10 jugadores de baloncesto son: Estatura (X) Peso (Y) 186 85 189 85 190 86 192 90 193 87 193 91 198 93 201 103 203 100 205 101 a) Hallar la recta de regresión de Y sobre X. b) Hallar el coeficiente de correlación. c) ¿Qué estatura, se puede predecir, según la recta obtenida, de un jugador que pesa 92 kilogramos? ¿Y de uno que pesa 103 kilogramos? d) Interpreta la bondad de estas predicciones en función del coeficiente de correlación. a) Necesitamos calcular los siguientes datos: x Media de Y y Desviación típica de x Desviación típica de y Media de X Se tiene: x y i fi N yi f i N x 2 i s y xy Covarianza x sx s s x 186 189 190 192 193 193 198 201 203 205 195 10 85 85 86 90 87 91 93 103 100 101 92,1 10 fi N cm kg. x2 1862 1892 1902 1922 1932 1932 1982 2012 2032 2052 1952 6,07 10 sy y 2 i N fi y2 852 852 862 902 872 912 932 1032 1002 1012 92,1 2 6,56 10 x i y j f ij s xy xy N 186 85 189 85 190 86 192 90 193 87 193 91 198 93 201 103 203 100 202 101 195 92,1 10 179971 17959,5 37,6 10 Con todo ello, la recta de regresión de Y sobre X es: y y s xy s 2 x x x y 92,1 37,6 x 195 y 92,1 1,02 x 195 6,072 y 1,02x 106,8 Que es la forma explícita de la recta pedida: 1 b) Para el coeficiente de correlación tenemos: s xy r c) sx s y 37,6 0,94 6,07 6,56 En la recta de regresión obtenida en a) para y=92 kg., se espera una estatura de: 92 1,02x 106,8 x 92 106,8 194,9 1,02 Para y=103 kg. se espera: 103 1,02x 106,8 x cm 103 106,8 205,69 1,02 cm d) Dado el coeficiente de correlación obtenido en b) positivo (correlación directa) y muy próximo a 1, se puede afirmar que los valores obtenidos en c) son muy buenos. ___________________________________________________________________ 2. a) ¿Cuál es la probabilidad de observar dos caras al lanzara dos monedas? b) Si lanzamos 5 veces 2 monedas ¿Cuál es la probabilidad de observar dos caras en más de tres lanzamientos? a) Al lanzar dos monedas pueden darse espacio muestral: RV22 2 2 4 casos posibles. Dado que son pocos construimos el CC, C+, +C, ++ Casos favorables sólo hay uno (CC), por tanto, según la probabilidad de Laplace: p b) 1 0,25 4 1 Al lanzar 5 veces dos monedas tenemos una distribución binomial B(5, 4 ) con lo que: 5 1 3 5 1 1 3 1 15 1 16 p 3 5 0,0156 256 4 1024 1024 1024 4 4 4 5 4 4 5 ________________________________________________________________ 3. De una urna con 2 bolas blancas y 3 rojas se extraen, con reemplazamiento, 4 bolas. Si las 3 primeras fueron blancas, ¿Cuál es la probabilidad de que la cuarta también lo sea? Si de la misma urna se extraen 4 bolas, sin reemplazamiento, ¿Cuál es la probabilidad de que dejemos en la urna la bola blanca? La probabilidad de que las cuatro bolas extraídas sena blancas es, dado que cada suceso B="extraer bola blanca" es independiente de los siguientes por hacerse con reemplazamiento: 4 2 16 2 p( B) p(4B) 0,0256 5 625 5 Para la segunda cuestión los casos posibles son las permutaciones con repetición de 5 elementos de entre los cuales hay dos iguales y tres iguales, o sea: P53 , 2 5! 54 10 3!2! 2 Los casos favorables son (dado que sólo hay dos bolas blancas), los siguientes, en todos los cuales queda dentro una blanca: RRRB_ RRBR_ RBRR_ BRRR_ 2 Según la probabilidad de Laplace, la probabilidad pedida es: p 4 2 0, 4 10 5 ____________________________________________________________________ 4. La probabilidad de que una persona nacida en 1973 viva hasta los 40 años es 0,97, y la probabilidad de que viva hasta los 65 es 0,66. Sabiendo que ha alcanzado los 40, calcular la probabilidad de que viva hasta los 65. Llamemos: A= suceso "vive hasta los 40" B= suceso "vive hasta los 65" Nos piden la probabilidad condicionada p(B/A) y por definición de la misma, tenemos: p B / A p( A B ) p( B ) p( A) p( A) Ya que al estar el suceso B contenido en A, su intersección es el primero, entonces: p( B / A) 0,66 0,68 0,97 ____________________________________________________________________ 5. Se han pasado dos test A y B a un mismo grupo de personas obteniendo los siguientes parámetros: medias aritméticas 56,8 y 62,2 (respectivamente), desviaciones típicas 15,6 y 10,8 (respectivamente) y covarianza 164,4 a) Si una persona ha obtenido 60 en el test A y 64 en el B ¿En qué test ha obtenido una puntuación mayor en relación al grupo? b) Calcula el coeficiente de correlación lineal e interprétalo. c) Utiliza la recta de regresión apropiada para predecir qué puntuación debe obtener una persona en el test B si en el A ha obtenido 73 a) Vamos a tipificar las variables X (puntuación del test A) e Y (puntuación en el test B) para tener acceso a las tablas de la distribución normal N(1, 0). Calculando con ella las probabilidades de que una persona cualquiera haya obtenido puntuaciones por debajo de 60 en el A y de 64 en el B sabremos en cuál de los dos la puntuación obtenida es más significativa. Se tienen los siguientes datos: x 56,8 y 62,2 s x 15,6 s y 10,8 s xy 164,64 Tipificando las puntuaciones obtenidas por nuestro sujeto con la expresión: z1 x x 60 56,8 0,205 sx 15,6 z2 y y 64 62,2 0,166 sy 10,8 Con las tablas de la normal obtenemos: p( X 60) p( z z1 ) 0,5987 p(Y 64) p( z z 2 ) 0,5636 3 O sea, es más probable que una persona obtenga una puntuación por debajo de 60 en el test A que obtenga una por debajo de 64 en el test B, luego la puntuación obtenida es mayor con relación al grupo A que al B b) El coeficiente de correlación es: r s xy sx s y 164,64 0,97 15,6 10,8 Siendo la correlación directa (r>0) y muy significativa (r próximo a 1) c) Calcularemos la recta de regresión de Y sobre X para despejar en ella directamente la puntuación correspondiente del test A. Será: y y s xy s 2 x ( x x ) y 62,2 164,64 ( x 56,8) y 62,2 0,68( x 56,8) 15,6 2 y 0,68x 23,58 Y para x=73 y 0,68 73 23,58 73,22 6. Un juego consiste en lanzar repetidamente un dado hasta que salga 6. Calcula la probabilidad de que el juego se acabe antes del cuarto lanzamiento. p1 Si sale un 6 en el primer lanzamiento el juego acaba y p2 1 6 5 1 5 6 6 36 Si sale el 6 en el segundo pero no en el primero 5 1 25 p3 6 6 216 Si sale el 6 en el tercero pero no en los dos anteriores 5 1 125 p4 6 6 1296 Si sale el 6 en el cuarto pero no en los tres anteriores 2 3 La probabilidad pedida en la suma de las cuatro anteriores ya que los sucesos expresados en ellos son incompatibles, o sea: p p1 p 2 p3 p4 1 5 25 125 671 0,518 6 36 216 1296 1296 ____________________________________________________________________ 7. Se midieron las estaturas de una población obteniendo una media de 170 cm. y una desviación típica de 10 cm. Suponiendo que se distribuyen normalmente, calcula qué porcentaje de la población mide entre 160 y 190 cm. Se trata de la distribución normal N(170, 10) en la que vamos a tipificar las estaturas extremas del intervalo dado para tener acceso a la tabla: 160 170 1 10 190 170 z2 2 10 z1 Entonces (usando la tabla de la distribución normal): p(160 190) p 1 z 2 p( z 2) p( z 1) p( z 2) 1 p( z 1) pz 2 p( z 1) 1 0,9772 0,8413 1 0,8185 O lo que es lo mismo, el 81,85 % de la población en estudio tiene estaturas entre 160 y 190 cm. 4 ____________________________________________________________________ 8. ¿Qué significa en una distribución bidimensional que el coeficiente de correlación sea: a) b) c) r=1 r=-1 r=0,75 Las notas obtenidas por cinco alumnos en Latín y Griego son: Latín Griego 6 6,5 4 4,5 8 7 5 5 3,5 4 Determinar la recta de regresión de Y sobre X y calcular la nota esperada en Griego de un alumno que tiene 7,5 en Latín. a) r=1 significa que la correlación es directa (al crecer X crece Y y viceversa) y que ambas variables son totalmente dependientes (dependencia funcional). b) r=-1 igual que antes (dependencia funcional) pero con correlación inversa (al crecer X decrece Y y viceversa). c) R=0,75 la correlación es directa pero poco significativa, apenas hay dependencia entre las variables (empieza a ser considerada a partir de r=0,8) Para la segunda parte del problema determinamos: x x y i fi N yi f i N sx s xy x 2 i 6 4 8 5 3,5 5,3 5 6,5 4,5 7 5 4 5,4 5 fi N x y i j x2 f ij N xy 6 2 4 2 8 2 5 2 3,5 2 5,3 2 1,16 5 1 6 6,5 4 4,5 8 7 5 5 3,5 4 5,3 5,4 1,78 5 La recta pedida es: y y s xy s 2 x x x y 5,4 1,78 x 5,3 y 5,4 1,32( x 5,3) 1,162 y 1,32x 1,6 Y la puntuación estimada en Latín para una de Griego de 7,5 es: 7,5 1,32x 1,6 x 7,5 1,6 6,89 1,32 ___________________________________________________________________ 9. La nota necesaria para aprobar un examen teórico de conducir es superior a 6. Si la nota media de los exámenes de un día es 5,8 y la desviación típica es 1,75. ¿Cuál fue el porcentaje de admitidos ese día si la distribución es normal? Tipificamos la nota 6 para tener acceso a la tabla de la normal: z x x 6 5,8 0,11 sx 1,75 Entonces: p x 6 p( z 0,11) 1 p( z 0,11) 1 0,5438 0,4562 Lo que supone un 45,62 % de aprobados ese día. 5 10. Las notas obtenidas por 10 alumnos en matemáticas y en inglés son: Alumnos Matemáticas. Inglés 1 6 6,5 2 4 4,5 3 8 7 4 5 5 5 3,5 4 6 7 8 7 5 7 8 10 10 9 5 6 10 4 5 a) Calcular la covarianza, las varianzas y el coeficiente de correlación lineal. b) ¿Existe correlación entre las dos variables? Razónese la respuesta. c) Calcular la recta de regresión. ¿Cuál sería la nota esperada en inglés para un alumno que hubiera obtenido un 8,3 en matemáticas? a) Se tiene: x x y s x2 i 6 4 8 5 3,5 7 5 1 5 4 57,5 5,75 10 10 6,5 4,5 7 5 4 8 7 10 6 5 63 6, 3 10 10 fi N yi f i N x i2 f i x2 36 16 64 25 12,25 49 25 100 25 16 33,0625 10 N 368,25 33,0625 36,825 33,0625 3,7625 10 y i2 f i 42,25 20,25 49 25 16 64 49 100 36 25 2 sy y2 39,69 N 10 426,5 39,69 42,65 39,69 2,96 10 x i y j f ij 39 18 56 25 14 56 35 100 30 20 s xy xy 5,75 6,3 N 10 393 36,225 39,3 36,225 3,075 10 s xy 3,075 3,075 r 0,92 sx sy 3,7625 2,96 1,94 1,72 b) La correlación que existe es directa (r>0) y muy significativa (r próximo a 1). c) La recta de regresión de Y sobre X es: y y s xy s 2 x x x y 6,3 3,075 ( x 5,75) y 6,3 0,82( x 5,75) 3,7625 y 0,82x 1,59 Y la nota esperada en inglés para un alumno que tuviera 8,3 en matemáticas (x=8,3) sería: y 0,82 8,3 1,59 8,4 ___________________________________________________________________ 6 11. Una caja contiene tres monedas. Una moneda corriente, otra tiene 2 caras y la otra está cargada de modo que la probabilidad de obtener cara es 1/3. Se selecciona una moneda al azar y se lanza al aire. Hallar la probabilidad de que salga cara. Podemos construir el siguiente diagrama en árbol: 1/2 C 1 1/3 1/2 + 1/3 1 C 0 + 1/3 C 2/3 + 2 1/3 3 La probabilidad de que salga cara es: p(C ) 1 1 1 1 1 1 1 1 3 6 2 11 1 0,61 3 2 3 3 3 6 3 9 18 18 _____________________________________________________________________ 12. Lanzamos una moneda perfecta 100 veces. a) Calcula el riesgo (probabilidad de que no ocurra) de que el número de caras no esté entre 46 y 54. b) Calcula el valor de L del intervalo de confianza [50-L, 50+L] correspondiente a un riesgo de a) 5% Se trata de una distribución binomial con n=100 y probabilidad 1/2, es decir B(100, 1/2) La probabilidad de que el número de caras esté entre 46 y 54 al lanzarla 100 veces sería: n 1 1 p46 54 2 i 46 i 2 54 i n i Como esta cantidad es muy tediosa de calcular y no está tabulada, recurriremos a la aproximación de la binomial B(100, 1/2) por la normal N ( , ) , donde: 1 50 2 1 1 npq 100 25 5 2 2 np 100 Siendo: p= probabilidad de que salga cara. q= probabilidad de que salga cruz n= número de lanzamientos. = media de la distribución normal equivalente. = desviación típica de la distribución normal equivalente. Tipificando ahora los extremos del intervalo: z1 z2 x 46 50 0,8 5 54 50 0,8 5 Y se tiene, usando las tablas de la normal tipificada: p(46 54) p( 0,8 z 0,8) p( z 0,8) p( z 0,8) p( z 0,8) 1 p( z 0,8) 2 p( z 0,8) 1 2 0,7881 1 0,5762 7 Esta es la probabilidad de que ocurra el suceso indicado, el riesgo es la probabilidad de que no ocurra, o sea: riesgo 1 0,5762 0,4238 b) Si el riesgo es del 5%, entonces la probabilidad de que el número de caras no esté en el intervalo [50-L, 50+L] o, usando la variable tipificada en el intervalo [-L, L], es 0,05 y la probabilidad que el número de caras sí que esté en ese intervalo es 0,95 y usando las tablas de la distribución normal tipificada se encuentra: p( 1,64) 0,9495 p( 1,65) 0,9505 E interpolando linealmente mediante la proporcionalidad: Si para una diferencia de 0,01(en las variables) las probabilidades se diferencian en 0,001 Para una diferencia de x (en las variables), las probabilidades se diferenciarán en 0,0005 De donde: x 0,0005 0,01 0,005 0,001 con lo que L 1,64 0,005 1,645 Que corresponde a un valor no tipificado de: z x x z 5 1,645 50 58,225 Siendo L=8,225 _____________________________________________________________________ 13. a) Estudiando las calificaciones en Matemáticas y en Educación Física de los alumnos de un centro se ha obtenido un coeficiente de correlación entre las dos variables de -0,02 ¿Cómo interpretas el resultado? b)En el mismo centro hemos revisado las notas del examen de Matemáticas de dos clases de 40 alumnos. En el grupo A hemos obtenido una media 5,2 y una desviación típica de 1, en el grupo B la media es de 5,4 y la desviación típica de 3. En uno de los grupos ha habido 13 suspensos y 7 sobresalientes, mientras que en el otro hemos contado 4 suspensos y 2 sobresalientes. Razona cuál de estos resultados se corresponde mejor con cada uno de los grupos. a) Dado el valor obtenido del coeficiente de correlación, ésta es prácticamente nula (casi independencia de ambas variables) y además inversa (al aumentar una disminuye otra y viceversa). b) Vamos a calcular el porcentaje de alumnos de cada grupo con notas menores que 5 (suspensos) ó mayores o iguales que 9 (sobresalientes). Para ello recurrimos a la tabla de variable normal tipificada, se tiene: 5 5, 2 0,2 1 para 9 5,2 z1 ' 3,8 1 5 5,4 z2 0,13 3 para 9 5,4 z2 ' 1,2 3 z1 grupo grupo A B En el grupo A, la probabilidad de estar suspenso es: p( 5) p( z 0,2) 1 p( z 0,2) 1 0,5793 0,4207 Y la de ser sobresaliente es: p( 9) p( z 3,8) 1 p( z 3,8) 1 1 0 8 En el grupo B, la probabilidad de estar suspenso es: p( 5) p( z 0,13) 1 p( z 0,13) 1 0,5517 0,4483 Y la de ser sobresaliente es: p( 9) p( z 1,2) 1 p( z 1,2) 1 0,8849 0,1151 Por tanto si la distribución de notas siguiera una ley normal, debería haber: En A un 42,07 % de suspensos y un 0% de sobresalientes En B un 44,83 % de suspensos y un 11,51 % de sobresalientes Teniendo en cuenta el número de alumnos de ambos grupos (40), tendríamos: En A 42,07 % de 40= 17 alumnos suspendidos y 0 sobresalientes. En B 44,83 % de 40= 18 alumnos suspendidos y unos 5 sobresalientes. Resumamos en una tabla: Hay suspensos 13 4 Grupo A Grupo B Debería haber suspensos 17 18 Hay sobresalientes 7 2 Debería haber sobresalientes 0 5 Los resultados no se ajustan demasiado en ninguno de los dos grupos pero quizás lo hagan un poco mejor en el grupo A ya que siendo la diferencia del número de suspensos teóricos y reales de 4 en A y 14 en B, la diferencia del número de sobresalientes teóricos y reales es 7 en A y 3 en B. La suma de estas diferencias es de 11 en el grupo A y de 17 en el grupo B. _____________________________________________________________________ 14. La nota media del expediente (X) y la nota obtenida en las pruebas de acceso (Y) de ocho personas ha sido: X Y 6,24 4,20 7,91 4,65 7,04 6,51 6,13 6,73 6,38 5,20 6,48 4,60 6,44 5,69 5,99 3,42 a) Obtener el coeficiente de correlación lineal entre las dos variables e interpretar el resultado. b) Calcular la recta de regresión de Y sobre X. c) Según el ajuste que ofrece la recta de regresión, ¿Qué nota sería esperable que obtuviera en las pruebas de acceso una persona con nota media de expediente de 7,31? a) Procediendo en los cálculos como en problemas similares anteriores se llega a los siguientes resultados: x x y sx sy s xy i fi N yi f i N x 2 i 6,58 5,13 fi N y 2 i fi N x y x 2 0,54 y 2 1,04 f ij xy 0,02 N 0,02 r 0,04 0,54 1,04 i j El resultado obtenido para r indica una correlación insignificante (prácticamente nula) entre ambas variables. Al ser r positivo la correlación es directa. 9 b) La recta de regresión será: y y c) s xy s 2 x ( x x ) y 5,13 0,02 ( x 6,58) y 0,07x 4,68 0,542 Para x=7,31, la recta obtenida da: y 0,07 7,31 4,68 5,19 ____________________________________________________________________ 15. Lanzamos una moneda hasta observar la segunda cara. ¿Cuál es la probabilidad de observar dos cruces antes de que se observe la segunda cara? Para que se cumplan las condiciones del enunciado, el mínimo de tiradas ha de ser 4 pues han de salir dos caras (para que acabe el juego) y dos cruces antes. El máximo también ha de ser cuatro pues con más de cuatro tiradas saldrían más de dos caras o más de dos cruces en contra de lo establecido. Es decir, hay que tirar la moneda exactamente 4 veces. Los casos posibles son las variaciones con repetición de 2 elementos tomados de 4 en 4, es decir RV24 2 4 16 De ellos son favorables los siguientes: C++C +C+C ++CC Ya que en los otros doce: CCCC CCC+ CC+C C+CC +CCC CC++ C+C+ +++C ++C+ +C++ C+++ ++++ No se cumplen las condiciones del enunciado Y la probabilidad pedida es, según la definición de Laplace: p 3 0,1875 16 ___________________________________________________________________ 10