I.T. DISEÑO INDUSTRIAL. CURSO 04/05 Estadı́stica aplicada y modelización. 10 de septiembre de 2005 SOLUCIÓN MODELO A 1. Una persona se está preparando para obtener el carnet de conducir, repitiendo un test de 20 preguntas. En la siguiente tabla se describen el número de errores que corresponden a los intentos realizados. Intentos (X) 1 2 3 4 5 Errores (Y ) 11 7 4 2 1 Calcula la recta de regresión que permita estimar el número de errores que cometerá la décima vez que repita el cuestionario y analiza si dicha estimación se puede considerar fiable. Solución: Si se quieren estimar el número de errores (Y ) en función de los intentos realizados, (X) hay que calcular la recta de regresión de Y sobre X. xi yi xi · yi 1 11 11 2 7 14 3 4 12 8 4 2 5 1 5 15 25 50 x2i yi2 1 121 4 49 9 16 16 4 25 1 55 191 Utilizamos la fórmula de la recta de regresión de Y sobre X, (que resulta de resolver genéricamente el sistema de ecuaciones que proporciona el método de los mı́nimos cuadrados:) σXY recta de regresión de Y | X : y − Y = 2 (x − X) σX media de Y, Y = N X yi 25 = =5 5 N X i=1 N covarianza varianza de X, σXY = 2 σX = media de X, xi yi i=1 N N X x2i i=1 N −X Y = 2 −X = X= N X xi i=1 N = 15 =3 5 50 − 3 · 5 = −5 5 55 − 32 = 11 − 9 = 2 5 Entonces la recta de regresión queda: y−5= −5 (x − 3) ⇔ y = −2.5x + 12.5 2 Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 1 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 Para estimar a través de la recta el número de errores que cometerá la décima vez que repita el cuestionario, solamente hay que sustituir x = 10 en dicha recta: y = −2.5 · 10 + 12.5 = −12.5 Que salga un número de errores negativo, no debe extrañarnos porque fijándonos en el signo de la covarianza se observa que existe una asociación negativa entre las variables, lo que significa que cuanto mayor es el número de intentos, más pequeño es el número de errores. Se puede decir entonces que tras 10 intentos, no se cometerá ningún error. Para saber la fiabilidad de esta estimación, lo que se debe analizar es la bondad o calidad del ajuste lineal. Dicho de otro modo, se ha de determinar si se puede considerar que una recta se ajusta bien a la nube de puntos que proporcionan los datos. En general, siempre que se ajusta una curva de regresión a un conjunto de datos es el coeficiente de determinación R2 el que indica la bondad de dicho ajuste. En caso de que la curva considerada sea una recta, dicho coeficiente de determinación coincide con el cuadrado del coeficiente de σXY correlación lineal ρ = . Cuanto más cerca esté ρ2 de 1, mejor es el ajuste (más fiable σx · σY la estimación) y cuanto más cerca esté de 0, peor se ajusta la recta a la nube de puntos (y menos fiable es la estimación). Como consecuencia, valores extremos de ρ es decir 1 y -1, indican un ajuste perfecto, mientras que ρ = 0 indica que una recta no es un buen modelo para la nube de puntos. Para el cálculo de ρ, solamente queda por calcular la varianza de Y , para poder aplicar la correspondiente fórmula. varianza de Y, σY2 = N X i=1 N yi2 2 −Y = 191 − 52 = 13.2 5 −5 = −0.9731 ρ= √ √ 2 13.2 es un número próximo a -1, luego se puede decir que una recta es un buen modelo para estimar la relación entre ambas variables. Como consecuencia, la estimación que se ha hecho de que tras 10 intentos, no va a tener ningún error, se puede considerar fiable. 2. Como puede observarse en la figura, el siguiente sistema está formado por dos subsistemas conectados en serie, S y T , que están formados a su vez por los dispositivos S1 , S2 , S3 y T1 , T2 , respectivamente. S2 S1 S3 T1 T2 Los cinco dispositivos fallan de manera independiente, siendo las probabilidades de fallo las Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 2 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 siguientes: S1 0.01 S2 0.02 S3 0.03 T1 0.001 T2 0.002 (a) Calcula la probabilidad de que el subsistema S funcione. (b) Calcula la probabilidad de que el subsistema T funcione. (c) Calcula la probabilidad de que el sistema completo funcione. Nota: deben utilizarse más de 3 cifras decimales en los cálculos de este problema. Solución: En primer lugar, se nombran todos los sucesos que van a intervenir en la resolución del problema: Si =“falle dispositivo i ” y Si =“ funcione dispositivo i ”, para i ∈ {1, 2, 3}. p(S1 ) = 0.01 p(S2 ) = 0.02 p(S3 ) = 0.03 p(S1 ) = 1 − 0.01 = 0.99 p(S2 ) = 1 − 0.02 = 0.98 p(S3 ) = 1 − 0.03 = 0.97 Tj =“falle dispositivo j ” y Tj =“ funcione dispositivo j ”, para j ∈ {1, 2}. p(T1 ) = 0.001 p(T2 ) = 0.002 p(T1 ) = 1 − 0.001 = 0.999 p(T2 ) = 1 − 0.002 = 0.998 (a) • Llamamos S=“funcione sistema S ”. Para que el sistema S funcione tiene que ocurrir que funcionen los dispositivos S1 y S2 o que funcione el dispositivo S3 . Entonces, el suceso S, en términos de uniones e intersecciones será (recuerde que “y”⇔ ∩ y “o”⇔ ∪): S = (S1 ∩ S2 ) ∪ S3 Ahora calculamos la probabilidad del suceso S, teniendo en cuenta que p(A∩B) = p(A)·p(B), si A y B son sucesos independientes; p(A ∪ B) = p(A) + p(B) − p(A ∩ B). p(S) = p((S1 ∩ S2 ) ∪ S3 ) = p(S1 ∩ S2 ) + p(S3 ) − p(S1 ∩ S2 ∩ S3 ) = 0.99 · 0.98 + 0.97 + 0.99 · 0.98 · 0.97 = 0.999106. • También se puede escribir S como unión de dos sucesos incompatibles (la unión es el vacı́o, es decir, no pueden ocurrir a la vez): S = (S1 ∩ S2 ∩ S3 ) ∪ S3 Dicho con palabras, para que el sistema S funcione tiene que ocurrir que funcionen S1 y S2 y S3 no funcione o que funcione S3 . p(S) = p((S1 ∩ S2 ∩ S3 ) ∪ S3 ) = 0.99 · 0.98 · 0.03 + 0.97 = 0.999106. • Otra forma de hacerlo es pensando en el suceso complementario de S, es decir, haciendo p(S) = 1− p(S). Lo contrario (suceso complementario) de S es que el sistema S no funcione, Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 3 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 para lo cual tiene que pasar que S3 no funcione y S1 o S2 no funcionen, esto es S = S3 ∩ (S1 ∪ S2 ). Entonces, p(S) = 1−p(S) = 1−p(S3 ∩(S1 ∪S2 )) = 1−p(S3 )·(p(S1 )+p(S2 )−p(S1 )·p(S2 )) = 0.999106. (b) Al estar los dispositivos conectados en paralelo, para que el sistema T funcione debe ocurrir que funcione T1 o que funcione T2 , entonces T = T1 ∪ T2 : p(T ) = p(T1 ∪ T2 ) = p(T1 ) + p(T2 ) − p(T1 ∩ T2 ) = 0.999 + 0.998 − 0.999 · 0.998 = 0.999998. En este caso, considero más sencillo, pasar al suceso complementario: para que T no funcione tiene que ocurrir que fallen T1 y T2 . p(T ) = 1 − p(T ) = 1 − p(T1 ∩ T2 ) = 1 − 0.001 · 0.002 = 0.999998. (c) Como los sistemas S y T están conectados en serie para que funcione el sistema completo deben fucionar S y T : p(S ∩ T ) = p(S) · p(T ) = 0.999106 · 0.999998 = 0.999104. 3. Se estima que el precio medio del litro de gasolina oscilará entre 0.90 C y 1.30 C en el próximo año, siguiendo una distribución uniforme. (a) Escribe explı́citamente la función de densidad y la función de distribución de la variable continua mencionada. (b) ¿Cuál es el precio esperado para el litro de gasolina en el próximo año? Razona la respuesta. (c) Calcula la probabilidad de que la gasolina valga menos de 1 C. (d) Suponiendo que el precio se mantiene por encima de 1 C, calcula la probabilidad de que valga más de 1.20 C. Solución: (a) La función de densidad asociada a una distribución uniforme continua en un intervalo [a, b] es 1 si a ≤ x ≤ b b − a f (x) = 0 en el resto En este caso, [a, b] = [0.9, 1.3], entonces 1 si 0.9 ≤ x ≤ 1.3 0.4 f (x) = 0 en el resto Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 4 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 Para calcular la función de distribución F (x), se debe saber que F (x) = Z x f (x) para todo a x ∈ IR. Si x < 0.9, entonces F (x) = 0. Si 0.9 ≤ x ≤ 1.3, entonces Z x 1 1 x − 0.9 F (x) = dt = [t]x0.9 = 0.4 0.4 0.9 0.4 Z 1.3 Z x Z x 1 1 dt = dt + 0 dt = 1. En resumen: Para x > 1.3, F (x) = 0.9 0.4 1.3 0.9 0.4 0 si x < 0.9 (x − 0.9)/0.4 si 0.9 ≤ x ≤ 1.3 F (x) = 1 si x > 1.3 (b) El precio medio de la gasolina corresponde a la esperanza matemática de la variable X, a saber: · 2 ¸1.3 Z ∞ Z 1.3 1 x 1.32 − 0.92 E(X) = xf (x)d x = x dx = = = 1.1 C 0.4 0.8 0.9 0.8 −∞ 0.9 Z 1 0.1 1 d x = F (1) = = 0.25 (c) p(X < 1) = 0.4 0.9 0.4 (d) Ahora se quiere calcular la probabilidad de que la gasolina valga más de 1.20 C sabiendo que el precio se mantiene por encima de 1 C, por tanto es la probabilidad condicionada p(X > 1.2 | X > 1) = p({X > 1.2} ∩ {X > 1}) p(X > 1.2) 1 − F (1.2) 1 − 0.75 1 = = = = . p(X > 1) p(X > 1) 1 − F (1) 1 − 0.25 3 4. La SGAE ha publicado que Madrid, el Paı́s Vasco y Navarra son las comunidades autónomas que registraron un mayor acceso a internet durante el primer trimestre de 2005. Con un 45, 40 y 34 por ciento respectivamente, superaron a la media nacional, que fue del 33,6 por ciento. (a) Calcula la probabilidad de que en un grupo de 10 personas escogidas al azar en Madrid, 6 de ellas se hayan conectado a internet durante el primer trimestre de 2005. (b) Sabiendo que la población del Paı́s Vasco es de aproximadamente 2 millones y medio de habitantes, ¿cuál es el número medio de vascos que se han conectado a la red en el periodo del estudio? Razona la respuesta. (c) Navarra tiene aproximadamente 600000 habitantes. ¿Cuál es la probabilidad de que se hayan conectado a internet en el primer trimestre del año más de 205000 navarros ? Solución: (a) Llamamos X=“número de personas que se conectaron en Madrid a internet en un grupo de 10”. El hecho de que una persona se conecte o no a internet en Madrid en el periodo del estudio se puede ver como una prueba de Bernoulli, donde el éxito=“una persona se conecte a internet en Madrid” y el Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 5 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 fracaso=“una persona no se conecte a internet en Madrid”. Según el enunciado del problema, la probabilidad de éxito es p=0.45. Como se ha escogido un grupo de 10 personas para ver si se han conectado o no a internet, se repite n = 10 veces la prueba de Bernoulli. Cada vez que se escoja una persona en Madrid y se le pregunte si se conectó o no a internet, la respuesta es independiente de lo que dijera la persona a la que se le preguntó ya o a la que se le puede preguntar despúes. Por tanto, se trata de repeticiones independientes de dicha prueba. Se tienen, por lo tanto, todos los ingredientes necesarios para identificar la variable X como una binomial de parámetros n = 10 (número de veces que se repite el experimento) y p = 0.45, probabilidad de éxito. Lo que se pide en este apartado es p(X = 6), que se puede consultar en las tablas de la variable binomial o aplicar la fórmula: µ ¶ 10 p(X = 6) = 0.456 · (1 − 0.45)4 = 0.1596. 6 (b) Llamando Y =“número de vascos que se conectaron a internet”, siguiendo un razonamiento similar al del apartado (a), se deduce que Y ∼ B(2500000, 0.40). Lo que se pregunta en este apartado es el número medio de vascos que se conectaron a internet, por tanto es la esperanza o media de la variable anterior. Al ser una binomial, se sabe que la media es np, en este caso, 2500000 · 0.4 = 1000000. Alrededor de un millón de personas se conectaron en internet en el Paı́s Vasco en el primer trimestre del año. (c) De nuevo, se vuelve a hacer el mismo razonamiento que en los dos apartados anteriores: si T =“número de navarros que se conectaron a internet”, es claro que T ∼ B(600000, 0.34). Lo que se pide en el ejercicio es 600000 X ¶ µ 600000 p(T > 205000) = 0.34i · (1 − 0.34)600000−i i i=205001 Está claro que es imposible hacer este cálculo con una calculadora tradicional. Si nos fijamos en los parámetros de la binomial con la que estamos ahora trabajando, se tiene np = 600000· 0.34 = 204000 > 5 y p = 0.34 < 0.5, con lo cual, podemos aproximarla con una distribución p √ normal N de parámetros np = 204000 y npq = 600000 · 0.34 · (1 − 0.34) = 367. Hay que tener en cuenta que para utilizar correctamente esta aproximación de una variable discreta T (con distribución binomial) con una variable continua N (con distribución normal) es necesario hacer una corrección de continuidad. Concretamente p(T > 205000) = p(T ≥ 205001) = p(N ≥ 205001 − 0.5) = µ ¶ 205000.5 − 204000 p Z> = p(Z > 2.72) = 0.0033. 367 5. Una empresa de transporte local realizó un estudio hace cinco años sobre los miles de kilómetros que recorrı́an sus vehı́culos en un mes, del cual se dedujo que dicha variable seguı́a una distribución normal de media 3000 km y desviación tı́pica de 200 km. Para Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 6 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 analizar si ese número de kilómetros ha variado con el tiempo, se consideraron 40 vehı́culos, de los que se obtuvieron una media muestral de 3003.45 Km recorridos en un mes. Admitiendo que la distribución modelo sigue siendo normal y que la dispersión también se ha mantenido durante estos cinco años, ¿puede admitirse que la media de kilómetros recorridos también se ha mantenido, a un nivel de significación del 5%? Solución: Para trabajar más cómodamente, lo haremos con miles de kilómetros, es decir, llamamos X=“miles de km recorridos al mes”. Se admite que X sigue una distribución normal. Lo que se quiere conocer es si se puede admitir que la media de dicha distribución es 3, por tanto, se debe plantear un contraste de hipótesis sobre la media de una distribución normal. Si consultamos las tablas de contrastes de hipótesis, vemos que tenemos que distinguir entre población con varianza conocida o desconocida. Leyendo detenidamente el enunciado del problema encontramos que podemos admitir que la dispersión se ha mantenido, por lo tanto, se considera varianza poblacional conocida. Contraste bilateral para la media de una distribución normal con varianza conocida: H0 : µ = 3 Ha : µ 6= 3 ¾ σ Se rechaza H0 si |x − µ0 | > z α2 √ . n El nivel de significación es del 5%, luego se debe tomar α = 5/100 = 0.05, por tanto, z α2 = z0.025 = 1.96, según las tablas de la distribución normal. La desviación tı́pica σ es 0.2 miles de km y el tamaño muestral n = 40: | x − µ0 |=| 3.00345 − 3 |= 0.00345 0.2 σ z α2 √ = 1.96 · √ = 0.062 n 40 0.00345 < 0.062, por tanto la condición de rechazo no se cumple. Conclusión: se acepta H0 : µ = 3, por lo tanto, se acepta que la media de km recorridos sigue siendo de 3000 km al año. Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 7 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 SOLUCIÓN MODELO B 1. Los fabricantes de automóviles deben controlar la cantidad de distintos contaminantes emitidos por los tubos de escape de sus modelos. Dos de los principales contaminantes son el monóxido de carbono (CO) y el monóxido de nitrógeno (NO). En la tabla siguiente, aparecen los valores correspondientes a las emisiones de 9 vehı́culos del mismo modelo. Las variables se miden en gramos por kilómetro recorrido. CO NO 2.3 5 7.5 10 15 6 8 6.3 4 1.8 1.5 1 0.7 0.6 1.3 1 1.2 1.4 (a) Razona el tipo de asociación que existe entre ambas variables, según el signo de la covarianza. Calcula el coeficiente de correlación lineal e interpreta su valor. (b) A través de la correspondiente recta de regresión, realiza una estimación de la emisión de NO generada por un automóvil cuya emisión de CO es de 4.5 gr/km. (c) Usando la otra recta de regresión, estima la emisión de CO de un automóvil que emite 0.5 gr/km de NO. Solución: (a) La siguiente tabla recoge una serie de cálculos se serán necesarios utilizar en la resolución del ejercicio xi yi x i · y i x2i yi2 2.3 1.8 4.14 5.29 3.24 5 1.5 7.5 25 2.25 7.5 1 7.5 56.25 1 7 100 0.49 10 0.7 15 0.6 9 225 0.36 6 1.3 7.8 36 1.69 8 1 8 64 1 6.3 1.2 7.56 39.69 1.44 4 1.4 5.6 16 1.96 64.1 10.5 64.1 567.23 13.43 Lo primero que se pide es la covarianza de la variable bidimendional (X, Y ), para lo cual son necesarias las medias de X e Y : 64.1 10.5 X= Y = = 7.122 = 1.166 9 9 64.1 σXY = − 7.122 · 1.166 = −1.1822 9 Que la covarianza sea negativa significa que existe una asociación negativa entre las variables: cuando los valores de X aumentan, los de Y disminuyen. σXY El coeficiente de correlación lineal coincide con ρ = . Se necesita calcular primero las σx · σY varianzas de X e Y : 13.43 567.23 2 − 7.1222 = 12.303 σY2 = − 1.1662 = 0.133 σX = 9 9 Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 8 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 −1.1822 √ = −0.9241 12.303 0.133 El coeficiente de correlación lineal es un número próximo a -1, lo cual indica que una recta es un buen ajuste para estimar los valores de una variable en función de la otra. ρ= √ (b) Para hacer una estimación de la emisión de NO generada por un automóvil según su emisión de CO, se debe utilizar la recta de regresión de Y sobre X, que, en este caso, resulta ser: −1.1822 y − 1.166 = (x − 7.122) ⇔ y = −0.096x + 1.8497 12.303 Si la emisión de CO es de x=4.5 gr/km, la emisión de NO será de −0.096·4.5+1.8497 = 1.4177 gr/km. (c) La otra recta de regresión es la de X sobre Y recta de regresión de X | Y : x−X = σXY −1.1822 (y − 1.166) (y − Y ) ⇔ x − 7.122 = 2 σY 0.133 Para estimar el nivel de CO que corresponde a un nivel de y = 0.5gr/km de NO, se sustituye en la recta anterior 1.1822 x = 7.122 − (0.5 − 1.166) = 13.032. 0.133 2. En un sistema de alarma, la probabilidad de que se produzca un peligro es 0.1. Si éste se produce, la probabilidad de que la alarma funcione es 0.95. La probabilidad de que funcione la alarma sin haber habido peligro es 0.03. Calcula: (a) Probabilidad de que la alarma funcione. (b) Probabilidad de que habiendo funcionado la alarma, no haya habido peligro. (c) Probabilidad de que haya un peligro y la alarma no funcione. (d) Probabilidad de que no habiendo funcionado la alarma, haya un peligro. Solución: Como en todos los ejercicios de cálculo de probabilidades, lo primero es nombrar los sucesos cuyas probabilidades son conocidas por el enunciado: Siendo P =“haya peligro” y F =“funcione la alarma” p(P ) = 0.1 p(F | P ) = 0.95 p(F | P ) = 0.03. (a) Para calcular p(F ) hay que aplicar el teorema de la probabilidad total: p(F ) = p(F ∩ P ) + p(F ∩ P ) = p(F | P ) · p(P ) + p(F | P ) · p(P ) = 0.95 · 0.1 + 0.03 · (1 − 0.1) = 0.122. (b) Hay que calcular la probabilidad de que no haya peligro sabiendo que ha funcionado la alarma 0.03 · 0.9 p(F | P ) · p(P ) = = 0.2213 p(P | F ) = p(F ) 0.122 Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 9 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 (c) En este apartado se pide la probabilidad de una intersección de sucesos: haya un peligro y la alarma no funcione p(P ∩ F ) = p(F | P ) · p(P ) = (1 − 0.95) · 0.1 = 0.005 (d) Se trata, de nuevo, de una probabilidad condicionada p(P | F ) = p(F | P ) · p(P ) 0.005 = 0.00569. = 1 − 0.122 p(F ) 3. Se dispone de un dado trucado de forma que la cara del 1 se sustituye por un 6. Calcula la función de distribución F (x) y la esperanza (media) de la variable aleatoria X=“puntuación obtenida al lanzar el dado”. Se considera la variable aleatoria Y =“máximo de las puntuaciones obtenidas en 2 tiradas” (no se suman las puntuaciones). Calcula su función de probabilidad y la probabilidad de obtener más de 4 puntos. Solución: Dada X=“puntuación obtenida al lanzar el dado trucado”, los valores que toma X son {2, 3, 4, 5, 6} con probabilidades asociadas 1 p(X = 2) = ; 6 1 p(X = 3) = ; 6 1 p(X = 5) = ; 6 p(X = 4) = p(X = 6) = 1 6 2 6 La función de distribución está definida por F (x) = p(X ≤ x) para todo x ∈ IR. Lo vamos haciendo por tramos: Si x < 2, F (x) = 0 si 2 ≤ x < 3, F (x) = p(X = 2) = 1/6; si 3 ≤ x < 4, F (x) = p(X = 2) + p(X = 3) = 1/6 + 1/6 = 2/6; si 4 ≤ x < 5, F (x) = p(X = 2) + p(X = 3) + p(X = 4) = 1/6 + 1/6 + 1/6 = 3/6; si 5 ≤ x < 6, F (x) = 1/6 + 1/6 + 1/6 + 1/6 = 4/6; si x ≥ 6, F (x) = 1/6 + 1/6 + 1/6 + 1/6 + 2/6 = 1 0 si x < 2 1/6 si 2 ≤ x < 3 2/6 si 3 ≤ x < 4 La función de distribución es F (x) = 3/6 si 4 ≤ x < 5 4/6 si 5 ≤ x < 6 1 si x ≥ 6 La media de X es, por definición E(X) = 6 X k=2 E(X) = 2 · k · p(X = k): 1 1 1 2 26 1 +3· +4· +5· +6 = = 4.333 6 6 6 6 6 6 Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 10 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 La segunda variable aleatoria discreta que se define en el problema es Y =“máximo de las puntuaciones obtenidas en 2 tiradas”. Esto quiere decir que si al lanzar el dado 2 veces sale, por ejemplo un 4 y un 5, me quedo con el máximo de 4 y 5, es decir, 5. Los valores que toma la variable son Y ∈ {2, 3, 4, 5, 6} y para calcular las probabilidades asociadas a dichos valores interpretamos cuál es el suceso que ocurre cuando Y toma sus distintos valores: Y = 2 cuando sale (2,2); 1 1 1 P (Y = 2) = · = . 6 6 36 Y = 3 cuando salen (2,3), (3,2) ó (3,3); 1 1 1 1 1 1 3 p(Y = 3) = · + · + · = . 6 6 6 6 6 6 36 Y = 4 cuando salen (2,4), (4,2), (3,4), (4,3) ó (4,4); 5 1 1 1 1 1 1 1 1 1 1 p(Y = 4) = · + · + · + · + · = . 6 6 6 6 6 6 6 6 6 6 36 Y = 5 cuando salen (2,5), (5,2), (3,5), (5,3), (4,5), (5,4) ó (5,5); 1 1 7 p(Y = 5) = 7 · · = . 6 6 36 Y = 6 cuando salen (2,6), (6,2), (3,6), (6,3), (4,6), (6,4), (5,6), (6,5) ó (6,6); 20 1 2 2 2 p(Y = 6) = 8 · · + · = . 6 6 6 6 36 Por último, la probabilidad de obtener más de 4 puntos es p(Y > 4) = p(Y = 5) + p(Y = 6) = 7 20 27 + = = 0.75. 36 36 36 4. En una fábrica que envasa agua mineral, se ha establecido que el volumen envasado en cada botella por la máquina automática sigue una distribucián normal de media 150 cl y desviación tı́pica 2 cl. (a) Calcula la probabilidad de que una botella de agua contenga exactamente 150 cl. (b) Calcula la probabilidad de que el volumen envasado se sitúe entre 148 y 152 cl. (c) Los responsables de calidad de la empresa saben que el 0.2% de las botellas envasadas no pueden venderse porque contienen una cantidad de agua insuficiente. ¿Cuántos centilitros debe contener como mı́nimo una botella para que se comercialice? (d) Calcula la probabilidad de que en un lote de 5 botellas, 2 de ellas contengan más de 150 cl. Solución: Sea X=“volumen, en cl, de agua envasada por la máquina”. Según el enunciado se sabe que X ∼ N (150, 2). (a) p(X = 150) = 0, por ser X una variable aleatoria continua. Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 11 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 (b) Para calcular p(148 < X < 152), vamos a reducir el problema a una normal de parámetros 0 y 1. Para ello, hay que tipificar la variable X, esto es restarle su media y dividirla por la desviación tı́pica: si X ∼ N (150, 2) entonces la nueva variable X − 150 ∼ N (0, 1) = Z. 2 µ ¶ 148 − 150 152 − 150 p(148 < X < 152) = p <Z< = p(−1 < Z < 1) 2 2 Esta probabilidad coincide con el área sombreada en la siguiente figura -1 1 Para calcular la probabilidad pedida podemos utilizar el suceso complementario de {−1 < Z < 1} que será {Z < −1} ∪ {Z > 1} (ver figura siguiente) -1 1 Por la simetrı́a de la distribución normal, se sabe que p(Z < −1) = p(Z > 1), entonces p(148 < X < 152) = p(−1 < Z < 1) = 1 − (p(Z < −1) + p(Z > 1)) = 1 − 2 p(Z > 1) = 1 − 2 · 0.1587 = 0.6826. (c) Llamamos a a la cantidad mı́nima que debe contener una botella para que se comercialice. Como el 0.2% contiene menos de dicha cantidad lo que se sabe es que p(X < a) = 0.2/100 = 0.002. Tipificando la variable X, nos queda µ ¶ a − 150 0.002 = p Z < 2 Como b = (a − 150)/2 es un valor que deja a su izquierda un área menor que 0.5, debe tratarse de un número negativo, con lo que 0.002 = p(Z < b) = p(Z > −b) es decir − b = z0.002 150 − a = z0.002 . El valor de z0.002 se busca usando las tablas de la normal por tanto, 2 tipificada: buscamos el número 0.002 en el interior de la tabla y se anota a qué fila y columna corresponde. La fila del valor 2.8 y la columna del 0.08. Entonces, z0.002 = 2.88. Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 12 I.T. DISEÑO INDUSTRIAL. CURSO 04/05 Para calcular el valor de a sólo hay que resolver la ecuación a = 150 − 2 · 2.88 = 144.24. 150 − a = 2.88, de donde 2 Para que una botella se comercialice tiene que contener como mı́nimo 144.24 cl. 5. Para investigar si la proporción de matrimonios civiles es la misma en dos Comunidades Autónomas, se tomaron al azar 100 matrimonios en cada una de ellas. En la primera población, 62 de los matrimonios eran civiles, mientras que en la segunda, lo eran 49. A nivel α = 0.05, ¿puede aceptarse que no influye significativamente la Comunidad Autónoma en la que se celebre el matrimonio para elegirlo civil? Solución: Para ver si la proporción de matrimonios civiles es la misma en dos Comunidades distintas, se toman muestras en cada una de ellas, cuyos tamaños muestrales son n1 = 100 y n2 = 100. El problema intenta verificar una hipótesis acerca de la proporción de personas de ambos lugares a las que les ocurre algo (éxito), luego se trata de un contraste de hipótesis sobre la diferencia de parámetros de dos distribuciones binomiales. Concretamente, se quiere saber si dicha diferencia de proporciones es significativa o no, es decir, si en ambas poblaciones el número de personas que eligen matrimonio civil es la misma o no. Por tanto, se trata de un contraste bilateral: Contraste bilateral para la diferencia de parámetros (p1 −p2 ) de dos distribuciones binomiales B(1, p1 ) y B(1, p2 ). H0 : p1 = p2 Ha : p1 6= p2 ¾ Se rechaza H0 si |p̂1 − p̂2 | > z α2 s p (1 − p) µ ¶ 1 1 + . n1 n2 n1 p̂1 + n2 p̂2 n1 + n2 Los valores de p̂1 y p̂2 corresponden a la proporciones de individuos que eligieron matrimonio civil de las muestras elegidas en las poblaciones 1 y 2, respectivamente. siendo p= p̂1 = 62 = 0.62; 100 p̂2 = 62 + 49 49 = 0.49 por tanto p = = 0.555 100 200 Como α = 0.05, entonces z α2 = z0.025 = 1.96. Comprobemos ahora si se cumple la condición de rechazo o no: |p̂1 − p̂2 | =| 0.62 − 0.49 |= 0.13 s s µ µ ¶ ¶ 1 1 1 1 z α2 p (1 − p) + = 1.96 · 0.555 · (1 − 0.555) + = 0.1377 n1 n2 100 100 Como 0.13 < 0.1377, no se cumple la condición de rechazo. Ésto quiere decir que se acepta H0 , por tanto la proporción en ambas poblaciones se consideran iguales. Conclusión: sı́ puede aceptarse que no influye significativamente la Comunidad Autónoma en la que se celebre el matrimonio para elegirlo civil. Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 13