5. DISTRIBUCIO ES CO TI UAS DE PROBABILIDAD Distribución normal La distribución continua de probabilidad más importante en todo el campo de la estadística es la distribución normal. Su grafica, que se denomina curva normal, es la curva con la forma de campana de la figura 2, la cual describe aproximadamente muchos fenómenos que ocurren en la naturaleza, la industria y la investigación. Las mediciones físicas en áreas como los experimentos meteorológicos, estudios de lluvia y mediciones de partes fabricadas a menudo se aplican más que adecuadamente con una distribución normal. Además, los errores en las mediciones científicas se aproximan extremadamente bien mediante una distribución normal. En 1733, Abraham Demoivre desarrollo la ecuación matemática de la curva normal. Proporciona una base sobre la que se fundamenta gran parte de la teoría de la estadística inductiva. La distribución normal a menudo se denomina distribución gaussiana, en honor de Karl Friedrich Gauss (1777-1855), quien también derivo su ecuación a partir de un estudio de errores en mediciones repetidas de la misma cantidad. σ µ X Figura 2: La curva normal Una variable aleatoria continua X que tiene la distribución en forma de campana de la figura 2 se llama variable aleatoria normal. Le ecuación matemática para la distribución de probabilidad de la variable normal depende de los dos parámetros µ y σ, su media y desviación estándar. De aquí, denotamos los valores de la densidad de X con n (x; µ, σ). Distribución normal La función de densidad de la variable aleatoria normal X, con media µ y varianza σ2, es: 1 n(x; µ,σ) = − [( x − µ ) / σ ] 1 e 2 2π σ 2 , - ∞< x <∞, donde π = 3.14159… y e = 2.71828… Una vez que se especifiquen µ y σ, la curva normal queda determinada por completo. Por ejemplo, si µ = 50 y σ = 5, entonces se puede calcular las ordenadas n (x; 50, 5) para varios valores de x y dibujar la curva. En la figura 3 dibujamos dos curvas normales que tienen la misma desviación estándar pero diferentes medias. Las dos curvas son idénticas en forma pero están centradas en diferentes posiciones a lo largo del eje horizontal. σ1 µ1 Ing. Idaly Montoya Aguilar σ2 µ2 x Figura 3. Curvas normales con µ1 < µ2 y σ1 = σ2 Si trazamos dos curvas normales con la misma media pero con diferentes desviaciones estándar. Esta vez vemos que las dos curvas están centradas exactamente en la misma posición sobre el eje horizontal, pero la curva con la mayor desviación estándar es más baja y se extiende más lejos. Recuerde que el área bajo una curva de probabilidad debe ser igual a 1, y entre mas variable sea el conjunto de observaciones mas baja y ancha será la curva correspondiente. Si trazamos dos curvas normales que tienen diferentes medias y diferentes desviaciones estándar, claramente, están centradas en posiciones diferentes sobre el eje horizontal y sus formas reflejan los dos diferentes valores σ. De una inspección de las anteriores curvas y al examinar la primera y segunda derivadas de n (x; µ, σ), listamos las siguientes propiedades de la curva normal: 1. La moda, que es el punto sobre el eje horizontal donde la curva es un máximo, ocurre en x = µ. 2. La curva es simétrica alrededor de un eje vertical a través de la media µ. 3. La curva tiene sus puntos de inflexión en x = µ + σ, es cóncava hacia abajo si µ - σ < X < µ + σ, y es cóncava hacia arriba en cualquier otro punto. 4. La curva normal se aproxima al eje horizontal de manera asintótica conforme nos alejamos de la media en cualquier dirección. 5. El área total bajo la curva y sobre el eje horizontal es igual a 1. Muchas variables aleatorias tienen distribuciones de probabilidad que se pueden describir de manera adecuada mediante la curva normal una vez que se especifiquen µ y σ2. En este capitulo supondremos que se conocen estos dos parámetros, quizás de investigaciones previas. Mas tarde haremos inferencias estadísticas cuando se desconozcan µ y σ2 y se estimen a partir de los datos experimentales disponibles. Señalamos en un principio el papel que juega la distribución normal como una aproximación razonable de variables científicas en experimentos de la vida real. La distribución normal encuentra una gran aplicación como distribución limitante. Bajo ciertas condiciones la distribución normal proporciona una buena aproximación continua a las distribuciones binomial e hipergeometrica. Resulta que la distribución limitante de promedios muéstrales es normal. Esto proporciona una base amplia para la inferencia estadística que es muy valiosa para el analista de datos interesado en la estimación y prueba de hipótesis. Las importantes áreas del análisis de varianza y del control de calidad tienen su teoría basada en suposiciones que hace uso de la distribución normal. Áreas bajo la curva normal La curva de cualquier distribución continua de probabilidad o función de densidad se construye de modo que el área bajo la curva limitada por las dos ordenadas x = x1 y x = x2 es igual a la probabilidad de que la variable aleatoria x tome un valor entre x = x1 y x = x2. El área bajo la curva entre cualesquiera dos ordenadas también debe depender de los valores µ y σ. Ing. Idaly Montoya Aguilar Por fortuna es posible transformar todas las observaciones de cualquier variable aleatoria normal X en un nuevo conjunto de observaciones de una variable aleatoria normal Z, con media 0 y varianza 1, esto puede realizarse por medio de la transformación: Z= X −µ σ Donde: Z se lee en las tablas A3. X es la variable aleatoria, µ es la media de la población y σ es la desviación estándar. La distribución de una variable aleatoria normal con media cero y varianza 1 se llama distribución normal estándar. Hemos reducido ahora el número que se requiere de tablas de áreas de curva normal a una, la de la distribución normal estándar. La tabla A.3 indica el área bajo la curva normal estándar que corresponde a P (Z < z) para valores de z que van de -3.49 a 3.49. Para ilustrar el uso de esta tabla encontremos la probabilidad de que Z sea menor que 1.74. Primero, localizamos un valor de z igual a 1.7 en la columna izquierda, después nos movemos a lo largo del renglón a la columna bajo 0.04, donde leemos 0.9591. Por tanto, P (Z < 1.74) = 0.9591. Para encontrar un valor z que corresponda a una probabilidad dada, el proceso se invierte. Por ejemplo, el valor z que deja un área de 0.2148 bajo la curva a la izquierda de z se ve que es -0.79. Ejemplo 1: Dada una distribución normal estándar, encuentre el área bajo la curva que yace (a) a la derecha de z = 1.84 y (b) entre z = -1.97 y z = 0.86 Solución (a) El área en la figura 4 (a) a la derecha de z = 1.84 es igual a 1 menos el área en la tabla A.3 a la izquierda de z = 1.84 a saber, es decir, 1 – 0.9671 = 0.0329 (b) El área en la figura 4 (b) entre z = - 1.97 y z = 0.86 es igual al área a la izquierda de z = 0.86 menos el área a la izquierda de z = -1.97. De la tabla A.3 encontramos que el área que se desea es 0.8051 – 0.0244 = 0.7807 (a) 0 1.84 z (b) - 1.97 0 0.86 z Figura 4. Áreas del ejemplo 1. Ejemplo 2: Dada una distribución normal estándar, encuentre el valor de k tal que (a) P (Z > k) = 0.3015, y (b) P (k < Z < -0.18) = 0.4197 Solución Ing. Idaly Montoya Aguilar (a) En la figura 5 (a) vemos que el valor k que deja un área de 0.3015 a la derecha debe dejar entonces un área de 0.6985 a la izquierda. De la tabla A.3 se sigue que k = 0.52 0.3015 (a) 0 k 0.4197 z (b) k - 0.18 0 z Figura 5. Áreas del ejemplo 2 (b) De la tabla A.3 notamos que el área total a la izquierda de -0.18 es igual a 0.4286. En la figura 5 (b) vemos que el área entre k y -0.18 es 0.4197 por lo que el área a la izquierda de k debe ser 0.4286 – 0.4197 = 0.0089. Por lo tanto, de la tabla A.3 tenemos k = -2.37 Ejemplo 3: Dada una distribución normal con µ = 50 y σ = 10, encuentre la probabilidad de que X tome un valor entre 45 y 62. Solución Los valores z que corresponden a x1 = 45 y x2 = 62 son Z1 = 45 − 50 = -0.5 10 Z2 = 62 − 50 = 1.2 10 Por tanto, P ( 45 < X < 62)= P ( -0.5 < Z < 1.2) -0.5 0 1.2 z Figura 6. Área del ejemplo 3 La P( -.05 < Z < 1.2) se muestra por el área de la región sombreada de la figura 6.11. Esta área se puede encontrar al restar el área a la izquierda de z = 1.2. Con el uso de la tabla A.3, tenemos P (45 < X < 62) = P (-0.5 < Z < 1.2) = P (Z < 1.2) – P (Z < -0.5) = 0.8849 – 0.3085 = 0.5764 Ing. Idaly Montoya Aguilar Ejemplo 4: Dada una distribución normal con µ = 300 y σ = 50, encuentre la probabilidad de que x tome un valor mayor que 362. Solución La distribución de probabilidad normal que muestra el área que se desea se representa en la figura 6.12. Para encontrar la P(X > 362), necesitamos evaluar el área bajo la curva normal a la derecha de x = 362, Esto se puede realizar al transformar x = 362 al valor z correspondiente, al obtener el área a la izquierda de z de la tabla A.3 y después restar esta área de 1. Encontramos que Z= 362 − 300 = 1.24 50 Por lo que, P(X > 362) = P (Z > 1.24) = 1 – P (Z < 1.24) = 1 – 0.8925 = 0.1075 σ = 50 300 362 x Figura 7. Área del ejemplo 4 En ocasiones se nos pide encontrar el valor de z que corresponde a una probabilidad especifica que cae entre los valores que se listan en la tabla A.3 (véase ejemplo 5). Por conveniencia, siempre elegiremos el valor z que corresponde a la probabilidad tabular que esta mas cerca de la probabilidad que se especifica. Sin embargo, si la probabilidad dada cae a la mitad entre dos probabilidades tabulares, debemos elegir para z el valor que cae a la mitad entre los valores correspondientes de z. Por ejemplo, para encontrar el valor z que corresponde a una probabilidad de 0.7975, que cae entre 0.7964 y 0.7995 en la tabla A.3, elegimos z = 0.83, pues 0.7975 es mas cercano a 0.7967. Por otro lado, para una probabilidad de 0.7981, que cae en la mitad entre 0.7967 y 0.7995, tomamos z= 0.835. Los anteriores dos ejemplos se resolvieron al ir primero de un valor de x a un valor z y después calcular el área que se desea. En el ejemplo 6.6 invertimos el proceso y comenzamos con un área o probabilidad conocida, encontramos el valor z y después determinamos x reacomodando la formula: Z= X −µ σ Para dar x = σ z + µ Ejemplo 5: Dada una distribución normal con µ = 40 y σ = 6, encuentre el valor de x que tiene (a) 45% del área a la izquierda y (b) 14% del área a la derecha. Ing. Idaly Montoya Aguilar Solución: (a) En la figura 8 (a) se sombrea un área de 0.45 a la izquierda del valor x deseado. Requerimos un valor z que deja un área de 0.45 a la izquierda. De la tabla A.3 encontramos P (Z < 0.13) = 0.45 por lo que el valor z deseado es -0.13. De aquí X = (6) (-0.13) + 40 =39.22 (b) En la figura 8 (b) sombreamos un área igual a 0.14 a la derecha del valor que se desea. Esta vez requerimos un valor z que deje 0.14 del área a la derecha y por ello un área de 0.86 a la izquierda. De nuevo, de la tabla A.3, encontramos P (Z <1.08) = 0.86 por lo que el valor z que se desea es 1.08 y, x = (6) (1.08) + 40 = 46.48 (a) (b) σ=6 σ=6 0.45 0.14 40 x 40 x Figura 8. Áreas del ejemplo 5 Aplicaciones de la distribución normal Algunos de los muchos problemas para los que es aplicable la distribución normal se tratan en los siguientes ejemplos. Ejemplo 1: Cierto tipo de batería de almacenamiento dura, en promedio, 3.0 años, con una desviación estándar de 0.5 años. Suponga que las duraciones de la batería de distribuyen normalmente, encuentre la probabilidad de que una batería dada dure menos de 2.3 años. Solución Primero construya un diagrama como el de la figura 9, que muestra la distribución dad de duraciones de las baterías y el área que se desea. Para encontrar la P (X < 2.3), necesitamos evaluar el área bajo la curva normal a la izquierda de 2.3. Esto se logra encontrando el área a la izquierda del correspondiente valor de z. Por lo tanto se encuentra que: σ = 0.5 2.3 Figura 9. Área del ejemplo 1 Ing. Idaly Montoya Aguilar 3 x Z = 2 .3 − 3 = - 1.4, 0 .5 Y entonces con el uso de la tabla A.3 tenemos P(X< 2.3) = P (Z < - 1.4) = 0.0808 Ejemplo 2: Una empresa eléctrica fabrica focos que tiene una duración, antes de fundirse, que se distribuye normalmente con media igual a 800 horas y una desviación estándar de 40 horas. Encuentre la probabilidad de que un foco se funda entre 778 y 834 hora. σ = 40 778 800 834 x Figura 10. Área del ejemplo 2 Solución La distribución de los focos se ilustra en la figura 6.15. Los valores z que corresponden a x1 = 778 y x2 = 834 son: Z1 = Z1 = 778 − 800 = - 0.55 40 834 − 800 = 0.85 40 De aquí que: P (778 < X < 834) = P (-0.55 < Z – 0.859) =P (Z < 0.85) – P (Z < - 0.55) = 0.8023 – 0.2912 = 0.5111 Ejemplo 3: En un proceso industrial el diámetro de un cojinete es una parte componente importante. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.01 cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se aceptara. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media 3.0 y una desviación estándar σ = 0.005. En promedio, ¿cuántos cojinetes se descartaran? Solución La distribución de diámetros se ilustra en la figura 6.16. Los valores que corresponden a los limites especificados son x1 = 2.99 y x2 = 3.01. Los correspondientes valores de z son: Ing. Idaly Montoya Aguilar Z1 = 2.99 − 3.0 = - 2.0 0.005 Z2 = 3.01 − 3.0 = + 2.0 0.005 σ = 0.005 0.0228 0.0228 2.99 3.0 3.01 Figura 11. Área del ejemplo 3 Por lo tanto, P (2.99 < X < 3.01) = P (-20 < Z < 2.0) De la tabla A.3, P (Z < - 20) = 0.0228. Debido a la simetría de la distribución normal, encontramos que P (- 2.0 < Z < 2.0) = 2 (0.0228) = 0.0456 Como resultado se anticipa que, en promedio, 4.56% de los cojinetes fabricados se descartaran. Ejemplo 4: Se utilizan medidores para rechazar todos los componentes donde cierta dimensión no esta dentro de las especificación 1.50 ± d. Se sabe que esta medición se distribuye de forma normal con media 1.50 y desviación estándar 0.2. Determine el valor d tal que las especificaciones “cubran” 95% de las mediciones. Solución σ = 0.2 0.025 1.108 0.025 1.50 1.892 x Figura 12. Especificaciones del ejemplo 4. De la tabla A.3 sabemos que, P (-1.96 < Z < 1.96) = 0.95 Por lo tanto, 1.96 = (1.50 + d ) − 1.50 0 .2 de la cual se obtiene: d = (0.2) (1.96) = 0.392 Ejemplo 5: Cierta maquina fabrica resistores eléctricos que tiene una resistencia media de 40 ohmios y una desviación estándar de dos ohmios. Suponga que la resistencia sigue una distribución normal y se puede medir con cualquier grado de precisión, ¿que porcentaje de resistores tendrá una resistencia que exceda 43 ohmios? Solución Se encuentra un porcentaje al multiplicar la frecuencia relativa por 100%. Como la frecuencia relativa para un intervalo es igual a la probabilidad de caer en el intervalo, debemos encontrar el Ing. Idaly Montoya Aguilar área a la derecha de x = 43 en la figura 13. Esto se puede hacer al transformar x = 43 al valor z correspondiente, con lo que se obtiene el área a la izquierda de z de la tabla, A.3, y después se resta esta área de 1. Encontramos que: σ = 2.0 40 43 x Figura 13. Área del ejemplo 5 Z= 43 − 40 = 1.5 2 De aquí que, P(X > 43) = P (Z > 1.5) = 1 – P (Z < 1.5) = 1 – 0.9332 = 0.0668 Por tanto, 6.68% de los resistores tendrán una resistencia que excede 43 ohmios. Ejemplo 6: Encuentre el porcentaje de revisores que exceden 43 ohmios para el ejemplo anterior si la resistencia se mide al ohm mas cercano. Solución Este problema defiere del ejemplo anterior pues ahora asignamos una media de 43 ohmios a todos los resistores cuyas resistencias sean mayores que 42.5 y menores que 43.5. Realmente aproximamos una distribución discreta por medio de una distribución continua normal. El área que se requiere es la región sombreada a la derecha de 43.5 en la figura 6.19. Encontramos ahora que: σ = 2.0 40 43.5 x Figura 14. Área del ejemplo 6 Z= 43 .5 − 40 = 1.75 2 De aquí que, P(X > 43.5) = P (Z > 1.75) = 1 – P (Z < 1.75) = 1 – 0.9599 = 0.0401 Por tanto, 4.01% de los resistores exceden 43 ohmios cuando se miden al ohmio mas cercano. La diferencia 6.68% - 4.01% = 2.67% entre esta respuesta y la del ejemplo anterior representa todos los resistores que tienen una resistencia mayor que 43 y menor que 43.5 que ahora se registran como de 43 ohmios. Ing. Idaly Montoya Aguilar Ejemplo 7: La calificación promedio para un examen es 74 y la desviación estándar es 7. Si 12% de la clase obtiene A y las calificaciones siguen una curva que tiene una distribución normal, ¿Cuál es la A mas baja posible y la B mas alta posible? σ=7 0.12 74 x Figura 15. Área del ejemplo 7 Solución En este ejemplo comenzamos con una área de probabilidad conocida, encontramos el valor z y después determinamos x de la formula x = σ + µ. Un área de 0.12, que corresponde a la fracción de estudiantes que reciben A, se sombrea en la figura 6.20. Requerimos un valor z que deje 0.12 del área a la derecha y, por ello, un área de 0.88 a la izquierda. De la tabla A.3, P (Z < 1.175) = 0.88, por lo que el valor z que se desea es 1.175. De aquí : X= (7)(1.175) + 74 = 82.225 Por tanto, la A mas baja es 83 y la B mas alta es 82 Ing. Idaly Montoya Aguilar