La Distribución Normal La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar. La función de densidad de la curva normal está definida por la siguiente ecuación: 1 F(x) = 2 e (-1/2)[(x- )/]2 La distribución continua de probabilidad más importante de toda la estadística es la distribución de probabilidad normal. Como vimos anteriormente, una variable aleatoria continua es la que puede asumir un número infinito de posibles valores dentro de un rango específico. Estos valores usualmente resultan de medir algo (medidas de longitud, de peso, de tiempo, de temperatura etc.) Características de la distribución de probabilidad normal La distribución de probabilidad normal y su curva tiene las siguientes características: 1. La curva normal tiene forma de campana. La media, la moda y la mediana de la distribución son iguales y se localizan en el centro de la distribución. Distribución Normal 2. La distribución de probabilidad normal es simétrica alrededor de su media. Por lo tanto, la mitad del área bajo la curva está antes del punto central y la otra mitad después. El área total bajo la curva es igual a 1. 3. La curva normal se aproxima de manera asintótica al eje horizontal conforme se aleja de la media en cualquier dirección. Esto significa que la curva se acerca al eje horizontal conforme se aleja de la media, pero nunca lo llega a tocar. La Forma de la distribución de probabilidad normal La forma de la campana de Gauss depende de los parámetros y . La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. Como se deduce, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su desviación estándar. La distribución normal estándar Para facilitar los cálculos se decidió tabular la normal para diferentes probabilidades con variables que siguen la distribución normal. Pero, puesto que sería imposible tener una tabla para cada posible distribución normal, se elaboró solo una tabla, la tabla de la distribución normal estándar, que es la distribución con media igual a cero y desviación estándar igual a uno. De esta manera solo se tiene que transformar o estandarizar una distribución normal específica, se reviza la tabla, y se conoce la probabilidad. Para estandarizar los valores de una variable, se utiliza la siguiente fórmula: z= x– Gracias a esta fórmula podemos transformar cualquier distribución normal a la distribución normal estándar. Áreas bajo la curva normal Una característica que tiene cualquier distribución normal es que el área bajo la curva, que representa la probabilidad de que la variable aleatoria tome ciertos valores, se distribuye siempre en la misma proporción. En la tabla de la distribución normal estándar, están registradas las áreas bajo la curva normal que se encuentran a la derecha de los valores Z positivos, de esta forma solo se necesita transformar la distribución normal de interés en una distribución normal estándar mediante la fórmula, y el área a la derecha del valor z será el mismo que el área a la derecha de x. Ejemplo NORMAL Los coeficientes intelectuales de 600 aspirantes de cierta universidad se distribuyen aproximadamente de forma normal con una media de 115 y una desviación estándar de 12. Si se selecciona un aspirante al azar, encuentre la probabilidad de que: a) Tenga un coeficiente mayor de 120. b) Tenga un coeficiente menor de 100. c) Tenga un coeficiente menor de 122. d) Tenga un coeficiente entre 115 y 125. e) Tenga un coeficiente entre 90 y 105. Solución. a) Hay una distribución normal con media 115 y desviación estándar de 12 y queremos saber cual es la probabilidad de que x sea mayor de 120, es decir, cuanto mide el área a la derecha del 120. Lo primero es transformar esta distribución normal en una distribución normal estándar (con media cero y desviación estándar 1), para lo cual hay que cambiar el valor de x por un valor Z con la fórmula. z= x– 120 – 115 = = 0.41 12 La distribución ya transformada queda así: Se busca el valor del área a la derecha del valor Z en la tabla de áreas bajo la curva normal, la unidad y el primer decimal se buscan en la primer columna, y la segunda decimal en el primer renglón, donde se cruzan renglón y columna es el valor del área a la derecha del valor z. En este ejemplo: Z 1 0.4 .34090 Y como el área a la derecha del valor z es el área que buscamos, entonces este es el resultado, es decir, la probabilidad de que un aspirante a la universidad tenga un coeficiente intelectual mayor de 120 es .34090 b) Para encontrar la probabilidad de que un aspirante tenga un coeficiente intelectual menor de 100, primero se traza la curva de la distribución normal original, para luego transformarse en la distribución normal estándar. El valor z se calcula con la fórmula: z= x– 100 – 115 = = -1.25 12 En la tabla de áreas bajo la curva normal no se tabularon valores z negativos, pero como la curva normal es simétrica, el área a la izquierda del valor z = 1.25 es del mismo tamaño que el área a la derecha del valor z = 1.25, por lo que solo se necesita buscar en la tabla el área correspondiente al valor positivo. Z 5 1.2 .10565 c) Para encontrar la probabilidad de que la variable aleatoria sea menor de 122, hay que estandarizar la distribución obteniendo el valor z correspondiente al valor de x = 122. z= x– 122 – 115 = = 0.58 12 Z 8 0.5 .28096 El área de .28096 corresponde a la que se encuentra a la derecha del valor z, pero no es la que nos interesa en esta vez, el área que queremos encontrar es la que se encuentra a la izquierda del valor z, que podemos calcular restando el área de .28096 al área total bajo la curva que es 1. P( x < 122 ) = 1 - .28096 = .71904 d) Para encontrar el área que se encuentra entre x = 115 y x = 125 hay que encontrar el área a la derecha de cada uno de esos valores. A la derecha de 115 (la media) el área es .5, para encontrar el área a la derecha de 125 hay que encontrar en la tabla el valor z correspondiente. z= x– 125 – 115 = = 0.83 12 Z 3 0.8 .20327 El área a la derecha de x = 125 es parte del área a la derecha de x = 115, si la restamos obtendremos el área que se encuentra entre los dos valores. P( 115 < x < 125 ) = .5 - .20327 = .29673 e) Para encontrar el área que se encuentra entre x = 90 y x = 105, hay que encontrar en la tabla el área a la izquierda de cada uno de esos valores. Al estar en el lado izquierdo de la curva, por simetría, el área es la misma que la correspondiente a los valores z positivos. z= x– 90 – 115 = = -2.08 12 z= x– 105 – 115 = = -0.83 12 Z 8 Z 3 2.0 .01876 0.8 .20327 Restamos P( 90 < x < 105 ) = .20327 - .01876 = .18451 Ejercicios 1.- Un investigador reporta que unos ratones vivirán un promedio de 40 meses cuando sus dietas se restringen drásticamente y después se enriquecen con vitaminas y proteínas. Suponga que la vida de tales ratones se distribuye normalmente con una desviación estándar de 6.3 meses, encuentre la probabilidad de que un ratón viva: a) Mas de 32 meses b) Menos de 28 meses c) Entre 37 y 49 meses d) Entre 45 y 50 meses e) Entre 40 y 43 meses f) ¿Cuál es la probabilidad de que de seis ratones 4 vivan más de 30 meses? 2.- Las barras de centeno que cierta panadería distribuye a las tiendas locales tienen una longitud promedio de 30 centímetros y una desviación estándar de 2 centímetros. Suponga que las longitudes se distribuyen normalmente, ¿qué porcentaje de las barras son a) Mas largas de 31.7 cm? b) Entre 29.3 cm. y 33.5 cm de longitud? c) Entre 32 cm. y 35 cm? d) Mas cortas de 38 cm? e) Entre 27.5 cm. y 30 cm? f) ¿Cuál es la probabilidad de que de 4 barras, tres midan más de 35 cm? 3.- Un abogado va todos los días de su casa a su oficina en el centro de la ciudad. El tiempo promedio del viaje es 24 minutos, con una desviación estándar de 3.8 minutos. Si las duraciones de los viajes están distribuidas normalmente: a) ¿Cuál es la probabilidad de que un viaje tome al menos ½ hora? b) Si la oficina abre a las 9:00 a.m. y él sale de su casa diariamente a las 8:45 a.m., ¿qué porcentaje de las veces llega tarde al trabajo? c) Si sale de su casa a las 8:35 a.m. y el café se sirve en la oficina de las 8:50 a.m. a las 9:00 a.m., ¿cuál es la probabilidad de que llegue a la hora del café? d) Encuentre ¿cuál es el tiempo a partir del cual que duran el 15% de los viajes más lentos? e) Encuentre la probabilidad de que dos de los siguientes tres viajes tomen como máximo 1/2 hora. 4.- Las alturas de 1000 estudiantes se distribuyen normalmente con una media de 174.5 cm y una desviación estándar de 6.9 cm., ¿cuántos de estos estudiantes se esperaría que tuvieran alturas a) Menores de 160 cm? b) Entre 171.5 cm y 182 cm? c) Mayores a 165 cm? d) Entre 174.5 cm y 180 cm? e) Entre 180 cm y 195 cm? f) Menores de 185 cm? g) ¿Cuál es la probabilidad de que de cinco estudiantes, al menos 3 midan más de 180 cm? h) ¿Cuál es la probabilidad de que de 3 estudiantes, ninguno mida menos de 160 cm? 5. Una estación de radio encontró que el tiempo promedio que una persona sintoniza esa estación es de 15 minutos con una desviación estándar de 3.5 minutos. ¿Cual es la probabilidad de que un radioescucha sintonice la estación por: a) más de 20 minutos? b) Entre 15 y 18 minutos? c) entre 10 y 12 minutos? d) ¿Cuantos minutos como máximo sintonizan la estación el 70% de los radioescuchas? e) ¿Cuál es la probabilidad de que de 8 radioescuchas, al menos 7 sintonicen la estación por más de 5 minutos? Aproximación normal a la binomial Cuando las muestras son pequeñas, en una distribución binomial se obtienen fácilmente probabilidades asociadas a un evento mediante la fórmula de la binomial. Cuando las muestras son grandes, el cálculo nos llevaría bastante tiempo. La distribución normal es a menudo una buena aproximación a una distribución binomial cuando np y nq son mas grandes que 5. Distribución binomial con n = 20 y p = .5 Distribución binomial con n = 60 y p = .5 Para utilizar la distribución normal como una aproximación de la binomial debemos estar seguros de que la distribución de interés es en efecto una distribución binomial, para lo cual debe reunir los siguientes criterios: 1. Hay solo dos posibles resultados éxito o fracaso 2. Resulta de un conteo 3. Cada prueba es independiente 4. La probabilidad del éxito es constante en cada prueba 5. Hay un número fijo de pruebas. Ejemplo La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es 0.4. Si se sabe que 100 personas contrajeron esa enfermedad, a) ¿Cuál es la probabilidad de que menos de 30 sobrevivan? b) ¿Cuál es la probabilidad de que exactamente 5 sobrevivan? c) ¿Cuál es la probabilidad de que a lo más 30 sobrevivan? Solución El primer paso es verificar si el experimento cumple con los requisitos de una distribución binomial, y si es el caso calcular la media y la desviación estándar de la distribución. µ = np = (100)(0.4) = 40 = npq = (100)(0.4)(0.6) = 4.898 a) P(x < 30 ) Para resolver el problema con la fórmula de la distribución binomial se tendría que calcular 30 binomiales, desde la binomial de cero hasta la binomial de 29. Mediante el uso de la aproximación normal a la binomial el procedimiento es mucho más corto. El primer paso es aplicar al valor de x el factor de corrección de continuidad, que es simplemente sumar o restar 0.5 al valor de x, dependiendo del problema. En este caso queremos la probabilidad de que x valga menos de 30, no incluye al 30, entonces se le resta 0.5. En seguida se aplica la fórmula de Z, utilizando el valor de x = 29.5, y en seguida buscar el área en la tabla normal: z= x– 29.5 – 40 = = -2.14 4.898 Z 2.1 4 .01618 b) P(x = 35 ) En una distribución continua la probabilidad de que la variable aleatoria sea exactamente determinado valor no se puede calcular y se estima que es cero, mientras que en una distribución discreta la probabilidad se calcula sumando y restando el factor de corrección de continuidad para estimar el área entre ambos puntos. z= z= x– x– 34.5 – 40 = = -1.12 Z 1.1 2 0.13136 = -0.91 Z 0.9 1 0.18141 4.898 35.5 – 40 = 4.898 P(x = 35 ) = 0.18141 - 0.13136 = 0.05005 En este caso, como se pide la probabilidad cuando x es exactamente igual a 35, lo podemos resolver con la fórmula de la binomial, y el resultado que produce es poco diferente: .04913. c) P( x = 30 ) Aquí se pide la probabilidad de que x tome valores desde 0 hasta 30 inclusive, como el 30 está incluido el factor de corrección de continuidad se suma. z= x– 30.5 – 40 = = -1.93 4.898 Z 1.9 3 0.02680 Ejercicios 1.- Investigadores de la Universidad George Washington reportan que aproximadamente 75% de las personas creen que “los tranquilizantes funcionan muy bien para hacer que una persona esté más tranquila y relajada”. De las siguientes 80 personas entrevistadas, ¿cual es la probabilidad de que a) Al menos 50 sean de esa opinión? b) A lo más 56 tengan esta opinión? c) Entre 60 y 70 tengan esta opinión? d) Exactamente 43 tengan esta opinión? 2.- Si el 20% de los residentes de una ciudad de Estados Unidos prefiere un teléfono blanco sobre cualquier otro color disponible. ¿Cuál es la probabilidad de que entre los siguientes mil teléfonos que se instalen en esta cuidad a) Entre 170 y 200 sean blancos b) Al menos 210 sean blancos c) Más de 225 sean blancos d) Entre 180 y 225 sean blancos 3.- Un fabricante de medicamentos sostiene que cierto medicamento cura una enfermedad de la sangre en promedio el 80% de los casos. Para verificar esta afirmación, inspectores de gobierno utilizan el medicamento en una muestra de 100 individuos y deciden aceptar la afirmación si 75 o más se curan. a) ¿Cuál es la probabilidad de que el gobierno acepte la afirmación? b) ¿Cuál es la probabilidad de que el gobierno rechace la afirmación si en realidad la probabilidad de curarse es de .70? 4.- Un estudio sobre nuevos delincuentes juveniles reveló que el 38% de ellos vuelve a delinquir. a) ¿Cuál es la probabilidad de que de cien nuevos delincuentes juveniles 30 o más vuelvan a delinquir? b) ¿Cuál es la probabilidad de que de 50 nuevos delincuentes juveniles 40 o menos vuelvan a delinquir? c) ¿Cuál es la probabilidad de que de 35 nuevos delincuentes juveniles 15 vuelvan a delinquir? Ahora trabajemos con Excel el ejemplo NORMAL Tomando como basa el valor Z=.41 de la solución a) del ejercicio. En Excel seleccionamos del menú la opción INSERTAR ---FUNCION como se muestra en el cuadro. En la categoría “Estadísticas” buscamos y seleccionamos la función para la Distribución Normal Estándar, como se muestra en el cuadro siguiente y seleccionamos ACEPTAR Enseguida aparecerá la ventana de dialogo para la función y espera que escribas el valor de Z que es .41 yo escribí una coma en vez de punto ya que la configuración de el Excel esta en español España. Una vez escrito el valor de Z selecciona ACEPTAR El valor que devolvió la función fue de .65909703 el valor que esperábamos obtener era de .34090 El valor que nos arrojo es el área bajo la curva junto a la media y no la dispersión, para obtener el valor que nos regresaría la tabla Debemos de restar a 1 el valor que nos regresa la función, tal como se muestra en el cuadro siguiente Entonces ya tenemos nuestro resultado esperado de .34090297 De esta forma puedes hacer todos los ejercicios.