Actividad 2: La distribución Normal ACTIVIDAD 2: La distribución Normal CASO 2-1: CLASE DE BIOLOGÍA______________________________________ El Dr. Saigí es profesor de Biología en una prestigiosa universidad. Está preparando una clase en la que pretende mostrar con ejemplos el hecho de que la distribución normal es muy útil a la hora de describir el comportamiento de muchas variables fisiológicas de los seres vivos. Así, p.e., se sospecha que la longitud de una determinada planta sigue un comportamiento aproximadamente normal con media µ = 64 cm y desviación estándar σ = 3,1 cm. El Dr. Saigí pretende comparar los resultados obtenidos en una práctica de campo, en la que sus alumnos midieron 60 plantas de la especie anterior, con una simulación por ordenador realizada a partir de una normal. 1. Simular con Minitab la medición de 60 plantas de la especie anterior. A fin de que todos obtengamos los mismos datos, usar como base para la generación de datos aleatorios provenientes de una normal el número 333. Seleccionamos Calc > Set Base : Ahora usamos la opción Calc > Random Data > Normal : A2 - 1 Estadística Aplicada con Minitab Habremos generado 60 valores aleatorios procedentes de una distribución normal con los parámetros indicados. 2. Mostrar un resumen descriptivo y gráfico (histograma + gráfico de normalidad) de los datos obtenidos en el apartado anterior mediante simulación. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics > Graphs… : El programa nos dará el siguiente output: Descriptive Statistics Variable SIMULADO N 60 Mean 64,584 Median 64,523 TrMean 64,635 Variable SIMULADO Minimum 58,051 Maximum 70,316 Q1 62,734 Q3 66,640 StDev 2,931 SE Mean 0,378 Histogram of SIMULADOS, with Normal Curve Frequency 10 5 0 60 65 70 SIMULADOS A2 - 2 Actividad 2: La distribución Normal Ahora queremos un gráfico de normalidad: Normality Test: Stat > Basic Statistics > Normal Probability Plot ,999 ,99 Probability ,95 ,80 ,50 ,20 ,05 ,01 ,001 60 65 70 SIMULADOS Av erage: 64,5844 StDev : 2,93060 N: 60 Anderson-Darling Normality Test A-Squared: 0,236 P-Value: 0,780 Observar que los puntos se aproximan bastante a la línea roja, lo cual era de esperar puesto que esto ocurrirá siempre que los datos sean aproximables por una distribución normal (y de hecho estos datos provienen de una normal). A2 - 3 Estadística Aplicada con Minitab 3. Hacer lo mismo que en el apartado 2 pero ahora con los datos obtenidos en el campo, los cuales se encuentran en el archivo campo.mtw . ¿Qué podrían concluir los alumnos del Dr. Saigí?. Repitiendo los pasos anteriores con estos nuevos datos, obtendremos los siguientes resultados: Descriptive Statistics Variable Longitud N 60 Mean 65,357 Median 66,000 TrMean 65,402 Variable Longitud Minimum 57,200 Maximum 71,300 Q1 62,425 Q3 68,225 StDev 3,472 SE Mean 0,448 Histogram of Longitud, with Normal Curve 8 7 Frequency 6 5 4 3 2 1 0 60 65 70 Longitud Normal Probability Plot ,999 ,99 Probability ,95 ,80 ,50 ,20 ,05 ,01 ,001 60 65 70 Longitud Av erage: 65,3567 StDev : 3,47155 N: 60 W-test f or Normality R: 0,9853 P-Value (approx): > 0,1000 Si bien ahora los puntos se alejan más que antes de la línea roja, siguen estando lo suficientemente próximos a la misma como para que consideremos que se distribuyen de forma aproximadamente normal. Parece pues que los dos conjuntos de datos son bastante similares. A2 - 4 Actividad 2: La distribución Normal CASO 2-2: SALARIOS MEDIOS_______________________________________ Según viene publicado en una prestigiosa revista de economía, el salario semanal medio de los profesores universitarios europeos es de 406,15 €. Se estima además que la desviación estándar de dichos salarios es de 55,50 €. Supongamos ahora que pretendemos tomar una muestra aleatoria de 100 profesores para estudiar sus salarios. Calcular las siguientes probabilidades referentes a la media de dicha muestra: 1. La probabilidad de que la media de la muestra sea menor de 400 €. En primer lugar, observar lo siguiente: como n = 100 >> 30, por el Teorema Central del Límite tendremos que la distribución de las medias muestrales X se podrá aproximar por una normal con media 406,15 y desviación estándar 5,50. Hemos de hallar P ( X < 400) : Seleccionamos: Calc > Probability Distributions > Normal : Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 400,0000 P( X <= x) 0,1339 A2 - 5 Estadística Aplicada con Minitab 2. La probabilidad de que la media de la muestra esté entre 400 y 410 € . Sabemos que P (400 < X < 410) = P ( X < 410) − P ( X < 400) probabilidades ya la hemos calculado en el apartado anterior. . La segunda de éstas Para calcular la primera se razona análogamente, obteniendo que: Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 410,0000 P( X <= x) 0,7561 Por tanto, tendremos: P (400 < X < 410) = P ( X < 410) − P ( X < 400) = 0,6222 3. La probabilidad de que la media de la muestra sea mayor de 415 € . En este caso, P ( X > 415) = 1 − P ( X < 415) . Hemos de calcular pues esta última probabilidad, lo cual haremos de forma análoga a los apartados anteriores. Obtendremos lo siguiente: Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 415,0000 P( X <= x) 0,9446 Por consiguiente, P ( X > 415) = 1 − P ( X < 415) = 0,0554 4. Hallar el valor del salario medio c tal que P ( X < c ) = 0,95 . Seleccionamos nuevamente: Calc > Probability Distributions > Normal , pero ahora elegiremos la opción Inverse Cumulative Probability , con lo que obtendremos : Inverse Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 P( X <= x) 0,9500 x 415,2789 A2 - 6 Actividad 2: La distribución Normal CASO 2-3: APROXIMACIÓN NORMAL A UNA BINOMIAL__________________ Para muchas combinaciones de n y p es posible aproximar bastante bien una distribución binomial B(n,p) mediante una distribución normal de media µ = np y varianza σ2 = np(1-p). Generalmente, esta aproximación tiende a ser tanto mejor cuanto mayor es el número de pruebas n. 1. Introducir en la columna C1 de una hoja de trabajo los números 0, 1, 2, ..., 16. En la columna C2 calcular P(X = 0), P(X = 1), ..., P(X = 16), siendo X una binomial de parámetros n = 16 y p = 0,5. Seleccionamos: Calc > Make Patterned Data > Simple Set of Numbers : Ahora hacemos: Calc > Probability Distributions > Binomial : A2 - 7 Estadística Aplicada con Minitab El resultado será el siguiente: Data Display 2. Row C1 C2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0,000015 0,000244 0,001831 0,008545 0,027771 0,066650 0,122192 0,174561 0,196381 0,174561 0,122192 0,066650 0,027771 0,008545 0,001831 0,000244 0,000015 Introducir en la columna C3 el valor de la función de densidad de probabilidad (f.d.p.) asociada a los valores de la C1 para una distribución normal que aproxime a la binomial anterior. Observar que: µ = n*p = 8 y σ2 = n*p*(1-p) = 4 Hacemos: Calc > Probability Distributions > Normal : A2 - 8 Actividad 2: La distribución Normal 3. Dibujar un diagrama de barras con los datos de las columnas C1 (en eje x) y C2 (en eje y). Superpuesto a él, dibujad la función de densidad que se obtiene a partir de las columnas C1 (en eje x) y C3 (en eje y). ¿Qué observas?. A fin de superponer ambos gráficos, elegimos la opción: Graph > Layout : Seleccionamos: Graph > Chart : Finalmente hacemos: Graph > Plot : A2 - 9 Estadística Aplicada con Minitab Para representar los gráficos superpuestos basta con hacer: Graph > End Layout : Aproximación normal a una binomial 0,2 C2 y C3 binomial fdp normal 0,1 0,0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 C1 A partir del gráfico anterior se comprende mejor el hecho de que podemos aproximar la probabilidad de que una variable binomial tome un determinado valor mediante la f.d.p. de una distribución normal. Así, p.e., podemos estimar P(X = 7) (área en azul) por P(6,5 < X < 7,5) (área comprendida entre la curva roja y ambos puntos). En el primer caso estamos considerando que la variable X es binomial, mientras que en el segundo consideramos que es normal (y por tanto hacemos uso de la aproximación por continuidad, puesto que para cualquier variable continua la probabilidad puntual es cero). A2 - 10