Puntuaciones Estándarizadas, Distribución Normal y Aplicaciones Dra. Noemí L. Ruiz Limardo 2008 © Derechos de Autor Reservados, Revisado 2010 Objetivos de Lección Conocer características principales de una Distribución Normal Conocer características principales de la Distribución Normal Estándar (distribución z) Hallar puntuaciones estándarizadas z Aplicar los conocimientos y destrezas de la distribución normal estándar en varios ejemplos Estos son los conocimientos que adquirirás después de estudiar esta lección. Curva Normal Introducción La media aritmética y la desviación estándar son dos de las medidas estadísticas más importantes. Se utilizan en la construcción de modelos matemáticos que facilitan la toma de decisiones. Permiten transformar puntuaciones crudas a medidas estandarizadas. (Puntuaciones z ) Estas medidas no son afectadas por las unidades originales de medición. Introducción Ciertas variables, aunque no se distribuyen exactamente igual a la curva normal, tienden a configurarse o comportarse bastante similar. Por eso, conociendo las características de una curva normal podemos examinar diferentes fenómenos o situaciones. Aclaración: Diferencia entre “Distribución Normal” y “Datos que se Distribuyen Normalmente” (próxima Pantalla) Diferencia entre Distribución Normal y Variables distribuidas normalmente Distribución Normal- Es un modelo de distribución que surge de una ecuación matemática. Conocer más sobre Distribución Normal Variables distribuidas normalmente- Son variables cuya distribución se asemeja, se aproxima, o se comporta similar a la distribución normal. No significa que la distribución sea exactamente igual a la Normal, ni que tienen distribuciones exactamente iguales. Distribución Normal Distribución de probabilidad más importante de la estadística. Corresponde a una distribución de una variable aleatoria contínua. Se llama también: función de densidad de probabilidad contínua. Cuando se dispone de una expresión matemática para representar un fenómeno contínuo, se puede calcular la probabilidad de que varios valores de la variable aleatoria ocurran dentro de ciertos intervalos. Esto es lo que distingue a los fenómenos contínuos (que se miden) de los discretos (que se cuentan). Propiedades de la distribución normal Es simétrica con forma de campana. Todas sus medidas de tendencia central son idénticas. (Media Aritmética = Moda = Mediana) Es unimodal. Hay una sola moda. La media aritmética representa la altura máxima de la distribución. El rango intercuartil (Q3 – Q1) está dentro de un intervalo de 2/3 de desviación estándar bajo la media hasta 2/3 de desviación estándar sobre la media. 99.74% de los valores se localizan a ± 3 desviaciones estándar desde la media. Propiedades de la distribución normal La variable aleatoria asociada es contínua, por tanto tiene un intervalo infinito de valores: -∞<x<+∞ En la distribución, el eje horizontal representa la variable x , el eje vertical, el valor de y , representa la frecuencia que asume el valor particular de la variable x en la distribución. El valor de y representa la altura de la curva de la distribución normal. Propiedades de la distribución normal La distribución es asintótica (forma asíntotas) en el eje de x. Esto significa que mientras más se aleja la curva de la media, más se acerca la curva al eje de x , aunque nunca lo toca. Este proceso es infinito por tanto nunca toca el eje de x. (y ≠ 0) Teóricamente, es posible obtener un valor extremo que esté localizado a más de tres desviaciones estándar desde la media (bajo y sobre), pero en la práctica esto es muy poco probable que ocurra. Curva Normal Forma una campana perfectamente simétrica µ σ µ σ µ σ µ µ σ µ σ µ σ Reflexión En la práctica, muchas variables que se observan tienen distribuciones que sólo se aproximan a la normal. Las variables tienen propiedades que sólo se acercan a las probabilidades teóricas de la distribución normal. La distribución normal es de vital importancia por 3 razones principales. Muchos fenómenos contínuos siguen el patrón de esta distribución o se aproximan a ella. Se puede usar para aproximar distribuciones de probabilidad discretas. Proporciona la base para la inferencia estadística clásica debido a su relación con el Teorema del Límite Central. Reflexión La función matemática que genera la distribución normal es: 2 1 x 1 y f x e 2 2 Ver que y≠ 0. Es una fracción con numerador 1 e cons tan te aproximada a 2.71828 Abraham De Moivre – cons tan te aproximada a 3.14159 matemático francés media de población desviación estándar de población x cualquier valor de var iable (1667-1754) que desarrolló la ecuación de la curva normal Reflexión y 1 f x e 1 2 x 2 2 Observe que como y ≠ 0, la curva forma asíntotas en el eje de x. (No hay interceptos en x, no toca el eje de x) Observe que en la fórmula e y π son constantes. Las probabilidades de la variable aleatoria x dependen sólo de los parámetros de la distribución normal: μ y σ Reflexión Cada vez que se especifíca una combinación particular de una media y desviación estándar de la población diferente, se genera una distribución normal distinta. Observa que más que una sola distribución normal existe una familia de distribuciones normales. Ver Figura 4.2 en la pág. 82 del libro de Hinkle y el diagrama de la próxima transparencia. Reflexión A y B tienen la misma media pero diferentes desviaciones A y C tienen la misma desviación pero diferentes medias Reflexión Los cálculos en la función matemática de la distribución normal son tediosos. Para evitarlos, es útil consultar tablas que proporcionan las probabilidades de un valor de x deseado. Si los datos se estandarizan, solo se requiere el uso de una tabla: Tabla E.2A , E.2B ó E.2C (libro de Berenson) ó Tabla C.1 (libro de Hinkle) Reflexión Cualquier variable aleatoria normal x, se puede convertir a una variable normal estandarizada usando la fórmula de transformación: z. Pero para esto, hay que asegurarse que la variable x se comporta como la variable normal. Además, hay que conocer la media aritmética y la desviación estándar de la distribución. ¿Qué información nos brinda z? Podemos usar la puntuación normal estandarizada para conocer: Área bajo la curva de la distribución Probabilidad de que ocurra un valor específico Por ciento de las puntuaciones que cae bajo una(s) puntuación(es) específica(s) Proporción de las puntuaciones que cae bajo una(s) puntuación(es) específica(s) Rango percentil Aplicaciones de la distribución normal estandarizada z Definición de Distribución Normal Estándar No hay una sola distribución normal, sino más bien una familia de distribuciones normales. Sin embargo, hay una sola distribución normal estándar. La distribución normal estándar es aquella cuya variable aleatoria z siempre tiene una media aritmética igual a cero y su desviación estándar es igual a uno. µ=0 y σ=1 Distribución Normal Estándar El área bajo la curva totaliza 1 ó 100%. La media aritmética µ es igual a 0. La desviación estándar σ es igual a 1. 100% A una desviación estándar de la media aritmética se concentra aproximadamente 68% de las puntuaciones. A dos desviaciones estándar de la media aritmética se concentra aproximadamente 95% de las puntuaciones. ¿Dónde se concentra el porciento que resta de 100? A tres desviaciones estándar de la media aritmética se concentra aproximadamente la totalidad de las puntuaciones (99.7%) Transformando puntuaciones crudas a estandarizadas Para convertir un dato crudo a una puntuación estandarizada utilizamos la siguiente fórmula: _ z = x–x s Para esto necesitamos conocer la media aritmética y la desviación estándar de la muestra. Ejercicio 1 Una escala que mide depresión se administró en una muestra cuyo media aritmética fue 50 y la desviación estándar fue 15. Se encontró que la distribución se comportaba como una distribución normal. Halla la puntuación z de un sujeto de esta muestra que obtuvo 80 en _ la escala. z = x–x s z = 80 – 50 = 30 = 2 15 15 Rango Percentil Es el área que se acumula bajo la curva normal hasta una puntuación z dada Ejercicio 2 Halla el rango percentil de: Z=1 Z = -1 Z = -2 Z=3 Usando la Tabla de Puntuaciones z El diagrama anterior contiene solo algunas puntuaciones z y rangos percentiles. Para poder hallar otras puntuaciones se utilizan los valores obtenidos en la tabla de valores de la distribución normal estándar z. (Ver ejercicio de la próxima pantalla) Ejercicio 3 Halla el rango percentil de un sujeto cuya puntuación z es 2.20 e interpreta el resultado. Para z = 2.20 hay que usar la tabla. Según la tabla, para z = 2.20, el área entre la media y z es 0.4861. Como hay un rango percentil de 0.50 (50%) desde el valor menor hasta la mitad de la curva normal, tenemos que añadir este por ciento al valor de z encontrado: sumamos 0.50 + 0.4861 y obtenemos 0.9861. Este es el rango percentil que buscamos. ¿Qué significa el rango percentil encontrado? Ej 4- ¿Cómo comparan B, C y E? Halla la puntuación z y el rango percentil de los sujetos B, C y E en la prueba de admisión y en el índice académico y compara los mismos. Solución en la próxima pantalla. Escribir los datos en la pizarra. Halla la puntuación z de B, C, y E en la prueba de admisión zB = 2,100 – 2,500 = - 400 = - 1 400 400 zE = 2,180 – 2,500 = - 320 = - 0.8 400 400 zC = 2,580 – 2,500 = 80 = 0.2 400 400 Halla la puntuación z de B, C, y E en el índice académico zB = 2.5 – 3.0 = - 0.5 = - 1.67 0.3 0.3 zC = 2.6 – 3.0 = - 0.4 = - 1.33 0.3 0.3 zE = 2.0 – 3.0 = - 1 = - 3.33 0.3 0.3 Halla el rango percentil de B, C, y E en la prueba de admisión zB = - 1 RP = 0.1587 = 15% zC = 0.2 RP = 0.0793 + 0.5 = 0.5793 = 58% zE = - 0.8 RP = 0.2119 = 21% Halla el rango percentil de B, C, y E en el índice académico zB = - 1.67 RP = 0.0475 = 5% zC = - 1.33 RP = 0.0918 = 9% zE = - 3.33 RP = 0.00043 = 0% ¿Qué sujeto salió mejor y quién salió peor en ambos criterios? Ejercicio 5 ¿Cuál es el cociente intelectual de un sujeto que obtuvo un z=1.96 si la media de esta escala es 100 y la desviación estándar es 20? Para hallar un dato crudo partiendo de la puntuación z y conociendo la media y la desviación estándar, se usa la misma fórmula, pero transformada. Esta fórmula después del manejo _ matemático se convierte en: x = x + (z) (s) Ejercicio 5 _ x = x + (z) (s) _ x = 100 Z = 1.96 s = 20 x = 100 + (1.96) (20) x = 100 + 39.20 x = 139.20 El cociente intelectual es 139.2 Ejercicio 6 ¿Cuál es el cociente intelectual de un sujeto que obtuvo un z = -2.5 en la misma prueba del _ 5? ejercicio Z = -2.5 x = 100 _ x = x + (z) (s) s = 20 x = 100 + (-2.5) (20) x = 100 + -50 x = 50 El cociente intelectual sería 50. Ejercicio 7 al 13- Usa la siguiente situación El gerente de operaciones en una fábrica de montaje de automóviles desea estudiar el proceso para montar una pieza específica del automóvil con el fin de reducir el tiempo requerido para el montaje. Después de estudiar el proceso y recopilar datos, encuentra que el tiempo de montaje se aproxima a una distribución normal con una media de 75 segundos y una desviación estándar de 6 segundos. Ejercicio 7 ¿Qué proporción de las piezas se montarán en menos de 63 segundos? Hay que hallar z para conocer el área, proporción o rango percentil 57 63 μ = 75 z 69 75 81 63 75 6 87 σ=6 12 6 2 93 Como 63 equivale a z = -2, en la tabla de z E.2B la probabilidad es 0.0228 ó 2.28% de las piezas se montarán en menos de 63 segundos. Ejercicio 8 ¿Cuántos segundos tardará el montaje del 10% de las piezas? μ = 75 σ=6 Hay que hallar un valor específico conociendo la proporción. 57 63 Hay que usar la fórmula de z transformada. 69 75 81 87 93 Como la probabilidad de 10% es en un z = -1.28, en la tabla, calculamos la puntuación cruda x = 75 + (-1.28) (6) x = 75 + -7.68 x = 67.32 Ejercicio 9 ¿Cuál es la probabilidad de que un trabajador seleccionado al azar realice la tarea en un tiempo entre 75 y 81 segundos? μ = 75 57 63 69 75 81 87 σ=6 93 Para hallar P (75<x<81) vemos que hay que hallar el área bajo la curva entre la media y 1 desviación estándar sobre la media. En la tabla E.2A un z = 1 tiene un área o probabilidad de 0.3413. Por tanto, la probabilidad es de 34.13%. Ejercicio 10 ¿Cuál es la probabilidad de que un trabajador seleccionado al azar realice el trabajo en menos de 75 segundos? μ = 75 57 63 69 75 81 87 σ=6 93 Como menos de 75 segundos es la mitad de la curva, la probabilidad es de 50%. Ejercicio 11 ¿Cuál es la probabilidad de que un trabajador seleccionado al azar realice el trabajo en más de 81 segundos? μ = 75 57 63 69 75 81 87 σ=6 93 Para hallar P (x>81) , vemos que más de 81 equivale a menos de 69, que es z= -1. Podemos usar la tabla E.2B y vemos que un z = -1 tiene un área o probabilidad de 0.1587. Ejercicio 12 ¿Cuál es la probabilidad de que un trabajador seleccionado al azar realice el trabajo en menos de 75 segundos o más de 81 segundos? μ = 75 57 63 69 75 81 87 σ=6 93 Para hallar P (x<75 ó x>81) sumamos 0.5 + 0.1587 = 0.6587. Ejercicio 13 ¿Cuál es la probabilidad de que un trabajador seleccionado al azar realice el trabajo en menos de 62 segundos? μ = 75 57 63 69 75 81 87 σ=6 93 Para hallar P (x< 62) necesitamos conocer el valor de z. z = 62 – 75 = - 13 = - 2.17 6 6 La probabilidad para un valor de z = -2.17 es 0.0150 Limitaciones de z Podría ser confuso de manejar e interpretar si z = 0 o tiene valor negativo. Si se omite el signo accidentalmente, podría cambiar el sentido de la interpretación. Es por esto que a veces se prefiere transformar la puntuación z en una puntuación que se pueda interpretar a luz de la escala de medición _de la variable. Por ejemplo: x = x + (z) (s) Otras Aplicaciones de la normalidad Promedios ponderados Distribuciones muestrales Pruebas de hipótesis Estos dos últimos se estudiarán en capítulos posteriores. Promedios Ponderados Se usa cuando se consideran varias medidas del mismo sujeto. Debido a la escala ordinal de las percentilas no es apropiado usar para interpretar en estos casos. Tampoco es apropiado usar las puntuaciones crudas porque podrían tener diferentes medias y desviaciones estándar las diferentes medidas. Promedios Ponderados Entonces lo que se hace es promediar en puntuaciones estándarizadas. Esto es la media ponderada. La fórmula es: Puntuación Ponderada j wi zij wi wi peso de cada medida i zij puntuación z de sujeto j en medida i Promedios Ponderados Ejemplo: Un candidato a empleo toma dos pruebas y una entrevista. La entrevista vale doble mientras que las dos pruebas tienen el mismo peso. El candidato obtiene las siguientes puntuaciones estandarizadas: wi zij Prueba 1= 0.25 Puntuación Ponderada j wi Prueba 2=-0.50 Entrevista=-0.20 ¿Cuál fue la puntuación ponderada del candidato? Puntuación Ponderada = 2( 0.20) 1(0.25) 1( 0.50) 2 1 1 0.16 Verificación de la suposición de normalidad Para asegurarse de que aplica la distribución normal estándar hay que verificar la suposición de normalidad. Se puede verificar usando las siguientes técnicas: Hacer diagrama de la distribución para ver si tiene forma de normal Calcular tendencia central, rango, rango intercuartil y desviación estándar y ver relación con la normal Verificación de la suposición de normalidad La forma de la distribución debe ser similar a la distribución normal Las tres medidas de tendencia central deben ser iguales o lo más cercanas posibles a la misma cantidad. El rango intercuartil debe ser aproximadamente 1.33 veces la desviación estándar. El rango debe ser aproximadamente 6 veces la desviación estándar. Verificación de la suposición de normalidad Determine si cerca de 2/3 de las observaciones caen a una desviación 1s estándar sobre y bajo la media Determine si cerca de 4/5 de las observaciones caen a 1.28 desviaciones 1.28s estándar bajo y sobre la media Determine si 95% de las observaciones caen a 2 desviaciones estándar bajo y sobre la media. Distribución Muestral de la Media Una distribución muestral de la media se comporta como una distribución normal si n ≥ 30, aunque hay que considerar el error estándar de la media. La fórmula para calcular este error es: x n En un estudio para asegurar que se pueda inferir características de una muestra a la población debe utilizar muestras con n ≥ 30 y considerar el error estándar de la media. Prueba de Hipótesis En un estudio experimental se establece la hipótesis nula y la alterna. La hipótesis nula es la que se prueba siempre. La hipótesis alterna es la del investigador y se plantea como opuesta a la nula Prueba de Hipótesis Si la distribución se comporta como una distribución se normal, se realiza una prueba de z de acuerdo a los valores críticos y la región de rechazo establecida. Si z cae en la región de rechazo, se rechaza la hipótesis nula y se acepta la alterna. Fin de la Lección Distribución Normal Ecuación matemática desarrollada por matemático francés Abraham Moivre (1667-1754) en siglo 18. La ecuación sirvió para representar conceptos de probabilidad relacionados con juegos de azar. La ecuación no determina ningún evento específico de la naturaleza ni refleja ninguna ley específica de la naturaleza. Distribución Normal Sin embargo, ha sido muy útil porque describe el comportamiento de variables que aparecen en las ciencias sociales y la educación tales como: aprovechamiento académico, aptitudes y actitudes. Más adelante se verá que muchos procedimientos de la estadística inferencial dependen del supesto de que la distribución sea normal.