Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 18 3. MEDIDAS RESUMEN: Numéricas y Gráficas. 3.1 Introducción Ejemplo. “Admítelo una salchicha no es una zanahoria”. Así decía la revista ”El Consumidor” en un comentario sobre la baja calidad nutricional de las salchichas. Hay tres tipos de salchichas: i. carne vacuna, ii. mezcla (carne porcina, vacuna y de pollo) iii. pollo. ¿Existe alguna diferencia sistemática entre estos tres tipos de salchichas, en estas dos variables? Calorías y sodio en salchichas por tipo Vacuno Mezcla Calorías Sodio Calorías Sodio 186 495 173 458 181 477 191 506 176 425 182 473 149 322 190 545 184 482 172 496 190 587 147 360 158 370 146 387 139 322 139 386 175 479 175 507 148 375 136 393 152 330 179 405 111 300 153 372 141 386 107 344 153 401 195 511 190 645 135 405 157 440 140 428 131 317 138 339 149 319 135 296 132 253 Pollo Calorías 129 132 102 106 94 102 87 99 170 113 135 142 86 143 152 146 144 Sodio 430 375 396 383 387 542 359 357 528 513 426 513 358 581 588 522 545 Nos interesa resumir las características más importantes del conjunto de datos en una pequeña cantidad de números que sean fácilmente interpretables. La distribución de la cantidad de sodio en las salchichas de pollo muestra dos grupos distintivos. Este tipo de distribuciones no estará bien representada por las medidas resumen. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 19 Los resúmenes pueden ser muy útiles pero no son los detalles. Generalmente los detalles agregan poco, pero es importante estar preparados para las ocasiones en que sí agregan mucho. 3.2 Centro y dispersión. Los conjuntos de datos provenientes de una población homogénea poseen, en general, dos propiedades importantes: un valor central y la dispersión alrededor de ese valor. Vemos esta idea en los siguientes histogramas hipotéticos: Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 20 Veremos medidas de la posición del centro, la dispersión y otras medidas de posición. 3.3 Media y varianza muestrales Las medidas resumen clásicas utilizan solamente operaciones aritméticas simples (+, *, raíz cuadrada) para resumir un conjunto de datos de n observaciones, x1, x2, . . . , xn . La media muestral x , como medida de la posición del centro de los datos, x + x= 1 + xn n , la varianza muestral, 1 n 2 s = ∑ ( xi − x ) n − 1 i =1 2 ó el desvió estándar 1 n s = DS = ( xi − x ) 2 ∑ n − 1 i =1 como medida de variabilidad o dispersión. El desvío estándar es la medida clásica de variabilidad. Observación: el desvío estándar (DS) tiene las mismas unidades que las observaciones. Desviación respecto de la media xi − x desviación i-ésima respecto de la media. Los datos menores que la media tienen un desvío negativo. Los datos mayores que la media tienen un desvío positivo. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 21 Si • todas las diferencias son pequeñas en valor absoluto: • las observaciones • algún xi están cerca de x ∴ los datos presentan poca variabilidad, xi − x es grande en valor absoluto se tiene mayor variabilidad. Es fácil ver que ∑ ( xi − x ) = 0. La varianza muestral mide la desviación cuadrática de los datos respecto de su media Es más fácil realizar cálculos con desvíos cuadráticos, | xi − x |. (xi − x ) 2 , que con desvíos absolutos, 3.3 Media y varianza poblacionales, para poblaciones finitas Si datos son poblacionales tendremos: • como medida de posición, la media poblacional μ que se calcula como N ∑ xi 1 μ = i =N • como medida de dispersión, la varianza poblacional σ2 σ2 1 = N N ∑ ( xi − μ ) 2 i =1 ó la raíz cuadrada de σ2, σ , que llamaremos desvío estándar. . Población ocupada, República Argentina, Octubre de 1994. Síntesis 3, INDEC, 1995 Aglomerado Urbano Pobl. Ocup. Aglomerado Urbano Pobl. Ocup. Gran Buenos Aires 4300500 Gran Tucumán y Tafí Viejo 197809 Gran Córdoba 440558 Neuquén 66506 Gran Mendoza 294768 Paraná 66604 Gran Rosario 401203 Santa Rosa - Toay 32286 La cantidad media de ocupados por aglomerado urbano (n=8) es 725029 y su desvío estándar es 1359044. Si excluimos Gran Buenos Aires (n=7) tendremos media = 214248 y desvío estándar = 155692. Una sola observación ha modificado fuertemente los resultados. Las medidas resumen deberían ser resistentes (varíen poco en presencia de un cambio arbitrario de una pequeña parte del lote). Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 22 Un único dato aberrante puede producir un importante efecto adverso tanto en la media muestral como la varianza muestral 3.4 Medidas resistentes a datos extremos o aberrantes. Las medidas resistentes utilizan los datos ordenados. Ordenamos los datos, x1, x2, . . . , xn , en orden ascendente y obtenemos la muestra ordenada: x(1) ≤ x(2) ≤ . . . ≤ x(n) ; Podemos contar desde el más pequeño hacia el más grande, rango ascendente, ó desde el más grande hacia el más pequeño, rango descendente. Definición: La profundidad de un dato en la muestra es el menor de los rangos ascendente y descendente. 3.4.1 Mediana Definición: La mediana, M es el valor que deja la misma cantidad de los datos ordenados de cada lado. La mediana es una medida resistente de posición del centro de los datos. La profundidad de la mediana es pM = n +1 . 2 La mediana se calcula como el valor central si n es impar y promedio de los dos valores centrales si n es par Ejemplo (continuación): La mediana es el dato con profundidad PROF. # hojas TALLO HOJAS 1 1 628 : 5 1 0 629 : 4 3 630 : 358 7 3 631 : 033 9 2 632 : 77 18 9 633 : 001446669 23 5 634 : 01335 10 635 : 0000113668 26 7 636 : 0013689 19 2 637 : 88 17 6 638 : 334668 11 5 639 : 22223 6 0 640 : 6 1 641 : 2 5 3 642 : 147 59 + 1 = 30 . M = 63.53. 2 La media, 63.589, es cercana a la mediana. Este hecho es coherente con la simetría que presentan los datos alrededor de la mediana. Una profundidad identifica dos valores de los datos, uno por debajo y otro por encima de la mediana. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 2 2 0 2 23 643 : 644 : 02 Comparación de media y mediana para distintos tipos de distribuciones mediante histogramas suavizados. Asimétrica a izquierda Simétrica Asimétrica a derecha 3.4.2 Media podada Ordene los datos, descarte las 100α% de las observaciones menores y el 100α% de las observaciones mayores; calcule el promedio de los datos restantes. Se recomienda tomar α entre 0.1 y 0.2: xα = x [ n α ]+1 + + x n −[nα ] n − 2[n α ] , 3.4.4 Otras medidas de posición A la mediana y los extremos les agregamos otro par de valores resumen, los cuartiles, que dejan un cuarto y tres cuartos de las observaciones a cada lado. p ro fu n d id ad d el cu artil = 59 + 1 = 15 4 Por lo tanto: Cuartil inferior=63.36 Cuartil superior=63.84 En el ejemplo, la profundidad del cuartil es 3.4.5 Otras medidas de dispersión de los datos. • distancia intercuartil (dQ) , o rango intercuartil, dQ = Cuartil superior - Cuartil inferior n +1 4 Estadística (Q) FCEN-UBA • Dra. Diana M. Kelmansky 24 rango, la diferencia entre los valores extremos, también refleja la dispersión pero valores sueltos afectan tanto el rango que su resistencia es despreciable. • MAD: Desvio absoluto respecto de la Mediana: Es una versión resistente del desvío estándar basada en la mediana. MAD = mediana ( xi − M ) ¿Cómo calculamos la MAD? • Ordenamos los datos de menor a mayor. • Calculamos la mediana, valor en la posición (n+1)/2. • Calculamos los desvíos absolutos de cada dato respecto de la mediana (la distancia de cada dato a la mediana, sin signo). • Ordenamos los desvíos absolutos de menor a mayor. • Calculamos la mediana de los desvíos. Observación: Si deseamos comparar la distancia intercuartil y la MAD con el desvío estándar es conveniente dividirlas por constantes adecuadas. En ese caso se compara el DS con MAD 0.675 dQ 1.35 Ejemplo: continuamos con los puntos de fusión de ceras naturales DESCRIPTIVE STATISTICS CERA 63.589 0.3472 62.850 63.360 63.840 64.420 0.2300 MEAN SD MINIMUM 1ST QUARTI 3RD QUARTI MAXIMUM MAD dQ = Cuartil superior - Cuartil inferior = 63.84 - 63.36 = 0.48 MAD 0.675 = 0.23 / 0.675 = 0. 341 Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 25 dQ 1.35 = 0.48 / 1.35 = 0.356 SD = 0.3472 Las correcciones han acercado las estimaciones de la variabilidad de la MAD y la distancia intercuartil al valor obtenido para el desvío estándar. Veremos más adelante qué características deben presentar los datos para que las tres medidas de dispersión sean similares, como ocurre en el ejemplo. 3.4.6 Más medidas de posición: Percentiles La mediana de un conjunto de datos ordenados es el valor que los divide en dos partes iguales, tiene profundidad (n+1)*0.5. Es el percentil del 50% (100*0.5%). El cuartil inferior, que deja a su izquierda al 25% de los datos y se encuentra en la posición (n+1)*0.25, es el percentil del 25% (100*0.25%). El cuartil superior, tiene la posición (n+1)*0.75. Así, el valor que deja un 95% de los datos por debajo y un 5% por encima es el percentil del 95%. Gráfico de un percentil en un histograma suavizado. El percentil del 100*α%, Pα, de un conjunto de datos ordenados, es el valor que deja un 100*α% de los datos por debajo y un 100*(1-α)% por encima se encuentra en la posición (n+1)* α. Cuando este valor no es entero se interpola. Percentiles de la altura (cm) de mujeres y varones de 18 años (Crecimiento y Desarrollo. Sociedad Arg. de Pediatría. 1986) Percentil 3% 10% 25% 50% 75% 90% 97% Varón 1.60 1.64 1.68 1.72 1.77 1.81 1.85 Mujer 1.49 1.53 1.56 1.60 1.64 1.68 1.72 Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky En distribuciones perfectamente simétricas los percentiles del 100*α% y del 100*(1-α)% equidistan de la mediana. La distribución de las alturas de mujeres y varones es aproximadamente simétrica, pero la de los pesos no lo es. 26 Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 27 4. Box Plots o Gráficos Caja El boxplot es la representación gráfica de la mediana, los cuartiles, y el máximo y mínimo siempre que no haya valores atípicos (outliers). En este caso el máximo y el mínimo se reemplazan por los valores adyacentes superior e inferior respectivamente y los valores atípicos se grafican por separado. Se trata de los valores externos que pueden clasificarse como moderados o severos. Permite extraer los siguientes aspectos del lote: Posición del centro - Dispersión - Asimetría - Longitud de la cola Puntos que yacen fuera del conjunto. 4.1 Identificación de valores atípicos. Utilizamos una medida de dispersión que sea insensible a los valores atípicos, la distancia intercuartil y definimos puntos de corte para detectar outliers: Valla Interna Inferior = Q I - 1.5 d Q Valla Interna Superior = Q S + 1.5 d Q Valla Externa Inferior = Q I - 3 d Q Valla Externa Superior = Q S + 3 d Q VALOR ADYACENTE ⎧valor más cercano, mayor o igual, . INFERIOR (VAI) = ⎨ ⎩a la valla interna inferior VALOR ADYACENTE ⎧valor más cercano, menor o igual, SUPERIOR (VAS) = ⎨ ⎩ a la valla interna superior. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky Si no hay valores atípicos: VAI = mínimo 28 VAI = máximo 4.2 Construcción del Box Plot Construiremos un boxplot para las 15 concentraciones de CO2 (miligramos/M2*minuto ) siguientes: 9.21 51.52 10.6 55.71 13.65 58.1 14.17 206.43 16.95 207.08 28.27 497.15 38.36 1837.81 medidas en diferentes puntos de un depósito de residuos patológicos El boxplot se construye dibujando: i) una caja cuyos extremos son los cuartiles (QI =14.17) y (QS=206.43) y con una barra vertical en la mediana (M= 41.28), ii) una línea de cada extremo de la caja hasta el corresp. valor adyacente (VAI = VAS = ), iii) los valores que caen fuera de las vallas internas pero dentro de las externas son outliers moderados, iv) los valores que caen fuera de las vallas externas son outliers severos. OJO! no confundir la valla con el valor adyacente! Cálculos parciales La mediana (M= 41.28) se encuentra en la posición (15+1)/2 = 8 El cuartil inferior (QI =14.17) en la posición (15+1)/4 = 4 El cuartil superior (QS=206.43) en la posición (15+1)*3/4 = 12 distrancia intercuartil (dQ) = QS - QI = 206.43 - 14.17 = 192.26 1.5* dQ = 1.5 * 192.26 = 288.39 3* dQ = 3 * 192.26 = 576.78 QI - 1.5* dQ= -274.22 QI - 3* dQ= -562.61 QS + 1.5* dQ= 494.82 QS + 3* dQ= 783.21 41.28 Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 29 Resistencia del Boxplot Un gráfico similar podría construirse en base a la media y el desvío muestrales. Tal gráfico carecería de resistencia. ¿Porqué es esto importante? 4.3 Comparación de lotes Boxplots del contenido calórico de tres tipos de salchichas Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 30 Diagramas-tallo hoja de los datos de calorías en diferentes clases de salchichas. Vacuno Mezcla Pollo Tallo Hojas Tallo Hojas Tallo Hojas 8 8 8 67 9 9 9 49 10 10 7 10 226 11 1 11 11 3 12 12 12 9 13 1259 13 5689 13 25 14 1899 14 067 14 2346 15 2378 15 33 15 2 16 16 16 17 56 17 2359 17 0 18 146 18 2 19 00 19 015 De los Box-Plots: Las salchichas de pollo, como grupo, contienen menos calorías que las de carne o las de mezcla: la mediana del contenido calórico de las de pollo está por debajo del cuartil inferior de las otras distribuciones. Todos los tipos muestran una gran dispersión entre marcas; las salchichas de pollo no garantizan una comida de bajas calorías. De los diagramas Tallo-Hoja: Para los datos de “mezcla” vemos que se distinguen claramente dos grupos de marcas, la distribución tiene dos picos y un outlier en la cola inferior. Los cuartiles, Ci=139.50 y Cs=179.75, están aproximadamente en el centro de cada uno de los grupos, de manera que gran parte de la distancia intercuartil (dc ) está dada por la distancia entre los grupos. Por esta razón el 1.5* dc que se utiliza para graficar el box-plot no distinguió al outlier. Aunque en el diagrama correspondiente a las salchichas de pollo no se observan dos grupos separados, como en “vacuno” y “mezcla”, pueden verse claramente dos picos. Retomemos el ejemplo de la cantidad de sodio en las salchichas de pollo, cuyo diagrama tallo hoja tenemos a continuación 3 | 666889 4 | 033 4| 5 | 11234 5 | 589 Esta distribución bimodal también sugiere la presencia de dos grupos en los datos. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 31 Los valores ordenados de la cantidad de sodio en salchichas de pollo son: 357 358 359 375 383 387 396 426 430 513 522 528 542 581 588 La media (449,66) se encuentra en una zona donde no hay datos y la mediana (426) cerca del borde de uno de los dos grupos. El intervalo ( x − s , x + s ) no es una buena representación de los datos y el gráfico caja tampoco. Ni la media ni la mediana ni el boxplot dan una buena información sobre este tipo de datos porque no está presente en ellos un centro claro. 4.4 Ejemplos con Valores atípicos Ejemplo 1: En 1985 los científicos británicos anunciaron un agujero en la capa de ozono de la atmósfera terrestre sobre el polo sur. El reporte de los británicos fue descartado al comienzo pues estaba basado en instrumentos terrestres enfocados hacia arriba. Observaciones más completas, obtenidas por instrumentos satelitales mirando hacia abajo, no habían mostrado nada inusual. Luego, un análisis más exhaustivo de las mediciones satelitales, reveló que las lecturas de Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 32 ozono en el polo sur eran tan bajas que el programa de computadora que las analizaba las había suprimido automáticamente como outliers en forma equivocada. Se reanalizaron las lecturas desde 1979. Éstas mostraron un agujero de tamaño creciente en la capa de ozono que no tenía explicación. Ejemplo 2: Mediciones obtenidas por Newcomb entre Julio y Septiembre de 1882. 28 22 36 26 26 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 -44 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 -2 24 25 27 24 16 29 20 28 27 39 23 ¿qué variable ha sido medida? • Newcomb midió cuánto tardó la luz en llegar, desde su laboratorio sobre el río Potomac a la base del monumento a Washington y volver, una distancia total de 7400 metros. • es necesario tener la descripción del instrumento • juzgar si la variable medida es la adecuada (conocimiento experto) • sobre el campo particular en estudio. Por ejemplo Newcomb construyó aparatos nuevos y complicados para medir el tiempo en que pasaba la luz. Nosotros aceptamos el juicio de los físicos sobre que este instrumento es adecuado para su propósito y más preciso que instrumentos anteriores. Codificación: La primera medición del tiempo de paso de la luz era 0.000024828 segundos. Corremos al punto decimal nueve lugares a la derecha, obteniendo 24828 y luego registramos únicamente el desvío respecto de 24800. Luego 28 es la versión corta de 0.000024828 y -2 se corresponde con 0.000024798. Variación Los aparatos cambian levemente con la temperatura, la densidad de la atmósfera cambia día a día y así siguiendo. Incluso los mejores experimentos producen resultados variables. Esta es la razón porque Newcomb tomó muchas mediciones en vez de una. En general, el promedio de varias observaciones es menos variable que el de una única observación. Poniéndonos en lugar de Newcomb, estamos tentados de calcular el promedio de los tiempos de pasaje de la luz, convertir este tiempo en una estimación nueva y mejor de la velocidad de la luz y correr, para hacernos una reputación, a publicar el resultado. !!PELIGRO!! Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 33 Histograma de las 66 mediciones de Simon Newcomb Un dato atípico en la brillantez vista por un satélite de vigilancia puede representar el lanzamiento de un misil. Un dato atípico de las mediciones de actividad eléctrica en un detector utilizado en física de altas energías puede ser evidencia de una nueva partícula elemental. En tales casos la distribución general simplemente provee un patrón de referencia sobre el cual sobresalen los eventos extraordinarios. Cuando los datos atípicos son inesperados e indeseados se debería hallar una causa clara para cada outlier, como la falla del equipo durante el experimento o un error en la transcripción de los datos, en esos casos, se puede corregir o eliminar el dato. Cuando no se encuentra ninguna causa es muy difícil tomar una decisión. Newcomb finalmente eliminó el peor outlier (-44) pero retuvo el otro. La media de todas las 66 observaciones es 26.21; la media de las 65 observaciones retenidas es 27.29. El gran efecto del único valor -44 sobre la media es la razón para eliminarlo. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 34 Este gráfico sugiere levemente que la variabilidad (dispersión vertical) es decreciente con el tiempo. Quizás, a medida que ganó experiencia, Newcomb se volvió más experto en el uso de su equipo. Los efectos de aprendizaje como el que muestran los datos de Newcomb son muy frecuentes y deben ser tenidos en consideración. Si dejamos las primeras 20 observaciones de Newcomb para el aprendizaje, la media de las 46 restantes resulta 28.15. Las mejores mediciones modernas sugieren que el “verdadero valor” para el tiempo de paso de la luz del experimento de Newcomb es 33.02. Eliminar los outliers ó fijar un período de aprendizaje, acercan los resultados al verdadero valor. Pero si es posible, siempre, hay que hallar la razón de un outlier. RESUMEN • Una medida resistente no se ve afectada por cambios en los valores numéricos de una pequeña proporción de la cantidad total de observaciones, sin importar cuánto cambien estos valores. • El centro de una distribución es medido por la media, la media α podada ó la mediana. La media es el promedio aritmético de todos los datos. La media α podada es el promedio aritmético de los datos excluidos el 100*α% de los valores mayores y el 100*α% de los valores menores. La mediana es el punto medio de los datos ordenados. • La distancia intercuartil provee una medida resistente de la dispersión o variabilidad de la distribución. Los cinco números resumen, dados por la mediana, los cuartiles, el máximo y el mínimo proveen una descripción rápida de la forma global de una distribución. • Los Boxplots, basados en los cinco números resumen, son útiles para comparar varias distribuciones. Las vallas internas y externas son útiles para identificar potenciales valores atípicos (outliers). Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 35 • La varianza muestral s2 y especialmente su raíz cuadrada, el desvío estándar DS, son medidas muy usuales, pero no resistentes, de la dispersión de los datos alrededor de la media. 5. Curvas de densidad ¿Existe alguna manera de describir una distribución completa mediante una única expresión? • un diagrama tallo-hoja no es práctico pues se trata de demasiados datos • un histograma elimina los detalles y depende de la elección de las clases • la mediana y los percentiles registran algunos aspectos específicos de los datos. Si queremos tener una descripción de la forma global de la distribución, omitiendo valores atípicos y otras desviaciones del patrón general, la respuesta es sí. Histograma del puntaje de vocabulario y la aproximación por una curva gaussiana. Aproximamos al histograma por una curva suave que muestre la forma de la distribución sin las irregularidades del histograma. En este ejemplo se trata de la curva gaussiana que describiremos en las próximas secciones. Observe que la escala de frecuencias relativas (Frecuencias/ 947; 0.05 0.11 0.16 0.21 0.26) coincide en este caso con la escala de densidad porque la longitud de los intervalos de clase del histograma es 1. 5.1 Superposición de una curva normal a un histograma a mano Estadística (Q) FCEN-UBA • grafique una curva simétrica de altura = Dra. Diana M. Kelmansky 1 DS 2π 36 y puntos de inflexión en x ± DS . • la escala en el eje vertical es la frecuencia relativa, siempre que la longitud de la base de los rectángulos de clase sea 1. En cualquier otro caso, en el eje vertical se grafica (la frecuencia relativa de cada clase) / (longitud de la clase) de manera que el área de un rectángulo = (longitud de la base)*(altura del rectángulo)= frecuencia relativa Verifiquemos este procedimiento para la superposición que muestra la figura sabiendo que la media del puntaje es 6.9156, el desvío es 1.6305, la longitud del intervalo de clase es 1 y 1 DS 2π = 0.2447 5.2 Propiedades de una curva de densidad Como la frecuencia relativa de todas las observaciones es 1, requerimos que el área total bajo la curva sea 1. El área bajo la curva y sobre un intervalo, correspondiente a cualquier rango de valores de la variable, es la proporción de observaciones que caen en ese rango. La curva describe la forma de la distribución y el área bajo la curva = frecuencia relativa. Es llamada curva de densidad de la distribución. El eje vertical mide la frecuencia relativa/(longitud del intervalo de clase). Una curva de densidad con la forma apropiada suele ser una descripción adecuada del patrón global de una distribución. Los datos atípicos, que son desviaciones del patrón global, no están descriptos por la curva. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 37 Media y mediana en una curva de densidad simétrica Media y mediana en una curva de densidad asimétrica a derecha Las medidas de posición y dispersión también se aplican al caso de curvas de densidad. El p-ésimo percentil, xp , en una curva de densidad es el punto que deja a su izquierda un p % del área bajo la curva y el (100 - p) % restante, a la derecha. p % del área (100 - p) % del área xp En particular la mediana es el punto de áreas iguales, es decir, el punto que deja áreas iguales de cada lado. Si pensamos a las observaciones como pesos en una vara delgada la media es el punto en que la vara quedaría equilibrada al poner un fiel justo debajo de él. Esta interpretación se extiende a la curva de densidad. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 38 . La media es un punto de equilibrio de una curva de densidad. Las curvas de densidad simétricas son perfectamente simétricas a pesar que los datos reales rara vez mostrarán simetría perfecta. Debemos distinguir los parámetros poblacionales , la media = μ y el desvío = σ , de una curva de densidad de los números x y DS calculados a partir de las observaciones. 5.3 Distribuciones Normales o Gaussianas. Todas las distribuciones gaussianas tienen la misma forma. Vemos dos curvas normales con μ= 1 y μ=5 y σ=1. Dos curvas normales con diferente σ. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 39 Podemos localizar σ a ojo en una curva normal. A medida que nos movemos en ambas direcciones desde el centro μ de la curva, ésta aumenta su pendiente hasta un punto (punto de inflexión) en que la pendiente empieza a disminuir Los dos puntos en los cuales ocurre este cambio de curvatura están localizados a una distancia σ a cada lado del centro μ. Recuerde que μ y σ sólos no determinan la forma de una distribución en general. Éstas son propiedades de las distribuciones gaussianas. Existen otras distribuciones no gaussianas con forma de campana. Las curvas de densidad normal están descriptas por la siguiente ecuación x−μ 2 − ( ) 1 y= e σ (2) σ 2π Observación: la ecuación (2) de la curva queda completamente especificada cuando se conocen los valores de μ y σ. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 40 Las distribuciones normales proveen buenos modelos para • puntajes de pruebas tomadas en poblaciones grandes (pruebas habilidades escolares y muchas pruebas psicológicas), • mediciones cuidadosamente replicadas y de la misma calidad (datos de Newcomb tabla 2.1 sin outliers), • características de una población biológicamente homogénea (longitudes de las cucarachas, rendimiento de la soja y pérdida de humedad en carne de pollo envasada). Las distribuciones de las siguientes variables, en cambio, son generalmente asimétricas: • variables económicas (ingreso personal, ventas en firmas comerciales), • tiempos de sobrevida (de pacientes de cáncer luego de realizado un tratamiento), • tiempo de vida (de componentes mecánicos o electrónicas). A pesar que la experiencia puede sugerir si un modelo gaussiano es o no factible en un caso particular, es muy riesgoso suponer la normalidad de los datos sin inspeccionarlos. Observaciones • El desvío estándar no significa nada si los datos no son Normales o aproximadamente Normales • La media no describe el centro si los datos no son simétricos • La mediana y la distancia intercuartil pueden fallar si los datos forman grupos • El significado de las medidas resumen está atado a la forma de la distribución de los datos. 5.4 Propiedades de la distribución Normal o gaussiana Sabemos que una transformación lineal no modifica la forma global de una distribución. a) Cualquier variable, X*, obtenida de una variable X que se distribuye de acuerdo con la curva Normal con media μ y desvío σ (X ~ N(μ,σ2) ) mediante una transformación lineal, sigue siendo teniendo distribución Normal (es decir gaussiana). b) Si los valores, x, de la variable X se transforman por la variable transformada, X*, x* = a + b x con b > 0 tendrá media a + bμ y desvío bσ . c) Si una variable X tiene distribución normal con media μ y desvío σ entonces la variable estandarizada Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky Z= 41 X −μ σ tiene una distribución normal con media 0 y desvío 1 (N(0,1)). Esta es llamada distribución normal estándar. Cuando la distribución de los valores de una variable es aproximadamente normal, las observaciones son frecuentemente estandarizadas restándole la media y dividiéndolas por el desvío. La estandarización de una observación indica a cuantos desvíos se encuentra de la media y para qué lado. Ejemplo. Las alturas de las mujeres jóvenes argentinas están distribuídas (aprox.) normalmente con μ = 160 cm σ = 4 cm. La altura estandarizada Z= altura - 160 4 sigue una distribución normal estándar. Una mujer que mide 170 cm tiene una altura estandarizada Z= 170 - 160 = 2.5 4 es decir 2.5 desvíos estándar por encima de la media. Análogamente una mujer que mide 155 cm tiene una altura estandarizada Z= 155 - 160 = −125 . 4 es decir 1.25 desvíos estándar por debajo de la media. ¿Qué proporción de mujeres miden menos de 155 cm? Esta frecuencia relativa es el área bajo la curva N(160, 42) a la izquierda del punto 155. Como la altura estandarizada es -1.25, esta área es la misma que el área bajo la curva normal estándar por debajo de -1.25. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 42 El área bajo la curva y sobre el punto 155 es cero, por lo tanto la frecuencia relativa de los valores de la variable que son estrictamente menores que él (X < 155) es igual a la frecuencia relativa de los valores de la variable que son menores ó iguales que él (X ≤ 155). Esto no es verdad en conjunto de datos reales, que pueden contener la altura 155 cm. 5.5 Función de distribución acumulada. Si Z es una variable cuya función de densidad está dada por la curva normal estándar, el área bajo dicha curva para valores menores o iguales que z • es la frecuencia relativa de los valores de Z que son menores o iguales que z • se representa por φ(z) • se denomina Función de Distribución Acumulada de la variable Z • se calcula mediante la siguiente integral, que está tabulada para diferentes valores de z y también es calculada por los programas estadísticos usuales, Φ( z ) = z x2 − e 2 1 ∫ 2π − ∞ Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 43 5.6 Gráfico de probabilidad normal. Gráfico cuantil-cuantil. Un histograma o un diagrama tallo-hoja pueden revelar aspectos no normales en los datos como los outliers (Histograma de los datos de Newcomb ) o mostrar una pronunciada asimetría (ejemplo de gastos, tallo-hoja) Una medida más sensible para determinar si el modelo normal es adecuado para un conjunto de datos está provista por un gráfico cuantil-cuantil. Cuantil es la denominación alternativa a percentil cuando hablamos de proporciones en vez de porcentajes. La idea general de un gráfico cuantil-cuantil es comparar dos distribuciones graficando sus cuantiles (ó sus percentiles) uno versus el otro. Si las distribuciones son aproximadamente iguales sus cuantiles serán aproximadamente iguales. El gráfico cuantil-cuantil estará cerca de la recta y = x. Si nó, las desviaciones de esta recta mostrarán cómo difieren las distribuciones. también Estamos interesados en una aplicación de esta idea general: la comparación de la distribución observada de la variable, con la distribución normal. La idea de un gráfico cuantil-normal para un conjunto de observaciones es considerar a cada observación como el cuantil de la distribución observada y graficarlo contra el cuantil de la distribución normal estándar. La menor de 20 observaciones, es el cuantil 0.05 de los datos, porque 1/20 ó 0.05 de las observaciones son menores o iguales que ella. Graficamos cada observación contra el valor de la normal que deja la misma proporción de la distribución por debajo. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 44 Gráfico cuantil-normal para los datos del tiempo de paso de la luz de Newcomb. La mayoría de los puntos están cerca de una recta, indicando que un modelo gaussiano ajustaría bien. Los dos valores atípicos se desvían de la recta y muestra cómo responde el gráfico a colas pesadas a izquierda ó a outliers bajos. En una distribución asimétrica a izquierda las observaciones menores yacen notoriamente por debajo de la recta trazada por cuerpo principal de las observaciones mayores. El gráfico correspondiente a los datos del contenido calórico en salchichas de mezcla de carnes, muestra claramente dos grupos (clusters) y el outlier bajo. Es visible la asimetría a derecha del grupo de los valores más bajos por la curvatura de dichos puntos. Al trazar una recta por los primeros 4 puntos del grupo los otros cuatro quedan por encima de dicha recta. El diagrama tallo-hoja muestra muy claramente la distribución de este pequeño conjunto de datos, que es definitivamente no gaussiano. Comparar el diagrama tallo-hoja con el gráfico cuantil normal nos permite ver claramente como es el comportamiento de un gráfico cuantilnormal. Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 45 Gráfico cuantil-normal para los datos del gasto de los clientes en un almacén. La marcada asimetría a derecha de esta distribución se destaca al trazar una recta por los puntos que se encuentran más abajo, que corresponden a las observaciones menores. Las observaciones mayores están sistemáticamente por encima de esta recta, indicando asimetría a derecha. No se observan outliers individuales. Gráfico cuantil-normal para los datos del tiempo de paso de la luz de Newcomb con los outliers Estadística (Q) FCEN-UBA Dra. Diana M. Kelmansky 46 omitidos. Las únicas desviaciones importantes de la normalidad son los numerosos grupitos horizontales de datos. Estos representan observaciones con el mismo valor, debidas a la limitación en la precisión y no traen problemas al adoptar el modelo normal Los datos reales, casi siempre, mostrarán algún apartamiento del modelo gaussiano teórico. Es importante al examinar un gráfico cuantil-normal buscar formas que muestren un claro apartamiento de la normalidad. RESUMEN Una curva de densidad frecuentemente permite describir en forma compacta el patrón general de una distribución. El área por debajo de una curva de densidad es una frecuencia relativa. El área total es 1. La media μ (punto de equilibrio), la mediana (punto de áreas iguales) y otros percentiles pueden ser localizados bajo una curva normal. El desvío estándar σ no puede localizarse a ojo en la mayoría de las curvas de densidad. La media y la mediana coinciden para curvas de densidad simétricas, pero la media de una curva asimétrica a derecha está localizada más lejos hacia la cola larga que la mediana. Las distribuciones normales, ó gaussianas, están representadas por curvas simétricas con forma de campana. La media μ y el desvío estándar σ especifican completamente la distribución N(μ,σ2). La media es el centro de simetría y σ es la distancia desde μ hasta los puntos de inflexión de la curva. Todas las curvas normales coinciden cuando las mediciones están realizadas en unidades de σ alrededor de la media. Estas son llamadas mediciones estandarizadas. Si X tiene distribución N(μ,σ2) luego la variable estandarizada Z = (X-μ)/σ tiene distribución normal estándar N(0,1). Las frecuencias relativas de cualquier distribución normal pueden calcularse a partir de la distribución N(0,1).