TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA. MEDIDAS DE CONCENTRACIÓN. Medidas de localización. Medidas de dispersión. Coeficiente de variación. Momentos de una distribución de frecuencias. Estudio de asimetría y apuntamiento. Diagrama de caja. OBJETIVOS: ✔ Calcular estadísticos para resumir el centro, la dispersión y la forma de una distribución. Estudiar las propiedades de estos estadísticos. ✔ Explorar la propiedad de robustez o resistencia en relación a estos estadísticos ✔ Entender las limitaciones de las distintas medidas estudiadas y en qué situaciones estas medidas son apropiadas. ✔ Aprender a construir e interpretar los diagramas de cajas como gráfico que muestra visualmente información sobre la distribución. 1 Descripción numérica de una variable estadística (numérica) Objetivo: Resumir distintos aspectos de las distribuciones de frecuencias Interés de los resúmenes numéricos: Unos pocos números resumen toda la distribución. Complemento natural de la descripción gráfica. Facilitan la comparación de muestras con modelos de referencia y la comparación entre muestras. Medidas de localización: media, mediana, moda, media geométrica, media armónica, media cuadrática, medias recortadas, medias winsorizadas, cuartiles, cuantiles. Medidas de dispersión: Rango, recorrido intercuartílico, varianza, desviación típica, desviación media, MEDA, coeficiente de variación, … Medidas de forma: coeficiente de asimetría, coeficiente de apuntamiento. 2 ¿Qué es un estadístico? Cualquier función con los datos de la muestra destinada a cuantificar algún aspecto de la distribución de frecuencias. Cuando la muestra es representativa, los estadísticos muestrales son aproximaciones naturales de los parámetros poblacionales correspondientes definidos de manera análoga. EJEMPLOS n 1 m′ = n ∑ xik . k i= 1 Muestra: x1, x2,..., xn n 1 m = n ∑ ( xi − x) k . k i= 1 Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo x(1) ≤ x(2) ≤ ...≤ x(n) x(n): Máximo x(r): Estadístico de orden r, r = 1, ..., n. 3 Familias de estadísticos más importantes -MOMENTOS MUESTRALES: Momentos respecto al origen: Momento de orden k, k=1, 2, ...: n 1 m′ = n ∑ xik . k i= 1 Momentos respecto a la media: Momento de orden k, k=2, 3, ...: -ESTADÍSTICOS DE ORDEN: n M = 1n ∑ ( xi − x)k . k i= 1 Muestra: x1, x2,..., xn Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo x(n): Máximo x(1) ≤ x(2) ≤ ...≤ x(n) x(r): Estadístico de orden r, r = 1, ..., n. -CUANTILES: 0 ≤ p ≤ 1, p Punto que parte la distribución de frecuencias en dos trozos, a la izquierda p% y a la derecha (1-p)%. x np no entero. ( [ np ] + 1) 4 x p = 1 + x x np entero. ( [ np ] + 1) 2 ( [ np ] ) Medidas de localización (posición ó centro) (1) Sean x1, x2, …, xn n valores de una variable cuantitativa, para que m sea un promedio de estos n valores debe verificarse: ✔ Simetría: la medida no varía auque los valores sean considerados en orden diferente ✔ min( x1 , x2 ,..., xn ) ≤ m ≤ max( x1 , x2 ,..., xn ) ✔ Homogeneidad: para cualquier número real a el promedio de ax1 , ax2 ,..., axn es am 5 Medidas de localización (posición ó centro) (2) ✔ Media ✔ Mediana ✔ Moda ✔ Otros promedios: Media cuadrática Media armónica Media geométrica ✔ Trimedia ✔ Media k - recortada ó α % recortada ✔Percentiles 6 Media (1) Media (media aritmética ó media muestral) Muestra: x1, x2,..., xn 1 n X = ∑ xi n i= 1 Es el centro de gravedad de la distribución de frecuencias n ∑ (x − x) = 0 i= 1 i La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A n 2 min ∑ ( x − A) A i= 1 i 7 Media (2) Muestra tabulada: k k k ni -Variable discreta: X = ∑i = 1 ni xi = ∑i = 1 n xi = ∑i = 1 f i xi -Variable continua: (datos agrupados en k clases) 1 n X ≅ k 1 n ∑ i= 1 n i mi = k ∑ i= 1 f i mi Ej. Ácido úrico (datos en tema 2) datos X≅ X≅ X= k 1 n ∑ i= 1 k ∑ i= 1 n ni mi = 1 20 [2(3.5) + 5(4.5) + 6(5.5) + 4(6.5) + 2(7.5) + 1(8.5)] = 5.6 f i mi = 0.10(3.5) + 0.25(4.5) + 0.30(5.5) + 0.20(6.5) + 0.10(7.5) + 0.05(8.5) = 5.6 1 1 x = (4.9 + 5.3 + ... + 4.1) = 5.575 ∑ i n i= 1 20 Valor exacto de la media Error = |media- valor aproximado| = |5.575 – 5.6| = 0.025 En general el error al calcular la media aproximada con los datos agrupados está acotado | X − X agru |≤ 1 máximo{ A1 , A2 ,..., Ak } 2 8 Media (3) Falta de robustez de la media Ejemplo 1: Media = [ 0(4) + 1(4) + 2(1) ] / 9 = 0.6667 Media = [ 0(3) + 1(4) + 2(1) +6(1) ] / 9 = 1.333 Xi (valores) ni Xi (valores) ni 0 4 0 3 1 4 1 4 2 1 2 1 Total = 9 6 1 Total = 9 Ejemplo 2: Datos: 1, 2, 3, 4, 7, 8, 9 n=7 media = 4.858 1, 2, 3, 4, 7, 8, 2450 n=7 media = 353.6 9 Media (4) Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada de las medias. (x1, x2, ..., xn) = (x1, x2, ..., xk) ∪ (xk+1, xk+2, ..., xn) 1 X = ∑ x k k 1 1 kX + (n − k ) X X= ∑ x = n n n 1 i= 1 i= 1 i 1 X = ∑ x n− k n 2 i= k + 1 i 2 i Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6 nota media = 15(5) + 7.5(7) + ... + 6(9) 181.5 = = 6.368 15 + 7.5 + 6 28.5 En general con s grupos de tamaños n1, n2, ..., ns X= 1 n n X + n X + ... + ns X s xi = 1 1 2 2 ∑ n i= 1 n 10 Media (5) Media ponderada Media ponderada de k valores (x1, x2, ..., xk) con pesos (w1, w2, ..., wk) : ∑i = 1 k w1 x1 + w2 x2 + ... + wk xk = = ∑ k w1 + w2 + ... + wk i= 1 ∑i = 1 wi k wi xi wi k xi ∑j = 1 w j Si tomamos los pesos (p1, p2, ..., pk) de forma que sumen uno la media ponderada se calcula k como ∑ i= 1 pi xi Comprobamos como definiendo pi = wi k ∑ j= 1 wj ambas expresiones coinciden Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6 15(5) + 7.5(7) + ... + 6(9) = 6.368 15 + 7.5 + 6 11 Media (6) PROPIEDADES DE LA MEDIA: La suma de las desviaciones de la media a las observaciones es cero n ∑ (x − x) = 0 i= 1 i Cambios de origen y escala en los datos yi = a + b xi, i = 1, 2, …, n conllevan los mismos cambios en la media Y = a + bX La media de una suma es la suma de las medias x1 , x2 ,..., xn → X y1 , y2 ,..., yn → Y x1 + y1 , x2 + y2 , ..., xn + y n → X + Y La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A n ∑ i= 1 ( xi − A) 2 n ∑i = 1 ( xi − min x∈ ℜ A) 2 Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada (por los tamaños de los grupos) de las medias. 12 Otros promedios Muestra sin tabular n Media cuadrática M = ∑ x 2 k i i= 1 MQ = n Q 1 M = Media armónica n M = n G log( M G ) = MH ≤ MG ≤ X ≤ MQ i= 1 Muestra tabulada (variable continua) k xi2 ni MQ ≅ n 1 MH ≅ 1 k 1 ∑ ni n i = 1 xi ∑ i= 1 mi2 ni n 1 1 1 ni ∑ n i = 1 mi k i x x ...x 1 ∑ MH = 1 1 ∑ n x H i= 1 Media geométrica Muestra tabulada (variable discreta) 2 MG = n x1n1 x 2n2 ...x knk MG ≅ n m1n1 m2n2 ...mknk n 1 n ∑ log( xi ) n i=1 13 Mediana (1) Me Punto que parte la distribución en dos mitades del 50% a cada lado Observación central en la muestra ordenada Si n es impar Si n es par Me = X((n+1)/2) Me ∈ (X(n/2) , X(n/2 + 1) ) Me = (X(n/2) + X(n/2 + 1)) /2 Ejemplos: Datos 1: 1, 2, 3, 4, 6, 7, 8 n=7 Me = 4 media = 4.4 Datos 2: 1, 2, 3, 4, 5, 6, 7, 8 n=8 Me = 4.5 media = 4.5 Datos 3: 1, 3, 4, 2, 7, 2450, 8 n=7 Me = 4 1, 2, 3, 4, 7, 8, 2450 media = 353.6 14 Mediana (2) Histograma de frecuencias Polígono de frecuencias acumuladas 0.24 0.2 frec. 0.16 frec. 0.12 0.5 0.08 0.5 0.04 0 1.5 2 2.5 0.5 3 3.5 4 4.5 0 Cálculo de la mediana para datos agrupados: L j − L j− 1 n Me ≅ L j − 1 + ( − N j − 1 ) 2 N j − N j− 1 Me Nj n/2 Nj-1 15 Lj-1 Me Lj Mediana (3) Ejemplo cálculo de la mediana para una variable discreta a partir de la tabla de frecuencias Xi ni Ni fi Fi 1 20 20 0.2 0.2 2 60 80 0.6 0.8 3 20 100 0.2 1 1 0.75 0.5 0.25 1 Me = 2 2 3 16 Moda Mo = Punto donde se alcanza el máximo de la distribución de frecuencias. Hay distribuciones con varias modas locales (bimodales o multimodales) 5 frecuencia 4 3 2 1 0 1 2 3 4 5 6 7 8 Moda absoluta Modas relativas Intervalo modal 17 Posición relativa de media, mediana y moda 18 Posición relativa de media, mediana y moda Distribución con asimetría positiva CA>0 Distribución con asimetría negativa CA<0 3 3 2.5 2.5 D is trib u c ió n S im é tr ic a 2 2 1.5 1.5 1 1 0.5 0.5 f(x ) 0 0 Media Mediana Moda Moda M oda M e d ia n a M e d ia Mediana Media 19 Comparación media - mediana La elección de una medida de posición depende del criterio de comparación Media y mediana representan el centro de la distribución según criterios diferentes La Media es la solución del problema de mínimos cuadrados: n ∑ i= 1 La Mediana es la solución del problema de mínimas distancias: ( xi − X ) = 2 n ∑ i= 1 n min ∑i = 1 ( xi − x∈ ℜ xi − Me = x) 2 n min ∑ x∈ ℜ i= 1 xi − x Eficiencia: Para datos “normales”, la media es más eficiente que la mediana. La media utiliza “todas las observaciones”. La mediana sólo las centrales. Robustez: Insensibilidad frente a observaciones atípicas. - La media NO es robusta: una sola observación errónea puede hacer tomar a la media cualquier valor arbitrario. - La mediana es robusta: se necesitan casi el 50% de observaciones erróneas para llevar la mediana arbitrariamente lejos. 20 Ejemplo comparación media – mediana (1) Datos: 0, 3, 2, 6 f (a ) = 4 ∑ i= 1 n=4 | xi − a | = | 0 − a | + | 2 − a | + | 3 − a | + | 6 − a | f (a ) = 4 ∑ i= 1 ( xi − a ) 2 = (0 − a ) 2 + ( 2 − a ) 2 + (3 − a) 2 + (6 − a ) 2 21 Ejemplo comparación media – mediana (2) Datos: 0, 2, 4, 6, 8 f (a) = 5 ∑ i= 1 n=5 | xi − a | = | 0 − a | + | 2 − a | + | 4 − a | + | 6 − a | + | 8 − a | f (a) = 5 ∑ i= 1 ( xi − a ) 2 = (0 − a) 2 + (2 − a ) 2 + (4 − a ) 2 + (6 − a ) 2 + (8 − a ) 2 22 Cuantiles , Percentiles Percentil p % Punto que parte la distribución de frecuencias en dos trozos, a la izquierda p% y a la derecha (1-p)%. Con p en (0, 1) se habla de p - cuantil Definición: # {xi ≤ p-cuantil } ≥ n p # {xi < p-cuantil } ≤ n p p = 0.25, percentil 25 % -- primer cuartil = Q1 p = 0.50, percentil 50 % -- mediana = Q2 p = 0.75, percentil 75 % -- tercer cuartil = Q3 Muestra: x1, x2,..., xn x(1) ≤ x(2) ≤ ...≤ x(n). Muestra ordenada: x(1), x(2),..., x(n), xp = x ( [ np ] + 1) 1 x 2 ( [ np ] ) + x( [ np] + 1) np no entero. np entero. 23 Ejemplo cálculo de percentiles (1) Datos 70, 24, 68, 20, 50, 30,53, 40, 36, 57, 66 n=11 20 24 30 36 40 50 53 57 66 68 70 X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10) X(11) 1 n = n(0.25) = 11(0.25) = 2.75 4 Q1= X(3) = 30 1 n = n(0.5) = 11(0.5) = 5.5 2 Q2= Me =X(6) = 50 3 n = n(0.75) = 11(0.75) = 8.25 4 ¿¿Percentil 10 ?? Q3= X(9) = 66 n(0.10) = 11(0.10) = 1.1 Percentil 10 = X(2) = 24 24 Ejemplo cálculo de percentiles (2) Datos 24, 68, 20, 50, 30,53, 40, 36, 57, 66 n=10 20 24 30 36 40 50 53 57 66 68 X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10) 1 n = n(0.25) = 10(0.25) = 2.5 4 Q1= X(3) = 30 1 n = n(0.5) = 10(0.5) = 5 2 Q2= Me = 3 n = n(0.75) = 10(0.75) = 7.5 4 ¿¿Percentil 10 ?? X (5) + X ( 6) 2 = 40 + 50 = 45 2 Q3= X(8) = 57 n(0.10) = 10(0.10) = 1 Percentil 10 = X (1) + X ( 2) 2 = 20 + 24 = 22 2 25 Cálculo de los percentiles para variables continuas para datos agrupados Sea xp el percentil p100 % Determinamos en qué clase se encuentra utilizando las frecuencias relativas acumuladas Si xp está en [Lj-1 , Lj) recta que pasa por (Lj-1, Nj-1) y (Lj, Nj) y = N j− 1 + N j − N j− 1 Lj − Lj− 1 (x − L j− 1) np = N j − 1 + N j − N j− 1 L j − L j− 1 (xp − L j− 1) x p = (np − N j − 1 ) Nj L j − L j− 1 N j − N j− 1 + L j− 1 pn Nj-1 Lj-1 xp Lj 26 Ejemplo En la tabla siguiente se encuentran datos correspondientes al curso académico 1998 1999 publicados en la página web del Ministerio de Educación y Cultura referentes a los centros docentes y su oferta educativa en la enseñanza no universitaria. suponer que el mínimo de alumnos por centro es 5 y el máximo 2000. 27 Ejemplo centros eduacativos en C y L Frecuencia Frecuencia Frecuencia Marcas relativa relativa fi acumulada mi % relativa Fi 8,9 0,089 0,089 15 16,2 22,2 15,7 13,5 9,6 7,8 6 0,162 0,222 0,157 0,135 0,096 0,078 0,06 99.9 0,999 0,251 0,473 0,630 0,765 0,861 0,939 0,999 1 0,8 63 150,5 250,5 400,5 600,5 850,5 1500,5 frecuencia acumulada Menos de 25 (5 - 25) 26 – 100 101 – 200 201 - 300 301 – 500 501 – 700 701 – 1000 Más de 1000 (1001-2000) total tamaño de los centros eduactivos en CyL 0,6 0,4 0,2 0 0 400 800 1200 1600 Tamaño del centro tamaño de los centros eduactivos en CyL 0,24 0,21 frecuencia 0,18 0,15 0,12 0,09 0,06 0 400 800 Tamaño del centro 1200 1600 28 Ejemplo centros eduacativos en C y L 8 Marca mi 15 63 150,5 250,5 400,5 600,5 850,5 1500,5 Frecuencia relativa fi 0,089 0,162 0,222 0,157 0,135 0,096 0,078 0,06 Total mi * fi 1,335 10,206 33,411 39,3285 54,0675 57,648 66,339 90,03 352,365 Media = 352,365 = ∑ j= 1 mj f j Mediana entre 201 y 300 Interpolando tenemos mediana = 218,4 1287 300 − 201 Me ≈ 201 + − 609 2 811 − 609 n=1287 811 1287*0.473=811 1287*0.63=609 tamaño de los centros eduactivos en CyL 0,24 643 0,21 frecuencia 0,18 609 0,15 0,12 0,09 0,06 0 201 ¿? 300 400 800 Tamaño del centro 1200 1600 29 Otras medidas de localización (1) Media k - recortada X rec = 1 n− 2 k n− k ∑ x = i= k + 1 x ( k + 1) (i) + x + ... + x n − 2k (k+ 2) ( n− k ) Media α % recortada equivale a [n α / 100] - recortada Ejemplo: Media Datos: 10, 36, 45, 48, 52, 53, 60, 63, 84, 100 X= n 1 n ∑ i= 1 xi = 1 (10 + 36 + 45 + 48 + 52 + 53 + 60 + 63 + 84 + 100) = 53.1 10 Media 2-recortada ó 20% recortada: X rec = 1 10− 4 n− 2 ∑ i= 3 x( i ) = x(3) + x( 4) + ... + x(8) 10 − 4 = 45 + 48 + 52 + 53 + 60 + 63 = 47.6667 6 30 Otras medidas de localización (2) Media k - winsorizada Ejemplo: (k + 1) x( k + 1) + x + ( k + 1 ) x ∑ (i ) ( n − k + 1) i= k + 2 n− k − 1 Datos: 10, 36, 45, 48, 52, 53, 60, 63, 84, 100 X= Media X win = 1 n n 1 n ∑ i= 1 xi = 1 (10 + 36 + 45 + 48 + 52 + 53 + 60 + 63 + 84 + 100) = 53.1 10 Media 2-winsorizada: n− 3 x(3) + x( 3) + x( 3) + x( 4) + ... + x(8) + x(8) + x(8) X win = 3(45) + ∑ x(i ) + 3(63) = = 10 i= 4 45 + 45 + 45 + 48 + 52 + 53 + 60 + 63 + 63 + 63 = = 50.20 10 1 10 1 1 1 Trimedia = Q + Q + Q 4 2 4 1 2 3 31 Medidas de dispersión ✔ Rango ✔ Recorrido intercuartílico ✔ Varianza ✔ Desviación típica ó desviación estándar ✔Otras: desviación media, desviación mediana absoluta ✔Medidas de dispersión relativa Coeficiente de variación Otras 32 Ejemplo Ejemplo de dos muestras con la misma media y distinta dispersión, n = 18 en ambas media (desviación tópica) 0,000(4,265) 0,000(1,979) 1 0,000(5,790) 2 -9 -6 -3 0 3 6 9 33 Medidas de dispersión (1) Rango R = Máximo – Mínimo = x(n) – x(1) Recorrido intercuartílico RI = Q3 - Q1 Q1 Q2 Muestra 1 5 20 20 20 20 20 Muestra 2 5 5 5 5 20 20 Muestra 3 5 7 9 12 15 17 Muestra 1 5 7 9 12 15 17 19 Q3 20 20 20 20 19 20 20 Muestra 2 5 7 9 12 15 17 19 20 Muestra 3 n R RI Media Muestra 1 Muestra 2 Muestra3 8 8 8 15 15 15 0 15 10 18.125 12.5 13 34 5 7 9 12 15 17 19 20 Medidas de dispersión (2) Varianza Promedio de las desviaciones cuadráticas en torno a la media. 1 n S = ∑ ( xi − X ) 2 n i= 1 2 Cuasivarianza ó varianza corregida Desviación típica S = √S 2 tiene las mismas unidades que la variable Expresión abreviada: S = 2 n 1 n ∑ i= 1 2 x i − X 2 S= 1 n S = ( xi − X ) 2 ∑ n − 1 i= 1 2 1 n ( xi − X ) 2 ∑ n i= 1 La varianza de x1, x2, ..., xn puede calcularse como n n ∑∑ i=1 j=1 (x i - x j ) 2 2n 2 35 Medidas de dispersión (3) La varianza siempre es positiva S a2+ bx = b 2 S x2 S2 ≥ 0 La varianza cero ⇔ todos los valores iguales S a + bx = | b | S x Ejemplo Muestra 1 Muestra 2 Muestra 3 6 6 6 6 6 6 Q1 7 8 6 8 6 7 Q2 8 9 8 10 9 10 Q3 10 10 10 10 10 10 Muestra 1 Muestra tabulada: Muestra 1 Muestra 2 Muestra 3 Muestra 2 n 8 8 8 Media 8 8 8 R 4 4 4 RI 3 4 4 S 1.5 1.73 1.803 Muestra 3 k S 2 = ∑ ( xi − X ) 2 f i . Variable discreta: Variable continua:2 i= 1 k S ≅ ∑ ( mi − X )2 f i . =1 (datos agrupados, mi=marca de iclase) 36 Ejemplo 50 50 40 40 30 30 20 20 10 10 0 -10 0 10 20 30 40 RAND1 0 -10 0 10 20 30 40 50 45 40 35 30 25 20 15 10 5 0 -10 RAND2 0 10 20 30 RAND3 Rand1 Rand2 Rand3 Varianza = 14,6842 Varianza = 24,5909 Varianza = 52,9725 S = 3,832 S = 4,95892 S = 7,27822 37 40 Dispersión Con los datos divididos en k grupos cada uno con ni , xi , Si2 n X + n X + ... + ns X s X= 1 1 2 2 n S = 2 k ∑ i= 1 ( ) 2 ni Xi − X + n Variación ENTRE grupos k ∑ i= 1 i=1, 2, …, k ni 2 Si n Variación DENTRO del grupo Ejemplo: Un fabricante de pequeñas fotocopiadoras para oficina, le paga a sus vendedores un pequeño salario base más una comisión. Un vendedor afirma que la estructura salarial es discriminatoria para las mujeres. Los salarios base actuales de nueve vendedores: Meses como empleado Salarios (en miles de $) 6 7.5 10 8.6 12 9.1 18 10.3 30 13.0 5 6.2 13 8.7 15 9.4 21 9.8 Sexo Hombres Hombres Hombres Hombres Hombres Mujeres Mujeres Mujeres Mujeres n media varianza Desviación típica Hombres 5 9.7 4.415 2.10119 Media = 9,17778 Varianza = 3,56944 S = 1,8893 Mujeres 4 8.525 2.60917 1.61529 38 Otras medidas de dispersión Desviación media absoluta 1 n | xi − X | ∑ n i= 1 Desviación mediana absoluta (MEDA): MEDA = Mediana de (|x1 - Me|, |x2 - Me|, ...,|xn – Me| ) (p-cuantil, (1-p)-cuantil) contiene al (1-2p)100 % de las observaciones (1-p)-cuantil - p-cuantil Por ejemplo P90 – P10 P 75 – P 25 Q3 -Q1 39 Dispersión relativa: coeficiente de variación S CV = X Sólo para variables positivas. Relativiza la dispersión en función de la magnitud (escala) de las observaciones. No tiene unidades. Adimensional. Facilita la comparación. 40 Dispersión relativa: otras medidas Medida de dispersión Razón intercuartil Q3 − Q1 Me Coeficiente de variación mediana Recorrido relativo Medida de centro S Me X ( n ) − X (1) X Coeficiente de variación cuartílica Q3 − Q1 Q3 + Q1 41 Desigualdad de Chebychev (1) Relación media - desviación típica ( X − kS , X + kS ) contiene al menos el ( 1 100 1 − 2 % k de las observaciones ) 1 fr xi − X ≤ kS ≥ 1 − 2 , k > 0 k ( ) ( ) ( ) ( ) ( ) fr X − X ≤ 2 S ≥ 1 − fr X − X ≤ 3S ≥ 1 − fr X − X ≤ 4 S ≥ 1 − fr X − X ≤ 5S ≥ 1 − fr X − X ≤ 6S ≥ 1 − 1 22 1 32 1 42 1 52 1 62 = 0.7500, k = 2 = 0.8888, k = 3 = 0.9375, k = 4 = 0.9600, k = 5 = 0.9722, k = 6 42 Desigualdad de Chebychev (2): Ejemplo En un laboratorio se hace una prueba de impureza en 15 frascos de un determinado compuesto químico. Los resultados en % fueron: 0,04 0,14 0,17 0,19 0,22 0,06 0,14 0,17 0,21 0,24 0,12 0,15 0,18 0,021 0,025 Media = 0.166 S2 = 0,0034 S = 0,058 La desigualdad de Chebychev nos dice que: al menos el 75 % de los frascos (en este caso 11) están en (X - 2 S, X + 2 S ), o sea, en (0,166 – 2(0,058), 0,166–2(0,058)) (0,050, 0,282) Si contamos en estos datos tenemos 14 de los 15 en este intervalo , lo cual representa el 93 % (media - 3 S, media + 3 S ) (-0,008, 0,340) contiene al menos el 88,88 % de las observaciones (media - 4 S, media + 4 S ) (-0,066, 0,398) contiene al menos el 93,75 % de las 43 observaciones Desigualdad de Chebychev (3) Ejercicio Si los paquetes de café llenados en un proceso tienen un peso medio de 500 gr con una desviación de 3 gr ¿Qué porcentaje de paquetes como mínimo debe contener entre 495 y 505 gr? 505 – 495 =10 media ± 5 5 = k S= k 3 k = 5 / 3 En (media – 5/3 S, media + 5/3 S) = (495, 505) está al menos el 64 % 1− 100% = 64% 2 5 / 3 ( 1 ) 44 Típificación ó estandarización x1 , x2, ..., xn datos originales (calculamos la media y la desviación típica) zi = xi − X S i = 1,2,... z1, z2, ..., zn datos tipificados o estandarizados Z = 0; SZ = 1 Características de una muestra tipificada: Una muestra tipificada tiene media 0 y desviación típica 1. Una variable tipificada no tiene unidades. La estandarización facilita la comparación de la forma de las distribuciones (elimina los factores posición y dispersión). 1 = 0.7500, k = 2 22 1 fr ( − 3 ≤ Z ≤ 3) ≥ 1 − 2 = 0.8888, k = 3 3 1 fr ( − 4 ≤ Z ≤ 4 ) ≥ 1 − 2 = 0.9375, k = 4 4 fr ( − 2 ≤ Z ≤ 2 ) ≥ 1 − 45 Ejemplo Un estudiante obtuvo 84 de 100 puntos posibles en el examen final de matemáticas, en el que la nota media fue 76 y S = 10. En el examen de Física obtuvo 90 de los 100 puntos posibles, siendo la media 82 y S =16. ¿En qué examen sobresalió más? 84 − 76 = 0,8 10 90 − 82 = 0,5 16 Matemáticas Física 46 Estudio de la forma de una distribución de frecuencias ✔ Simetría y asimetría ✔Apuntamiento ✔Unimodalidad y multimodalidad 47 Estudio de la forma: simetría Medidas de forma: asimetría y curtosis Distribución simétrica. Distribución asimétrica positiva o a la derecha. Distribución asimétrica negativa o a la izquierda. 48 Estudio de la forma: gráfico de simetría Muestra: x1, x2,..., xn x(1) x(2) x(3) x(4) … Me ... x(n-3) x(n-2) x(n-1) x(n) Muestra ordenada: x(1), x(2),..., x(n) Puntos del gráfico de simetría: Asimetría a la derecha simetría ( Me-X(1) , X(n)-Me ) ( Me-X(2) , X(n-1)-Me ) ( Me-X(3) , X(n-2)-Me ) x(n+1-i) – Me Asimetría a la izqierda Encima de la mediana …………………… ( Me-X(i) , X(n+1-i) -Me ) ………………………. ( Me-X(n) , X(1) -Me ) Me – x(i) Debajo de la mediana 49 Estudio de la forma: asimetría Coeficientes de asimetría n x1 , x2, ..., xn datos originales CA = z1, z2, ..., zn datos tipificados Distribución simétrica: 1 n ∑ i= 1 ( xi − X ) 3 S3 CA = n 1 n ∑ i= 1 xi − X 1 = n ∑ S i= 1 n 3 zi3 CA≅0 Distribución asimétrica positiva: CA>0 (cola derecha más pesada) Distribución asimétrica negativa: CA<0 (cola izquierda más pesada) Coeficiente de asimetría de Yule Coeficiente de asimetría de Kelly (adimensional) K= B= (Q3 − Me) − ( Me − Q1 ) Q3 − Q1 ( P90 − Me) − ( Me − P10 ) ( P90 − P10 ) = − Me 2 2 50 Estudio de la forma: apuntamiento (1) 51 Estudio de la forma: apuntamiento (2) Coeficientes de apuntamiento o curtosis: Medida de la importancia de las colas de la distribución n x1 , x2, ..., xn datos originales Cap = z1, z2, ..., zn datos tipificados ∑ i= 1 ( xi − X ) 4 S4 x − X = 1n ∑ i S i= 1 n 4 1 n 4 Cap = ∑ zi n i= 1 Distribución “normal” Cap ≅ 3 Distribución más apuntada Cap > 3 Distribución menos apuntada Cap < 3 Nota: Algunos autores utilizan Cap – 3 1 n 52 Diagrama de cajas Resumen “rápido” de una distribución de frecuencias de una muestra utilizando cinco estadísticos: Los cuartiles (Q1, Me, Q3 )y las observaciones extremas: (máximo y mínimo) Aporta información rápida sobre posición dispersión y forma de la distribución. Límite inferior: Límite superior: LI = Q1-1.5(Q3-Q1) LS = Q3+1.5(Q3-Q1) Con datos “normales” el intervalo (LI, LS) contiene ≅ 99% Caja: Q1, Me, Q3. (contiene el 50% de datos) Patas: la observación más grande y la más pequeña en (LI, LS) Observaciones fuera de (LI, LS): Posibles datos anómalos (outliers), errores de medición, errores de tecleado, etc. Box-and-Whisker Plot 0 1 2 3 4 5 RATE 6 Box-and-Whisker Plot 7 8 9 10 6 8 10 TRKS 12 14 16 53 Ejercicio Construir el diagrama de caja para los dos conjuntos de datos: Datos 1: 11, 16, 10, 3, 18, 13.5, 20, 4, 13, 11, 14 Datos 2: 11, 18, 11, 13, 1.2, 27, 16, 0.3, 10, 54 Ejemplos (1) Count = 100 Histograma Count = 100 Histograma Average = -0,0640857 30 Average = 9,519 30 25 Median = -0,075049 20 10 0 -2,1 -1,1 -0,1 0,9 1,9 2,9 variable_1 Variance = 0,750669 Standard deviation = 0,866411 freque ncy frequency 40 Median = 9,6799 20 15 Variance = 1,23371 Standard deviation = 1,11073 10 5 0 6,1 8,1 10,1 12,1 14,1 variable_2 Minimum = -1,85481 Maximum = 1,80786 Range = 3,66267 Box-and-Whisker Plot -1,9 -0,9 0,1 1,1 Box-and-Whisker Plot Lower quartile = 8,77181 Upper quartile = 10,2807 Interquartile range = 1,50884 Lower quartile = -0,681725 Upper quartile = 0,474407 Interquartile range = 1,15613 2,1 variable_1 6,3 distance above median 1,6 Coeff. of variation = -1351,96% 1,2 0,8 0,4 0 0,4 0,8 1,2 distance below median 1,6 2 7,3 8,3 9,3 10,3 11,3 12,3 Skewness = -0,551752 Kurtosis = 0,0989451 13,3 variable_2 Symmetry Plot distance above median Skewness = 0,0626271 Kurtosis = -0,366943 Symmetry Plot 2 0 Minimum = 6,38084 Maximum = 11,6511 Range = 5,27026 Coeff. of variation = 11,6685% 4 3 2 1 0 0 1 2 3 4 distance below median 55 Ejemplos (2) Count = 100 Histograma 30 Average = 0,852294 30 Median = 0,768443 20 10 0 -0,1 0,9 1,9 2,9 3,9 variable_3 Average = 4,74735 25 frequency frequency 40 Count = 100 Histograma 20 Median = 4,84373 15 10 5 Variance = 0,25616 Standard deviation = 0,506122 0 3 ,1 4,1 5 ,1 6,1 7,1 variable_4 Minimum = 0,0804361 Maximum = 2,35899 Range = 2,27855 Box-and-Whisker Plot Minimum = 3,24821 Maximum = 6,02834 Range = 2,78013 Box-and-Whisker Plot Lower quartile = 4,31734 Upper quartile = 5,21241 Interquartile range = 0,895065 Lower quartile = 0,471769 Upper quartile = 1,06874 Interquartile range = 0,596966 0 ,4 0,8 1 ,2 1,6 2 2,4 variable_3 distan ce above med ian Symmetry Plot 3,2 Coeff. of variation = 59,3835% 1 ,6 1 ,2 0 ,8 0 ,4 3,7 0 0 ,4 0 ,8 1,2 1 ,6 4,7 5,2 5,7 6,2 Skewness = -0,40001 Kurtosis = -0,29679 variable_4 Symmetry Plot 1,6 Coeff. of variation = 12,5334% 1,2 0,8 0,4 0 0 0 4,2 Skewness = 0,887279 Kurtosis = 0,515766 distance above median 0 Variance = 0,354031 Standard deviation = 0,595005 0,4 0,8 1,2 1,6 distance below median distance below median 56 Ejemplos (3) Count = 100 Histograma Average = 0,88735 50 30 Average = 1,03167 40 Median = 0,890489 20 10 0 0 0,3 0,6 0,9 1,2 1,5 variable_5 Variance = 0,0427095 Standard deviation = 0,206663 frequency frequency Count = 100 Histograma 40 30 Median = 0,734301 20 10 0 -0,4 1,6 5,6 7,6 9,6 Minimum = 0,0157658 Maximum = 5,52775 Range = 5,51198 Box-and-Whisker Plot Lower quartile = 0,732473 Upper quartile = 1,03123 Interquartile range = 0,298757 0 0,3 0 ,6 0,9 1,2 1,5 variable_5 Lower quartile = 0,335971 Upper quartile = 1,37452 Interquartile range = 1,03854 0 Skewness = -0,0830608 Kurtosis = 0,00188654 1 2 3 4 5 6 Skewness = 1,907 Kurtosis = 5,2778 variable_6 distance above median Coeff. of variation = 23,2899% 0 ,6 0 ,5 0 ,4 0 ,3 0 ,2 0 ,1 0 0 0,1 0 ,2 0,3 0,4 distance below median 0,5 0,6 distance above median Symmetry Plot Symmetry Plot Variance = 0,898493 Standard deviation = 0,947889 variable_6 Minimum = 0,35354 Maximum = 1,41765 Range = 1,06411 Box-and-Whisker Plot 3,6 5 Coeff. of variation = 91,8793% 4 3 2 1 0 0 1 2 3 4 5 distance below median 57 Ejercicio (A) Para cada una de las variables de la tabla siguiente escribir la letra del histograma correpondiente 58 Ejercicio (B) 1 4 3 2 5 6 7 59 Ejercicio (B) 2 1 3 5 4 6 7 60 Ejercicio (C) Empareja cada uno de los histogramas con su diagrama de caja correspondiente y explica porqué haces tal asignación 61 Estudio de la concentración Estudiamos la CONCENTRACIÓN para variables cuantitativas positivas en las cuales la suma de los valores individuales tiene el sentido de un “todo” del cual cada individuo participa con una “parte”. La idea es analizar el grado de homogeneidad ó igualdad o falta de estas en el reparto del “todo”. Ejemplos: ✓ la riqueza de la población de un país ✓ Los salarios de los empleados de una empresa o de un sector ✓ La población de los municipios de una provincia. No tiene sentido con variables como la altura, el número de pie, etc La concentración oscila entre una situación en la cual un individuo tiene el “todo” y el resto no tiene nada (máxima concentración) y una situación en la que todos los individuos tienen exactamente la misma cantidad (concentración mínima). Contruiremos el índice de Gini para medir las situaciones intermedias y la curva 62 de Lorenz para visualizar el grado de concentración. Concentración: Curva de Lorenz Ejemplo: Ui cantidades acumuladas por los individuos Fi frecuencia acumulada de individuos 63 Concentración: Índice de Gini (1) Se ordenan los valores de la variable (ó las clases) de menor a mayor. Se comparan cantidades acumuladas por los individuos (o clases) con frecuencias acumuladas de individuos q i = x i ni ui = qi k ∑ j= 1 ni x i ni = k ∑ qj n fi = i = n j= 1 x jnj ni k ∑ j= 1 ni Ui = Fi = i ∑ j= 1 uj IG = i ∑ j= 1 Índice de Gini fj ∑ ( Fi − U i ) i ∑ Fi − 1 i El índice de Gini toma está entre 0 y 1. El índice de Gini toma el valor 0 cuando hay igualdad, i.e. todos los individuos disponen de igual “parte” del “todo” (mínima concentración). El índice de Gini toma el valor 1 cuando hay máxima desigualdad, i.e. un individuo dispone del “todo” y el resto de individuos no tienen ninguna “parte” (máxima concentración). 64 Concentración: Índice de Gini (2) 3 ejemplos: Cliente Ventas ni Fi qi Ui Fi - Ui A 100 1 0.25 100 0.188 B 200 1 0.50 200 0.06 30.18 C 625 1 0.75 625 D 675 1 1 675 8 0.57 8 1 total 1600 4 2.5 1 600 1.82 9 Cliente Ventas ni Fi qi Ui A 400 1 0.25 400 0.25 B 400 1 0.50 400 C 400 1 0.75 D 400 1 total 1600 4 IG = Fi - Ui 0.313 IG = 0.172 0.672 = 0.448 1.5 0 0.672 Cliente Ventas ni Fi qi Ui Fi - Ui 0 A 0 1 0.25 400 0 0.25 0.50 0 B 0 1 0.50 400 0 0.50 400 0.75 0 C 0 1 0.75 400 0 0.75 1 400 1 0 D 1600 1 1 400 1 0 2.5 1600 2.5 0 total 1600 4 2.5 1600 1 1.5 IG = 1.5 =1 1.5 0 = 0 1.5 65 Ejemplo curva de Lorenz (2) 66 Ejemplo concentración Conclusión: Concentración baja en las dos zonas. Menor concentración en la zona 2. 67 Más sobre concentración Existen otros índices, por ejemplo, Índice de Theil: x1 , x2, ..., xk con frecuencias n1, n2, …, nk respectivamente T = log(n) + k ∑ i= 1 ni ci log(ci ) con ci = xi k ∑ j= 1 x jnj Cuando existe equidistribución T= 0 y cuando un individuo acapara “todo” T= log(n). Otra definición del índice IT = T / log(n) 68 Ejemplo curva de Lorenz: población CyL (1) DISTRIBUCIÓN DE LOS MUNICIPIOS POR EL NÚMERO DE HABITANTES DE DERECHO. AÑO 1996. Ávila NÚMERO DE MUNICIPIOS EN CADA INTERVALO DE HABITANTES De De De De De De De De De Menos De 101 De 501 Total 1.001 a 2.001 a 3.001 a 5.001 a 10.001 a 20.001 a 30.001 a 50.001 a 100.001 a de 101 a 500 a 1.000 2.000 3.000 5.000 10.000 20.000 30.000 50.000 100.000 500.000 248 34 159 30 9 8 4 3 0 0 1 0 0 Burgos 371 118 192 37 9 8 2 2 0 1 1 0 1 León 211 1 62 58 54 11 14 4 4 1 0 1 1 Palencia 191 39 111 18 11 6 2 3 0 0 0 1 0 Salamanca 362 32 245 53 20 4 2 3 2 0 0 0 1 Segovia 208 56 109 22 12 4 1 3 0 0 0 1 0 Soria 183 81 81 9 3 3 3 2 0 0 1 0 0 Valladolid 225 34 125 27 22 7 2 5 1 1 0 0 1 Zamora Castilla y León España 248 6 154 60 25 0 0 1 1 0 0 1 0 2.247 401 1.238 314 165 51 30 26 8 3 3 4 4 8.077 797 2.934 1.169 1.044 547 475 516 309 119 57 55 49 Más de 500.000 0 0 0 0 0 0 0 0 0 0 6 69 Ejemplo curva de Lorenz: población CyL (2) Avila 0.0 0.0 0.2 0.2 0.4 0.4 U U 0.6 0.6 0.8 0.8 1.0 1.0 Castilla y Leon 0.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 1.0 P P Burgos 0.0 0.2 0.4 0.6 P 0.8 1.0 0.0 0.0 0.2 0.2 0.4 0.4 U U 0.6 0.6 0.8 0.8 1.0 1.0 Zamora 0.0 0.2 0.4 0.6 P 0.8 1.0 70