Estadística Descriptiva Indicadores Estadísticos Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Estadística Descriptiva Hasta ahora se ha tratado de organizar la información, resumiéndola a través de los cuadros de frecuencias y de la representación gráfica, no obstante en ocasiones se requiere de algunas medidas que en forma muy directa puedan indicar rasgos importantes de la muestra, como su magnitud, su homogeneidad, su simetría, etc. Al proceso de resumir los datos por medio de indicadores, se denomina reducción de datos (Behar and Yepes, 1996). • Tendencia central • Indicadores de posición • variabilidad • Simetría Indicadores de tendencia central La media aritmética (X̄) de un conjunto de datos: x1 , x2 , . . . , xn se define como: X̄ = n X xi i=1 n Si los datos corresponden a una variable discreta que está organizada en una tabla de frecuencias, entonces: X̄ = m X ni xi i=1 n = m X i=1 fi xi Media aritmética En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 ni 9 11 12 10 4 4 fi 0.18 0.22 0.24 0.2 0.08 0.08 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 ¿Cuál es la media aritmética? Media aritmética En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 ni 9 11 12 10 4 4 fi 0.18 0.22 0.24 0.2 0.08 0.08 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 X̄ = 2,02 En promedio una familia presenta 2.02 personas menores de 12 años Propiedades de la media aritmética • La suma de las desviaciones de los datos con respecto a la media es cero. n X (xi − X̄) = 0 i=1 • La suma de los cuadrados de las desviaciones de los datos con respecto a un valor a es mínimo, cuando a es igual al promedio. f (a) = n X (xi − a)2 tiene su mínimo en a = X̄ i=1 • Si todos los datos son iguales a k, entonces el promedio es k Si xi = k, i = 1, . . . , n entonces X̄ = k Propiedades de la media aritmética • Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha muestra resulta multiplicando por la misma constante Si yi = axi , i = 1, . . . , n entonces Ȳ = aX̄ • Si Zi = axi + byi , i = 1, . . . , n, donde a y b son constantes, entonces: Z̄ = aX̄ + bȲ Esta propiedad puede generalizarse a la combinación lineal de k variables y puede resumirse diciendo que la media es un operador lineal Propiedades de la media aritmética • Si una muestra de n elementos, se divide en k muestras excluyentes y exhaustivas, que tienen n1 , n2 , . . . , nk elementos, con promedios x̄1 , x̄2 , . . . , x̄k respectivamente, entonces el promedio global estará dado por: k X̄ = X ni x̄i n1 x̄1 + n2 x̄2 + . . . + nk x̄k = n n i=1 Media aritmética para datos agrupados Debido a que hay perdida de individualidad de la información al agrupar datos, el calculo de la media se hace de forma aproximada. Para ello se hace el siguiente supuesto : Los datos en cada intervalo están uniformemente distribuidos. Si esto es cierto, entonces: X̄i = (Li−1 + Li )/2 se puede considerar la muestra total, dividida en m submuestras constituidas por los datos que pertenecen a cada uno de los intervalos (propiedad 6) Media aritmética Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuál es el promedio del conjunto de datos? Media aritmética Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 En promedio los cilindros de prueba tuvieron una resistencia de 254.36 kg/cm2 Mediana La mediana tiene el objetivo de dividir el conjunto de datos en dos partes iguales, el 50 % de los datos son inferiores a la mediana y el 50 % superiores. Si X[1] , . . . , X[n] corresponde a un conjunto de datos ordenados de manera no descendente de una variable X, entonces la mediana puede ser calculada como: ( X[(n+1)/2] Si n es impar M e = X[n/2] +X[(n+1)/2] Si n es par 2 Mediana Si los datos están agrupados en m intervalos, la mediana es el punto cuya frecuencia absoluta acumulada es n/2 o la relativa acumulada es 0.5, es decir la mediana es el valor x tal que F (x) = 0,5. Mediana Si los datos están agrupados en m intervalos, la mediana es el punto cuya frecuencia absoluta acumulada es n/2 o la relativa acumulada es 0.5, es decir la mediana es el valor x tal que F (x) = 0,5. Una vez localizado el intervalo que contiene la mediana y utilizando la función de distribución empírica se puede calcular la mediana como: M e = Li−1 + 0,5 − F (Li−1 ) Ci f Mediana Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuál es la mediana del conjunto de datos? Mediana Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 El 50 % de los cilindros de probados tuvo una resistencia igual o inferior a 252.71kg/cm2 Moda Cuando la variable de interés, es de naturaleza discreta, la moda Mo corresponde al dato de la muestra que tiene mayor frecuencia. Cuando se trata de una variable de naturaleza continua, la moda corresponde al(os) valor(es) alrededor del(os) cual(es) se produce una mayor concentración de datos, es decir a los puntos de mayor densidad de frecuencia. A diferencia de los otros indicadores este es el único que puede ser calculado cuando observamos variables cualitativas. Moda En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 ni 9 11 12 10 4 4 fi 0.18 0.22 0.24 0.2 0.08 0.08 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 ¿Cuál es la moda? Moda En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 ni 9 11 12 10 4 4 fi 0.18 0.22 0.24 0.2 0.08 0.08 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 Mo = 2 El número de personas menores de 12 por familia que más frecuencia obtuvo en la muestra fue 2 Moda Como sólo se dispone de la función de densidad empírica que se construyó a partir de la muestra, se puede definir un procedimiento que permita acercarse a la determinación de los mencionados máximos. Fig: 0.006 0.004 0.002 0.000 Densidad 0.008 0.010 0.012 Histograma de frecuencias absolutas para la resistencia de cilindros de concreto 200 220 240 260 Resistencia 280 300 320 340 • La moda se encuentra en el intervalo de mayor frecuencia. • Si las dos clases adyacentes, tienen igual densidad de frecuencia, se puede suponer que Mo se encuentra en el punto medio de la clase que la contiene. En caso contrario, Mo estará desplazada un poco hacia la clase adyacente de mayor densidad de frecuencia Moda Cuando se tiene datos agrupados para una variable continua, la moda puede ser calculada, primero ubicando el intervalo que tenga la mayor frecuencia y luego aplicando la siguiente formula: M o = Li−1 + fi /Ci − fi−1 /Ci−1 Ci 2(fi /Ci ) − (fi−1 /Ci−1 ) − fi+1 /Ci+1 Si los intervalos son de igual longitud: M o = Li−1 + fi − fi−1 C 2fi − fi−1 − fi+1 Moda Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuál es la moda del conjunto de datos? Moda Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 El mayor número de resistencias de los cilindros se encuentra alrededor de 251kg/cm2 Algunas consideraciones La sensibilidad es una cualidad de un indicador que permite detectar cambios producidos en la muestra. Mucha sensibilidad en un indicador puede ser contraproducente, puesto que cambios irrelevantes (valores extremos) en la muestra pueden producir grandes cambios en el indicador, lo cual puede prestarse para interpretaciones equivocadas. Ejemplo: Suponga que se está interesado en los gastos de los estudiantes en la universidad y se observó lo siguiente: Gasto(xi ) % de personas (fi ) 1.700 0.1 3.000 0.15 5.000 0.4 6.500 0.3 70.000 0.05 ¿Que indicador de centralidad representa mejor al conjunto de datos? Cuartiles de una distribución Son tres valores Q1 , Q2 , Q3 que dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo número de datos. Es decir que el 20 % de los datos son menores que Q1 , el 50 % de los datos son menores que Q2 (es igual a la mediana) y el 75 % de los datos son menores que Q3 . Cuartiles de una distribución Son tres valores Q1 , Q2 , Q3 que dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo número de datos. Es decir que el 20 % de los datos son menores que Q1 , el 50 % de los datos son menores que Q2 (es igual a la mediana) y el 75 % de los datos son menores que Q3 . Para calcular Q1 se identifica primero el intervalo donde se acumula más del 25 % y se aplica la siguiente formula: Q1 = Li−1 + 0,25 − F (Li−1 ) Ci fi Q3 se calcula de la misma forma pero ubicándose donde se acumula más del 75 %. Cuartiles de la distribución Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuales son los cuartiles del conjunto de datos? Diagrama de cajas y alambres Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su sencillez la hace más útil, sobre todo en situaciones donde se hace necesario comparar dos o más distribuciones. 272 Q3 251 Q2 227 Q3+1.5RIC Q1 158 341 Fig: Diagrama de cajas y alambres Q1−1.5RIC Para su calculo se utilizan: Para la caja: Q1 , Q2 , Q3 Cerco superior Q3 + 1,5RIC, Cerco inferior Q1 − 1,5RIC donde: RIC = Q3 − Q1 Diagrama de cajas y alambres Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su sencillez la hace más útil, sobre todo en situaciones donde se hace necesario comparar dos o más distribuciones. 341 Q3+1.5RIC 272 Q3 251 Q2 227 Q1 158 Fig: Diagrama de cajas y alambres Q1−1.5RIC Los alambres se gráfican con el data más próximo al cercos sin superarlos En caso de que algún dato se encuentra fuera de los cercos se grafican como puntos y se consideran atípicos Diagrama de cajas y alambres Un diagrama de cajas y alambres es útil para los siguientes propósitos: 1 Para identificar la localización de los datos alrededor de la mediana. 2 Para hacerse una buena idea de la dispersión de los datos, basándose en la longitud de la caja. Además se aprecia el rango de los datos. 3 Permite observar el grado de asimetría de una distribución, comparando las proporciones de la caja que queda a los lados de la mediana. 4 Útil para identificar posibles valores atípicos (fuera de los cercos) Ejemplo Permite observar el grado de asimetría de una distribución, comparando las proporciones de la caja que queda a los lados de la mediana. Fig: Diagrama de cajas y alambres ● ● ●●● ●● ●● ● ● ● ●●● −2 ●●● ● ● ● ●● ● ●● ●● 0 2 x 4 6 Ejemplo Permite observar el grado de asimetría de una distribución, comparando las proporciones de la caja que queda a los lados de la mediana. 8 10 Fig: Diagrama de cajas y alambres de la concentración de CO por hora 6 4 ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Concentración de CO (ppm) ● ● ● 0 1 2 3 4 5 6 7 8 9 11 Hora 13 15 17 19 21 23 Indicadores de dispersión El nivel de representatividad de los indicadores de tendencia central dependen del grado de homogeneidad o de dispersión de los datos observados, lo que hace necesario algunos indicadores de dispersión. Indicadores de dispersión El nivel de representatividad de los indicadores de tendencia central dependen del grado de homogeneidad o de dispersión de los datos observados, lo que hace necesario algunos indicadores de dispersión. Uno de estos indicadores puede ser el rango: r = máx(x1 ) − mı́n(xi ) El rango es sencillo de calcular y de muy fácil interpretación, pero tiene la gran desventaja que es demasiado sensible a valores extremos Varianza El indicador de dispersión más usado en estadística es la varianza y está definido como. n S2 = 1X (xi − x̄)2 n i=1 Si los datos están agrupados en intervalos de clase: n S2 = n X 1X ni (xi − x̄)2 = fi (xi − x̄)2 n i=1 i=1 Una desventaja de la varianza es que sus unidades no coinciden con las unidades de la variable de estudio. Para remediar esta desventaja, se utiliza su raíz cuadrada (desviación estándar) Varianza Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuál es la desviación estándar de los datos? Varianza Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] x0i 203 227 251 275 299 323 ni 6 11 14 11 5 3 fi 0.12 0.22 0.28 0.22 0.10 0.06 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 En promedio las resistencias de los cilindros de prueba se encuentran alejadas de la media 32.55kg/cm2 Propiedades de la varianza • La varianza también puede ser calculada como: P S2 = n i n x2i − (x̄)2 • La varianza es siempre no negativa. • La varianza de una constante siempre es igual cero: si xi = C entonces S 2 = 0 • Si yi = kxi entonces Sy2 = k 2 Sx2 • Si yi = xi + C entonces Sy2 = Sx2 Coeficiente de variación Por la estructura de la varianza se sabe que cuando aumenta la dispersión el valor de la varianza aumenta, al igual que la desviación estándar. pero, qué se respondería a la pregunta: ¿Una desviación estándar de $100.000 me indica que hay poca o mucha dispersión ? Depende de las magnitudes de los datos. Coeficiente de variación El coeficiente de variación (CV) es un indicador de dispersión que involucra la magnitud (media aritmética) de los datos que se estudian CV = S 100 % x̄ • Se usa para comparar la variabilidad relativa de una característica, en poblaciones que tiene diferente media. • No hay un valor definido que permita valorar el C.V. como grande o pequeño (depende del problema) Bibliografía Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo. Oficina de publicaciones de la Facultad de Ingeniería de la Universidad del Valle, Cali, Colombia, vol. 2 edition.