MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN Gabriel Jaime Posada Hernández Docente Departamento de Ciencias Básicas VICERRECTORÍA DE INVESTIGACIONES FUNDACIÓN UNIVERSITARIA LUIS AMIGÓ Medellín, 2013 MÉTODOS NUMÉRICOS En los métodos numéricos se examinarán las medidas de tendencia central y de dispersión (también conocidas estas últimas como medidas de variabilidad y de localización). Si se calculan estas medidas descriptivas globales a partir de una muestra, se denominan estadísticos; en cambio, si se calculan para toda la población se denominan parámetros. El siguiente análisis está referido a los estadísticos. 1. MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN La mayor parte de los conjuntos de datos muestra una tendencia a agruparse o aglomerarse alrededor de un punto central. Así, para cualquier conjunto específico de datos, casi siempre se puede seleccionar algún valor típico, o promedio, para describir todo el conjunto; este valor típico descriptivo es una medida de tendencia central, entre las cuales están: la media aritmética, la mediana, la moda y los cuantiles. 1.1. Media aritmética La media aritmética, también llamada media, es el promedio o medida de tendencia central que se utiliza con mayor frecuencia, además de que es la medida de tendencia central representativa por excelencia. Se calcula con la suma de todas las observaciones en un conjunto de datos, dividida entre el número de elementos que lo componen. Se representa por X . Cuando se tienen pocos datos y no se han agrupado, la media aritmética sería: n X x i 1 i N Donde 2 X : media aritmética de la muestra N : tamaño de la muestra xi : observación de la variable n x : suma de todos los valores de la muestra i 1 i Por ejemplo, las notas de un estudiante son 2, 4, 3 y 4. La media aritmética es X 2 4 3 5 14 3.5 4 4 Cuando los datos se han agrupado con frecuencias, pero no se han construido intervalos, la media aritmética se calcula como: n X x .n i i 1 i N Donde n i es el número de observaciones de cada valor de la variable; es decir, la respectiva frecuencia absoluta. Por ejemplo, tomando el número de hijos de la tabla 2 se tendría: Tabla 19. Media aritmética para el número de hijos de los asociados de la Cooperativa de Trabajo Asociado Epsilon NÚMERO DE HIJOS FRECUENCIA xi ni 0 1 0 1 2 2 2 4 8 3 2 6 4 1 4 n ni 10 xi .ni x .n i i 20 Fuente: Datos hipotéticos 3 n X x .n i 1 i N i 20 2 , lo que significa que el promedio es 2 hijos. 10 Cuando los datos se han agrupado con intervalos, la media aritmética se calcula como: n X . x i .ni i 1 N . Donde xi es la marca de clase de cada intervalo. Para el ejemplo de la tabla 3, la media aritmética sería: Tabla 20. Media aritmética para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE TIEMPO EN . . ni xi .ni CLASE MINUTOS xi 1 44.5 - 49.5 47 2 94 2 49.5 - 54.5 52 9 468 3 54.5 - 59.5 57 12 684 4 59.5 - 64.5 62 11 682 5 64.5 - 69.5 67 9 603 6 69.5 - 74.5 72 7 504 N ni 50 . x .n i i 3035 Fuente: Datos hipotéticos 4 n X . x i .ni i 1 N 3035 60.7 Lo que significa que el promedio es 60.7 minutos. 50 1.2. Mediana La mediana, representada por Me, de un conjunto de valores x1, x2, x3,… xn, es el valor que ocupa el lugar central ordenando los datos en forma ascendente o descendente, de tal forma que la mitad de las observaciones son menores o iguales a la mediana y la otra mitad son mayores o iguales a dicho valor. Podría interpretarse la mediana como aquel valor que deja el 50% de las observaciones por debajo de él y el otro 50% por encima de él. Cuando los datos están sin agrupar, la posición de la mediana se calcula mediante las siguientes ecuaciones: Me X N 1 Si el total de datos (N) es impar 2 XN XN Me 2 2 2 1 Si el total de datos (N) es par Una vez ubicada la posición, el valor correspondiente a dicha posición en la mediana. Por ejemplo, sean los valores 3, 6, 4, 5, 8. Ordenando se tendría: 3, 4, 5, 6, 8. El total de datos es N = 5. Por lo tanto, la posición de la mediana será 5 Me X N 1 X 51 X 3 2 2 El valor correspondiente a la posición x3 en los datos ordenados es 5. En consecuencia, la mediana Me = 5. Es decir, el 50% de los valores están por encima de 5 y el otro 50% están por debajo de 5. Si se tienen los valores 5, 15, 5, 13, 9, 13, 11, 7. Ordenando se tendría: 5, 5, 7, 9, 11, 13, 13, 15 El total de datos es n = 8. Por lo tanto, la posición de la mediana será XN XN Me 2 2 1 2 X8 X8 2 2 2 1 X4 X5 2 Los valores correspondientes a las posiciones x4 y x5 en los datos ordenados son 9 y 11, respectivamente. En consecuencia, el valor de la mediana será: Me 9 11 20 10 2 2 Es decir, el 50% de los valores está por encima de 10, y el otro 50% está por debajo de 10. Cuando los datos están agrupados en clases o intervalos, la mediana se calcula mediante los siguientes pasos: Primer paso: se halla N/2. Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni contiene a N/2. 6 Tercer paso: se calcula la mediana por medio de la siguiente ecuación: N N i 1 Me l i 2 *c ni Donde: li : límite inferior del intervalo que contiene a N/2 N : número total de datos N i 1 : Frecuencia absoluta acumulada anterior al intervalo que contiene a N/2 n i : frecuencia absoluta del intervalo que contiene a N/2 c : amplitud del intervalo que contiene a N/2 Por ejemplo, para calcular la mediana para el grupo de expertos de la tabla 3, se realizarán los pasos requeridos a partir de los datos de la tabla 21. Tabla 21. Mediana para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE TIEMPO EN . ni fi% Ni Fi% CLASE MINUTOS xi 1 44.5 - 49.5 47 2 4% 2 4% 2 49.5 - 54.5 52 9 18% 11 22% 3 54.5 - 59.5 57 12 24% 23 46% 4 59.5 - 64.5 62 11 22% 34 68% 5 64.5 - 69.5 67 9 18% 43 86% 6 69.5 - 74.5 72 7 14% 50 100% Fuente: Datos hipotéticos Primer paso: el total de datos es 50, por lo tanto N/2 es = 25. 7 Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 25, el cual corresponde al cuarto intervalo, con una frecuencia absoluta acumulada de 34 expertos. Nótese que en el tercer intervalo no es posible ubicar la mediana, dado que la frecuencia absoluta acumulada hasta este intervalo es de 23 expertos, y lo querido es de 25 expertos. Tercer paso: se calcula la mediana por medio de la ecuación, donde: li = 59.5 N /2 = 25 N i 1 = 23 n i = 11 c = 64.5 – 59.5 = 5 Luego, N N i 1 25 23 2 Me l i 2 * c 59.5 * 5 59.5 * 5 59.5 0.9 60.4 ni 11 11 Es decir, el 50% de los expertos tarda menos de 60.4 minutos en realizar la auditoría del proceso y el otro 50% tarda más de 60.4 minutos. A pesar de que la media aritmética es la medida de tendencia central por excelencia, en algunos casos la mediana es preferida a la media aritmética, dado que no es sensible a valores extremos. Suponiendo que se tienen los siguientes datos sobre el salario de empleados: $490.000, $550.000, $550.000, $580.000 y $990.000. La media aritmética X sería $632.000 y la mediana Me = $550.000. Obsérvese que, en este caso, es más representativa para el conjunto de datos la mediana que la media aritmética, dado que el salario extremo de $990.000 influye 8 directamente en el promedio, mostrándolo con un valor elevado, cuando la mayoría de datos está por debajo de $632.000. 1.3. Moda La moda es útil en estudios de mercadeo como calzado, vestido, etc. Algunos la consideran como el promedio industrial ya que la fabricación o venta de artículos está determinada por la moda. La moda, representada por Mo, de un conjunto de valores x1, x2, x3,… xn, es el valor que se presenta con mayor frecuencia. Puede ser aplicada a cualquier tipo de variable. Cuando los datos están sin agrupar, la moda se obtiene directamente ordenándolos ascendentemente. Por ejemplo, sean los valores 4, 3, 2, 5, 4, 4. Ordenándolos: 2, 3, 4, 4, 4, 5. Como el valor 4 se presenta 3 veces y los otros valores una vez, la moda es 4. La moda no necesariamente debe ser única, y hasta puede no existir. Cuando existen varios valores con la misma frecuencia máxima se denomina distribución multimodal, como el ejemplo de la tabla 22. Si existen dos valores con la misma frecuencia máxima se llama distribución bimodal (ver tabla 23) y si sólo existe una frecuencia máxima se denomina distribución unimodal (ver tabla 24). 9 Tabla 22. Ejemplo de distribución multimodal xi ni 2 5 3 3 4 5 5 3 6 5 Fuente: Datos hipotéticos Los valores que tienen mayor frecuencia son 2,4 y 6, por tanto la distribución es multimodal. Tabla 23. Ejemplo de distribución bimodal xi ni 2 5 3 8 4 3 5 8 6 5 Fuente: Datos hipotéticos Los valores que tienen mayor frecuencia son 3 y 5, por tanto la distribución es bimodal. Tabla 24. Ejemplo de distribución unimodal xi ni 2 3 3 7 4 5 5 3 6 2 Fuente: Datos hipotéticos 10 El valor que tiene mayor frecuencia es 3, por tanto, la distribución es unimodal. Cuando los datos están agrupados en clases o intervalos, se calcula la moda mediante los siguientes pasos: Primer paso: se ubica el intervalo (o los intervalos) de mayor frecuencia absoluta ni . Segundo paso: se calcula la moda (o las modas) mediante la siguiente fórmula: Mo li Donde: 1 *c 1 2 li : límite inferior del intervalo de mayor frecuencia absoluta 1 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta anterior. 2 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta siguiente. c : amplitud del intervalo de mayor frecuencia absoluta. Por ejemplo, para calcular la moda para el grupo de expertos de la tabla 3, se realizarán los pasos requeridos a partir de los datos de la tabla 25. Tabla 25. Moda para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE TIEMPO EN . ni fi% Ni Fi% CLASE MINUTOS xi 1 44.5 - 49.5 47 2 4% 2 4% 2 49.5 - 54.5 52 9 18% 11 22% 3 54.5 - 59.5 57 12 24% 23 46% 4 59.5 - 64.5 62 11 22% 34 68% 5 64.5 - 69.5 67 9 18% 43 86% 6 69.5 - 74.5 72 7 14% 50 100% Fuente: Datos hipotéticos 11 Primer paso: ubicación del intervalo de mayor frecuencia absoluta n i . El tercer intervalo es el que posee la frecuencia absoluta mayor (12 expertos). Segundo paso: obtención de valores para el cálculo de la moda. li = 54.5 1 = 12 – 9 = 3 2 = 12 – 11 = 1 c = 59.5 – 54.5 = 5 Mo li 1 3 15 * c 54.5 * 5 54.5 58.2 1 2 3 1 4 Es decir, el tiempo que más se presenta en realizar la auditoría del proceso es de 58.2 minutos. 1.4. Cuantiles Los cuantiles son valores que dividen el conjunto de datos en porcentajes iguales. Pueden ser cuartiles, deciles o percentiles. Cuartiles (Q): valores que dividen los datos en cuatro partes iguales. Existen tres cuartiles y se calculan de forma similar a la mediana; de hecho, el cuartil dos es igual a la mediana. El primer cuartil Q1 deja acumulado el 25% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla N/4. 12 - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada F i contiene a N/4. - Tercer paso: se calcula el primer cuartil por medio de la siguiente ecuación: N N i 1 Q1 l i 4 *c ni Nota: los componentes de la fórmula tienen la misma descripción que los componentes de la fórmula para el cálculo de la mediana. El cálculo del primer cuartil para el ejemplo del tiempo que tardan los expertos en realizar la auditoría de un proceso se detalla a continuación: Tabla 26. Primer cuartil para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE TIEMPO EN . fi hi Fi Hi CLASE MINUTOS xi 1 44.5 - 49.5 47 2 4% 2 4% 2 49.5 - 54.5 52 9 18% 11 22% 3 54.5 - 59.5 57 12 24% 23 46% 4 59.5 - 64.5 62 11 22% 34 68% 5 64.5 - 69.5 67 9 18% 43 86% 6 69.5 - 74.5 72 7 14% 50 100% Fuente: Datos hipotéticos Primer paso: el total de datos es 50, por lo tanto N/4 es = 12.5 Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 12.5, el cual corresponde al tercer intervalo, con una frecuencia absoluta acumulada de 23 expertos. 13 Tercer paso: se calcula el primer cuartil por medio de la ecuación, donde: li = 54.5 N /4 = 12.5 N i 1 = 11 n i = 12 c = 59.5 – 54.5 = 5 Luego, N N i 1 12.5 11 1.5 Q1 l i 4 * c 54.5 * 5 54.5 * 5 54.5 0.62 55.12 ni 12 12 Lo que significa que el 25% de los expertos tarda menos de 55.12 minutos en realizar la auditoría del proceso. El segundo cuartil Q2 deja acumulado el 50% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla 2N/4 = N/2. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni contiene a N/2. - Tercer paso: se calcula el segundo cuartil por medio de la siguiente ecuación: N N i 1 2 Q2 l i *c ni 14 Nótese que los pasos y la fórmula para calcular el segundo cuartil son los mismos que los de la mediana. En consecuencia, siempre el segundo cuartil será igual a la mediana. Luego, para el ejemplo del tiempo que tardan los expertos en realizar la auditoría de un proceso, Q2 = Me = 60.4 minutos. El tercer cuartil Q3 deja acumulado el 75% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla 3N/4. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni contiene a 3N/4. - Tercer paso: se calcula el tercer cuartil por medio de la siguiente ecuación: 3N N i 1 Q3 l i 4 *c ni Luego, 3N N i 1 37.5 34 3.5 Q3 l i 4 * c 64.5 * 5 64.5 * 5 64.5 0.22 64.72 ni 9 9 Lo que significa que el 75% de los expertos tarda menos de 64.72 minutos en realizar la auditoría del proceso. Deciles (D): valores que dividen los datos en diez partes iguales. Existen nueve deciles y se calculan de forma similar a los cuartiles. 15 El primer decil D1 deja acumulado el 10% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla N/10. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni contiene a N/10. - Tercer paso: se calcula el primer decil por medio de la siguiente ecuación: N N i 1 D1 li 10 *c ni Los demás deciles se calculan con el procedimiento similar al primer decil, teniendo en cuenta que, en el primer paso, para el segundo decil corresponde 2N/10; para el tercer decil, 3N/10; para el cuarto decil, 4N/10; para el quinto decil, 4N/10 = N/2; así sucesivamente hasta el decil nueve, con 9N/10. Nótese que, al calcular el decil cinco, en el primer paso se presenta el mismo planteamiento que para el segundo cuartil y para la mediana (N/2). Por tanto, el decil cinco es igual al cuartil dos y a la mediana. El cálculo del primer y noveno decil a partir del ejemplo de la tabla 23 para el tiempo que tardan los expertos en realizar la auditoría de un proceso se detallan a continuación. N N i 1 0.5 0 0.5 D1 l i 10 * c 44.5 * 5 44.5 * 5 44.5 1.25 44.75 ni 2 2 16 9N N i 1 45 43 2 10 D9 l i * c 69.5 * 5 69.5 * 5 69.5 1.43 70.93 ni 7 7 Percentiles (P): valores que dividen los datos en cien partes iguales. Existen 99 percentiles y se calculan de forma similar a los cuartiles y deciles. El primer percentil P1 deja acumulado el 1% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla N/100. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Ni contiene a N/100. - Tercer paso: se calcula el primer percentil por medio de la siguiente ecuación: N N i 1 100 P1 l i *c ni Los demás percentiles se calculan con el procedimiento similar al primer percentil, teniendo en cuenta que, en el primer paso, para el segundo percentil corresponde 2N/100; para el tercer percentil 3N/100; para el percentil 10, 10N/100; para el percentil 50, 50N/100 = N/2; así sucesivamente hasta el percentil 99, con 99N/100. Nótese que, al calcular el percentil 50, en el primer paso se presenta el mismo planteamiento que para el segundo cuartil, para el decil cinco y para la mediana (N/2). Por tanto, el percentil 50 es igual al decil cinco, al cuartil dos y a la mediana. 17 Gráfica 10. Relación entre cuartiles, deciles y percentiles Q1 1% 10% 2 0% D1 D2 Q2 25% 30% D3 Q3 40% 50% 60% D4 D5 D6 70% 75% 80% D7 D8 90% 99% D9 P1 ..P10 .. P20 P25 P30 ....P40 ..... P50 .. P60 ....P70 P75 P80 ...... P90 . P99 Me En la gráfica 10 se representa la distribución de cuartiles, deciles y percentiles, de la cual se deducen las siguientes relaciones: Q2 = D5 = P50 = Me, Q1 = P25 , Q3 = P75 D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D6 = P60 , D7 = P70 , D8 = P80 , D9 = P90 2. MEDIDAS DE VARIABILIDAD Además de las medidas de localización o de tendencia central, es necesario considerar medidas de dispersión o variabilidad, dado que dos conjuntos de datos pueden tener promedios similares, pero diferir en la dispersión de éstos. Las medidas de variabilidad de mayor uso en estadística son rango, rango intercuartil, varianza, desviación estándar y coeficiente de variación. 18 2.1. Rango El rango es la medida de dispersión más sencilla en un conjunto de datos. Se calcula por medio de la siguiente ecuación: Rango = valor máximo – valor mínimo Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca se usa como la única medida de dispersión, debido a que se basa sólo en los valores extremos del conjunto de datos. Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el rango sería: Rango = 74 – 45 = 29 minutos El rango debe interpretarse a partir de los valores extremos; es decir, mencionar entre qué valores está el rango. Para el ejemplo, se dice que la variación del tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y 74 minutos. 2.2. Rango intercuartil El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia de los valores extremos de un conjunto de datos. Se define como la diferencia entre el tercer cuartil Q3 y el primero Q1. En otras palabras, el rango intercuartil corresponde al rango del 50% intermedio de los datos. Rango intercuartil (RIC) = Q3 - Q1 19 Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, los cuartiles son Q1 = 55.12 minutos y Q3 = 64.72 minutos. Así el rango intecuartil es RIC = 64.72 – 55.12 = 9.6 minutos. El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la dispersión media o rango intercuartil del tiempo que tardan los expertos en realizar la auditoría de un proceso. 2.3. Varianza La varianza es una medida de dispersión que emplea todos los datos. Se basa en la diferencia de cada observación (xi) y la media. La diferencia entre cada xi y el promedio ( x para una muestra y para una población) se llama desviación respecto al promedio. Para una muestra, la desviación respecto a la media se expresa como ( xi x) ; para una población es ( xi ) . Para calcular la varianza, las desviaciones respecto al promedio se elevan al cuadrado. Si el conjunto de datos es una población, el promedio de las desviaciones al cuadrado se llama varianza de la población y se representa con el símbolo griego 2 . Para una población con N observaciones o datos, cuando representa el promedio de esa población, la definición de la varianza de la población es: 2 (x ) 2 i N En la mayoría de los análisis estadísticos los datos analizados son una muestra. Cuando se calcula la varianza para la muestra, lo más importante es emplearla para estimar la varianza de todo el conjunto de datos, es decir, para la población. 20 La varianza de la muestra (s2) es la suma de los cuadrados de las desviaciones con relación a la media aritmética, dividida entre el tamaño de la muestra menos 1. s 2 (x i x) 2 N 1 Donde: x : media aritmética de la muestra N : tamaño de la muestra xi : cada dato u observación de la variable X. Si el denominador fuera N en lugar de N – 1, se obtendría el promedio de los cuadrados de las diferencias con respecto a la media. Sin embargo, se utiliza N – 1 debido a ciertas propiedades matemáticas deseadas que tiene el estadístico s2, las cuales lo hacen apropiado para hacer inferencias estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre N y N – 1disminuye cada vez más. Cuando se calcula la varianza, las unidades en las cuales fueron medidos los datos causan confusiones. Como los valores que se suman al calcular la varianza, que son ( xi x)2 , se elevan al cuadrado, las unidades asociadas con la varianza de la muestra también se elevan al cuadrado. Por ejemplo, si se está calculando la edad en años para un grupo de empleados, la varianza tendrá (años)2. Las unidades al cuadrado asociadas con la varianza hacen difícil la interpretación. Por tanto, se recomienda que se tome la varianza como una medida útil para comparar el grado de dispersión de dos o más variables y, al compararlas, la que tienen mayor varianza tiene mayor dispersión o variabilidad. Por ejemplo, en la tabla 27 se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes; calcular la varianza. 21 Tabla 27. Salario en millones de pesos de gerentes SALARIO MEDIA DE LA (millones) MUESTRA xi x 3,5 DESVIACIÓN ( xi x) ( xi x)2 9.57 -6.07 36.84 4,5 9.57 -5.07 25.70 6,0 9.57 -3.57 12.74 8,0 9.57 -1.57 2.46 10,0 9.57 0.43 0.18 15,0 9.57 5.43 29.48 20,0 9.57 10.42 108.78 ( x x) 0 ( x x ) i i 2 216.18 Fuente: Datos hipotéticos Luego, la varianza será: s2 (x i x) 2 N 1 216.18 36.03 6 Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula para la varianza puede ser transformada en la siguiente ecuación: s 2 x 2 i N * ni x 2 Donde: x : media aritmética de la muestra N : tamaño de la muestra xi : cada dato u observación de la variable X o marca de clase si es intervalo n i : frecuencia absoluta del valor de la variable X 22 Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 10, la varianza sería: Tabla 28. Varianza para el tiempo que tardan los expertos en realizar la auditoría de un proceso Nº DE TIEMPO EN CLASE MINUTOS 1 xi ni xi2 xi2 * ni 44.5 - 49.5 47 2 2209 4418 2 49.5 - 54.5 52 9 2704 24336 3 54.5 - 59.5 57 12 3249 38988 4 59.5 - 64.5 62 11 3844 42284 5 64.5 - 69.5 67 9 4489 40401 6 69.5 - 74.5 72 7 5184 36288 N 50 x 2 i *ni 186.715 Fuente: Datos hipotéticos De la tabla 17 se tienen que el promedio es x 60.7 ; luego s 2 x 2 i N * ni 2 x 186.715 (60.7) 2 3734.3 3684.49 49.81 50 2.4. Desviación estándar La desviación estándar se define como la raíz cuadrada positiva de la varianza. Se denota por s la desviación estándar de la muestra y por la desviación estándar de la población. s s2 2 La desviación estándar indica cómo se agrupa o distribuye un conjunto de datos alrededor de la media. Para la mayor parte de los conjuntos de datos, la mayoría 23 de los valores observados cae dentro de un intervalo que corresponde a la media aritmética más o menos una desviación estándar. Esto implica que el intervalo comprendido entre X 1S y X 1S , por lo general, incluye la mayoría de los valores de los datos. Por consiguiente, el conocimiento de la media aritmética y la desviación estándar ayudan a definir en dónde se agrupa la mayor parte de los datos. Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 26, la desviación estándar sería: s s2 49.81 7.06 minutos La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica que los tiempos que tardan en realizar la auditoría del proceso para la mayor parte de los expertos se agrupan dentro de 7.06 minutos alrededor de la media 60.7 minutos; es decir, se agrupan entre X 1S 53.64 y X 1S 67.76 minutos. Finalmente, para comprender la variación de los datos se deben tener en cuenta los siguientes aspectos: Cuanto más dispersos estén los datos, mayores serán el rango, el rango intercuartil, la varianza y la desviación estándar. Cuanto más concentrados u homogéneos sean los datos, menores serán el rango, el rango intercuartil, la varianza y la desviación estándar. Si los datos son todos iguales (de manera que no hay variación de los datos), el rango, el rango intercuartil, la varianza y la desviación estándar serán iguales a cero. Las medidas de variación (rango, rango intercuartil, varianza y desviación estándar) nunca son negativas. 24 2.5. Coeficiente de variación El coeficiente de variación, denotado por CV, es una medida descriptiva que indica lo grande que es la desviación estándar en comparación con la media aritmética; se expresa en porcentaje y se calcula por medio de la siguiente ecuación: CV S *100 X Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos. El coeficiente de variación sería: CV S 7.06 *100 *100 11.6% 60.7 X Interpretando estos datos, el coeficiente de variación indica que la desviación estándar de la muestra es el 11.6% del valor de la media de la muestra. Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes unidades de medida. Esto se muestra en el siguiente ejemplo, adaptado del texto Estadística para administración, de Mark L. Berenson y otros, página 120. Suponga que un inversionista desea adquirir acciones en una de dos compañía A o B, listadas en la Bolsa de Valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación (según los servicios de inversión) en términos del crecimiento potencial, el inversionista quizá considere la volatilidad o variabilidad de ambas acciones para ayudar en la decisión de inversión. 25 Supóngase que cada acción de la compañía A ha promediado $150.000 en los últimos meses, con desviación estándar de $30.000. Además, durante el mismo período el precio promedio de las acciones en la compañía B fue de $36.000 con una desviación estándar de $12.000. ¿Cómo puede determinar el inversionista cuáles acciones son más variables? Solución En términos de las desviaciones estándar, el precio de las acciones de A parece más volátil o variable que el de las acciones de B. Sin embargo, como los precios promedio por acciones de las dos compañías son tan diferentes, es más conveniente que el inversionista considere la variabilidad del precio respecto al promedio con el fin de analizar la estabilidad de ambas acciones. Los coeficientes de variación para las compañías A y B serían: CVA S $30.000 S $12.000 *100 *100 20.0% y CVB *100 *100 33.3% $150.000 $36.000 X X En consecuencia, en relación con la media, el precio de las acciones B es más variable que el de las acciones A. 3. MEDIDAS DE LOCALIZACIÓN Hasta el momento se han descrito algunas medidas de tendencia central y de dispersión. La media es la que más se usa como medida de tendencia central, mientras que la desviación estándar y la varianza son las más empleadas para la dispersión. Las medidas de localización relativa se apoyan en la media y la desviación estándar para ubicar valores particulares de un conjunto de datos. 26 3.1. Valores z Al usar la media y la desviación estándar se puede determinar la localización relativa de cualquier observación. Supóngase que hay una muestra de n datos, con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han calculado la media x y la desviación estándar s de la muestra. Existe otro valor asociado con cada valor xi de los datos que se denomina valor z, el cual se calcula con la siguiente ecuación: zi xi x s Donde, z i : valor de z del elemento xi x : media de la muestra s : desviación estándar de la muestra. Con frecuencia se le da el nombre de valor estandarizado al valor de z. El valor z i se interpreta como el número de desviaciones estándar que dista xi de promedio x Por ejemplo, si zi 1.2 indica que x1 es 1.2 desviaciones estándar por encima de la media de la muestra. Igualmente, z2 0.5 indica que x2 está a 0.5, o ½ desviación estándar por debajo de la media de la muestra. Obsérvese que los valores de z positivos corresponden a observaciones o datos con valores mayores que la media, y que los valores de z negativos corresponden a observaciones con valores menores que la media. Un valor z igual a cero indica que el valor de una observación es igual a la media. Los valores de z para el ejemplo de la tabla 25, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y desviación estándar $6 millones, serán: 27 Tabla 29. Valores z para el salario en millones de pesos de gerentes SALARIO (millones) DESVIACIÓN VALOR Z ( xi x) xi x s 3,5 -6.07 -1.01 4,5 -5.07 -0.84 6,0 -3.57 -0.60 8,0 -1.57 -0.26 10,0 0.43 0.07 15,0 5.43 0.90 20,0 10.42 1.74 xi Fuente: Datos hipotéticos Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más alejado del promedio; está a 1.74 desviaciones estándar por encima del promedio. 3.2. Teorema de Chebyshev El teorema de Chebyshev permite inferir la proporción de valores que deben quedar dentro de una cantidad específica de desviaciones estándar respecto a la media. Teorema de Chebyshev 1 Cuando menos 1 2 de los datos debe estar a menos de z desviaciones z estándar de separación respecto a la media, siendo z cualquier valor mayor que 1. Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las siguientes implicaciones a partir del teorema de Chebyshev: 28 Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2 desviaciones de la media (z = 2). Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3 desviaciones de la media (z = 3). Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4 desviaciones de la media (z = 4). Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las puntuaciones de un examen de ingreso de 100 aspirantes al programa de Administración de una universidad tuvieron un promedio de 70 puntos y una desviación estándar de 5 puntos. ¿Cuántos aspirantes tuvieron puntuaciones entre 60 y 80? ¿Cuántos entre 58 y 82? Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor 80, a dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al aplicar el teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos debe tener valores menores de dos desviaciones estándar del promedio. Así, cuando menos o mínimo 75 de los 100 aspirantes deben haber obtenido puntuaciones entre 60 y 80. Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4 desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica que 82 están a 2.4 desviaciones estándar por encima del promedio. Aplicando el teorema de Chebyshev con z = 2.4 se obtiene: 1 1 1 2 1 0.826 z 2.4 2 Lo que significa que, mínimo 82.6% de los aspirantes deben tener puntuaciones entre 58 y 82. 29 La regla empírica Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, independientemente de la forma de la distribución de los mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que muchos conjuntos de datos tienen una distribución en forma de colina o de campana. Cuando se cree que los datos tienen aproximadamente esa distribución, se puede aplicar la regla empírica para determinar el porcentaje de elementos que debe estar dentro de determinada cantidad de desviaciones estándar respecto al promedio. Regla empírica para datos con distribución en forma de campana Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media. Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media. Casi todos los elementos están a menos de tres desviaciones estándar de la media. Por ejemplo, en una línea de producción se llenan, automáticamente, envases de plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene una distribución en forma de campana. Si el volumen promedio de llenado es de 16 cm3 y la desviación estándar 0.25 cm3, se puede aplicar la regla empírica para concluir: Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25 cm 3 (esto es, menos de una desviación estándar de la media). Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm 3 (esto es, menos de dos desviaciones estándar de la media). 30 Casi todos los envases llenos tienen entre 15.25 y 16.75 cm 3 (esto es, menos de tres desviaciones estándar de la media). 3.3. Sesgo o forma El sesgo o forma es la manera como se distribuyen los datos. La distribución de los datos es simétrica (en forma de campana) o no lo es. Si no es simétrica, recibe el nombre de distribución asimétrica o sesgada. Para describir el sesgo o la forma, se deben comparar la media y la mediana. Si ambas medidas son iguales, por lo general se considera que los datos son simétricos (o con sesgo cero). Por el contrario, si la media es mayor que la mediana, los datos se describen como sesgados a la derecha, o con sesgo positivo. Si la media es menor que la mediana, los datos suelen llamarse sesgados a la izquierda, o con sesgo negativo. Es decir, Media > Mediana: sesgo positivo o a la derecha Media = Mediana: simetría o sesgo cero Media < Mediana: sesgo negativo o a la izquierda El sesgo positivo surge cuando la media aumenta debido a algunos valores grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce debido a algunos valores muy pequeños. Los datos son simétricos cuando en realidad no hay valores extremos en ninguna dirección, de tal manera que los valores grandes y pequeños se equilibran. 31 Gráfica 11. Forma o sesgo de un conjunto de datos La grafica 11 muestra la forma o sesgo de tres conjuntos de datos. Los datos del primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo de la otra mitad. Los valores grandes y pequeños se compensan, y la media es igual a la mediana. Los datos del cuadro del centro tienen sesgo negativo o a la izquierda. Se observan una cola larga y una distorsión hacia la izquierda, causadas por valores en extremo pequeños. Estos valores tan pequeños jalan la media hacia abajo y resulta menor que la mediana. positivo o a la derecha. Los datos del tercer cuadro tienen un sesgo Se observan una cola larga hacia la derecha de la distribución y una distorsión hacia la derecha, causadas por valores muy grandes. Estos valores en extremo grandes jalan la media hacia arriba y resulta mayor que la mediana. El sesgo para el ejemplo de la tabla 25, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y mediana $8 millones, será positivo o a la derecha, dado que la media es mayor que la mediana. Además, el conjunto de datos presenta un valor extremo muy alto, el cual atrae la media hacia el extremo derecho de la distribución. 3.4. Diagrama de caja o bigotes 32 El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el resumen de cinco números. En un resumen de cinco números se emplean cinco cantidades para resumir los datos: Valor mínimo Primer cuartil (Q1) Mediana (Me = Q2) Tercer cuartil (Q3) Valor máximo La forma más ágil de elaborar un resumen de 5 números es poner los datos en orden ascendente. Así facilita la identificación del valor mínimo, los tres cuartiles y el valor máximo. Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755, 2.890, 2.880, 2.880, 3.130, 3.325 y 3.050. Organizando los datos y calculando los cuartiles, se tiene la siguiente distribución: 2710 2755 2850 2880 Q1 = 2865 2880 2890 2920 Q2 = 2905 2940 2950 3050 3130 3325 Q3 = 3000 (Mediana) Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor máximo de 3.325 miles de pesos. Así, el resumen de los cinco números de los datos de salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos. Aproximadamente una cuarta parte, 25% de los valores de los datos, están entre dos números adyacentes del resumen de cinco números. 33 El diagrama de caja y bigotes resume gráficamente los cinco números. Los pasos para trazar un diagrama de caja y bigotes son los siguientes: Se traza un rectángulo con los extremos en el primer y tercer cuartiles. Este rectángulo contiene el 50% intermedio de los datos. Para los datos de salarios Q1 = 2.865 y Q3 = 3.000. En la caja se traza una recta vertical en el lugar de la mediana (2.950 para los datos de salarios). Así, la línea de la mediana divide los datos en dos partes iguales. Se ubican los límites mediante el rango intercuartil, RIC = Q 3 - Q1. Los límites en el diagrama de caja están a 1.5(RIC) por debajo de Q 1 y 1.5(RIC) por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 = 3.000 – 2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y 3.000 + 1.5(135) = 3.202,5. Se considera que los datos fuera de estos límites son valores atípicos. Los bigotes de la caja se trazan con líneas punteadas, desde los extremos de la caja hasta los valores mínimo y máximo dentro de los límites. Así, los bigotes terminan en los valores de salarios de 2.710 y 3.130. Por último, se marcan con un asterisco (*) las localizaciones de los valores atípicos. Para el ejemplo se localiza un valor atípico de 3.325. Gráfica 12. Diagrama de caja y bigotes con líneas que muestran los límites 34 En la gráfica 12 se trazaron las líneas que indican el lugar de los límites con el fin de mostrar cómo se calculan éstos y dónde se ubican en el caso de los salarios. Aunque siempre se calculan, por lo general no se trazan en los diagramas de caja. En la gráfica 13 se muestra el aspecto habitual de un diagrama de caja y bigotes para los datos de los salarios. Grafica 13. Diagrama de caja y bigotes de los sueldos mensuales de un grupo de egresados de un programa de Administración Observación 35 Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los mismos valores atípicos que los encontrados con el método de valores z: menores que –3 y mayores que +3. Sin embargo, el objetivo de ambos métodos es identificar elementos que se deben revisar para asegurar la validez de los datos. Se deben revisar los valores atípicos identificados por cualquiera de los métodos. 3.5. Curtosis La curtosis mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. El coeficiente percentil de Curtosis (k) analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución; se calcula con la siguiente ecuación: k 1 2 (Q3 Q1 ) P90 P10 Donde, Q3: tercer cuartil. Q1: primer cuartil. P90: percentil 90. P10: percentil 10. Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9. Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los cuales se ilustran en la gráfica 14: Gráfica 14. Tipos de distribución según el coeficiente de Curtosis 36 Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución simétrica o normal). El valor de k = 0.263. Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. El valor de k > 0.263. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. El valor de k < 0.263. Para el ejemplo de la tabla 23 del tiempo que tarda un grupo de expertos en realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y P90 = D9 = 70.9. El coeficiente percentil de Curtosis (k) será: k 1 2 (Q3 Q1 ) 12 (64.72 55.12) 0.5(9.6) 4.8 0.183 P90 P10 70.9 44.7 26.2 26.2 Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución. 37 BIBLIOGRAFÍA BIBLIOGRAFÍA FUNDAMENTAL ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas. Estadística para administración y economía. 8ª edición. Thomson, México, 2003. 884 p. BERENSON, Mark; LEVINE, David y KREHBIEL, Timothy. Estadística para administración. 2ª edición. Pearson educación, México, 2001. 784 p. MENDENHALL, William. Estadística México: Iberoamerica, 1995. 817 p. para administradores. 2. ed. BIBLIOGRAFÍA RECOMENDADA CHAO, Lincoln y CASTAÑO, José María. Estadística para las ciencias administrativas, Lincoln. 3. ed. Bogotá: McGraw-Hill, 1993. 464 p LIND, Douglas A; MASON, Robert D. y MARCHAL, William G. Estadística para administración y economía. España: McGraw-Hill, 2000. 575 p. SPIEGEL, Murray. Estadística. 2. edición. McGRAW-HILL, España, 1993.665p. WALPOLE, Ronald E. y MYERS, Raymond H. Probabilidad y estadística, 4. ed México: McGraw-Hill, 1992. 757 p. 38