Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa Materia: Estadística I Maestro: Dr. Francisco Javier Tapia Moreno Semestre: 2015-2 Hermosillo, Sonora, a 14 de septiembre de 2015. Introducción Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución de datos, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. En esta ocasión, vamos a cuantificar la separación de los valores de la distribución respecto a la media. Si todos los valores están cercanos al valor medio, diremos que la media es representativa. Medidas de dispersión. Miden qué tanto se alrededor de su media. dispersan las observaciones Existen diversas medidas estadísticas de dispersión, pero muchos autores coinciden en que las principales son: Rango, Varianza, Desviación estándar y Coeficiente de variación. Cálculo de las medidas de dispersión para datos a granel o no agrupados. Ejemplo 1: Una granja ganadera regional, registró durante febrero y marzo de 2015 el nacimiento de 14 y 11 terneros respectivamente, cuyos pesos al nacer (en kilogramos) fueron los siguientes: Febrero. Marzo. 22, 31, 32, 44, 35, 36, 37, 38, 44, 49, 40, 50, 41. 31, 30, 43, 43, 36, 45, 26, 46, 46, 50, 27.5. Ambos conjuntos de datos tienen la misma media, pero esto no refleja qué tan dispersos están los elementos de cada uno de estos conjuntos. Calcular para ambos casos el Rango, el rango intercuartílico, la Varianza, la Desviación estándar y el Coeficiente de variación. Resolución. Febrero 22 31 32 44 35 36 37 38 44 49 40 Marzo 31 30 43 43 36 45 26 46 46 50 27.5 40 50 41 Para calcular el rango en cada una de los meses, localizamos el dato mayor y el datos menor de cada mes y los restamos. Rango mes de febrero = 50 – 22 = 28 kilogramos. Rango mes de marzo = 50 – 26 = 24 kilogramos. En este caso se puede observar que el rango difiere en 4 kilogramos de un mes a otro. Para calcular el rango intercuertílico, primero ordenamos los datos de cada mes de menor a mayor y calculamos los cuartiles uno (𝑸𝟏 ) y tres (𝑸𝟑 ) de cada mes. Febrero Marzo 22 31 26 27.5 32 35 36 37 38 40 40 41 44 30 31 36 43 43 45 46 46 50 44 La ubicación de los cuartiles se encuentra con 𝑼𝑸𝒌 = 1∗(14+1) 49 50 𝑘∗(𝑁+1) . 4 Así, la ubicación de 𝑪de febrero se encuentra en = 3.75, esto 4 significa que 𝑸𝟏 se encuentra entre el dato 3 y el dato 4 del mes de febrero, justamente a 0.75 unidades de la distancia que separa al dato 4 del dato 3. Es decir, 𝑸𝟏 = 32 + (0.75)(35-32) = 32 + 2.25 = 34.25 3∗(14+1) La ubicación de 𝑸𝟑 de febrero se encuentra en = 11.25, 4 esto significa que 𝑸𝟑 se encuentra entre el dato 11 y el dato 12 del mes de febrero, justamente a 0.25 unidades de la distancia que existe entre el dato 12 y el dato 11. Es decir, 𝑸𝟑 = 44 + (0.25)(44-44) = 44 + 0 = 44. Así, el rango intercuartílico de los pesos del mes de febrero es = 44 – 34.25 = 9.75 kilogramos. Esto significa que el 50% de los pesos intermedios de los terneros difieren en 9.75 kilogramos. Similarmente se calculan los cuartiles 1 y 3 del mes de marzo. Los valores son respectivamente, 30 y 46 y el rango intercuartílico de los pesos del mes de marzo es = 46 – 30 = 16 kilogramos. Esto significa que el 50% de los pesos intermedios de los terneros del mes de marzo difieren en 16 kilogramos. La varianza es la media aritmética de los cuadrados de las desviaciones medias de los valores de la variable. La relación para calcular la varianza de una muestra de datos no agrupados es: (Xi X ) S n 1 i 1 n 2 2 Si se trata de una población la relación es: ( X i ) N i 1 n 2 2 La varianza es difícil de interpretar porque las unidades de la medida están elevadas al cuadrado. Propiedades de la Varianza 1) La varianza es positiva para un variable (Un constante tienen la varianza cero!) 2) La varianza es la medida cuadrática de dispersión óptima: 3) La varianza es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado. 4) Si sumamos a todos los valores de la variable una constante, la varianza no varía. 5) Si multiplicamos a todos los valores de la variable una constante, la varianza queda multiplicada por el cuadrado de la constante. Para calcular la varianza de los pesos de los terneros del mes de febrero, primero calculamos la media aritmética del peso de los terneros y después elaboramos una tabla que nos ayude a realizar los cálculos. Ternero X 𝑿−𝑿 1 22 22 − 38.5 = −16.5 31 31 − 38.5 = −7.5 3 32 32 − 38.5 = −6.5 4 44 44 − 38.5 = 5.5 5 35 35 − 38.5 = −3.5 6 36 36 − 38.5 = −2.5 37 37 − 38.5 = −1.5 8 38 38 − 38.5 = −0.5 9 44 44 − 38.5 = 5.5 10 49 49 − 38.5 = 10.5 40 40 − 38.5 = 1.5 12 40 40 − 38.5 = 1.5 13 50 50 − 38.5 = 11.5 14 41 41 − 38.5 = 2.5 539 0 2 7 11 Totales 𝑿−𝑿 𝟐 272.25 56.25 42.25 30.25 La varianza de los pesos de los terneros es 𝑺𝟐 = 𝟕𝟎𝟓.𝟓 𝟏𝟒−𝟏 = 54.26923𝐊𝐠 𝟐 12.25 6.25 2.25 0.25 30.25 110.25 2.25 2.25 132.25 6.25 705.5 De manera similar se calcula la varianza para los pesos del mes de marzo y su valor es: 𝑆 2 = 73.95 𝐊𝐠 𝟐 . La desviación estándar para una distribución de datos no agrupados de una muestra se calcula mediante la relación, n S S2 2 ( X X ) i i 1 n 1 La desviación estándar para una distribución de datos no agrupados de una población se calcula mediante la relación, n 2 2 ( X ) i i 1 N Las propiedades de la desviación estándar son las mismas que las de la varianza. Para calcular la desviación estándar de los pesos de los corderos del mes de febrero, sólo calculamos la raíz cuadrada de la varianza de los pesos de ese mes. Esto es: 𝑆 = 54.26923077 = 7.36676529 Kilogramos Similarmente, para calcular la desviación estándar de los pesos de los corderos del mes de marzo, sólo calculamos la raíz cuadrada de la varianza de los pesos de ese mes. Esto es: S = 73.95 = 8.59941858 kilogramos Coeficiente de variación El coeficiente de variación denotado por , indica la magnitud relativa de la desviación estándar comparada con la media de la distribución de las observaciones. La relación para calcular el coeficiente de variación de una muestra es: y para la población es, 𝑉𝑚 = 𝑆 𝑋 * 100% 𝑉𝑝 = σ μ * 100% Para interpretar el coeficiente de variación, se usa la tabla siguiente Coeficiente de Variación 26% o más Del 16% a menos del 26% Del 11% a menos del 16% 0% a menos del 11% Apreciación Muy Heterogéneo Heterogéneo Homogéneo Muy Homogéneo El coeficiente de variación para los pesos de los corderos nacidos en el mes de febrero es: 𝑪𝑽 = 7.36676529 𝟑𝟖.𝟓 *100% = 22.3361522% Este resultado nos indica que los pesos de los corderos nacidos el mes de febrero son heterogéneos. Ver la tabla. El coeficiente de variación para los pesos de los corderos nacidos en el mes de marzo es: 𝑪𝑽 = 8.59941858 𝟑𝟖.𝟓 *100% = 19.1344553% Este resultado nos indica que los pesos de los corderos nacidos el mes de marzo son heterogéneos. Ver la tabla. Conclusión. Hemos visto las medidas de dispersión más utilizadas en los textos. Ellas nos muestran la variabilidad existente entre los datos. Es decir, nos informan sobre cuánto se alejan del centro los valores de la distribución.