Unidad N° 2 Medidas de dispersión Una segunda propiedad importante que describe una serie de datos numéricos es una variación. La variación es la cantidad de dispersión o “propagación” en los datos. Dos series de datos puedan diferir tanto en la tendencia central como en la variación o puede darse el caso que dos series pueden tener la misma tendencia central, pero diferir grandemente en términos de variación. Las mediciones de variación son la varianza, la desviación estándar y el coeficiente de variación. 2.1 La varianza Una medición de variación comúnmente usada que toma en cuenta cómo se distribuyen todos los valores en los datos es la varianza. Esta medición evalúa la forma en que los valores fluctúan alrededor de la media. Definición de la varianza de muestra: La varianza de muestra es aproximadamente (o casi) el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media. Así, para una muestra que contiene n observaciones, X, X, ..., X, la varianza de muestra (dada por el símbolo S2) puede escribirse como _ _ _ (Xl -X)2 + (X2 -X)2 + ...+ (Xn -X)2 S2 = n-1 Usando nuestra notación de sumatoria, la formulación anterior puede expresarse de manera más simple como: n Σ (Xl -X)2 1 Estadística Aplicada S2 = i=1 n-1 donde _ X = media aritmética de muestra n = tamaño de muestra X = iésimo valor de la variable aleatoria X n Σ (X¡ -X )2 = sumatoria de todas las-diferencias cuadradas ____ i=1 entre los valores Xi y X Si el denominador hubiera sido n en lugar de n -1, se hubiera obtenido el promedio de las diferencias cuadradas alrededor de la media. Sin embargo, n -1 se usa aquí debido a ciertas propiedades matemáticas deseables que la estadística S 2 posee que la hacen apropiada para la inferencia estadística. Si tamaño de muestra es grande, la división entre n o n -1 realmente no hace mucha diferencia. La variación de la población o Varianza Poblacional está dada por el símbolo σ 2x, la letra griega sigma, subíndice x cuadrada, es decir: donde: N: tamaño de la población Xi: iésimo valor de la variable aleatoria N 2 Estadística Aplicada Σ (Xi -μx)2: sumatoria de todas las diferencias entre los valores Xi y μx. i=1 Σ Xi Sumatoria de todos los valores Xi de la población 2.2 Desviación Estándar Se dijo anteriormente que una medición de variación comúnmente usada que toma en cuenta cómo se distribuyen todos los valores en los datos es la varianza, a ella le sumamos la Desviación Estándar, ya que esta medición evalúa también la forma en que los valores fluctúan alrededor de la media. Definición de la desviación estándar de muestra: La desviación estándar de muestra (dada por el símbolo S) es simplemente la raíz cuadrada de la varianza de muestra. Esto es: n Σ S= (Xl -X)2 i=1 n-1 Cálculo de S2 y de S: Para calcular la varianza 1) Obtenemos la diferencia entre cada observación y la media 2) Elevamos al cuadrado cada diferencia 3) Sumamos los resultados cuadrados 4) Dividimos la sumatoria entre n -1 Para calcular la desviación estándar simplemente tomamos la raíz cuadrada de la varianza. Para nuestra muestra de seis establecimientos de cría de ganado caprino, los datos sin procesar (en cabezas de ganado) son 3 Estadística Aplicada 678 1199 408 233 224 960 _ y X = 617 cabezas La varianza de muestra se calcula como n Σ S2 = (Xl -X)2 i=1 n-1 = (678 – 617)2 + (1199 – 617)2 + ...+ (960 – 617)2 6-1 = 401.42 = y la desviación estándar se calcula como S = √S2 = 20.03 La desviación estándar de la población está dado por el símbolo griego σ x. Esto es: Obtención de S2 y de S: 4 Estadística Aplicada Puesto que en los cálculos anteriores elevamos al cuadrado las diferencias, ni la varianza ni la desviaci6n estándar pueden ser negativas. La única vez en que S2 y S podrían ser cero sería cuando no hubo variación alguna en los datos, cuando cada observación de la muestra fuera exactamente igual. En este inusual caso el alcance también sería cero. Pero los datos numéricos son inherentemente variables, no constantes. Cualquier fenómeno de interés aleatorio que pudiéramos imaginar generalmente toma una variedad de valores. Lo que indican la varianza y la desviación estándar: La varianza y la desviación estándar miden la dispersión "promedio" alrededor de la media, es decir, cómo las observaciones mayores fluctúan por encima de ésta y cómo las observaciones menores se distribuyen por debajo de ésta. La varianza posee ciertas propiedades matemáticas útiles. Sin embargo, su cálculo da como resultado unidades, cuadradas, miles de pesos cuadrados, pesos cuadrados, metros cuadrados, etc. Por lo tanto, para un trabajo práctico, nuestra principal medición de variación será la desviación estándar, cuyo valor está en las unidades originales de los datos, miles de pesos, pesos, metros, etcétera. Por qué cuadramos las desviaciones: Las fórmulas para varianza desviación estándar no podrían simplemente usar n _ Σ (Xi-X) = i=1 como numerador, porque tal vez recuerde que la media actúa como un punto de equilibrio para observaciones mayores y menores que ésta. Por tanto, la suma de las desviaciones alrededor de la media siempre es cero; es decir n _ Σ (Xi-X) = 0 i=1 Para demostrar esto, refirámonos nuevamente a los datos de las cabezas de ganado de los establecimientos 678,1199,408, 233, 224, 960: En consecuencia, 5 Estadística Aplicada _ n Σ (Xi-X) = (678 – 617) + (1199 – 617) + (408 – 617) + ( 233- 617) + ( 224 – 617) + (960 – 617) i=1 = 0 Como ya se observó tres de las observaciones son menores que la media y tres son mayores. Aunque la suma de las seis desviaciones es cero, la suma de las desviaciones cuadradas nos permite estudiar la variación en los datos. Por tanto, usamos n _ Σ (Xi-X)2 = i=1 al calcular la varianza y la desviación estándar. En el proceso de elevación al cuadrado, las observaciones que están más allá de la media obtienen más peso que las observaciones que están más cerca de la media. Por tanto, podemos generalizar de la siguiente manera: 1) Mientras más propagados o dispersos estén los datos, mayor será la varianza y la desviación estándar. 2) Mientras más concentrados u homogéneos sean los datos, menor será la varianza y la desviación estándar. 3) Si las observaciones son todas iguales (de tal forma que no hay variación en los datos), la varianza y la desviación estándar son todas cero. Uso de la desviación estándar: La regla empírica En la mayor parte de las series de datos, una gran porción de las observaciones tienden a agruparse de alguna manera cerca de la mediana. En las series de datos sesgadas a la derecha este agrupamiento ocurre a la izquierda (es decir, debajo) de la mediana y en series de datos sesgadas a la izquierda las observaciones tienden a agruparse a la derecha (es decir, arriba) de la mediana. En series de datos simétricas, donde la mediana y la media son iguales, las observaciones tienden a distribuirse igualmente alrededor de estas mediciones de tendencia central. Cuando el sesgado 6 Estadística Aplicada extremo no se presenta y tal agrupamiento se observa en una serie de datos, podemos usar la denominada regla empírica para examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la desviación estándar está midiendo. La regla empírica establece que en la mayoría de las series de datos encontraremos que aproximadamente dos de cada tres observaciones (es decir, 67%) están contenidas en una distancia de una desviación estándar alrededor de la media y aproximadamente 90 a 95% de las observaciones están contenidas en una distancia de 2 desviaciones estándar alrededor de la media. Así pues, la desviación estándar, como una medición de la variación promedio alrededor de la media, nos ayuda a comprender cómo se distribuyen las observaciones por encima y por debajo de la media y nos ayuda a enfocar y señalar observaciones inusuales (es decir, externas) al analizar una serie de datos numéricos. Uso de la desviación estándar: La regla de Bienaymé Chebyshev Hace más de un siglo, los matemáticos Bieriaymé y Chebyshev examinaron de manera independiente la propiedad de variabilidad de los datos alrededor de la media. Encontraron que, sin importar cómo se distribuye una serie de datos, el porcentaje de observaciones que están contenidas dentro de las distancias de k desviaciones estándar alrededor de la media debe ser al menos: ( 1- 1 )100% K2 Por tanto, para datos con cualquier forma: 1) Al menos [1- (1/22] 100% = 75.0% de las observaciones deben estar contenidas dentro de distancias de ± 2 desviaciones estándar alrededor de la media. 2) Al menos [1- (1/32] 100% = 88.89% de las observaciones deben estar contenidas dentro de distancias de ± 3 desviaciones estándar alrededor de la media. 7 Estadística Aplicada 3) Al menos [1- (1/42] 100% = 93.75% de las observaciones deben estar contenidas dentro de distancias de ± 4 desviaciones estándar alrededor de la media. Aunque la regla de Bienaymé-Chebyshev es general en naturaleza y se aplica a cualquier tipo de distribución de datos, se verá que si los datos forman la distribución normal de "campana"o gaussiana, 68.26% de todas las observaciones estarán contenidas dentro de distancias de ± 1 desviaciones estándar alrededor de la media, mientras que 95.44%, 99.73% y 99.99% de las observaciones estarán incluidas, respectivamente, dentro de distancias de ± 2, ± 3 y ± 4 desviaciones estándar alrededor de la media. Estos resultados se resumen en la tabla siguiente: Tabla: Cómo varían los datos alrededor de la media. Porcentaje de observaciones contenidas entre la media y k desviaciones estándar basadas en Número de unidades de Regla de Bienaymé-Chebyshev Distribución Datos establecimientos desviaciones estándar k para cualquier distribución gaussiana de ganado 1 No calculable Exacta 68.26% Exacta 64.4% 2 Al menos 75.00% Exacta 95.44% Exacta 3 Al menos 88.89% Exacta 99.73% Exacta Al menos 93.75% Exacta 99.99% Exacta 96.7% 100.0% 4 100.0% Específicamente, si se supiera que un fenómeno aleatorio particular sigue el patrón de la distribución de campana, como muchos lo hacen, al menos aproximadamente, entonces se sabría exactamente qué tan probable es que cualquier 8 Estadística Aplicada observación particular estuviera cerca o lejos de su media. Por lo general, sin embargo, para cualquier tipo de distribución, la regla de Bienaymé-Chebyshev nos dice al menos qué tan posible debe ser que cualquier observación particular caiga dentro de una distancia dada alrededor de la media. De la tabla anterior recordar que para la población de 40 establecimientos de cría de ganado caprino, lo posesión media de los mismos es 617 cabezas y la desviación estándar, es 20.03. Resulta importante destacar que aunque los datos de los establecimientos están sesgados a la derecha en forma, los porcentajes de los establecimientos que caen dentro de una o más desviaciones estándar alrededir de una media no son muy distintos de lo que se esperaría si los datos se distribuyeran como una distribución gaussiana de campana, simétrica. El coeficiente de variación A diferencia de las mediciones previas que se han mostrado, el coeficiente de variación es una medición relativa de variación. Se expresa como un porcentaje antes que en términos de las unidades de los datos principales. El coeficiente de variación, denotado por el símbolo CV, mide la dispersión en loS datos relativa a la media. Puede calcularse mediante: CV = S . 100% ____ X donde S = desviación estándar en una serie de datos numéricos _____ X = media aritmética en una serie de datos numéricos 9 Estadística Aplicada Regresando a los datos de los establecimientos de cría de ganado caprino, en el caso de la muestra de 6 de ellos, el coeficiente de variación es CV = S . 100% = X 897 . 100% = 617 Es decir, para esta muestra el tamaño relativo de la “propagación promedio alrededor de la media" con respecto a la media es %. Como una medición relativa, el coeficiente de variación es particularmente útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición. El coeficiente de variación también es muy útil al comparar dos o más conjuntos de datos que son medidos en las mismas unidades pero difieren hasta tal punto que una comparación directa de las respectivas desviaciones estándar no es muy útil. Como ejemplo, suponga que un inversionista potencial estuviera considerando comprar acciones de valores en una de dos compañías, A o B, que se enumeran en la Bolsa de Valores de Buenos Aires. Si ninguna compañía ofreciera dividendos a sus accionistas y si ambas compañías estuvieran igualmente calificadas (por diversos servicios de inversión) en términos de crecimiento potencial, el inversionista potencial podría desear considerar la volatilidad (variabilidad) de los dos valores para ayudar en la decisión de inversión. Ahora suponga que cada acción de valores de la compañía A ha promediado $50 durante los meses pasados con una desviación estándar de $10. Además, suponga que en ese mismo periodo, el precio por acción de los valores de la compañía B promedió $12 con una desviación estándar de $4. En términos de las desviaciones estándar reales, el precio de las acciones de la compañía A parece ser más volátil que el de las acciones de la compañía B. Sin embargo, puesto que los precios promedio por acción de los dos valores son tan diferentes, sería más apropiado para el inversionista potencial considerar la variabilidad en el precio relativa al precio promedio con el fin de examinar la volatilidad/estabilidad de los dos valores. Para la compañía A el coeficiente de variación es CV = ($10/$50)100% = 20.0%; Para la compañía B el coeficiente de variación es CV= ($4/$12)100% = 33.3%. Por tanto, en cuanto a la media, el precio del valor B es mucho más variable que el precio del valor A. 10 Estadística Aplicada Forma: Asimetría y puntiagudes Una tercera propiedad importante de una serie de datos es "forma”, la manera en que los datos se distribuyen. Ya sea que la distribución sea simétrica o que no lo sea. Si la distribución de los datos no es simétrica, se denomina simétrica o sesgada. Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos mediciones son iguales, por lo general podemos considerar, que los datos son simétricos (o de sesgo cero). Por otra parte, si la media excede la mediana, los datos pueden escribirse por lo común como de sesgo positivo o sesgados a la derecha. Si la media es excedida por la mediana, esos datos generalmente pueden llamarse de sesgo negativo o sesgados a la izquierda. Esto es, Media > Mediana: sesgo positivo o derecho Media = Mediana: simetría o de sesgo cero Media < Mediana: sesgo negativo o izquierdo El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos; el sesgo negativo ocurre cuando la media se reduce en algunos valores extremos reales en una dirección particular de forma tal que los valores bajos y altos se compensan entre sí. 11 Estadística Aplicada