2.4 MEDIDAS DE DISPERSION Para escribir en forma adecuada un conjunto de datos, son necesarios dos tipos de medidas de resumen. Además para obtener información respecto a la parte medida de un conjunto de números, es conveniente también tener un método para expresar la cantidad de dispersión o difusión que hay entre los números. Por ejemplo, las medidas de dispersión indican si los valores están relativamente cercanos uno del otro o si se encuentran dispersos. En forma esquemática, esto se ilustra en la siguiente figura: Es conveniente considerar cuatro variables de dispersión: la amplitud de variación, las desviación media, la varianza y la desviación estándar. Nosotros solo estudiaremos las dos últimas. En cada caso, un valor cero indica que no hay dispersión en tanto que la dispersión aumenta a medida que se incrementa el valor de la medida. Varianza: La varianza de una muestra se puede calcular mediante la fórmula siguiente: s x2 ( x i x )2 n1 Si un conjunto de números constituye una población, es decir, queremos sacar inferencias con datos de toda la población, se deberá sustituir el denominador (n-1), por n. Ejemplo 1 : Calcule la varianza de esta muestra: 2, 4, 6, 8, 10 Solución: La media obtenida para este conjunto de datos es 6. Los cálculos necesarios son los siguientes: xi x ( xi x ) ( xi x )2 2 4 6 8 10 sum as 6 6 6 6 6 -4 -2 0 +2 +4 0 16 4 0 4 16 40 s 2 ( xi x ) n1 2 40 51 10.0 Si tales valores hubieran sido todos los valores de una población, su varianza sería 40/5 = 8.0. “La varianza de una muestra es la desviación promedio de valores obtenidos a partir de la media, elevada al cuadrado y calculada mediante n-1 en lugar de n” Ejemplo 2: Describe cuales son los pasos necesarios para calcular la varianza de un conjunto de datos. Una fórmula alternativa que suele emplearse para calcular la variaza s x2 x 2 i ( xi ) / n muestral es: 2 n1 Esta fórmula algunas veces es más fácil de utilizar que la anterior ya que no requiere calcular la media y no es necesario obtener cada una de las desviaciones. En el caso de una media como 3.333333, el método anterior da lugar a errores, debido al redondeo de números. Mediante los datos anteriores se puede observar que la varianza calculada con esta fórmula es igual a la que se presentó anteriormente. xi x i2 2 4 6 8 10 4 16 36 64 100 x i x 30 2 220 ( 30 / 5 ) 220 180 2 sx 10.0 51 4 220 2 i Desviación estándar: Es simplemente la raíz cuadrada positiva de la varianza. De este modo si la varianza es 81, la desviación estándar es 9; si la varianza es 10, la desviación estándar es 10 =3.16. Para obtener la desviación estándar, se debe calcular la varianza y hallar su raíz cuadrada. Las fórmulas para la desviación estándar son: s ( x i x )2 n1 x 2 i [( xi )2 / n ] n1 Como se hizo anteriormente, sustituir(n – 1 ) por n las convierte en fórmulas para calcular la desviación estándar de la población Ejemplo3 : Estime la desviación estándar de esta muestra: 20, 5, 10, 15, 25 Solución: x Calculamos x Calculamos s i : 20 + 5 + 10 + 15 + 25= 75 2 i : 202 + 52 + 102 +152 +252 = 400+25+100+225+625=1375 1375 ( 75 2 / 5 ) 62.5 7.91 51 La desviación estándar es una de las medidas de resumen que más suele utilizarse para distribuciones, y desempeña un papel importante en la estadística. Es importante observar que las unidades de la desviación estándar son las mismas que las de la media. Por ejemplo, si la media está en unidades monetarias, la desviación estándar también lo estará. Si la media está en metros, lo mismo ocurrirá con la desviación estándar. Por otro lado, la varianza se expresa en unidades al cuadrado (es decir, unidades monetarias2, metros2, etc.). Otras medidas: Las medidas presentadas anteriormente se aplican principalmente a datos cuantitativos, con excepción de la moda, que sirve también para trabajar con datos nominales. Otra medida que s e utiliza con datos nominales es la proporción, que es la fracción o porcentaje de elementos de un grupo o clase particular. La proporción se calcula mediante la fórmula: proporción x n En la cual x es el número de elementos que tiene determinada característica, y n es el número total de observaciones. Por ejemplo, si observamos que 10 personas de una muestra de 40 tienen casa propia, decimos que la proporción es 10 / 40 = 0.25 ó 25%. Ejemplo 4: Analiza las diferentes formas de obtener un promedio de 7, tomando en cuenta 4 exámenes parciale (ncluye también valores fuera del rango del 1 al 10) y calcula la desviación estándar en cada caso. . A B C D E F 7 10 9 4 3 0 7 5 8 5 7 5 7 6 4 10 10 9 7 7 7 9 8 14 Media 7 7 7 7 7 7 DE 0 2.1602 2.1602 2.94 2.94 5.944 puedes notar mejor ahora el concepto d e desviación estándar?. Ejemplo 4.Una aerolínea importante quiere algunas informaciones sobre los inscritos en su programa de “pasajero frecuente”. Una muestra de 48 miembros arrojó los siguientes números (aproximados a las 1000 millas más cercanas) de millas voladas por participante. 22 45 56 69 29 45 57 70 32 46 58 70 38 46 59 70 39 46 60 71 41 47 61 71 42 50 61 72 43 51 63 73 43 52 63 74 43 54 64 76 44 54 64 78 44 55 67 88 a) Haga una distribución de frecuencias y comente acerca de ella. b) Cuál es el promedio de millas voladas por los pasajeros inscritos Y para que le pudiera servir este dato a la compañía. c) Calcule la desviación estándar de estos datos y que puedes comentar acerca de este valor. d) Cuál es la mejor manera de presentar gráficamente esta información. Elabora un diagrama. Solución: USO DE SOFTWARE SPSS Statistics PASAJ N Valid 48 Missing 2 Mean 55.5417 Median 55.5000 Mode 43.00 Std. 14.1421 Deviation Variance 199.9982 a Multiple modes exist. The smallest value is shown MINITAB Variable Median millasrec 55.50 Variable millasrec N N* Mean SE Mean StDev Variance Minimum Q1 48 0 55.54 2.04 14.14 200.00 22.00 44.25 Q3 68.50 Maximum 88.00 Range 66.00 Si trazamos una curva suave por el histograma, fíjese en el comportamiento de doble curva Histogram of millasrec 30 27.0833 25 20.8333 Percent 20 18.75 16.6667 15 10 6.25 4.16667 5 4.16667 2.08333 0 22 31 40 49 58 millasrec 67 76 85 94 EJERCICIO 2.4 1. ¿Puede la desviación tener un valor de cero? Explíquelo.¿Puede ser negativa? Explicar. 2. Calcule la desviación estándar de las ventas diarias: $8100, $9000, $4580, $5600, $7860, $4800, $10640 3. Obtenga la media y mediana para cada uno de los siguientes conjuntos de datos: a. 7, 9, 2, 1, 5, 4,5, 7, 5, 6, 2 b.1, 2, 10, 7, 7, 9, 8, 5, 2, 11 c. 30, 2, 79, 50, 38, 17, 9 d 0.011, 0.032, 0.027, 0.035, 0.042 e. 90, 87, 92, 81, 78, 85, 95, 80 f.42, 30, 27, 40, 25, 32,33 4. Calcule la media y la varianza para los siguientes valores, suponiendo que estos son: a. Muestrales b. De la población 89, 92, 100, 57, 85, 88, 84, 82, 94, 93, 91, 95 5. Determine la desviación estándar para los valores del ejercicio 4, en términos, primero de una muestra y después de una población. 6. Convierta cada uno de los siguientes enunciados en una proporción: a. 5 niños de 25 c. 3 rojos, 4 azules y 5 verde de 12 b.7 de 9 pacientes DATOS AGRUPADOS Una muestra de las inversiones quincenales en el plan de participación de empleados de la Dupree Saint Company se organizó para su estudio, en una distribución de frecuencias (comos e muestra en la siguiente tabla)¡ Cuál es la desviación estándar de los datos? ¿ Cuál es la varianza muestral?. Cantidad Invertida $30 a 35 35 a 40 40 a 45 45 a 50 50 a 55 55 a 60 60 a 65 65 a 70 Número de empleados 3 7 11 22 40 24 9 1 Solución: para calcular la media aritmética de datos agrupados en una distribución de frecuencia, X representa el punto medio de cada clase o intervalo, por ejemplo, el punto medio de la clase $30 a 35 es $32.50, de la misma manera se supone que las 7 cantidades en la clase “desde 35 a 40” tienen como promedio $37.50 aproximadamente, y así sucesivamente. Para encontrar la desviación estándar debemos completar la tabla de la siguiente manera: Cantidad Invertida $30 a 35 35 a 40 40 a 45 45 a 50 50 a 55 55 a 60 60 a 65 65 a 70 Número de Empleados (f) 3 7 11 22 40 24 9 1 Punto medio X $32.50 37.50 42.50 47.50 52.50 57.50 62.50 67.50 fX fx2 $97.50 3168.75 252.50 9843.75 487.50 19868.75 1045.00 49637.50 2100.00 110250.00 1380.00 79350.00 562.50 35156.25 270.00 18225.00 $6185.00 325500.00 De este modo, tales sumatorias las sustituimos en la siguiente fórmula: s fX 2 ( fX ) 2 n 1 n (6185) 2 325,500 120 s 120 1 la desviación estándar de la muestra es de $7.51.La varianza 325,500 318785.2 119 $7.51 muestral es de ($7.51)2 aproximadamente $56.40, en dólares.