MEDIDAS DE DISPERSIÓN. Las medidas de tendencia central solamente dan una medida de la localización del centro de los datos. Con mucha frecuencia, es igualmente importante describir la forma en que las observaciones están dispersas, a cada lado del centro. A esto por lo general se le conoce como dispersión o variación. Las medidas de dispersión que analizaremos serán: La amplitud, la desviación media, la varianza y la desviación estándar (desviación típica). Cuando determinamos una medida de dispersión es posible evaluar la confiabilidad del promedio que se está utilizando. Una dispersión pequeña indica que los datos se encuentran muy cercanos entre si, por ejemplo al rededor de la de la media aritmética. En caso inverso una dispersión grande indica que la medida de la media no es muy confiable. La medida de la dispersión es muy importante debido a que dos muestras de observaciones pueden tener el mismo valor central paro tener una dispersión distinta. Por ejemplo, las calificaciones de dos alumnos son las siguientes. Alumno Matemáticas Física Antonio 6 9 Alejandra 8 8 Química Español Inglés 10 7 8 9 10 9 Historia Sociales promedio 9 9 8.28 8 7 8.28 En las siguientes gráficas se muestran las calificaciones de cada alumno, la línea punteada indica la media aritmética de sus calificaciones. La calificación promedio de cada alumno es la misma (8.28), pero se puede observar en las calificaciones de Antonio que hay mayor variación con respecto a su media aritmética, En las calificaciones de Alejandra se puede observar menor variación con respecto a su media aritmética. Por lo que las dispersiones para los dos alumnos son distintas. La medida más importante es la desviación estándar. AMPLITUD. La amplitud también llamada rango de variación de una muestra x1, x2, x3...xn, es la diferencia entre el dato mayor y el dato menor. A= Xmáx – Xmin. Para el caso de las calificaciones de Antonio y Alejandra la amplitud es: A Antonio = 10-6= 4 puntos. A Alejandra= 10-7=3 puntos. Un inconveniente de la amplitud es que sólo depende de los datos extremos y no toma en cuenta los datos restantes. DESVIACIÓN MEDIA. La desviación media, denominada también como desviación promedio, mide el promedio de las distancias de una muestra o población respecto a su media aritmética y la podemos definir como “El promedio de todas las distancias absolutas, medidas con respecto a la media aritmética”, y se calcula con la siguiente fórmula. Donde: n DM = ∑ xi − x I =1 n DM es la desviación media. xi es el valor de cada observación. x es la media aritmética. n es el número de observaciones. es el valor absoluto. Si tomamos en cuenta las calificaciones de Antonio, su desviación media se determina de la siguiente manera. i xi x xi- x xi − x 1 2 3 4 5 6 7 total 6 9 10 7 8 9 9 58 8.28 8.28 8.28 8.28 8.28 8.28 8.28 -2.28 0.72 1.72 -1.28 -0.28 0.72 0.72 2.28 0.72 1.72 1.28 0.28 0.72 0.72 7.72 n DM = ∑ xi − x I =1 = n 7.72 = 1.10 7 Se puede interpretar que en promedio las calificaciones de Antonio varían 1.10 puntos respecto a su media aritmética. VARIANZA Y DESVIACIÓN ESTÁNDAR. La varianza de una serie de observaciones x1, x2, x3...xn, es el promedio de las dispersiones cuadráticas con respecto a la media aritmética, la varianza se determina de la siguiente manera: n S2 = ∑ (xi − x ) i =1 2 Si se trata de una muestra. n −1 Nota. Si n es grande los resultados son similares a los de la varianza poblacional, pero si n es pequeña conviene utilizar entre n-1 para obtener un mejor acercamiento a los datos de la varianza muestral n σ2 = ∑ (xi − µ) i =1 N 2 Si se trata de una población. Donde: µ es la media aritmética de la población N es el tamaño de la población. n es el tamaño de la muestra. xi valor de la observación. x = es la media aritmética de la muestra. Como la varianza presenta la desventaja de estar en unidades cuadráticas es conveniente definir la desviación estándar. La desviación estándar es la raíz cuadrada positiva de la varianza. Para una muestra la desviación estándar se obtiene. n ∑ (xi − x) S=+ 2 i =1 n Para una población la desviación estándar se obtiene. n σ= ∑ ( xi − µ) 2 i =1 N Varianza y desviación estándar para una tabla de distribución de frecuencias está dada por: n n S2 = ∑ fi(mi − x) i =1 n 2 S=+ ∑ fi(mi − x) Donde: fi es la frecuencia de la clase. mi es la marca de clase. x es la media aritmética. n= tamaño de la muestra. i =1 n 2 Ejemplos resueltos. Varianza y desviación estándar para datos no agrupados. Ejemplo 1. Suponga que el número de materias reprobadas por diez estudiantes de un grupo son las siguientes: 3, 4, 2, 1, 2, 3, 5, 0, 3 y 2 materias, determinar su varianza y su desviación estándar. Primero calculamos la media. n _ x= ∑ xi i =1 n x1 + x 2 + x 3 + x 4 + x 5 3 + 4 + 2 + 1 + 2 + 3 + 5 + 0 + 3 + 2 25 = = = 2.5 n 10 10 = Ahora calculamos la varianza y la desviación estándar. n S = 2 ∑ ( xi − x ) 2 i =1 n −1 2 2 2 2 2 2 2 2 2 2 (3 − 2.5) + (4 − 2.5) + (2 − 2.5) + (1 − 2.5) + (2 − 2.5) + (3 − 2.5) + (5 − 2.5) + (0 − 2.5) + (3 − 2.5) + (2 − 2.5) 10 − 1 0.25 + 2.25 + 0.25 + 2.25 + 0.25 + 0.25 + 6.25 + 6.25 + 0.25 + 0.25 9 = 18.5 = 2.05 9 S 2 = 2.05 Para la desviación estándar se extrae la raíz cuadrada de la varianza. 2 S= S S= 2.05 = 1.43 Materias. Ejemplo 2. La siguiente tabla muestra el número de horas diarias que dedican 50 niños de primaria a ver la televisión. Con estos datos obtenga la varianza y la desviación estándar. Horas 2 3 4 5 6 7 8 9 10 total x = 54 54 9 = 6 Frecuencia fi 4 11 10 14 5 3 2 1 0 50 xi − x 2-6=-4 3-6=-3 4-6=-2 5-6=-1 6-6=0 7-6=1 8-6=2 9-6=3 10-6=4 ( xi − x ) 2 16 9 4 1 0 1 4 9 16 fi ( xi − x ) 2 64 99 40 14 0 3 8 9 0 237 n S2 = S2 = ∑ fi(mi − x ) 2 i =1 Por lo que la varianza es: n 237 = 4.74 50 La desviación estándar es: S = 4.74 = 2.17 horas. Varianza y desviación estándar para datos agrupados. Ejemplo 3. La siguiente tabla muestra las edades de las personas que asisten a una conferencia de las reformas a la ley del ISSSTE. Con estos datos obtenga la varianza y la desviación estándar Clase N° 1 2 3 4 5 6 suma Límites de clase Li Ls 20 29 30 39 40 49 50 59 60 69 70 79 Frecuencia fi 16 25 51 80 20 8 200 n ∑ (fi )( mi ) _ 9977 i = 1 x = = = 49.88 n 200 marca de clase mi 24.5 34.5 44.5 54.5 64.5 74.5 (mi − x)2 fi(mi− x)2 (fi)(mi) 392 862.5 2269.5 4360 1290 596 9770 644.14 236.54 28.94 21.34 213.74 606.14 n S2 = ∑fi(mi − x) i =1 n 2 = 28527.68 = 142.63 200 n S= ∑ fi ( mi − x ) i =1 n 2 = 142 .63 = 11 .94 años Existe otra forma de obtener la varianza sin que se obtenga la media. n ∑ (fi)(mi) n (fi)(mi) 2 − i =1 ∑ n S 2 = i =1 n −1 S = S2 2 10306.31 5913.61 1476.16 1707.55 4274.89 4849.16 28527.68 Determinemos la varianza y la desviación estándar empleando el modelo matemático anterior. Clase N° 1 2 3 4 5 6 suma Límites de clase Li Ls 20 29 30 39 40 49 50 59 60 69 70 79 Frecuencia fi 16 25 51 80 20 8 200 marca de clase mi 24.5 34.5 44.5 54.5 64.5 74.5 (fi)(mi) 392 862.5 2269.5 4360 1290 596 9770 95452900 ( fi )( mi ) 2 9604.00 29756.25 100992.75 237620.00 83205.00 44402.00 505580.00 2 n ∑(fi)(mi) n 95452900 (fi)(mi) 2 − i=1 505580− ∑ n 200 = 505580− 477264.5 = 28315.5 = 142.28 S2 = i=1 = n −1 199 199 199 S = S2 = 142 . 28 = 11 . 92 Años Sabemos que una desviación estándar pequeña, para un conjunto de valores indica que éstos se encuentran localizados cerca de su media aritmética. Por el contrario, una desviación estándar grande, indica que las observaciones están muy dispersas con respecto a la media aritmética. De nuestro problema anterior sabemos que su media aritmética es de x =49.88 años y su desviación estándar es de S = 11.92 años, pero ¿Qué porción de los datos se encuentran alrededor de la media aritmética y el valor de su desviación estándar? Para contestar esta interrogante utilizaremos el teorema de Chebysheff.