UNIVERSIDAD AUTÓNOMA DE CENTRO AMÉRICA SEDE REGIONAL PACÍFICO NORTE NICOYA - GUANACASTE MEDIDAS DE DISPERSIÓN EN DATOS NO AGRUPADOS CURSO: PROBABILIDAD Y ESTADÍSTICA PREPARADO POR: ING. ALLAN VILLEGAS ALEMÁN 2012 Medidas De Dispersión en Datos No Agrupados INTRODUCCIÓN El concepto de variabilidad juega un papel clave dentro de la Estadística. Si los hechos no se repitieran o se repitieran sin variación, la Estadística casi no tendría razón de ser; pero la realidad es que la mayoría de los fenómenos se repiten y lo hacen mostrando variaciones de mayor o menor intensidad; de ahí la importancia que tiene la Estadística en el mundo moderno, al suministrarle al hombre procedimientos válidos y confiables para analizar esos hechos que se repiten y hacer inferencias acerca de ellos a pesar de la variabilidad que presentan. Básicamente, al analizar un conjunto de datos, se tienen en mente dos objetivos: a) por una parte, se trata de descubrir las irregularidades que puedan existir en él y de resumirlas a través de un valor típico (un promedio por ejemplo); y b) por otra, se procura establecer la medida en que los datos se concentran o se dispersan alrededor de ése valor típico, o sea, la importancia de las desviaciones de los elementos individuales respecto a ese valor representativo escogido para caracterizar al grupo. En realidad, es casi tan importante conocer un promedio como conocer la variabilidad de los datos alrededor de él. Esto es lógico: la validez de un valor típico para resumir o representar al conjunto de datos para el cual se calculó, depende, en gran medida de si los datos individuales se concentran o se dispersan alrededor de él. Cuanto más concentrados estén los datos alrededor del promedio aritmético, por ejemplo, mucho más confianza se tendrá en este valor para caracterizar o representar el conjunto de datos. Si la moda del número ideal de hijos es 3 en una población, y una porción muy grande de mujeres se concentran en ese valor, podemos utilizar con seguridad ese valor para describir las preferencias reproductivas de la población, como un todo, ya que sabemos que pocos se alejan, de forma significativa, de ese valor. En esta oprtunidad veremos el cálculo de las medidas de dispersión para datos no agrupados. Ing. Allan Villegas Alemán Página 2 Medidas De Dispersión en Datos No Agrupados LA VARIABILIDAD Y SU IMPORTANCIA La importancia del concepto de variabilidad se hace aún más clara, si se nota que en la práctica puede suceder que varios conjuntos de datos tengan, la misma media aritmética y sin embargo, su dispersión sea muy diferente, tal como se puede apreciar a continuación: 5 4 3 2 1 0 A: 5, 5, 5, 5, 5; ; 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 3 2 1 0 B: 4, 5, 5, 5, 6; ; 2 1 0 C: 1, 3, 4, 7, 10; ; Figura 1: Ilustración de tres distribuciones con igual media y diferente variabilidad. Ing. Allan Villegas Alemán Página 3 Medidas De Dispersión en Datos No Agrupados Los anteriores conjuntos tienen la misma media aritmética (5) pero su dispersión o variabilidad es muy diferente: mientras que en el grupo A todos los valores son iguales a cinco, es decir, no existe dispersión, en B sí existe cierto grado de variabilidad y en el grupo C la dispersión es aún mayor. Aún más, en este último grupo ni siquiera hay un valor que sea igual al promedio y esto puede darnos una idea de las conclusiones erróneas a que podríamos llegar si no tomáramos en cuenta la dispersión de los datos con respecto a esta medida. Para los investigadores, la variabilidad es un fenómeno natural y corriente del cual tienen clara conciencia. Es evidente que sólo el conocimiento del valor central x no es suficiente para caracterizar un conjunto de datos. LA MEDICIÓN DE LA VARIABILIDAD Dentro del tratamiento estadístico de la información cuantitativa, es necesario hacer referencia a la medición de la variabilidad. Han sido propuestas diferentes formas de medir la dispersión o variabilidad de un conjunto de datos; cada una de ellas posee ventajas y también limitaciones conceptuales y prácticas. La elección de una de ellas, en particular, dependerá de la situación concreta que se considere y de si, en ese caso, las ventajas de su utilización superan a las desventajas, en relación a las demás medidas. Seguidamente se discutirán las medidas de variabilidad más conocidas, a saber: a) b) c) d) e) El recorrido o amplitud. La desviación media. La desviación estándar. La variancia. El coeficiente de variación. El recorrido o amplitud (R) Una forma natural de apreciar la variabilidad es considerar los valores extremos del grupo de datos. Esto da origen al recorrido o amplitud, que se define como la diferencia entre el valor mayor y el valor menor del conjunto de datos. Su cálculo es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10, 2, 8, 7. . También puede indicarse dando directamente los valores extremos, o sea, para el ejemplo considerado: Recorrido de 2 a 10. No obstante lo simple de su cálculo y lo fácil que resulta percibir su significado, el recorrido no es muy usado debido a ciertas limitaciones que presenta. La más importante, como puede apreciarse en su definición es la de que no toma en cuenta todas las observaciones del grupo o muestra, sino únicamente el mayor y el Ing. Allan Villegas Alemán Página 4 Medidas De Dispersión en Datos No Agrupados menor. Esta característica hace que dependa sensiblemente del número de datos y que aumente al crecer este número ya que es probable que, entre las nuevas observaciones agregadas aparezca una más pequeña y/o una de mayor valor que las existentes y eso producirá un incremento en el valor del recorrido. En la práctica el recorrido se utiliza cuando se desea una medida simple de la variabilidad o cuando -por falta de tiempo- no se pueden emplear medidas más complejas. La desviación media (DM) La necesidad de definir una medida de dispersión que tome en cuenta para su cálculo todos los datos y no esté tan estrictamente ligada al número de ellos, lleva casi automáticamente a la conclusión de que esta medida tiene que estar basada en las desviaciones o diferencias de los datos individuales respecto de un valor central o típico. Esta línea de razonamiento conduce lógicamente, a considerar la suma de las desviaciones de los datos con respecto a la media aritmética como una posible medida de dispersión. Sin embargo, como es sabido, la suma de las desviaciones de las observaciones con respecto a la media aritmética siempre es igual a cero, circunstancia que impide que pueda ser utilizada como medida de dispersión. Para obviar este problema, se puede emplear la suma de los valores absolutos de las diferencias y dividirla por el número de datos para obtener una medida de dispersión promedio o por observación. Así se origina la llamada desviación media. Simbólicamente así: Recuérdese que el símbolo se emplea para indicar que deben ser considerados los valores absolutos de las diferencias, es decir, ignorando su signo. Su cálculo se ilustra seguidamente para los valores: 3, 10, 2, 8, 7. Primero se obtiene la media aritmética: Se recomienda hacer una tabla como la que se muestra a continuación: Ing. Allan Villegas Alemán Página 5 Medidas De Dispersión en Datos No Agrupados 3 10 2 8 7 Σ -3 +4 -4 +2 +1 0 3 4 4 2 1 14 Luego se calcula la desviación media: La desviación media, no obstante las ventajas conceptuales que reúne, casi no se utiliza debido a que requiere el manejo de valores absolutos por una parte, y por el hecho de que existe otra medida, basada también en las desviaciones respecto a la media aritmética, que es mucho más cómoda y útil, y reúne numerosas ventajas prácticas y teóricas. Esta medida es la desviación típica. Desviación típica (Desviación estándar) La desviación estándar -o típica- utiliza en lugar de los valores absolutos, los cuadrados de las desviaciones. La desviación estándar nos indica cuánto se alejan, en promedio, las observaciones de la media aritmética del conjunto. Es la medida de dispersión más usada en estadística, tanto para aspectos descriptivos como analíticos. Es, la raíz cuadrada del cuadrado de la suma de las desviaciones entre el número total de observaciones, así: Simbólicamente es así: También tiene mucha importancia el cuadrado de la desviación estándar, que recibe el nombre de variancia (en algunos textos aparece como “varianza”). Ing. Allan Villegas Alemán Página 6 Medidas De Dispersión en Datos No Agrupados La Variancia Como se dijo atrás, la variancia es el cuadrado de la desviación típica, así: Simbólicamente así: Es conveniente hacer algunas observaciones acerca de la definición de varianza, según se considere una muestra o toda la población. Como ya se ha explicado, el estudio de una población se realiza observando no todos sus elementos, sino, tomando una muestra. Las medidas o valores calculados a partir de las muestras se utilizan luego para representar o estimar los valores de la población en los que estamos interesados. Con el propósito de establecer claramente si el cálculo ha sido realizado para toda la población o para una muestra, se acostumbra indicar con símbolos diferentes cada una de las situaciones. Comúnmente se utilizan letras latinas mayúsculas o letras griegas para indicar los valores de la población y letras latinas minúsculas para los valores calculados a partir de los datos de la muestra (estimadores). Además, es corriente emplear la letra N para indicar el número total de elementos en la población y la n para representar el tamaño de la muestra. Seguidamente se presentan los símbolos y definiciones para el promedio y la variancia, según se refieran a la población o a una muestra: GRUPO DE REFERENCIA PROMEDIO VARIANCIA Muestra (n) Población (N) Algo que llama la atención inmediatamente es que, al definir , se utiliza n-1 como divisor en vez de n. Esto obedece al hecho de que, de acuerdo con la teoría de Ing. Allan Villegas Alemán Página 7 Medidas De Dispersión en Datos No Agrupados la estadística, al dividir por n-1 se obtiene una mejor estimación del valor poblacional (variancia de la población). Debe señalarse, sin embargo, que si la muestra es grande no tiene importancia alguna usar n ó n-1 como divisor, ya que el resultado numérico que se obtendrá será prácticamente el mismo; en cambio, si la muestra es pequeña, entonces sí es importante el usar la fórmula apropiada, o sea, la correspondiente a (minúscula). Cálculo de la variancia en datos no agrupados Seguidamente se presentará el cálculo de la variancia cuando se tiene una muestra de n datos sin agrupar. Como ya se vio, la fórmula de es la siguiente: Utilizando esta fórmula y sacando luego la raíz cuadrada, puede obtenerse el valor de la desviación estándar (s). Ahora se ilustra el cálculo de ambas medidas a partir de la definición. EJEMPLO: Para los valores: 3, 10, 2, 8, 7. Calcular y s. Primero se obtiene la media aritmética: Se recomienda hacer una tabla como la que se muestra a continuación: 3 10 2 8 7 Σ=30 Ing. Allan Villegas Alemán -3 4 -4 2 1 0 9 16 16 4 1 46 Página 8 Medidas De Dispersión en Datos No Agrupados En el ejemplo anterior, el promedio resultó ser un número entero y por lo tanto, el cómputo de las diferencias y su elevación al cuadrado, fue una labor relativamente fácil; sin embargo, en la mayoría de los casos, la utilización de la fórmula , implica una serie de operaciones incómodas y largas, al tener que elevar al cuadrado números con muchos decimales. Además, la expresión , no es la más apropiada cuando se trabaja con calculadora, por ello, para fines de cálculo, es preferible emplear la expresión siguiente: A la cual se llega realizando ciertas transformaciones algebraicas en el numerador de . Seguidamente, se repite el cálculo de y s, utilizando la “fórmula para cálculos” que se acaba de introducir: 3 10 2 8 7 Σ=30 9 100 4 64 49 Σ=226 Puede verse que los resultados obtenidos para la desviación típica y la variancia son idénticos a los hallados empleando la fórmula de la página anterior. Ing. Allan Villegas Alemán Página 9 Medidas De Dispersión en Datos No Agrupados EL COEFICIENTE DE VARIACIÓN Una situación corriente en la investigación, es la necesidad de comparar dos o más conjuntos de datos en cuanto a su variabilidad. Si los datos están dados en las mismas unidades, y si los promedios de los conjuntos, es decir, la magnitud de los datos, son bastantes similares, la desviación estándar es una herramienta perfectamente apropiada para realizar la comparación. Pero, si alguna de las condiciones antes citadas no se cumple, la desviación estándar, y cualquier medida absoluta de dispersión, pierde casi toda su utilidad para este propósito. Si los datos están expresados en diferentes unidades, es obvio que no puede compararse su variabilidad utilizando la desviación estándar, ya que carece de sentido comparar, por ejemplo, una desviación estándar expresada en kg, con otra dada en minutos o en “años luz”. Por otra parte, aun cuando los conjuntos de datos están dados en la misma unidad de medida, la diferencia entre sus promedios puede ser tan importante que haga completamente inadecuada la comparación directa de las desviaciones estándar. Se hace necesario entonces, disponer de valores que sean independientes de las unidades de medida y que no dependan de la magnitud general de los datos que se consideren. Con este propósito se utilizan las llamadas medidas de dispersión relativa, la más importante de las cuales es el coeficiente de variación. El coeficiente de variación indica la importancia de la desviación estándar en relación al promedio aritmético y cuya definición puede representarse de la siguiente forma: Nótese que se da multiplicado por 100. De acuerdo con la simbología presentada anteriormente, se tendrían las siguientes fórmulas según se trate de una población o de una muestra: Ing. Allan Villegas Alemán Página 10 Medidas De Dispersión en Datos No Agrupados Su definición obedece a las necesidades mencionadas anteriormente de contar con una medida independiente de las unidades y de la magnitud general de las observaciones. Al dividir la desviación estándar (“ ” medida de dispersión absoluta) entre la media aritmética (“ ” medida de posición), se eliminan las unidades1, por una parte, y por otra, la inclusión del promedio en el divisor, permite corregir el efecto que sobre la desviación estándar tiene la magnitud general de los datos. En otras palabras, si la desviación estándar es grande porque los datos en sí son grandes, al dividirse entre la media aritmética ese factor queda eliminado. En cuanto a la multiplicación por 100, no tiene otro propósito que el de “amplificar” el número relativo y hacer más cómodo su uso. Ejemplo: Los siguientes datos se refieren a estatura en centímetros de niñas de 2 y 16 años. EDAD EN AÑOS 2 16 ESTATURA PROMEDIO 84 160 DESVIACIÓN ESTÁNDAR 3 5 En términos absolutos es evidente que hay mayor variabilidad en el grupo de niñas de 16 años, ya que la desviación estándar es mayor; sin embargo, al calcular los coeficientes de variación se descubre que son muy parecidos, resultando más bien ligeramente inferior el correspondiente a niñas de 16 años. Debe concluirse, entonces, que la dispersión relativa en ambos grupos de niñas es muy similar. Tanto la desviación estándar como la media aritmética vienen referidas a unidades concretas; por ejemplo, si se trata de la variable peso, ambas vendrían dadas en kilogramos; al dividir una entre la otra, se dividen los kg entre kg, desapareciendo las unidades de referencia, es decir kg, quedando un número abstracto (un escalar) que no se refiere a ninguna unidad determinada. 1 Ing. Allan Villegas Alemán Página 11 Medidas De Dispersión en Datos No Agrupados ANEXO I OBTENCIÓN DE LA FÓRMULA PARA CÁLCULOS Ing. Allan Villegas Alemán Página 12 Medidas De Dispersión en Datos No Agrupados FÓRMULA PARA CÁLCULOS La fórmula para cálculos introducida en la página 9, se obtuvo, como se dijo antes, de manipular el numerador de la fórmula para de datos sin agrupar introducida en la página 8. Veamos dicho procedimiento. Primero tomamos la fórmula para calcular la variancia en datos no agrupados: Y desarrollamos (o expandimos) la fórmula notable que se haya implícita en su numerador: Así: Ing. Allan Villegas Alemán Página 13 Medidas De Dispersión en Datos No Agrupados La expresión anterior corresponde al nuevo numerador de la fórmula para cálculos; sólo resta dividir esta expresión entre n-1, así: Así queda demostrado de dónde sale la “fórmula para cálculos”. Ing. Allan Villegas Alemán Página 14 Medidas De Dispersión en Datos No Agrupados Referencias LIPSCHUTZ, SEYMOUR y SCHILLER, JOHN. Introducción a la Probabilidad y Estadística, Editorial McGraw Hill. 2000. QUINTANA, CARLOS. Estadística Elemental, Editorial Máster Libro S.A.1992. GÓMEZ, MIGUEL. Estadística Descriptiva, Oficina de publicaciones de la Universidad de Costa Rica, 1977. Ing. Allan Villegas Alemán Página 15