Medidas De Dispersión en Datos No Agrupados

Anuncio
UNIVERSIDAD AUTÓNOMA DE CENTRO AMÉRICA
SEDE REGIONAL PACÍFICO NORTE
NICOYA - GUANACASTE
MEDIDAS DE DISPERSIÓN
EN DATOS NO AGRUPADOS
CURSO:
PROBABILIDAD Y ESTADÍSTICA
PREPARADO POR:
ING. ALLAN VILLEGAS ALEMÁN
2012
Medidas De Dispersión en Datos No Agrupados
INTRODUCCIÓN
El concepto de variabilidad juega un papel clave dentro de la Estadística. Si
los hechos no se repitieran o se repitieran sin variación, la Estadística casi no
tendría razón de ser; pero la realidad es que la mayoría de los fenómenos se repiten
y lo hacen mostrando variaciones de mayor o menor intensidad; de ahí la
importancia que tiene la Estadística en el mundo moderno, al suministrarle al
hombre procedimientos válidos y confiables para analizar esos hechos que se repiten
y hacer inferencias acerca de ellos a pesar de la variabilidad que presentan.
Básicamente, al analizar un conjunto de datos, se tienen en mente dos
objetivos: a) por una parte, se trata de descubrir las irregularidades que puedan
existir en él y de resumirlas a través de un valor típico (un promedio por ejemplo); y
b) por otra, se procura establecer la medida en que los datos se concentran o se
dispersan alrededor de ése valor típico, o sea, la importancia de las desviaciones de
los elementos individuales respecto a ese valor representativo escogido para
caracterizar al grupo.
En realidad, es casi tan importante conocer un promedio como conocer la
variabilidad de los datos alrededor de él. Esto es lógico: la validez de un valor típico
para resumir o representar al conjunto de datos para el cual se calculó, depende, en
gran medida de si los datos individuales se concentran o se dispersan alrededor de
él. Cuanto más concentrados estén los datos alrededor del promedio aritmético, por
ejemplo, mucho más confianza se tendrá en este valor para caracterizar o
representar el conjunto de datos.
Si la moda del número ideal de hijos es 3 en una población, y una porción
muy grande de mujeres se concentran en ese valor, podemos utilizar con seguridad
ese valor para describir las preferencias reproductivas de la población, como un
todo, ya que sabemos que pocos se alejan, de forma significativa, de ese valor.
En esta oprtunidad veremos el cálculo de las medidas de dispersión para
datos no agrupados.
Ing. Allan Villegas Alemán
Página 2
Medidas De Dispersión en Datos No Agrupados
LA VARIABILIDAD Y SU IMPORTANCIA
La importancia del concepto de variabilidad se hace aún más clara, si se nota
que en la práctica puede suceder que varios conjuntos de datos tengan, la misma
media aritmética y sin embargo, su dispersión sea muy diferente, tal como se puede
apreciar a continuación:
5
4
3
2
1
0
A: 5, 5, 5, 5, 5;
;
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
3
2
1
0
B: 4, 5, 5, 5, 6;
;
2
1
0
C: 1, 3, 4, 7, 10;
;
Figura 1: Ilustración de tres distribuciones con igual media y diferente variabilidad.
Ing. Allan Villegas Alemán
Página 3
Medidas De Dispersión en Datos No Agrupados
Los anteriores conjuntos tienen la misma media aritmética (5) pero su
dispersión o variabilidad es muy diferente: mientras que en el grupo A todos los
valores son iguales a cinco, es decir, no existe dispersión, en B sí existe cierto grado
de variabilidad y en el grupo C la dispersión es aún mayor. Aún más, en este último
grupo ni siquiera hay un valor que sea igual al promedio y esto puede darnos una
idea de las conclusiones erróneas a que podríamos llegar si no tomáramos en cuenta
la dispersión de los datos con respecto a esta medida. Para los investigadores, la
variabilidad es un fenómeno natural y corriente del cual tienen clara conciencia.
Es evidente que sólo el conocimiento del valor central x no es suficiente para
caracterizar un conjunto de datos.
LA MEDICIÓN DE LA VARIABILIDAD
Dentro del tratamiento estadístico de la información cuantitativa, es necesario
hacer referencia a la medición de la variabilidad. Han sido propuestas diferentes
formas de medir la dispersión o variabilidad de un conjunto de datos; cada una de
ellas posee ventajas y también limitaciones conceptuales y prácticas.
La elección de una de ellas, en particular, dependerá de la situación concreta
que se considere y de si, en ese caso, las ventajas de su utilización superan a las
desventajas, en relación a las demás medidas. Seguidamente se discutirán las
medidas de variabilidad más conocidas, a saber:
a)
b)
c)
d)
e)
El recorrido o amplitud.
La desviación media.
La desviación estándar.
La variancia.
El coeficiente de variación.
El recorrido o amplitud (R)
Una forma natural de apreciar la variabilidad es considerar los valores
extremos del grupo de datos. Esto da origen al recorrido o amplitud, que se define
como la diferencia entre el valor mayor y el valor menor del conjunto de datos. Su
cálculo es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10, 2, 8,
7.
. También puede indicarse dando directamente los valores
extremos, o sea, para el ejemplo considerado: Recorrido de 2 a 10.
No obstante lo simple de su cálculo y lo fácil que resulta percibir su
significado, el recorrido no es muy usado debido a ciertas limitaciones que presenta.
La más importante, como puede apreciarse en su definición es la de que no toma en
cuenta todas las observaciones del grupo o muestra, sino únicamente el mayor y el
Ing. Allan Villegas Alemán
Página 4
Medidas De Dispersión en Datos No Agrupados
menor. Esta característica hace que dependa sensiblemente del número de datos y
que aumente al crecer este número ya que es probable que, entre las nuevas
observaciones agregadas aparezca una más pequeña y/o una de mayor valor que las
existentes y eso producirá un incremento en el valor del recorrido.
En la práctica el recorrido se utiliza cuando se desea una medida simple de la
variabilidad o cuando -por falta de tiempo- no se pueden emplear medidas más
complejas.
La desviación media (DM)
La necesidad de definir una medida de dispersión que tome en cuenta para su
cálculo todos los datos y no esté tan estrictamente ligada al número de ellos, lleva
casi automáticamente a la conclusión de que esta medida tiene que estar basada en
las desviaciones o diferencias de los datos individuales respecto de un valor central
o típico.
Esta línea de razonamiento conduce lógicamente, a considerar la suma de las
desviaciones de los datos con respecto a la media aritmética como una posible
medida de dispersión. Sin embargo, como es sabido, la suma de las desviaciones de
las observaciones con respecto a la media aritmética siempre es igual a cero,
circunstancia que impide que pueda ser utilizada como medida de dispersión.
Para obviar este problema, se puede emplear la suma de los valores absolutos
de las diferencias y dividirla por el número de datos para obtener una medida de
dispersión promedio o por observación. Así se origina la llamada desviación media.
Simbólicamente así:
Recuérdese que el símbolo
se emplea para indicar que deben ser
considerados los valores absolutos de las diferencias, es decir, ignorando su signo.
Su cálculo se ilustra seguidamente para los valores: 3, 10, 2, 8, 7. Primero se
obtiene la media aritmética:
Se recomienda hacer una tabla como la que se muestra a continuación:
Ing. Allan Villegas Alemán
Página 5
Medidas De Dispersión en Datos No Agrupados
3
10
2
8
7
Σ
-3
+4
-4
+2
+1
0
3
4
4
2
1
14
Luego se calcula la desviación media:
La desviación media, no obstante las ventajas conceptuales que reúne, casi no
se utiliza debido a que requiere el manejo de valores absolutos por una parte, y por
el hecho de que existe otra medida, basada también en las desviaciones respecto a
la media aritmética, que es mucho más cómoda y útil, y reúne numerosas ventajas
prácticas y teóricas. Esta medida es la desviación típica.
Desviación típica (Desviación estándar)
La desviación estándar -o típica- utiliza en lugar de los valores absolutos, los
cuadrados de las desviaciones. La desviación estándar nos indica cuánto se alejan,
en promedio, las observaciones de la media aritmética del conjunto.
Es la medida de dispersión más usada en estadística, tanto para aspectos
descriptivos como analíticos. Es, la raíz cuadrada del cuadrado de la suma de las
desviaciones entre el número total de observaciones, así:
Simbólicamente es así:
También tiene mucha importancia el cuadrado de la desviación estándar, que
recibe el nombre de variancia (en algunos textos aparece como “varianza”).
Ing. Allan Villegas Alemán
Página 6
Medidas De Dispersión en Datos No Agrupados
La Variancia
Como se dijo atrás, la variancia es el cuadrado de la desviación típica, así:
Simbólicamente así:
Es conveniente hacer algunas observaciones acerca de la definición de varianza,
según se considere una muestra o toda la población.
Como ya se ha explicado, el estudio de una población se realiza observando no
todos sus elementos, sino, tomando una muestra. Las medidas o valores calculados
a partir de las muestras se utilizan luego para representar o estimar los valores de la
población en los que estamos interesados.
Con el propósito de establecer claramente si el cálculo ha sido realizado para
toda la población o para una muestra, se acostumbra indicar con símbolos
diferentes cada una de las situaciones. Comúnmente se utilizan letras latinas
mayúsculas o letras griegas para indicar los valores de la población y letras latinas
minúsculas para los valores calculados a partir de los datos de la muestra
(estimadores).
Además, es corriente emplear la letra N para indicar el número total de
elementos en la población y la n para representar el tamaño de la muestra.
Seguidamente se presentan los símbolos y definiciones para el promedio y la
variancia, según se refieran a la población o a una muestra:
GRUPO DE REFERENCIA
PROMEDIO
VARIANCIA
Muestra (n)
Población (N)
Algo que llama la atención inmediatamente es que, al definir , se utiliza n-1
como divisor en vez de n. Esto obedece al hecho de que, de acuerdo con la teoría de
Ing. Allan Villegas Alemán
Página 7
Medidas De Dispersión en Datos No Agrupados
la estadística, al dividir por n-1 se obtiene una mejor estimación del valor
poblacional
(variancia de la población).
Debe señalarse, sin embargo, que si la muestra es grande no tiene
importancia alguna usar n ó n-1 como divisor, ya que el resultado numérico que se
obtendrá será prácticamente el mismo; en cambio, si la muestra es pequeña,
entonces sí es importante el usar la fórmula apropiada, o sea, la correspondiente a
(minúscula).
Cálculo de la variancia en datos no agrupados
Seguidamente se presentará el cálculo de la variancia cuando se tiene una
muestra de n datos sin agrupar. Como ya se vio, la fórmula de
es la siguiente:
Utilizando esta fórmula y sacando luego la raíz cuadrada, puede obtenerse el
valor de la desviación estándar (s). Ahora se ilustra el cálculo de ambas medidas a
partir de la definición.
EJEMPLO: Para los valores: 3, 10, 2, 8, 7. Calcular
y s.
Primero se obtiene la media aritmética:
Se recomienda hacer una tabla como la que se muestra a continuación:
3
10
2
8
7
Σ=30
Ing. Allan Villegas Alemán
-3
4
-4
2
1
0
9
16
16
4
1
46
Página 8
Medidas De Dispersión en Datos No Agrupados
En el ejemplo anterior, el promedio resultó ser un número entero y por lo
tanto, el cómputo de las diferencias
y su elevación al cuadrado, fue una
labor relativamente fácil; sin embargo, en la mayoría de los casos, la utilización de la
fórmula , implica una serie de operaciones incómodas y largas, al tener que elevar
al cuadrado números con muchos decimales. Además, la expresión
, no
es la más apropiada cuando se trabaja con calculadora, por ello, para fines de
cálculo, es preferible emplear la expresión siguiente:
A la cual se llega realizando ciertas transformaciones algebraicas en el numerador
de
. Seguidamente, se repite el cálculo de
y s, utilizando la “fórmula para
cálculos” que se acaba de introducir:
3
10
2
8
7
Σ=30
9
100
4
64
49
Σ=226
Puede verse que los resultados obtenidos para la desviación típica y la
variancia son idénticos a los hallados empleando la fórmula de la página anterior.
Ing. Allan Villegas Alemán
Página 9
Medidas De Dispersión en Datos No Agrupados
EL COEFICIENTE DE VARIACIÓN
Una situación corriente en la investigación, es la necesidad de comparar dos o
más conjuntos de datos en cuanto a su variabilidad. Si los datos están dados en las
mismas unidades, y si los promedios de los conjuntos, es decir, la magnitud de los
datos, son bastantes similares, la desviación estándar es una herramienta
perfectamente apropiada para realizar la comparación.
Pero, si alguna de las condiciones antes citadas no se cumple, la desviación
estándar, y cualquier medida absoluta de dispersión, pierde casi toda su utilidad
para este propósito.
Si los datos están expresados en diferentes unidades, es obvio que no puede
compararse su variabilidad utilizando la desviación estándar, ya que carece de
sentido comparar, por ejemplo, una desviación estándar expresada en kg, con otra
dada en minutos o en “años luz”.
Por otra parte, aun cuando los conjuntos de datos están dados en la misma
unidad de medida, la diferencia entre sus promedios puede ser tan importante que
haga completamente inadecuada la comparación directa de las desviaciones
estándar.
Se hace necesario entonces, disponer de valores que sean independientes de
las unidades de medida y que no dependan de la magnitud general de los datos que
se consideren. Con este propósito se utilizan las llamadas medidas de dispersión
relativa, la más importante de las cuales es el coeficiente de variación.
El coeficiente de variación indica la importancia de la desviación estándar en
relación al promedio aritmético y cuya definición puede representarse de la siguiente
forma:
Nótese que se da multiplicado por 100. De acuerdo con la simbología
presentada anteriormente, se tendrían las siguientes fórmulas según se trate de una
población o de una muestra:
Ing. Allan Villegas Alemán
Página 10
Medidas De Dispersión en Datos No Agrupados
Su definición obedece a las necesidades mencionadas anteriormente de contar
con una medida independiente de las unidades y de la magnitud general de las
observaciones.
Al dividir la desviación estándar (“ ” medida de dispersión absoluta) entre la
media aritmética (“ ” medida de posición), se eliminan las unidades1, por una parte,
y por otra, la inclusión del promedio en el divisor, permite corregir el efecto que
sobre la desviación estándar tiene la magnitud general de los datos.
En otras palabras, si la desviación estándar es grande porque los datos en sí
son grandes, al dividirse entre la media aritmética ese factor queda eliminado. En
cuanto a la multiplicación por 100, no tiene otro propósito que el de “amplificar” el
número relativo y hacer más cómodo su uso.
Ejemplo:
Los siguientes datos se refieren a estatura en centímetros de niñas de 2 y 16
años.
EDAD EN AÑOS
2
16
ESTATURA PROMEDIO
84
160
DESVIACIÓN ESTÁNDAR
3
5
En términos absolutos es evidente que hay mayor variabilidad en el grupo de
niñas de 16 años, ya que la desviación estándar es mayor; sin embargo, al calcular
los coeficientes de variación se descubre que son muy parecidos, resultando más
bien ligeramente inferior el correspondiente a niñas de 16 años.
Debe concluirse, entonces, que la dispersión relativa en ambos grupos de
niñas es muy similar.
Tanto la desviación estándar como la media aritmética vienen referidas a unidades concretas; por ejemplo, si se
trata de la variable peso, ambas vendrían dadas en kilogramos; al dividir una entre la otra, se dividen los kg
entre kg, desapareciendo las unidades de referencia, es decir kg, quedando un número abstracto (un escalar)
que no se refiere a ninguna unidad determinada.
1
Ing. Allan Villegas Alemán
Página 11
Medidas De Dispersión en Datos No Agrupados
ANEXO I
OBTENCIÓN DE LA FÓRMULA PARA CÁLCULOS
Ing. Allan Villegas Alemán
Página 12
Medidas De Dispersión en Datos No Agrupados
FÓRMULA PARA CÁLCULOS
La fórmula para cálculos introducida en la página 9, se obtuvo, como se dijo
antes, de manipular el numerador de la fórmula para
de datos sin agrupar
introducida en la página 8. Veamos dicho procedimiento.
Primero tomamos la fórmula para calcular la variancia en datos no agrupados:
Y desarrollamos (o expandimos) la fórmula notable que se haya implícita en su
numerador:
Así:
Ing. Allan Villegas Alemán
Página 13
Medidas De Dispersión en Datos No Agrupados
La expresión anterior corresponde al nuevo numerador de la fórmula para
cálculos; sólo resta dividir esta expresión entre n-1, así:
Así queda demostrado de dónde sale la “fórmula para cálculos”.
Ing. Allan Villegas Alemán
Página 14
Medidas De Dispersión en Datos No Agrupados
Referencias
LIPSCHUTZ, SEYMOUR y SCHILLER, JOHN. Introducción a la Probabilidad y
Estadística, Editorial McGraw Hill. 2000.
QUINTANA, CARLOS. Estadística Elemental, Editorial Máster Libro S.A.1992.
GÓMEZ, MIGUEL. Estadística Descriptiva, Oficina de publicaciones de la Universidad
de Costa Rica, 1977.
Ing. Allan Villegas Alemán
Página 15
Descargar