Estadística descriptiva, frecuencias y medidas de posición y

Anuncio
ESTADÍSTICA DESCRIPTIVA, FRECUENCIAS Y MEDIDAS DE POSICIÓN Y
DISPERSIÓN
Distribuciones de frecuencias
Cuando los datos de una variable están dispersos, la dispersión sigue un cierto
patrón. Inicialmente los datos no nos dicen nada por sí mismos, pero si los dividimos en
clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es decir,
puede aclararse la forma de como están distribuidos. Esta forma de la distribución de
los datos inherente a su variabilidad se denomina distribución de frecuencias.
Normalmente es posible ver la forma general de una distribución si se recogen cien o
más valores y se prepara convenientemente una tabla de frecuencias con diez o veinte
clases. Pero la distribución se puede ver aun con mayor claridad en forma de
representación grafica mediante un histograma de frecuencias. El histograma es una
representación visual de los datos en la que pueden observarse mas fácilmente tres
propiedades esenciales de una distribución como son: Forma, tendencia central o
acumulación y dispersión o variabilidad. De esta forma, el histograma da una idea del
proceso, lo que un simple examen de los datos tabulados no hace.
Hay muchos métodos para construir histogramas. Cuando los datos son numerosos, es
muy útil reunirlos en clases y se recomienda utilizar entre 4 y 20 clases (o celdas). A
menudo conviene elegir un numero total de clases igual aproximadamente a la raíz
cuadrada del tamaño de la muestra. Las clases deben tener amplitud uniforme y se
construye la primera de ellas comenzando con un limite inferior solo un poco menor
que el valor mas pequeño de los datos. Se construye la ultima clase finalizando con un
limite superior solo un poco mayor que el valor más grande de los datos. Para realizar el
histograma se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un
rectángulo de altura proporcional al numero de observaciones de la variable (frecuencia
absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos originales, lo que da como
resultado una perdida de algo de detalle. Así, cuando el numero de observaciones es
relativamente pequeño, o cuando las observaciones solo toman pocos valores, puede
construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar,
dando lugar a los diagramas de barras.
Las distribuciones de frecuencias son la herramienta más sencilla y más utilizada y
eficaz cuando estamos rodeados de montones de datos, que no nos dicen nada si no
hacemos mas que enumerarlos. Al expresar estos datos en forma de una distribución de
frecuencias, ya nos proporcionan diversas ideas. Puesto que las distribuciones de
frecuencias se utilizan muy a menudo en el control de calidad, es necesario conocer la
finalidad de las mismas y su interpretación y uso.
Dada la importancia de las distribuciones de frecuencias, derivada de que en todo
proceso hay un momento en el que nos encontramos con un conjunto de datos sobre las
variables a tratar, es de gran importancia formalizar el proceso de recogida, ordenación y
presentación de los datos que, en la mayoría de las ocasiones, aparecerán dispuestos en
tablas de frecuencias de simple o doble entrada que servirán para analizar las distribuciones
de las variables. Dada una variable X con valores x1 , x2 ,······,
x N aparecen una serie de
conceptos generales que se mencionan a continuación:
•
Frecuencia absoluta ni: Se denomina frecuencia absoluta del valor xi de la variable
X, el numero de veces ni que se repite ese valor.
•
Frecuencia relativa fi: Se denomina frecuencia relativa del valor xi de la variable
X la relación por cociente entre el número de veces que aparece el valor xi y el número
total de valores de la variable (N).
O sea, f i  ni / N.
• Frecuencia absoluta acumulada Ni: Se denomina frecuencia absoluta acumulada del
valor x i a la suma de las frecuencias absolutas de los valores de la variable X anteriores o
iguales a x i . Su valor es N i   ni con j = 1......i
• Frecuencia relativa acumulada Fi: Es la frecuencia absoluta acumulada dividida por el
número total de valores de la variable. Su valor es Fi = N i / N.
De todas estas definiciones se extraen las siguientes deducciones:
•
La suma de las frecuencias absolutas sin acumular es igual al número total de
elementos (  ni ,= N)
•
La última frecuencia relativa acumulada es el total de elementos (N).
•
•
La suma de todos las frecuencias relativas acumular es igual
La última frecuencia relativa acumulada es la unidad
Al conjunto de valores que ha tomado una variable, junto con sus frecuencias, se le
denomina distribución de frecuencias de la característica o variable. Para que una
distribución de frecuencias quede determinada es necesario conocer todos los valores de
la variable y uno cualquiera de los conceptos de frecuencia que acabamos de definir, ya
que el paso de uno a otro es inmediato. Además, según la forma en que se presenten los
valores de la variable será posible distinguir dos tipos de distribuciones de frecuencias:
• Las que no están agrupadas en intervalos, que surgen cuando la información se dispone
asociando a cada valor o categoría de la variable su frecuencia.
• Aquellas cuyos valores observados generalmente aparecen agrupados en intervalos o
clases [L i , L i 1 ] debido al elevado número de observaciones, y, por tanto, las frecuencias
correspondientes a cada intervalo se obtienen sumando las de los respectivos valores de la
variable que contiene.
Cuando se trabaja con distribuciones agrupadas por intervalos o clases es necesario que
las frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Se podrá
optar por suponer que los valores del intervalo se distribuyen uniformemente a lo largo de
el o por considerar como representativo de todos los puntos del intervalo un único valor,
por ejemplo, el punto medio del mismo, que denominaremos marca de clase (X;) y que,
en consecuencia, se obtendrá mediante X i = (L i 1 + L i )/2. Aunque la agrupación de
valores tiene la ventaja de simplificar el manejo de la información, presenta en cambio un
importante inconveniente consistente en la perdida, en mayor o menor medida, de una
parte de dicha información. La distribución de frecuencias de una variable suele
presentarse ordenadamente mediante la tabla de frecuencias siguiente:
Ii
Xi
ni
fi
Ni
[L 0 , L i ]
x1
n,
f 1 =n 1 /N
N 1 =n 1
F 1 =N 1 /N
[L 1 ,L 2 ]
x2
n2
f 2 =n 2 /N
N2=n 1 +n 2
F 2 =N2/N
[L 2 , L 3 ]
x3
n3
f 3 =n 3 /N
N3=n 1 +n 2 +n 3
F 3 =N3/N
[L k 1 , L k]
xk
nk
fk=n k /N
 n =N
i
N k =n 1 +...+n k =N
f
i
=1
Fi
Fk=Nk/N=1
En cuanto al número de intervalos k a considerar puede tenerse en cuenta la fórmula de
Sturges
(K = E[3/2+ log (N)/log(2)]), o también tomar K = .
Medidas de posición dispersión y forma
Una vez definidos los conceptos básicos en el estudio de una distribución de frecuencias
de una variable, estudiaremos las distintas formas de resumir dichas distribuciones
mediante medidas de posición (o de centralización), teniendo presente el error cometido en
el resumen mediante las correspondientes medidas de dispersión. A su vez analizaremos
la forma de la distribución mediante las medidas de forma. El histograma de frecuencias
ya nos daba una representación visual de las tres propiedades mas importantes de los datos
muestrales relativos a variables: la forma de su distribución, su tendencia central y su
dispersión. Ahora se trata de cuantificar estos conceptos.
Medidas de posición
Se trata de encontrar unas medidas que sinteticen las distribuciones de frecuencias. En
vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos
caracterizar su distribución de frecuencias mediante algunos valores numéricos, eligiendo
como resumen de los datos un valor central alrededor del cual se encuentran distribuidos
los valores de la variable. El valor de la variable elegido para representar a una distribución
se llama promedio o medida de posición y es un valor representativo de todos los valores
que toma la variable. Debe hallarse entre el mayor y el menor valor de la variable.
Pero estas medidas de posición de una distribución de frecuencias han de cumplir
determinadas condiciones para que lean verdaderamente representativas de la variable a la
que resumen. Toda síntesis de una distribución se considerara como operativa si intervienen
en su determinación todos y cada uno de los valores de la distribución, siendo unica para
cada distribución de frecuencias y siendo siempre calculable y de fácil obtención. A
continuación se relacionan las medidas de posición más comunes utilizadas en estadística.
Media aritmética: Se define como la suma de todos los valores de la distribución
dividida por el numero total de datos. La expresión matemática que representa la media
aritmética coincide con el momento de primer orden respecto al origen. Pero esto solo es
valido en el supuesto más sencillo en que los datos de la variable estén sin agrupar. En el
caso de que tuviésemos una distribución con datos agrupados en intervalos, los valores
individuales de la variable serían desconocidos y, por tanto, no podríamos utilizar la
formula anterior. En este supuesto los datos estarán agrupados en clases, y se postula la
hipótesis de que el punto medio del intervalo de clase (marca de clase) representa
adecuadamente el valor medio de dicha clase, y aplicaríamos la formula original de la
media simple para dichos valores. En el caso de que la variable presente valores
anormalmente extremos, éstos pueden distorsionar la media aritmética, haciéndola incluso
poco representativa. A los estadísticos que no son afectados por los valores extremos de la
muestra se les denomina estadísticos robustos. La media no es un estadístico robusto. Como
veremos posteriormente, este inconveniente no lo posee la mediana.
Si la distribución de frecuencias es (x i ,n i ), siendo x i los valores de la variable o las marcas
de clase, y siendo n i las frecuencias absolutas, la media aritmética, que representaremos
por X , se define como sigue:
X 
1 k
 xi ni
N i 1
Media aritmética ponderada: Caso particular de la media aritmética, que aparece cuando
se otorga a cada valor de la variable x i una ponderación o peso w i , distinto de la
frecuencia o repetición n i . En este caso no todos los valores de la distribución intervienen
con el mismo peso en el calculo de la media. La cuantía de dichos pesos define la
importancia de cada valor de la distribución en el calculo de la media.
Si la distribución de frecuencias es (x i ,n i ,w i ), siendo x i Los valores de la variable o las
marcas de clase, siendo n i las frecuencias absolutas, y siendo w i los pesos o
ponderaciones, la media aritmética ponderada. que denotaremos por W, se define como
sigue:
k
x n w
W=
i 1
k
i
i
i
n w
i 1
i
i
Media geométrica: Sea una distribución de frecuencias (x i , n i ). La media geométrica,
que denotaremos por G. se define como la raíz N-ésima del producto de los N valores de la
distribución.
G=
N
x1n1 x 2n 2 ·····x knk
El empleo más frecuente de la media geométrica es el de promediar variables tales como
porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la
variable presenta variaciones acumulativas. Además, cuando la variable toma al menos un
x i = 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una
gama de casos particulares en los que tampoco queda determinada debido al problema de
las raíces de índice par de números negativos.
Media armonica: Sea una distribución de frecuencias (x i ,n i ). La media armónica, que
representaremos por H, se define como sigue:
H=
N
k
1 / n  x i ni
i 1
Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de
los valores de la variable. No es aconsejable en distribuciones de variables con valores
pequeños. Se suele utilizar para promediar variables tales como productividades,
velocidades, tiempos, rendimientos, cambios, etc.
Media cuadrática: Sea una distribución de frecuencias (x i ,n i ). La media cuadrática,
que representaremos por C. se define como sigue:
C=
n1 x12  n2 x22 ····nk xk2
N
La media cuadrática es la raíz cuadrada de la media aritmética de los cuadrados de los
valores de la variable.
Mediana: Se define como mediana el valor de la distribución, supuesta esta ordenada de
menor a mayor, que deja a su izquierda y a su derecha la misma frecuencia de
observaciones, es decir, el valor de la variable que ocupa el lugar central, supuesto un
numero impar de datos. Si el numero de datos fuese par puede decirse que hay dos valores
medianos, y se toma como mediana la media aritmética entre ellos. También se podría
definir como aquel valor de la distribución cuya frecuencia absoluta acumulada es N/2
(N=  ni ). Para distribuciones agrupadas en intervalos. y suponiendo que todos los valores
comprendidos dentro del intervalo mediano [L i 1 ,L i ] se encuentran distribuidos
uniformemente a lo largo de él, puede calcularse la mediana Me mediante la expresion:
Me = L i 1 + [(N/2 - (N i 1 )) / n i ] c i
donde N i 1 < N/2 <N i
y
[L i 1 , L i ] es el intervalo siguiente al que contiene a N/2,
siendo c i su amplitud.
Como ventaja de la mediana tenemos que no influyen en ella los valores extremos
(estadístico robusto).
Moda: La moda es el valor de la variable que más veces se repite, y en consecuencia,
en una distribución de frecuencias, es el valor de la variable que viene afectada por la
máxima frecuencia de la distribución. En distribuciones no agrupadas en intervalos se
observa la columna de las frecuencias absolutas, y el valor de la distribuci6n al que
corresponde la mayor frecuencia será la moda. A veces aparecen distribuciones de variables
con más de una moda (bimodales, trimodales, etc), e incluso una distribución de
frecuencias que presente una moda absoluta y una relativa.
En distribuciones agrupadas en intervalos de la misma amplitud, realmente no tendremos
un valor modal sino un intervalo modal (el intervalo que presenta la mayor frecuencia
[L i 1 . L i ]). Podemos tomar como valor moda el extremo inferior del intervalo (Mo = L i 1 )
o el extremo superior (Mo = L i ), o bien hacer que la moda sea igual a la marca de clase del
intervalo modal (Mo = x i ). En caso de que todos los valores del intervalo modal estén
distribuidos uniformemente dentro de él, la moda estará más cerca de aquel intervalo
contiguo cuya frecuencia sea mayor, siendo las distancias de la moda Mo a los intervalos
contiguos inversamente proporcionales a las frecuencias de dichos intervalos, la moda
puede calcularse mediante la expresión:
Mo = L i 1 + (n i +l / (n i - l + n i +l))c i
Para intervalos de distinta amplitud, realmente las densidades de frecuencias nos dan el
numero de valores que hay en cada unidad de intervalo para cada intervalo. La mayor
densidad de frecuencia, ahora sí, nos determina el intervalo modal [L i 1 , L i ], calculándose
la moda mediante la expresión:
Mo = L i 1 + (d i 1 / (d i 1 + d i 1 ))c i
con d i =n i /c i
Cabe señalar que la moda es la medida mas representativa en caso de distribuciones de
variables en escala nominal. Esto es debido a que las distribuciones de este tipo presentan
los datos no susceptibles de ordenaci6n, de tal forma que para estas distribuciones no es
posible realizar operaciones elementales con sus observaciones. La moda se emplea sobre
todo cuando los valores de la variable presentan una gran concentraci6n hacia un valor
determinado. Sólo se utilizará en distribuciones de gran frecuencia total.
Cuantiles: Se definen los cuantiles de orden k como los valores de la distribución,
supuesta ésta ordenada de menor a mayor, que la dividen en k partes con la misma
frecuencia de observaciones. Por lo tanto existirán r=k-1 cuantiles de orden k. El primer
cuantil de orden k deja a su izquierda la fracción 1/k de frecuencia de observaciones. El
segundo cuantil de orden k deja a su izquierda la fracción 2/k de frecuencia de
observaciones. El r-ésimo cuantil de orden k deja a su izquierda la fracción r/k (100 r/k por
ciento) de frecuencia de observaciones, y a su derecha deja la fracción 1-r/k (100(k-r)/k por
ciento) de frecuencia de observaciones. El r-ésimo cuantil de orden k suele denominarse
por Qr,k.
Para el caso más general, en que la distribución este agrupada en intervalos, el r-ésimo
cuantil de orden k tomará el valor:
Qr,k = L i 1 + [(rN/k - (N i 1 )) / n i ) c i
Donde N i 1 < rN /k < N i y [L i 1 , L i ] es el intervalo siguiente al que contiene a rN / k,
siendo c i su amplitud.
Para k= 4 y r =1,2,3 tendremos los 3 cuartiles. Para k =10 y r = 1,2,...,9 tendremos los
9 deciles, y para k =100 y r = 1,2,...,99 tendremos los 99 percentiles. Los cuartiles son,
por tanto, los tres valores de la distribución que la dividen en 4 partes iguales, es decir, en
4 intervalos dentro de cada cual está incluido el 25% de los valores de la distribución. Los
deciles son los 9 puntos que dividen la distribución en 10 partes, tales que dentro de cada
una está incluido el 10% de los valores de la distribución. Los percentiles son los 99
puntos que dividen la distribución en 100 partes, tales que dentro de cada una está
incluido el 1 % de los valores de la distribución.
Para distribuciones sin agrupar en intervalos
el primer cuartil Q 1,4 es el valor de la distribución que ocupa el lugar N/4
el segundo cuartil Q 2,4 es el valor de la distribución que ocupa el lugar 2N/4,
el tercer cuartil Q 3.4 es el valor de la distribución que ocupa el lugar 3N/4,
el r-ésimo decil Qr,10 es el valor de la distribución que ocupa el lugar rN/10
(r =1,2,...,9),
el r-ésimo percentil Qr,100 es el valor de la distribución que ocupa el lugar rN/100
(r =1,2,...,99).
Momentos potenciales: Entre los valores que caracterizan una distribución de
frecuencias tenemos los momentos potenciales. Dos distribuciones que tienen sus
momentos iguales son iguales, y serán más parecidas cuanto más próximos sean sus
momentos. Los momentos suelen considerarse respecto del origen y respecto de la media.
El momento de orden r respecto del origen se define como:
ar 
1
N
k
x n
i 1
r
i
i
El momento de orden r respecto de la media se define como:
mr 
1 k
 ( x j  x ) 2 ni
N i 1
Se observa que el momento de orden uno centrado en el origen coincide con la media
aritmética de la distribución, y el momento de orden 2 centrado en la media coincide con
la varianza de la distribución.
Medidas de dispersión
Las medidas de dispersión permiten calcularla representatividad de una medida de
posición, para lo cual será preciso cuantificar la distancia de los diferentes valores de la
distribución respecto a dicha medida. A tal distancia es a lo que, en términos estadísticos,
denominaremos variabilidad o dispersi6n de la distribuci6n. Las medidas de dispersi6n
tienen como finalidad estudiar hasta que punto, para una determinada distribución de
frecuencias, las medidas de tendencia central o de posición son representativas como
síntesis de toda la información de la distribución. Medir la representatividad de una medida
de posición equivale a cuantificar la separación de los valores de la distribución respecto a
dicha medida.
Por ejemplo, si queremos estudiar en que grado una media aritmética nos marca una
tendencia central generalizable del comportamiento de todos los elementos del conjunto
estudiado, tendremos que fijarnos en la separación o desviación de cada valor respecto a la
media. Si todos los valores están cercanos al valor medio, este será representativo de ellos.
A la mayor o menor separación de los valores de una distribución respecto de otro, que
se pretende que sea sus síntesis, se le llama dispersión o variabilidad. Será, pues, tanto mas
representativa la media aritmética de una variable cuanto más agrupados en tomo a ella
estén los valores promediados y, por el contrario, será tanto más rechazable, por no ser
representativa. cuanta mayor dispersión exista de los valores de la variable respecto a la
media.
Resulta pues necesario para completar la información que pueda deducirse de una
medida de posición o centralización, acompañarla de uno o varios coeficientes que nos
midan el grado de dispersión de la distribución de la variable respecto de esa medida de
centralización. Estos coeficientes son los que llamamos medidas de dispersión. Inicialmente
se distingue entre medidas de dispersión absolutas y relativas. entendiéndose por relativas
las que no dependen de las unidades de medida. Posteriormente se clasifican las medidas
absolutas y relativas según sean medidas referentes a promedios o no lo sean.
Entre las medidas de dispersión absolutas no referentes a promedios tenemos el
recorrido o diferencia entre el mayor valor y el menor valor de una distribución y el
recorrido intercuartílico o diferencia existente entre el tercer cuartil y el primero. Entre
las medidas de dispersión relativas no referentes a promedios tenemos el coeficiente de
apertura o cociente entre el mayor valor y el menor valor de una distribución y el
recorrido relativo o cociente entre el recorrido y la media, así como el recorrido
semintercuartílico o cociente entre el recorrido intercuartlico y la suma del primer y tercer
cuartil.
Entre las medidas de dispersión absolutas referentes a promedios tenemos las
desviaciones medias, la varianza y la desviación típica. Estas medidas de dispersión
involucran a los promedios y permiten medir el error que cometemos utilizando el
promedio en cuestión como resumen de los datos. Como medida de dispersión mas
simple relativa a la medida de posición P podríamos considerar las desviaciones de cada
valor al promedio y promediar estas desviaciones, es decir, considerar el valor
D=

(xi-P) ni / N,
i =1 ... k. Pero esto, que sería lo primero que se nos ocurriría,
tiene como grave inconveniente las posibles compensaciones de las desviaciones
positivas con las negativas al efectuar la suma, pudiendo obtenerse una medida pequeña
siendo la dispersión grande. Para solucionar este inconveniente se consideran los
valores absolutos de las desviaciones o se elevan estas al cuadrado. A continuación se
definen las medidas de dispersión mas interesantes, entre las que tenemos:
Desviaciones medias: Para medir la eficacia de la media se considera la desviación
media respecto de la media aritmética, que se define como, la media aritmética de los
valores absolutos de las diferencias entre los valores de la variable y la media
aritmética, y cuya expresión es la siguiente:
Dm 
1
N
k
x
i 1
j
 x ni
Para medir la eficacia de la mediana Me suele considerarse la desviación media
respecto de la mediana, que se define como la media aritmética de los valores
absolutos de las diferencias entre los valores de la variable y la mediana, y cuya
expresión es la siguiente:
DMe 
1 k
 x j  Me
N i 1
ni
Varianza, cuasivarianza, desviación tipica y error estándar: De todas las medidas
de dispersión absolutas respecto a la media aritmética, la varianza y su raíz cuadrada (la
desviación típica), son las mas importantes. Si en vez de considerar los valores
absolutos de las desviaciones respecto del promedio consideramos sus cuadrados, surge
una nueva medida de dispersión denominada varianza y que definimos como, la media
aritmética de los cuadrados de las desviaciones de los valores de la variable a la media
aritmética, es decir, el momento de segundo orden respecto a la media aritmética. Se
define mediante la expresión:
2 
1
N
k
 (x
i 1
j
 x ) 2 ni
Como propiedades mas importantes de la varianza tenemos que nunca puede ser
negativa, que es igual al momento de segundo orden respecto al origen menos el de primer
orden elevado al cuadrado, que si en la distribución de frecuencias sumamos a todos los
valores de la variable una constante la varianza no varía (un cambio de origen en la variable
no afecta a la varianza) y que al multiplicar los valores de una distribución de frecuencias
por una constante k la varianza queda multiplicada por el cuadrado de la constante.
Así como las desviaciones medias vienen expresadas en las mismas unidades de medida
que la distribución, la varianza no, ya que vendrá dada en las unidades correspondientes,
pero elevadas al cuadrado. Esto dificulta su interpretación y hace necesario definir la
desviación típica o desviación estándar. La desviación típica es la raíz cuadrada, con signo
positivo, de la varianza, con lo que su expresión sera:

1 k
( x j  x ) 2 ni

N i 1
Al ser la raíz cuadrada de la varianza, vendrá expresada en las mismas unidades de
medida que la distribución, lo cual la hace mas apta como medida de dispersión.
Un estadístico muy utilizado como medida de dispersión, sobre todo debido a sus
propiedades muestrales, es la cuasivarianza, cuya expresión es:
S2 
1 k
( x j  x ) 2 ni

N  1 i 1
Tambien se considera la cuasidesviacion tipica, cuya expresión es:
S
1 k
 ( x j  x ) 2 ni
N  1 i 1
Otro estadístico muy utilizado como medida de dispersión también por sus propiedades
muestrales, es el error estándar, cuyo valor es e = S /
n
Siempre se cumple que D Me < D m < 
Entre las medidas de dispersión absolutas referentes a promedios podríamos haber
definido también la desviación media respecto a la moda y las desviaciones cuadráticas
respecto a la mediana y a la moda, que vienen dadas en las mismas unidades de medida que
la distribución y que marcan la representatividad de los promedios con los que se
relacionan.
Entre las medidas de dispersión relativas (valores adimensionales que no se ven
afectados por las unidades de medida y que siempre se concretan en forma de cociente)
utilizadas para comparar medidas de posición o promedios, tenemos el índice de
dispersión respecto a la mediana y el coeficiente de variación de Pearson.
Coeficiente de variación de Pearson: Se usa para resolver el problema de comparación
de medias aritméticas de varias distribuciones que pueden venir, en general, en unidades
diferentes. Se define como la relación por cociente entre la desviación típica y la media
aritmética V=  / x . Evidentemente a menor coeficiente de variatión V mejor es la
media. Observamos que al efectuar el cociente eliminamos las unidades, y por tanto V es
adimensional. Por otra parte, V representa el número de veces que  contiene a x , y es
claro que cuanto mayor sea V más veces contendrá  a x , luego, relativamente, a
mayor V menor representatividad de x . Este coeficiente también se suele expresar en
tantos por ciento como V = 100 (  / x ) .
Como tanto en el cálculo de  como en el cálculo de x han intervenido todos los
valores de la distribución V presenta la garantía, frente a otros coeficientes, de que utiliza
toda la información de la distribución. La cota inferior de V es cero y el único caso
problemático se presenta cuando x = 0, lo que haría que V tendiera a infinito.
Indice de dispersión respecto a la mediana: Se usa para resolver el problema de
comparación de medianas de varias distribuciones que pueden venir, en general, en
unidades diferentes. Se define como la relación por cociente entre la desviación media
respecto de la mediana y la mediana aritmética V Me = D Me /Me. Evidentemente a menor
índice de dispersión mejor es la mediana.
Medidas de forma
Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual
hemos estudiado las medidas de posición y dispersión de la distribución de una variable,
necesitamos conocer más sobre el comportamiento de la misma. No podemos basar
nuestras conclusiones únicamente en expresiones que vengan dadas en términos de
medidas de posición y dispersión. Si bien intentamos globalizar el comportamiento del
colectivo que sea objeto de nuestro estudio, para lo cual las medidas de posición son
nuestro mejor instrumento, no debemos proceder a una intrepretación que implique un
comportamiento de todos los elementos del colectivo uniformemente constante e igual a
la medida de posición en cuestión con un error dado por la correspondiente medida de
dispersión. Este error o disparidad se hace más ostensible al analizar la representación
gráfica de la distribución. Pues bien, las medidas de forma de una distribución se basan en
su representación grafica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o
apuntamiento.
Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita
establecer el grado de simetría (o asimetría) que presenta una distribución, sin necesidad de
llevar a cabo su representación grafica.
Supongamos que hemos representado gráficamente una distribución de frecuencias. Si
trazamos una perpendicular al eje de abscisas por x y tomamos esta perpendicular como
eje de simetría, diremos que una distribución es simétrica si existe el mismo numero de
valores a ambos lados de dicho eje, equidistantes de x dos a dos y tales que cada par de
valores equidistantes a x tengan la misma frecuencia. En caso contrario, las distribuciones
serán asimétricas.
Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la
misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona
central de la distribución dará lugar a una distribución más o menos apuntada. Por esta
razón a las medidas de curtosis se les llama también de apuntamiento o concentración
central. Las medidas de curtosis se aplican a distribuciones campaniformes, es decir,
unimodales simétricas o con ligera asimetría Para estudiar la curtosis de una distribución es
necesario definir previamente una distribución tipo, que vamos a tomar como modelo de
referencia. Esta distribución es la Normal, que corresponde a fenómenos muy corrientes en
la naturaleza, y cuya representación grafica es una campana de Gauss.
Tomando la normal como referencia, diremos que una distribución puede ser mas
apuntada que la normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica).
A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.
Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de
una distribución.
A continuación se definen las medidas de asimetría más comunes, entre las que destacan
las siguientes:
Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la
simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de simetría de
su representación grafica será una recta paralela al eje de ordenadas, que pasa por el punto
cuya abscisa es la media aritmética. Por ello, cuando la distribución es asimétrica,
referiremos los valores de la distribución a este promedio. Si una distribución es simétrica.
existe el mismo numero de valores a la derecha que a la izquierda de x , y por tanto el
mismo número de desviaciones con signo positivo que con signo negativo, siendo la suma
de desviaciones positivas igual a la suma de las negativas. Podemos partir. pues, de las
desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las
desviaciones.
Lo más sencillo sería tomar como medida de asimetría el promedio de estas
desviaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaríamos
como medida de asimetría el momento de orden tres centrado en la media. Pero, de hacer
esto, esta medida vendría expresada en las mismas unidades que las de la variable. pero
elevadas al cubo, por lo que no es invariante ante un cambio de escala. Para conseguir un
indicador adimensional, debemos dividir la expresión anterior por una cantidad que venga
en sus mismas unidades de medida. Esta cantidad es el cubo de la desviación típica,
obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya expresión es:
g1 
m3
3

1 k
( x j  x ) 3 ni

N i 1
1 k

2
 N  ( x j  x ) ni 
 i 1

3/ 2
Si g 1 =0 la distribución es simétrica, si g 1 >0 la distribución es asimétrica positiva (a
derecha), y si g 1 < 0 la distribución es asimétrica negativa (a izquierda). La distribución es
asimétrica a derecha o positiva cuando la suma de las desviaciones positivas de sus valores
respecto de la media es mayor que la suma de las desviaciones con signo negativo (la
grafica de la distribución tiene mas densidad a la derecha de la media). En caso contrario, la
distribución es asimétrica a la izquierda o negativa.
Coeficiente de asimetría de Fisher estandarizado: Para N >150 el coeficiente de
asimetría es asintóticamente normal de media cero y varianza 6/N. Este hecho nos lleva a
considerar el coeficiente de asimetría estandarizado cuya expresión es:
gs 
g1
6
N
Este coeficiente es asintóticamente normal (0,1).
Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones
campaniformes, unimodales y moderadamente asimétricas el coeficiente definido como
Ap = ( x - Mo) /  , donde Mo es la moda. Como en una distribución campaniforme
simétrica. x = Mo = Me, si la distribución es asimétrica positiva o a derechas . x se
desplaza a la derecha de la moda, y por tanto, x - Mo > 0. En el caso de distribución
asimétrica negativa la media se sitúa por debajo de Mo, por lo que el valor x - Mo < 0. La
desviación típica que aparece en el denominador no modifica el signo de la diferencia
x -
Mo y sirve para eliminar las unidades de medida de dicha diferencia. Así tendremos que si
Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap <
0 la distribución es asimétrica negativa. También Pearson comprobó empíricamente para
este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana siempre se situa
entre la media y la moda en las distribuciones moderadamente asimétricas). Por esta
razón,algunos autores utilizan como coeficiente de asimetría de Pearson el valor:
Ap  3( x - Me) 
Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la
mediana, y viene dado por la expresión Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que
si Ab = 0 la distribución es simétrica, si Ab > 0 la distribuci6n es asimétrica positiva y si
Ab < 0 la distribución es asimétrica negativa. Cl y C3 son el primer y tercer cuartil
respectivamente.
El coeficiente absoluto de asimetría: Está basado también en la posición de los
cuartiles y la mediana, y viene dado por la expresión:
A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S
Si A=0 la distribución es simétrica, si A >0 la distribución es asimétrica positiva y si A<0
la distribución es asimétrica negativa. C1, C2 y C3 son los cuartiles de la distribución.
Una vez presentadas las medidas de asimetría, a continuación se definen las medidas de
curtosis más comunes, entre las que destacan las siguientes:
Coeficiente de curtosis: En la distribución normal se verifica que m 4 = 3  4 siendo m 4
el momento de orden 4 respecto a la media y  la desviación típica. Si consideramos la
expresi6n g 2 = m 4 /  4 - 3, su valor será cero para la distribución normal. Por ello, como
coeficiente de apuntamiento o curtosis se utiliza la expresión:
g2 
m4
4
3 
1 k
 ( x j  x ) 4 ni
N i 1
1 k

2
 N  ( x j  x ) ni 
 i 1

2
3
Una distribución es:
mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,
leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,
platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.
El coeficiente de curtosis estandarizado: Para N > 150 el coeficiente de curtosis es
asintóticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el
coeficiente de curtosis estandarizado cuya expresión es:
g ks 
g2
6
N
Este coeficiente es asintóticamente normal (0,1).
Descargar