ESTADÍSTICA DESCRIPTIVA, FRECUENCIAS Y MEDIDAS DE POSICIÓN Y DISPERSIÓN Distribuciones de frecuencias Cuando los datos de una variable están dispersos, la dispersión sigue un cierto patrón. Inicialmente los datos no nos dicen nada por sí mismos, pero si los dividimos en clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es decir, puede aclararse la forma de como están distribuidos. Esta forma de la distribución de los datos inherente a su variabilidad se denomina distribución de frecuencias. Normalmente es posible ver la forma general de una distribución si se recogen cien o más valores y se prepara convenientemente una tabla de frecuencias con diez o veinte clases. Pero la distribución se puede ver aun con mayor claridad en forma de representación grafica mediante un histograma de frecuencias. El histograma es una representación visual de los datos en la que pueden observarse mas fácilmente tres propiedades esenciales de una distribución como son: Forma, tendencia central o acumulación y dispersión o variabilidad. De esta forma, el histograma da una idea del proceso, lo que un simple examen de los datos tabulados no hace. Hay muchos métodos para construir histogramas. Cuando los datos son numerosos, es muy útil reunirlos en clases y se recomienda utilizar entre 4 y 20 clases (o celdas). A menudo conviene elegir un numero total de clases igual aproximadamente a la raíz cuadrada del tamaño de la muestra. Las clases deben tener amplitud uniforme y se construye la primera de ellas comenzando con un limite inferior solo un poco menor que el valor mas pequeño de los datos. Se construye la ultima clase finalizando con un limite superior solo un poco mayor que el valor más grande de los datos. Para realizar el histograma se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un rectángulo de altura proporcional al numero de observaciones de la variable (frecuencia absoluta) que caen en la clase. El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado una perdida de algo de detalle. Así, cuando el numero de observaciones es relativamente pequeño, o cuando las observaciones solo toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de barras. Las distribuciones de frecuencias son la herramienta más sencilla y más utilizada y eficaz cuando estamos rodeados de montones de datos, que no nos dicen nada si no hacemos mas que enumerarlos. Al expresar estos datos en forma de una distribución de frecuencias, ya nos proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utilizan muy a menudo en el control de calidad, es necesario conocer la finalidad de las mismas y su interpretación y uso. Dada la importancia de las distribuciones de frecuencias, derivada de que en todo proceso hay un momento en el que nos encontramos con un conjunto de datos sobre las variables a tratar, es de gran importancia formalizar el proceso de recogida, ordenación y presentación de los datos que, en la mayoría de las ocasiones, aparecerán dispuestos en tablas de frecuencias de simple o doble entrada que servirán para analizar las distribuciones de las variables. Dada una variable X con valores x1 , x2 ,······, x N aparecen una serie de conceptos generales que se mencionan a continuación: • Frecuencia absoluta ni: Se denomina frecuencia absoluta del valor xi de la variable X, el numero de veces ni que se repite ese valor. • Frecuencia relativa fi: Se denomina frecuencia relativa del valor xi de la variable X la relación por cociente entre el número de veces que aparece el valor xi y el número total de valores de la variable (N). O sea, f i ni / N. • Frecuencia absoluta acumulada Ni: Se denomina frecuencia absoluta acumulada del valor x i a la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales a x i . Su valor es N i ni con j = 1......i • Frecuencia relativa acumulada Fi: Es la frecuencia absoluta acumulada dividida por el número total de valores de la variable. Su valor es Fi = N i / N. De todas estas definiciones se extraen las siguientes deducciones: • La suma de las frecuencias absolutas sin acumular es igual al número total de elementos ( ni ,= N) • La última frecuencia relativa acumulada es el total de elementos (N). • • La suma de todos las frecuencias relativas acumular es igual La última frecuencia relativa acumulada es la unidad Al conjunto de valores que ha tomado una variable, junto con sus frecuencias, se le denomina distribución de frecuencias de la característica o variable. Para que una distribución de frecuencias quede determinada es necesario conocer todos los valores de la variable y uno cualquiera de los conceptos de frecuencia que acabamos de definir, ya que el paso de uno a otro es inmediato. Además, según la forma en que se presenten los valores de la variable será posible distinguir dos tipos de distribuciones de frecuencias: • Las que no están agrupadas en intervalos, que surgen cuando la información se dispone asociando a cada valor o categoría de la variable su frecuencia. • Aquellas cuyos valores observados generalmente aparecen agrupados en intervalos o clases [L i , L i 1 ] debido al elevado número de observaciones, y, por tanto, las frecuencias correspondientes a cada intervalo se obtienen sumando las de los respectivos valores de la variable que contiene. Cuando se trabaja con distribuciones agrupadas por intervalos o clases es necesario que las frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Se podrá optar por suponer que los valores del intervalo se distribuyen uniformemente a lo largo de el o por considerar como representativo de todos los puntos del intervalo un único valor, por ejemplo, el punto medio del mismo, que denominaremos marca de clase (X;) y que, en consecuencia, se obtendrá mediante X i = (L i 1 + L i )/2. Aunque la agrupación de valores tiene la ventaja de simplificar el manejo de la información, presenta en cambio un importante inconveniente consistente en la perdida, en mayor o menor medida, de una parte de dicha información. La distribución de frecuencias de una variable suele presentarse ordenadamente mediante la tabla de frecuencias siguiente: Ii Xi ni fi Ni [L 0 , L i ] x1 n, f 1 =n 1 /N N 1 =n 1 F 1 =N 1 /N [L 1 ,L 2 ] x2 n2 f 2 =n 2 /N N2=n 1 +n 2 F 2 =N2/N [L 2 , L 3 ] x3 n3 f 3 =n 3 /N N3=n 1 +n 2 +n 3 F 3 =N3/N [L k 1 , L k] xk nk fk=n k /N n =N i N k =n 1 +...+n k =N f i =1 Fi Fk=Nk/N=1 En cuanto al número de intervalos k a considerar puede tenerse en cuenta la fórmula de Sturges (K = E[3/2+ log (N)/log(2)]), o también tomar K = . Medidas de posición dispersión y forma Una vez definidos los conceptos básicos en el estudio de una distribución de frecuencias de una variable, estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posición (o de centralización), teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersión. A su vez analizaremos la forma de la distribución mediante las medidas de forma. El histograma de frecuencias ya nos daba una representación visual de las tres propiedades mas importantes de los datos muestrales relativos a variables: la forma de su distribución, su tendencia central y su dispersión. Ahora se trata de cuantificar estos conceptos. Medidas de posición Se trata de encontrar unas medidas que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos, eligiendo como resumen de los datos un valor central alrededor del cual se encuentran distribuidos los valores de la variable. El valor de la variable elegido para representar a una distribución se llama promedio o medida de posición y es un valor representativo de todos los valores que toma la variable. Debe hallarse entre el mayor y el menor valor de la variable. Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo unica para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación se relacionan las medidas de posición más comunes utilizadas en estadística. Media aritmética: Se define como la suma de todos los valores de la distribución dividida por el numero total de datos. La expresión matemática que representa la media aritmética coincide con el momento de primer orden respecto al origen. Pero esto solo es valido en el supuesto más sencillo en que los datos de la variable estén sin agrupar. En el caso de que tuviésemos una distribución con datos agrupados en intervalos, los valores individuales de la variable serían desconocidos y, por tanto, no podríamos utilizar la formula anterior. En este supuesto los datos estarán agrupados en clases, y se postula la hipótesis de que el punto medio del intervalo de clase (marca de clase) representa adecuadamente el valor medio de dicha clase, y aplicaríamos la formula original de la media simple para dichos valores. En el caso de que la variable presente valores anormalmente extremos, éstos pueden distorsionar la media aritmética, haciéndola incluso poco representativa. A los estadísticos que no son afectados por los valores extremos de la muestra se les denomina estadísticos robustos. La media no es un estadístico robusto. Como veremos posteriormente, este inconveniente no lo posee la mediana. Si la distribución de frecuencias es (x i ,n i ), siendo x i los valores de la variable o las marcas de clase, y siendo n i las frecuencias absolutas, la media aritmética, que representaremos por X , se define como sigue: X 1 k xi ni N i 1 Media aritmética ponderada: Caso particular de la media aritmética, que aparece cuando se otorga a cada valor de la variable x i una ponderación o peso w i , distinto de la frecuencia o repetición n i . En este caso no todos los valores de la distribución intervienen con el mismo peso en el calculo de la media. La cuantía de dichos pesos define la importancia de cada valor de la distribución en el calculo de la media. Si la distribución de frecuencias es (x i ,n i ,w i ), siendo x i Los valores de la variable o las marcas de clase, siendo n i las frecuencias absolutas, y siendo w i los pesos o ponderaciones, la media aritmética ponderada. que denotaremos por W, se define como sigue: k x n w W= i 1 k i i i n w i 1 i i Media geométrica: Sea una distribución de frecuencias (x i , n i ). La media geométrica, que denotaremos por G. se define como la raíz N-ésima del producto de los N valores de la distribución. G= N x1n1 x 2n 2 ·····x knk El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas. Además, cuando la variable toma al menos un x i = 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de números negativos. Media armonica: Sea una distribución de frecuencias (x i ,n i ). La media armónica, que representaremos por H, se define como sigue: H= N k 1 / n x i ni i 1 Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc. Media cuadrática: Sea una distribución de frecuencias (x i ,n i ). La media cuadrática, que representaremos por C. se define como sigue: C= n1 x12 n2 x22 ····nk xk2 N La media cuadrática es la raíz cuadrada de la media aritmética de los cuadrados de los valores de la variable. Mediana: Se define como mediana el valor de la distribución, supuesta esta ordenada de menor a mayor, que deja a su izquierda y a su derecha la misma frecuencia de observaciones, es decir, el valor de la variable que ocupa el lugar central, supuesto un numero impar de datos. Si el numero de datos fuese par puede decirse que hay dos valores medianos, y se toma como mediana la media aritmética entre ellos. También se podría definir como aquel valor de la distribución cuya frecuencia absoluta acumulada es N/2 (N= ni ). Para distribuciones agrupadas en intervalos. y suponiendo que todos los valores comprendidos dentro del intervalo mediano [L i 1 ,L i ] se encuentran distribuidos uniformemente a lo largo de él, puede calcularse la mediana Me mediante la expresion: Me = L i 1 + [(N/2 - (N i 1 )) / n i ] c i donde N i 1 < N/2 <N i y [L i 1 , L i ] es el intervalo siguiente al que contiene a N/2, siendo c i su amplitud. Como ventaja de la mediana tenemos que no influyen en ella los valores extremos (estadístico robusto). Moda: La moda es el valor de la variable que más veces se repite, y en consecuencia, en una distribución de frecuencias, es el valor de la variable que viene afectada por la máxima frecuencia de la distribución. En distribuciones no agrupadas en intervalos se observa la columna de las frecuencias absolutas, y el valor de la distribuci6n al que corresponde la mayor frecuencia será la moda. A veces aparecen distribuciones de variables con más de una moda (bimodales, trimodales, etc), e incluso una distribución de frecuencias que presente una moda absoluta y una relativa. En distribuciones agrupadas en intervalos de la misma amplitud, realmente no tendremos un valor modal sino un intervalo modal (el intervalo que presenta la mayor frecuencia [L i 1 . L i ]). Podemos tomar como valor moda el extremo inferior del intervalo (Mo = L i 1 ) o el extremo superior (Mo = L i ), o bien hacer que la moda sea igual a la marca de clase del intervalo modal (Mo = x i ). En caso de que todos los valores del intervalo modal estén distribuidos uniformemente dentro de él, la moda estará más cerca de aquel intervalo contiguo cuya frecuencia sea mayor, siendo las distancias de la moda Mo a los intervalos contiguos inversamente proporcionales a las frecuencias de dichos intervalos, la moda puede calcularse mediante la expresión: Mo = L i 1 + (n i +l / (n i - l + n i +l))c i Para intervalos de distinta amplitud, realmente las densidades de frecuencias nos dan el numero de valores que hay en cada unidad de intervalo para cada intervalo. La mayor densidad de frecuencia, ahora sí, nos determina el intervalo modal [L i 1 , L i ], calculándose la moda mediante la expresión: Mo = L i 1 + (d i 1 / (d i 1 + d i 1 ))c i con d i =n i /c i Cabe señalar que la moda es la medida mas representativa en caso de distribuciones de variables en escala nominal. Esto es debido a que las distribuciones de este tipo presentan los datos no susceptibles de ordenaci6n, de tal forma que para estas distribuciones no es posible realizar operaciones elementales con sus observaciones. La moda se emplea sobre todo cuando los valores de la variable presentan una gran concentraci6n hacia un valor determinado. Sólo se utilizará en distribuciones de gran frecuencia total. Cuantiles: Se definen los cuantiles de orden k como los valores de la distribución, supuesta ésta ordenada de menor a mayor, que la dividen en k partes con la misma frecuencia de observaciones. Por lo tanto existirán r=k-1 cuantiles de orden k. El primer cuantil de orden k deja a su izquierda la fracción 1/k de frecuencia de observaciones. El segundo cuantil de orden k deja a su izquierda la fracción 2/k de frecuencia de observaciones. El r-ésimo cuantil de orden k deja a su izquierda la fracción r/k (100 r/k por ciento) de frecuencia de observaciones, y a su derecha deja la fracción 1-r/k (100(k-r)/k por ciento) de frecuencia de observaciones. El r-ésimo cuantil de orden k suele denominarse por Qr,k. Para el caso más general, en que la distribución este agrupada en intervalos, el r-ésimo cuantil de orden k tomará el valor: Qr,k = L i 1 + [(rN/k - (N i 1 )) / n i ) c i Donde N i 1 < rN /k < N i y [L i 1 , L i ] es el intervalo siguiente al que contiene a rN / k, siendo c i su amplitud. Para k= 4 y r =1,2,3 tendremos los 3 cuartiles. Para k =10 y r = 1,2,...,9 tendremos los 9 deciles, y para k =100 y r = 1,2,...,99 tendremos los 99 percentiles. Los cuartiles son, por tanto, los tres valores de la distribución que la dividen en 4 partes iguales, es decir, en 4 intervalos dentro de cada cual está incluido el 25% de los valores de la distribución. Los deciles son los 9 puntos que dividen la distribución en 10 partes, tales que dentro de cada una está incluido el 10% de los valores de la distribución. Los percentiles son los 99 puntos que dividen la distribución en 100 partes, tales que dentro de cada una está incluido el 1 % de los valores de la distribución. Para distribuciones sin agrupar en intervalos el primer cuartil Q 1,4 es el valor de la distribución que ocupa el lugar N/4 el segundo cuartil Q 2,4 es el valor de la distribución que ocupa el lugar 2N/4, el tercer cuartil Q 3.4 es el valor de la distribución que ocupa el lugar 3N/4, el r-ésimo decil Qr,10 es el valor de la distribución que ocupa el lugar rN/10 (r =1,2,...,9), el r-ésimo percentil Qr,100 es el valor de la distribución que ocupa el lugar rN/100 (r =1,2,...,99). Momentos potenciales: Entre los valores que caracterizan una distribución de frecuencias tenemos los momentos potenciales. Dos distribuciones que tienen sus momentos iguales son iguales, y serán más parecidas cuanto más próximos sean sus momentos. Los momentos suelen considerarse respecto del origen y respecto de la media. El momento de orden r respecto del origen se define como: ar 1 N k x n i 1 r i i El momento de orden r respecto de la media se define como: mr 1 k ( x j x ) 2 ni N i 1 Se observa que el momento de orden uno centrado en el origen coincide con la media aritmética de la distribución, y el momento de orden 2 centrado en la media coincide con la varianza de la distribución. Medidas de dispersión Las medidas de dispersión permiten calcularla representatividad de una medida de posición, para lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a dicha medida. A tal distancia es a lo que, en términos estadísticos, denominaremos variabilidad o dispersi6n de la distribuci6n. Las medidas de dispersi6n tienen como finalidad estudiar hasta que punto, para una determinada distribución de frecuencias, las medidas de tendencia central o de posición son representativas como síntesis de toda la información de la distribución. Medir la representatividad de una medida de posición equivale a cuantificar la separación de los valores de la distribución respecto a dicha medida. Por ejemplo, si queremos estudiar en que grado una media aritmética nos marca una tendencia central generalizable del comportamiento de todos los elementos del conjunto estudiado, tendremos que fijarnos en la separación o desviación de cada valor respecto a la media. Si todos los valores están cercanos al valor medio, este será representativo de ellos. A la mayor o menor separación de los valores de una distribución respecto de otro, que se pretende que sea sus síntesis, se le llama dispersión o variabilidad. Será, pues, tanto mas representativa la media aritmética de una variable cuanto más agrupados en tomo a ella estén los valores promediados y, por el contrario, será tanto más rechazable, por no ser representativa. cuanta mayor dispersión exista de los valores de la variable respecto a la media. Resulta pues necesario para completar la información que pueda deducirse de una medida de posición o centralización, acompañarla de uno o varios coeficientes que nos midan el grado de dispersión de la distribución de la variable respecto de esa medida de centralización. Estos coeficientes son los que llamamos medidas de dispersión. Inicialmente se distingue entre medidas de dispersión absolutas y relativas. entendiéndose por relativas las que no dependen de las unidades de medida. Posteriormente se clasifican las medidas absolutas y relativas según sean medidas referentes a promedios o no lo sean. Entre las medidas de dispersión absolutas no referentes a promedios tenemos el recorrido o diferencia entre el mayor valor y el menor valor de una distribución y el recorrido intercuartílico o diferencia existente entre el tercer cuartil y el primero. Entre las medidas de dispersión relativas no referentes a promedios tenemos el coeficiente de apertura o cociente entre el mayor valor y el menor valor de una distribución y el recorrido relativo o cociente entre el recorrido y la media, así como el recorrido semintercuartílico o cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil. Entre las medidas de dispersión absolutas referentes a promedios tenemos las desviaciones medias, la varianza y la desviación típica. Estas medidas de dispersión involucran a los promedios y permiten medir el error que cometemos utilizando el promedio en cuestión como resumen de los datos. Como medida de dispersión mas simple relativa a la medida de posición P podríamos considerar las desviaciones de cada valor al promedio y promediar estas desviaciones, es decir, considerar el valor D= (xi-P) ni / N, i =1 ... k. Pero esto, que sería lo primero que se nos ocurriría, tiene como grave inconveniente las posibles compensaciones de las desviaciones positivas con las negativas al efectuar la suma, pudiendo obtenerse una medida pequeña siendo la dispersión grande. Para solucionar este inconveniente se consideran los valores absolutos de las desviaciones o se elevan estas al cuadrado. A continuación se definen las medidas de dispersión mas interesantes, entre las que tenemos: Desviaciones medias: Para medir la eficacia de la media se considera la desviación media respecto de la media aritmética, que se define como, la media aritmética de los valores absolutos de las diferencias entre los valores de la variable y la media aritmética, y cuya expresión es la siguiente: Dm 1 N k x i 1 j x ni Para medir la eficacia de la mediana Me suele considerarse la desviación media respecto de la mediana, que se define como la media aritmética de los valores absolutos de las diferencias entre los valores de la variable y la mediana, y cuya expresión es la siguiente: DMe 1 k x j Me N i 1 ni Varianza, cuasivarianza, desviación tipica y error estándar: De todas las medidas de dispersión absolutas respecto a la media aritmética, la varianza y su raíz cuadrada (la desviación típica), son las mas importantes. Si en vez de considerar los valores absolutos de las desviaciones respecto del promedio consideramos sus cuadrados, surge una nueva medida de dispersión denominada varianza y que definimos como, la media aritmética de los cuadrados de las desviaciones de los valores de la variable a la media aritmética, es decir, el momento de segundo orden respecto a la media aritmética. Se define mediante la expresión: 2 1 N k (x i 1 j x ) 2 ni Como propiedades mas importantes de la varianza tenemos que nunca puede ser negativa, que es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado, que si en la distribución de frecuencias sumamos a todos los valores de la variable una constante la varianza no varía (un cambio de origen en la variable no afecta a la varianza) y que al multiplicar los valores de una distribución de frecuencias por una constante k la varianza queda multiplicada por el cuadrado de la constante. Así como las desviaciones medias vienen expresadas en las mismas unidades de medida que la distribución, la varianza no, ya que vendrá dada en las unidades correspondientes, pero elevadas al cuadrado. Esto dificulta su interpretación y hace necesario definir la desviación típica o desviación estándar. La desviación típica es la raíz cuadrada, con signo positivo, de la varianza, con lo que su expresión sera: 1 k ( x j x ) 2 ni N i 1 Al ser la raíz cuadrada de la varianza, vendrá expresada en las mismas unidades de medida que la distribución, lo cual la hace mas apta como medida de dispersión. Un estadístico muy utilizado como medida de dispersión, sobre todo debido a sus propiedades muestrales, es la cuasivarianza, cuya expresión es: S2 1 k ( x j x ) 2 ni N 1 i 1 Tambien se considera la cuasidesviacion tipica, cuya expresión es: S 1 k ( x j x ) 2 ni N 1 i 1 Otro estadístico muy utilizado como medida de dispersión también por sus propiedades muestrales, es el error estándar, cuyo valor es e = S / n Siempre se cumple que D Me < D m < Entre las medidas de dispersión absolutas referentes a promedios podríamos haber definido también la desviación media respecto a la moda y las desviaciones cuadráticas respecto a la mediana y a la moda, que vienen dadas en las mismas unidades de medida que la distribución y que marcan la representatividad de los promedios con los que se relacionan. Entre las medidas de dispersión relativas (valores adimensionales que no se ven afectados por las unidades de medida y que siempre se concretan en forma de cociente) utilizadas para comparar medidas de posición o promedios, tenemos el índice de dispersión respecto a la mediana y el coeficiente de variación de Pearson. Coeficiente de variación de Pearson: Se usa para resolver el problema de comparación de medias aritméticas de varias distribuciones que pueden venir, en general, en unidades diferentes. Se define como la relación por cociente entre la desviación típica y la media aritmética V= / x . Evidentemente a menor coeficiente de variatión V mejor es la media. Observamos que al efectuar el cociente eliminamos las unidades, y por tanto V es adimensional. Por otra parte, V representa el número de veces que contiene a x , y es claro que cuanto mayor sea V más veces contendrá a x , luego, relativamente, a mayor V menor representatividad de x . Este coeficiente también se suele expresar en tantos por ciento como V = 100 ( / x ) . Como tanto en el cálculo de como en el cálculo de x han intervenido todos los valores de la distribución V presenta la garantía, frente a otros coeficientes, de que utiliza toda la información de la distribución. La cota inferior de V es cero y el único caso problemático se presenta cuando x = 0, lo que haría que V tendiera a infinito. Indice de dispersión respecto a la mediana: Se usa para resolver el problema de comparación de medianas de varias distribuciones que pueden venir, en general, en unidades diferentes. Se define como la relación por cociente entre la desviación media respecto de la mediana y la mediana aritmética V Me = D Me /Me. Evidentemente a menor índice de dispersión mejor es la mediana. Medidas de forma Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos estudiado las medidas de posición y dispersión de la distribución de una variable, necesitamos conocer más sobre el comportamiento de la misma. No podemos basar nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para lo cual las medidas de posición son nuestro mejor instrumento, no debemos proceder a una intrepretación que implique un comportamiento de todos los elementos del colectivo uniformemente constante e igual a la medida de posición en cuestión con un error dado por la correspondiente medida de dispersión. Este error o disparidad se hace más ostensible al analizar la representación gráfica de la distribución. Pues bien, las medidas de forma de una distribución se basan en su representación grafica, sin llegar a realizar la misma. Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o apuntamiento. Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su representación grafica. Supongamos que hemos representado gráficamente una distribución de frecuencias. Si trazamos una perpendicular al eje de abscisas por x y tomamos esta perpendicular como eje de simetría, diremos que una distribución es simétrica si existe el mismo numero de valores a ambos lados de dicho eje, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tengan la misma frecuencia. En caso contrario, las distribuciones serán asimétricas. Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis se aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría Para estudiar la curtosis de una distribución es necesario definir previamente una distribución tipo, que vamos a tomar como modelo de referencia. Esta distribución es la Normal, que corresponde a fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una campana de Gauss. Tomando la normal como referencia, diremos que una distribución puede ser mas apuntada que la normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica. Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de una distribución. A continuación se definen las medidas de asimetría más comunes, entre las que destacan las siguientes: Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de simetría de su representación grafica será una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la distribución es asimétrica, referiremos los valores de la distribución a este promedio. Si una distribución es simétrica. existe el mismo numero de valores a la derecha que a la izquierda de x , y por tanto el mismo número de desviaciones con signo positivo que con signo negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir. pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las desviaciones. Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de asimetría el momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría expresada en las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresión anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya expresión es: g1 m3 3 1 k ( x j x ) 3 ni N i 1 1 k 2 N ( x j x ) ni i 1 3/ 2 Si g 1 =0 la distribución es simétrica, si g 1 >0 la distribución es asimétrica positiva (a derecha), y si g 1 < 0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha o positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas densidad a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o negativa. Coeficiente de asimetría de Fisher estandarizado: Para N >150 el coeficiente de asimetría es asintóticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el coeficiente de asimetría estandarizado cuya expresión es: gs g1 6 N Este coeficiente es asintóticamente normal (0,1). Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes, unimodales y moderadamente asimétricas el coeficiente definido como Ap = ( x - Mo) / , donde Mo es la moda. Como en una distribución campaniforme simétrica. x = Mo = Me, si la distribución es asimétrica positiva o a derechas . x se desplaza a la derecha de la moda, y por tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por lo que el valor x - Mo < 0. La desviación típica que aparece en el denominador no modifica el signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia. Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa. También Pearson comprobó empíricamente para este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana siempre se situa entre la media y la moda en las distribuciones moderadamente asimétricas). Por esta razón,algunos autores utilizan como coeficiente de asimetría de Pearson el valor: Ap 3( x - Me) Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y viene dado por la expresión Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribuci6n es asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Cl y C3 son el primer y tercer cuartil respectivamente. El coeficiente absoluto de asimetría: Está basado también en la posición de los cuartiles y la mediana, y viene dado por la expresión: A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S Si A=0 la distribución es simétrica, si A >0 la distribución es asimétrica positiva y si A<0 la distribución es asimétrica negativa. C1, C2 y C3 son los cuartiles de la distribución. Una vez presentadas las medidas de asimetría, a continuación se definen las medidas de curtosis más comunes, entre las que destacan las siguientes: Coeficiente de curtosis: En la distribución normal se verifica que m 4 = 3 4 siendo m 4 el momento de orden 4 respecto a la media y la desviación típica. Si consideramos la expresi6n g 2 = m 4 / 4 - 3, su valor será cero para la distribución normal. Por ello, como coeficiente de apuntamiento o curtosis se utiliza la expresión: g2 m4 4 3 1 k ( x j x ) 4 ni N i 1 1 k 2 N ( x j x ) ni i 1 2 3 Una distribución es: mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0, leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0, platicúrtica (apuntamiento menor que el de la normal) si g2 < 0. El coeficiente de curtosis estandarizado: Para N > 150 el coeficiente de curtosis es asintóticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el coeficiente de curtosis estandarizado cuya expresión es: g ks g2 6 N Este coeficiente es asintóticamente normal (0,1).