4. Medidas de tendencia central A veces es conveniente reducir la información obtenida a un solo valor o a un número pequeño de valores, las denominadas medidas de tendencia central. Sea X una variable estadı́stica con valores x1 , x2 , . . . , xk y frecuencias n 1 , n2 , . . . , n k . Media aritmética (x) x1 n1 + x2 n2 + . . . + xk nk = x= N Pk i=1 xi ni N = k X xi fi i=1 • La media es muy sensible a los valores extremos de la variable, por lo que no es conveniente usar la media aritmética como medida central en distribuciones muy asimétricas. • El valor de la media aritmética puede no pertenecer al conjunto de valores que puede tomar una variable aleatoria discreta. Por ejemplo, el número medio de hijos en las familias españolas es x = 1,2. Media geométrica (xG ) xG = q N xn1 1 · xn2 2 . . . xnk k Esto implica que: k 1 X log xG = ni log xi N 1 Observamos que si ∃ i t.q. xi = 0 ⇒ xG = 0. Media cuadrática (xQ ) p xQ = x21 n1 + x22 n2 √ + ... + N 10 x2k nk s = Pk x2i ni N 1 Media armónica (xA ) N xA = Pk ni i=1 xi Esta media no tiene sentido si ∃ i t.q. xi = 0. Prop. xA ≤ xG ≤ x ≤ xQ Mediana (Me).- Es la medida central que, supuestos los valores de la variable ordenados en forma creciente, deja igual número de observaciones inferiores que superiores a ella. Veamos cómo calcularla: • En caso de que la frecuencia de cada valor es 1. - no impar de valores: la mediana es el valor central. Ej. {1, 3, 7, 10, 15}, Me=7. - no par de valores: la mediana es la media aritmética de las =15.5 dos centrales. Ej. X = {1, 3, 5, 10, 21, 27, 36, 42}, Me= 10+21 2 • Mediana de una variable discreta. 1. Dividimos el número de observaciones entre 2, N/2. 2. Comprobamos si N/2 está en la tabla de frecuencias absolutas acumuladas. 11 3. Si no está, estará comprendido entre dos. La mediana es el valor de la variable que corresponde al mayor. 4. Si está, la mediana vendrá dada por: Me= xk +x2 k+1 . • Mediana de una variable agrupada. 1. Dividimos el número de observaciones entre 2, N/2. 2. Comprobamos si N/2 está en la tabla de frecuencias absolutas acumuladas. 3. Si no está, N/2 estará entre Nk y Nk+1 . Para conocer la posición exacta de la mediana hay que interpolar: x ak+1 − ak = ⇒ Me = ak + x Nk+1 − Nk N/2 − Nk 4. Si está, N/2 será la frecuencia absoluta acumulada de un cierto intervalo, y la mediana será el extremo superior del mismo. 12 Moda (Md).- Es el valor de la variable que tiene más frecuencia. No tiene por qué ser única. Si hay dos modas, la distribución se llama bimodal. Si hay tres, trimodal, etc. Cuando la variable viene agrupada en intervalos de clase se habla de intervalo modal, que es el intervalo tal que en su histograma es el intervalo al que le corresponde al rectángulo de mayor área por unidad de base. La situación puntual viene dada por: Md = a + (b − a) δ1 δ1 + δ2 Cuartiles.- Son tres valores de la variable que dividen las observaciones en cuatro partes iguales. 1. Primer cuartil (P 1 ): es el valor de la variable que deja la cuarta 4 parte de las observaciones menores o iguales a él y las tres cuartas partes superiores a él. Se calcula de manera análoga a la mediana. 2. Segundo cuartil (P 2 ): es la mediana. 4 3. Tercer cuartil (P 3 ): deja inferiores o iguales a él las tres cuar4 tas partes de las observaciones, y la cuarta parte restante es superior a él. Se calcula de manera análoga a la mediana. 13 Deciles.- El decil k−ésimo (Dk ) es el valor de la variable que deja k partes de las observaciones. Es decir, inferiores o iguales a él las 10 el 10 × k por 100, donde k = 1, 2, . . . , 9. Se calcula de forma análoga a la mediana. Centiles o percentiles.- El percentil k−ésimo (Pk ) es el valor de k partes de las la variable que deja inferiores o iguales a él las 100 observaciones, es decir, el k por 100, donde k = 1, 2, . . . , 99. Su cálculo se realiza como el de la mediana, los cuartiles y deciles. 5. Medidas de dispersión o concentración Las medidas de tendencia central reducen la información de la muestra a un solo valor, pero este valor a veces estará más próximo a la realidad y a veces menos. Por ejemplo, consideremos la variable estadı́stica X que toma los valores 0, 100, 200, cada uno de ellos con frecuencia absoluta 1. La media aritmética será: x= 0 + 100 + 200 = 100. 3 Si tomamos ahora otra variable Y que toma los valores 99, 101, cada una de ellas una sola vez. En este caso la media aritmética será: y= 99 + 101 = 100. 2 Vemos que la media aritmética de las dos variables es 100. Sin embargo, la variable X está mucho más dispersa que la Y , por lo que la representatividad de y es mayor que la de x. Las medidas de dispersión o concentración nos van a cuantificar la representatividad de los valores centrales. Notemos que los términos concentración y dispersión pueden ser utilizados indistintamente, pues alta dispersión es equivalente a baja concentración y baja dispersión equivale a alta concentración. 14 Varianza y desviación tı́pica • Varianza.- Viene dada por Pk 2 2 i=1 (xi − x) ni σ = N La varianza toma siempre valores positivos. En caso de ser σ 2 = 0, todos los xi coinciden con la media aritmética , es decir, todas las observaciones están concentradas en un mismo punto, por lo que la dispersión es nula. Como sus unidades son las del cuadrado de la variable, se suele usar su raı́z cuadrada, como vemos a continuación. • Desviación tı́pica.- Se define como la raı́z cuadrada positiva de la varianza: s Pk 2 √ i=1 (xi − x) ni σ = σ2 = N • Propiedades: 1. La varianza y la desviación tı́pica son sensibles a la variación de cada uno de los valores que toma la variable. Es decir, si una puntuación cambia, también ellas cambiarán. La razón es que la varianza es función de cada uno de los valores xi de la variable. 2. La desviación tı́pica tiene la propiedad de que en el intervalo (x − 2σ, x + 2σ) se encuentra, al menos, el 75 % de las observaciones. 3. No es recomendable el uso de ninguno de ellas cuando tampoco lo sea el de la media como medida de tendencia central. 15 Coeficiente de variación Estas medidas de dispersión vienen dadas por números concretos (unidades en las que viene medida la variable), por tanto no son útiles para comparar las dispersiones de dos muestras expresadas en unidades diferentes. Por ejemplo, si medimos la masa de dos poblaciones, pero una de ellas la medimos en kilogramos (para una población de felinos) y otra en miligramos (para una población de hormigas) se tiene que habrá una diferencia enorme entre las medias de ambas poblaciones. También puede ocurrir que queramos comparar dos variables distintas, como el peso y la altura de una población de elefantes. Para esos casos utilizaremos medidas de dispersión dadas por números abstractos. • Coeficiente de variación de Pearson.- Elimina la dimensionalidad de las variables, y tiene en cuenta la proporción existente entre medias y desviación tı́pica. Viene dado por C.V. = σ x • Propiedades: 1. Sólo se debe calcular para variables con todos los valores positivos. Todo ı́ndice de variabilidad debe ser no negativo. Sólo trabajamos con variables positivas para tener la seguridad de que x > 0. 2. Este coeficiente no puede hallarse si x = 0. 3. Este coeficiente a veces aparece multiplicado por 100. 4. No es invariante frente a cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b > 0, para tener Y = X + b, entonces C.V.Y < C.V.X . 5. Es invariante a cambios de escala. Ası́ por ejemplo el coeficiente de variación de una variable medida en kilogramos es una cantidad adimensional, que no cambiará si la medición se realiza en miligramos. 16 Tipificación.- Este proceso consiste en restar la media x y dividir por su desviación tı́pica σ a una variable dada X. Ası́ se obtiene una nueva variable X −x Z= σ de media z = 0 y desviación tı́pica σZ = 1 denominada variable tipificada. La variable tipificada Z carece de unidades, y permite comparar medidas que no son directamente comparables. Por ejemplo, nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. Los coeficientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si queremos comparar dos individuos de cada uno de estos conjuntos, es necesario usar los valores tipificados. 6. Medidas de asimetrı́a y apuntamiento Estudiamos ahora cómo saber si los datos que tenemos están distribuidos de forma simétrica son respecto a un valor central, o bien si la gráfica que representa la distribución de frecuencias no es simétrica. En caso de tener una distribución simétrica, cabe preguntarnos si la distribución es más o menos apuntada (larga y estrecha). Este apuntamiento lo mediremos comparando con cierta distribución de frecuencias que se considera normal. 1. Asimetrı́a Distribuciones simétricas.- Una distribución de frecuencias es simétrica cuando valores equidistantes de un valor central tienen las mismas frecuencias. Un buen candidato para ese valor central es la mediana, ya que para variables continuas divide al histograma de frecuencias en dos partes de igual área. 17