Medidas de Tendencia Central y Dispersión MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Medidas de Tendencia Central Son medidas de un conjunto de datos que proporcionan un valor simple y representativo, que resume un gran volumen de información. Este valor tiende a ubicarse en el centro del conjunto (exceptuando en la escala nominal). Las medidas del centro más conocidas son: La media aritmética, la media geométrica, la media armónica, la moda, la mediana y el semirango. Mediadas de Dispersión Son medidas de la variabilidad de un conjunto de datos y nos miden la dispersión del conjunto con respecto a alguna medida del centro. Las medidas de dispersión más conocidas son: La varianza, la desviación estándar, el rango, el rango cuartílico y el rango percentil. Escala Nominal Sea n tamaño de la muestra y supongamos que la muestra está particionada en k clases. La única medida de tendencia central posible de utilizar en este nivel es la moda o más estrictamente la clase modal. DEF: C M , se dice clase modal si f M ≥ f i ∀i = 1,2,...,k OBS: 1) Es posible encontrar variables bimodales, trimodales, etc. 2) La clase modal, es la clase mayoritaria dentro de la muestra. 3) La clase modal no es igualmente significativa en todos los casos (es distinto si f M = 0.50 que si f M = 0.20 ) Para medir la importancia de la clase modal como medida central usaremos el concepto de tasa de variación. Se denota por V V =1 − fM =1 − nM n − nM = n n Es decir, la tasa de variación nos entrega la proporción de la muestra que no está contenida en la clase modal. Es claro que si la moda es altamente significativa (V → 0 ) . En cambio si la moda es poco significativa (V → 1) . Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión Escala Ordinal En este nivel tiene sentido los conceptos de frecuencia acumulada, lo que da origen a nuevas medidas del centro y dispersión basados en los llamados cuantiles o clases cuantiles, de entre los que se destacan: Cuartil: Llamaremos cuartil de orden i -ésimo (i = 1,2,3,4) al menor valor de la variable cuya frecuencia relativa acumulada sea mayor o igual a (i 4) . Debemos recordar que para hablar de valor de la variable se requiere estar al menos en la escala intervalar. Luego en el caso de escala ordinal solo podemos definir: Clase cuartil de orden i -ésimo. Clase Cuartil: Llamaremos clase cuartil de orden i -ésimo (i = 1,2,3,4) a la primera clase (ya ordenada) cuya frecuencia relativa acumulada es igual o superior a i 4 . Otros cuantiles son los deciles y percentiles que se definen en forma equivalente a los cuartiles solo que i 4 es sustituido por i 10 (i = 1,...,10 ) para deciles y i 100 (i = 1,2,...,100 ) para percentiles. La medida del centro característica en la escala ordinal es la mediana. Clase Mediana: Corresponde a la clase cuartil de orden 2 o clase percentil de orden 50. Observaciones: 1) La clase mediana es aquella que divide la muestra aproximadamente en dos mitades. 2) Una posible medida de dispersión de la muestra con respecto a la clase mediana, en el nivel ordinal, es D : índice de Dispersión. D= rango clase 3er. cuartil - rango de clase 1er. cuartil k −1 k : N° total de clases. Rango de una clase es su número de orden. 3) 0 ≤ D ≤ 1 D → 0 (Muestra concentrada) D → 1 (Muestra aplanada) Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión Escala Intervalar Notación: Denotaremos por X i a cualquiera de los n valores, X 1 , X 2 ,..., X n , que toma una variable X . Medidas de tendencia central: En este nivel la medida central más utilizable es la media aritmética o promedio Media: Se denota por X . El promedio de un conjunto de observaciones, es le centro de gravedad de ese conjunto de valores. a) Datos no agrupados: Se calcula como: X = 1 n ∑ Xi n i =1 b) Datos agrupados: Se calcula como: X = Donde n i : fi : Mi : k: n: k 1 k n ⋅ M = fi ⋅ Mi ∑ i i ∑ n i =1 i =1 frecuencia absoluta de la clase i -ésima. frecuencia relativa de la clase i -ésima. marca de la clase i -ésima. número de clases o intervalos. tamaño de la muestra. Mediana: Se denota por M e . La mediana de un conjunto de valores, es el valor que divide a las observaciones en 50% menores y 50% mayores que ese valor. a) Datos no agrupados: a1) Si n es par M e = X (n 2 ) + X (n 2+1) 2 a2) Si n es impar M e = X n +1 2 Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión b) Datos agrupados: n − N e −1 2 ⋅ a , donde: Me = L + e ne L: N e −1 : ae : ne : n: Moda: Límite inferior de la clase mediana. Frecuencia absoluta acumulada hasta antes de la clase mediana. Amplitud de la clase mediana. Frecuencia absoluta de la clase mediana. Tamaño de la muestra. Se denota por M o . La moda es el valor del grupo de observaciones que se repite en más oportunidades (tiene mayor frecuencia), dentro del conjunto de datos. Si el conjunto de datos tiene una sola moda se denomina monomodal, de la misma manera puede ser bimodal o multimodal, según se aprecien dos o más valores modales respectivamente. a) Para datos no agrupados: Se revisan los datos y se selecciona aquel que se repite más veces. En caso de no existir un valor que se repite, entonces se dice que el grupo de observaciones no tiene moda. b) Para datos agrupados: Moda Interpolada. ∆1 ⋅ a M , donde: M o = L + ∆1 + ∆ 2 L: aM : ∆1 : ∆2 : nM : n1 : n2 : Límite inferior de la clase modal. Amplitud de la clase modal. n M − n1 nM − n2 Frecuencia absoluta de la clase modal. Frecuencia absoluta de la clase anterior a la modal. Frecuencia absoluta de la clase posterior a la modal. Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión Medidas de dispersión: Varianza Muestral: La medida de dispersión más usada con respecto a la media X es la varianza muestral. Se denota por S 2 . La varianza es la mediada de dispersión más importante, principalmente porque cumple muchas propiedades que la hacen ser preferida entre otras medidas de dispersión a) Para datos no agrupados: S2 = 1 n (X i − X )2 ∑ n − 1 i =1 b) Para datos agrupados: S2 = 2 1 k n i (M i − X ) ∑ n − 1 i =1 Donde n i : Mi : k: n: frecuencia absoluta de la clase i -ésima. marca de la clase i -ésima. número de clases o intervalos. tamaño de la muestra. OBS: La raíz cuadrada de la varianza, S , se conoce como Desviación Estándar o Desviación Típica. En este nivel de información también es posible calcular otras medidas de dispersión tales como: Desviación media, Rango cuartílico, Rango percentil, etc. Desviación Media: a) Se denota por MD . Para datos no agrupados: MD = 1 n ∑ Xi − X n i =1 b) Para datos agrupados: MD = k 1 k n M − X = fi Mi − X ∑ i i ∑ n i =1 i =1 Donde n i : fi : Mi : k: n: frecuencia absoluta de la clase i -ésima. frecuencia relativa de la clase i -ésima. marca de la clase i -ésima. número de clases o intervalos. tamaño de la muestra. Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión Rango Intercuartil: Se denota por RIQ . RIQ = (Q 3 − Q1 ) a) Para datos no agrupados: Q i = X i (n +1) , i = 1,2,3,4. 4 b) Para datos agrupados: n ⋅ i − N Qi −1 4 ⋅ a , i = 1,2,3,4. Qi = L + Qi n Qi L: Límite inferior de la clase cuartil i -ésimo. N Qi −1 : Frecuencia absoluta acumulada hasta antes de la clase cuartil a Qi : i -ésimo. Amplitud de la clase cuartil i -ésimo. n Qi : Frecuencia absoluta de la clase cuartil i -ésimo . n: Tamaño de la muestra. Rango Percentil: Se denota por RP . RP = P90 − P10 a) Para datos no agrupados: Pi = X i (n +1) , i = 1,2,...,100 100 b) Para datos agrupados: n ⋅i − N Pi −1 100 ⋅ a , i = 1,2,...,100 Pi = L + Pi n Pi L: Límite inferior de la clase percentil i -ésimo. N Pi −1 : Frecuencia absoluta acumulada hasta antes de la clase a pi : percentil i -ésimo. Amplitud de la clase percentil i -ésimo. n pi : Frecuencia absoluta de la clase percentil i -ésimo . n: Tamaño de la muestra. Profesor: Patricio Videla Jiménez. Medidas de Tendencia Central y Dispersión Coeficiente de Variación: Finalmente se puede definir el coeficiente de variación muestral, que nos da un índice de la proporción que representa la desviación estándar con respecto a la media. Se denota por CV . CV = S X Este coeficiente es muy útil, cuando se trata de compara poblaciones cuyas variables en estudio tiene diferentes unidades. Profesor: Patricio Videla Jiménez.