Métodos Estadı́sticos de la Ingenierı́a Tema 3: Medidas Estadı́sticas Grupo B Área de Estadı́stica e Investigación Operativa Licesio J. Rodrı́guez-Aragón Enero 2010 Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Medidas de Posición Introducción . . . . . . . . . . . . . . . . . Media Aritmética, Arithmetic Mean Media Aritmética con R . . . . . . . . . Media Ponderada, Weighted Mean . Media Geométrica, Geometric Mean Media Armónica, Harmonic Mean . . Mediana, Median . . . . . . . . . . . . . . Moda, Mode . . . . . . . . . . . . . . . . . Cuartiles, Quartile . . . . . . . . . . . . . Percentiles, Percentile . . . . . . . . . . Observaciones . . . . . . . . . . . . . . . . Medidas de Posición con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 10 11 12 13 14 15 Medidas de Dispersión Introducción . . . . . . . . . . . . . . . . . . . . . . . . Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . Momentos con R . . . . . . . . . . . . . . . . . . . . . Varianza y Desviación Tı́pica . . . . . . . . . . . . Varianza con R . . . . . . . . . . . . . . . . . . . . . . Coeficiente de Variación, Variation Coefficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 17 18 19 20 21 22 23 Medidas de Forma Asimetrı́a, Skewness . . . . . . Curtosis, Kurtosis . . . . . . . Asimetrı́a y Curtosis con R. Histograma de Ingresos . . . Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 25 26 27 28 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Contenidos Medidas de Posición – Medias, Mediana, Moda, Cuartiles y Percentiles. – Mean, Median, Mode, Quartile and Percentile. Medidas de Dispersión, Deviation. – Absoluta y Relativa. Medidas de Forma, Shape. – Asimetrı́a y Curtosis. – Skewness and Kurtosis. Las Medidas Estadı́sticas tienen como objetivo sustituir toda la información, por unos pocos valores que la caractericen. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 2 / 29 3 / 29 Medidas de Posición Introducción Las Medidas de Posición tienen por objetivo proporcionar valores en torno al los cuales se encuentran las observaciones. Algunas de ellas se denominan “Medidas de Tendencia Central”, porque suelen situarse en torno al centro de los datos. Media: Aritmética (Arithmetic), Ponderada (Weighted), Geométrica (Geometric), Armónica (Harmonic). Mediana (Median). Moda (Mode). Cuartiles y Percentiles (Quartile and Percentile). Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 4 / 29 2 Media Aritmética, Arithmetic Mean Se define como la suma de los datos dividida por el número de ellos. x= Pn i xi n = m m i i X 1X ni · xi = fi · xi n La media es muy sensible a los valores extremos. Es la medida más utilizada, muchos procedimientos estadı́sticos se basan en ella. La Media Aritmética representa el centro de gravedad del histograma. Arithmetic Mean: The quantity commonly referred to as ”the” mean of a set of values is the arithmetic mean, also called the average. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 5 / 29 Media Aritmética con R > > > > + > library(UsingR) ingresos<-cfb$INCOME[1:15] mean(ingresos) hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE, main="Histograma de Ingresos",ylab="Densidad de Frecuencia") points(mean(ingresos),-0.0000005,pch=24,cex=2.8) 1.0e−05 0.0e+00 Densidad de Frecuencia 2.0e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 ingresos Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 6 / 29 3 Media Ponderada, Weighted Mean La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma importancia. Para tener en cuenta la importancia se asigna a cada observación un peso, wi . Pn i wi · xi xw = P n i wi The Weighted Mean is similar to an Arithmetic Mean (the most common type of average), where instead of each of the data points contributing equally to the final average, some data points contribute more than others. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 7 / 29 Media Geométrica, Geometric Mean Cuando trabajamos con valores observados positivos: v u n uY n xG = t xi i Tiene una aplicación menos frecuente que la Media Aritmética, pero importante: Año 1 2 3 Capital Inicial 10000 10500 12600 Tasa de Crecimiento 0.05 0.20 0.50 Factor de Expansión = 1, 25 Factor de Expansión 1.05 1.20 1.50 Capital Final 10500 12600 18900 Factor de ExpansiónG = 1, 2364 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 8 / 29 4 Media Armónica, Harmonic Mean Se define: xA = 1 n 1 Pm i ni xi Se toman los inversos de los datos, se promedian y por último se toma el inverso de ese promedio. Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h, la velocidad media a la que ha realizado el viaje es: velocidadA = velocidad media = 1 1 2 ( 100 1 + 1 120 ) = 109.1km/h Distancia Recorrida = Tiempo Empleado Licesio J. Rodrı́guez-Aragón d 100 2d d + 120 Tema 3, M.E.I. – 9 / 29 5 Mediana, Median Es el valor de la variable estadı́stica que deja igual número de observaciones a su derecha que a su izquierda. Ordenando los datos de menor a mayor, la mediana será el dato central o el promedio de los centrales (tamaño par). 0.6 0.4 1/2 0.0 0.2 Frecuencia Acumulada 0.8 1.0 The statistical median is an order statistic that gives the ”middle´´ value of a sample. More specifically, it is the value such that an equal number of samples are less than and greater than the value (for an odd sample size), or the average of the two central values (for an even sample size). 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 0 2 4 6 8 0.6 0.4 1/2 0.0 0.2 Frecuencia Acumulada 0.8 1.0 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 0 2 4 6 8 0.6 Fi+1 0.4 1/2 Fi 0.0 0.2 Frecuencia Acumulada 0.8 1.0 En el caso de datos agrupados, lo más adecuado es hablar del intervalo mediano. Gráficamente la mediana se obtendrı́a: bi 0 2 4 bi+1 Me 6 8 10 Mediante semejanza de triángulos: Me = bi + 1/2 − Fi · (bi+1 − bi ). Fi+1 − Fi Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 10 / 29 6 Moda, Mode Es el valor de la variable estadı́stica que se presenta con mayor frecuencia. No tiene por qué ser única y puede no poderse calcular. The most common value obtained in a set of observations. Ejemplo: 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 y 6 En el caso de datos agrupados, se suele hablar de intervalo modal, aquél de mayor frecuencia. 1.0e−05 5.0e−06 Md 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Ingresos Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 11 / 29 7 Cuartiles, Quartile Qk para k = 1, 2, 3, se define Cuartil k−ésimo como el valor de la variable que deja inferiores o iguales a él las k/4 partes de las observaciones. Q2 = Me Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8 n = 16 Q1 deja inferiores o iguales a él, 1/4 de las observaciones, 4. Q2 deja inferiores o iguales a él, 1/2 de las observaciones, 8. Q3 deja inferiores o iguales a él, 3/4 de las observaciones,12. One of the four divisions of observations which have been grouped into four equal-sized sets based on their statistical rank. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 12 / 29 8 Percentiles, Percentile El k−ésimo Percentil Pk , se define como el valor de la variable estadı́stica que deja inferiores o iguales a él las k/100 observaciones. P25 = Q1 , P50 = Q2 = Me, P75 = Q3 . Para datos agrupados el cálculo es análogo al de la mediana: Pk = bi + nk − Ni k/100 − Fi · (bi+1 − bi ) = bi + 100 · (bi+1 − bi ). Fi+1 − Fi Ni+1 − Ni Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk . The kth percentile is that value of X, say xk , which corresponds to a cumulative frequency of where n is the sample size. Licesio J. Rodrı́guez-Aragón nk 100 , Tema 3, M.E.I. – 13 / 29 Observaciones La Mediana es un estadı́stico basado en propiedades ordinales. Valor de la variable que ocupa el orden (n + 1)/2. La Mediana divide al histograma en dos partes de áreas iguales. La Moda es el valor con mayor frecuencia de aparición. La Moda corresponde a la mayor altura del histograma. Cuando trabajemos con distribuciones con valores atı́picos o asimétricas, trabajaremos con la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media. Si la distribución es simétrica y unimodal, los tres puntos coinciden, Media, Mediana y Moda. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 14 / 29 9 Medidas de Posición con R > library(UsingR) > ingresos<-cfb$INCOME[1:15] > summary(ingresos) Min. 1st Qu. 7195 14900 Median 35980 Mean 3rd Qu. 35130 47800 Max. 78120 > quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90)) 10% 25% 50% 60% 75% 90% 10854.74 14904.70 35976.87 37210.37 47797.85 64758.37 > X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8) > summary(X) Min. 1st Qu. 1.000 2.000 Median 3.500 Mean 3rd Qu. 3.857 5.750 Max. 8.000 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 15 / 29 16 / 29 Medidas de Dispersión Introducción Las Medidas de Dispersión tienen como objetivo cuantificar la variabilidad de los datos. Recorrido, Recorrido Intercuartı́lico, Recorrido Semiintercuartilico. Range, Interquartile Range, Quartile Deviation. Varianza, Desviación Tı́pica, Cuasivarianza. Variance, Standar Deviation, Quasivariance. Coeficiente de Variación. Variation Coefficient. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 17 / 29 10 Recorrido Recorrido: es la diferencia entre el máximo y el mı́nimo de los valores de la variable aleatoria. R = máx(X) − mı́n(X). Recorrido Intercuartı́lico: Longitud de un intervalo central que contiene el 50% de las observaciones. Anchura de la caja en un diagrama Box Plot. RI = Q3 − Q1 . Recorrido Semiintercuartı́lico: Corresponde con la mitad del anterior. RSI = RI /2. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 18 / 29 Momentos Definiremos la expresión general de un Momento respecto del punto v y de orden r: m Mr (v) = 1X ni (xi − v)r n i Momentos Respecto al Origen, Raw Moment, v = 0: m 1X ar = ni · xri n i Casos particulares: m a1 = 1X ni · xi = x n Media Muestral. i a2 = 1 n m X i ni · x2i = x2 Media Muestral de Cuadrados. Momentos Centrales, Central Moment,v = x: m 1X mr = ni (xi − x)r n i Casos particulares: m m1 = 1X ni (xi − x) = 0 n i m2 = 1 n m X i ni (xi − x)2 = s2 Licesio J. Rodrı́guez-Aragón Varianza. Tema 3, M.E.I. – 19 / 29 11 Momentos con R > library(UsingR) > ingresos<-cfb$INCOME[1:15] > sum(ingresos)/length(ingresos) [1] 35127.13 > mean(ingresos) [1] 35127.13 > library(e1071) > moment(ingresos,order=1,center=FALSE) [1] 35127.13 > moment(ingresos,order=1,center=TRUE) [1] 3.395447e-12 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 20 / 29 Varianza y Desviación Tı́pica La Varianza, Variance, es una de las medidas de dispersión más usadas. m 1X s = ni (xi − x)2 = x2 − x2 = a2 − a21 . n 2 i El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso habitualmente se trabaja con su raı́z cuadrada, la Desviación Tı́pica, Standar Deviation: √ s = s2 . En estadı́stica se usa con frecuencia la Cuasivarianza muestral, Quasivariance: m s2c 1 X n 2 = ni (xi − x)2 = s . n−1 n−1 i Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 21 / 29 12 Varianza con R > library(UsingR,e1071) > ingresos<-cfb$INCOME[1:15] > sum((ingresos-mean(ingresos))^2)/length(ingresos) [1] 456585857 > moment(ingresos,order=2,center=TRUE) [1] 456585857 > var(ingresos) [1] 489199132 > var(ingresos)*(length(ingresos)-1)/length(ingresos) [1] 456585857 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 22 / 29 Coeficiente de Variación, Variation Coefficient Las medidas de dispersión que hemos visto hasta ahora dependen de las unidades de medida de la variable. Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos diferentes se utilizan medidas de dispersión relativas. Coeficiente de Variación: CV = s . |x| Es una cantidad adimensional que mide la dispersión respecto a la media. También se denomina Variabilidad Relativa y puede expresarse en porcentaje. Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 23 / 29 13 24 / 29 Medidas de Forma Asimetrı́a, Skewness Definiremos Asimetrı́a Positiva cuando Md≤Me≤ x. Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de los datos una cola a la derecha. Definiremos Asimetrı́a Negativa cuando x ≤Me≤Md. Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de los datos una cola a la izquierda. El coeficiente de Asimetrı́a (de Fisher) se define: 1 Pm 3 m3 i ni (xi − x) n . g1 = 3 = s s3 Asimetría Positiva Asimetría Negativa g1=−1.66 g1 =1.85 Simétrica g1 = 0.028 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 25 / 29 14 Curtosis, Kurtosis Tomando como origen de coordenadas la media x, y como unidad de medida la desviación tı́pica, aparecen diferentes tipos de distribuciones de frecuencias de los datos. Definiendo el coeficiente muestral de exceso: m4 g2 = 4 − 3 = s Platicúrtica g2 < 0. Mesocúrtica g2 = 0. Leptocúrtica g2 > 0. 1 n Pm i ni (xi − x)4 − 3. s4 Leptocurtica 0.25 0.25 Platicurtica 0.05 0.10 0.15 0.20 g2 =2.32 0.00 0.00 0.05 0.10 0.15 0.20 g2 =−1.06 −10 −5 0 5 10 −10 −5 0 5 10 0.25 Mesocurtica 0.00 0.05 0.10 0.15 0.20 g2 =0.056 −10 −5 0 Licesio J. Rodrı́guez-Aragón 5 10 Tema 3, M.E.I. – 26 / 29 15 Asimetrı́a y Curtosis con R > > > + library(UsingR,e1071) ingresos<-cfb$INCOME moment(ingresos,order=3,center=TRUE)/moment(ingresos, order=2,center=TRUE)^(3/2) [1] 8.083549 > skewness(ingresos,type=1) [1] 8.083549 > help(skewness) > kurtosis(ingresos,type=1) [1] 82.83009 Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 27 / 29 Histograma de Ingresos 1.2e−05 8.0e−06 4.0e−06 0.0e+00 Densidad de Frecuencia Histograma de Ingresos 0 500000 1000000 1500000 ingresos Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 28 / 29 16 Histograma de Ingresos > library(UsingR) > edad<-cfb$AGE > skewness(edad) [1] 0.3639585 > kurtosis(edad) [1] -0.6366239 Densidad de Frecuencia 0.000 0.005 0.010 0.015 0.020 0.025 Histograma de Edades 0 20 40 60 80 100 edad Licesio J. Rodrı́guez-Aragón Tema 3, M.E.I. – 29 / 29 17