TEMA 1. ESTADÍSTICA DESCRIPTIVA 1.1 Introducción: conceptos básicos 1.2 Tablas estadísticas y representaciones gráficas 1.3 Características de variables estadísticas unidimensionales 1.3.1 Características de posición 1.3.2 Características de dispersión 1.3.3 Características de forma 1.4 Concepto de v.e. bidimensional 1.5 Distribuciones marginales y condicionadas 1.6 Covarianza 1.7 Dependencia e independencia estadística 1.8 Regresión y correlación. Introducción 1.9 Rectas de regresión 1.10 Coeficiente de determinación y coeficiente de correlación lineal 1.11 Otros tipos de ajuste 1 1.1. Introducción : conceptos básicos ¾ ESTADÍSTICA: “Estudio de los métodos de recogida y descripción de datos, así como del análisis de esta información” Etapas de un estudio estadístico 1 2 3 4 Recogida de datos Ordenación, tabulación y gráficos* Descripción de características* Análisis formal * Estadística descriptiva: parte de la estadística que se ocupa de las etapas 2 y 3 Individuo, Población, Muestra ¾ Población: “Conjunto de elementos a los que se les estudia una característica” ¾ Individuo: “Cada uno de los elementos de la población” ¾ Muestra: “Subconjunto representativo de la población” 2 Variables estadísticas. Modalidades ¾ Variable estadística (v.e.): ”Característica propia del individuo objeto del estudio estadístico” Ejemplos: - Estatura - Peso - Color del pelo - Nivel de colesterol - Nº de hijos de una familia ¾ Modalidad: “Cada una de las posibilidades o estados diferentes de una variable estadística” ¾ Exhaustivas e incompatibles Ejemplo: color del pelo: - castaño - rubio - negro 3 Tipos de variables estadísticas ¾ Cualitativas: Las características no son cuantificables Ejemplos: Profesión Color del pelo ¾ Cuantitativas: Características cuantificables o numéricas 9 Discretas: Numéricas numerables Ejemplos: Nº de hijos Nº de viviendas 9 Continuas: Numéricas no numerables Ejemplos: Talla Peso Nivel de colesterol 4 1.2. Tablas estadísticas y representaciones gráficas ¾ Variables discretas 9 Frecuencias ♦ ♦ ♦ ♦ Absolutas, ni (nº individuos modalidad i) Absolutas acumuladas, Ni = n1 + n2 + ... + ni Relativas, fi (proporcion indiv. modalidad i) Re lativas acumuladas, F i = f1 + f 2 + ... + fi xi ni x1 ... xi ... xk Ni fi Fi n1 N1 f1 F1 ... ... ... ... ni Ni fi Fi ... ... ... ... nk Nk fk Fk n 1 Absolutas, ni Absolutas acumuladas, Ni Relativas f i = ni / n Relativas acumuladas Fi = Ni / n 5 ¾ Variables continuas: Intervalos Intervalo Ii xi ni Ni fi Fi eo- e1 ... ei-1- ei ... ek-1- ek x1 ... xi ... xk n1 ... ni ... nk n N1 ... Ni ... Nk f1 ... fi ... fk 1 F1 ... Fi ... Fk ¾ Marca de clase xi (punto medio de cada intervalo) ¾ Amplitud ai (distancia entre los extremos) ¾ Extremos [ ... ) 6 Gráficos estadísticos ¾ V. e. Cualitativas: Gráfico rectangular Color Plumaje Nº de Aves (ni) Negro 10 Gris 14 Blanco 20 Rojo 6 Violeta 4 20 10 Negro Gris Blanco Rojo Violeta 7 ¾ V. e. Cualitativas: Gráfico de sectores Color Plumaje Nº de Aves (ni) Negro 10 Gris 14 Blanco 20 Rojo 6 Violeta 4 Grados de cada sector = 360º fi violeta rojo negro gris blanco 8 ¾ V. e. Discretas: Gráfico de barras Nº de crías Nº animales: n i fi Fi 2 20 0.20 0.20 3 30 0.30 0.50 4 25 0.25 0.75 5 15 0.15 0.90 6 10 0.10 1 n = 100 35 30 25 20 15 10 5 0 2 3 4 5 6 9 ¾ V. e. Discretas: Curva acumulativa de distribución Nº de crías Nº animales: n i fi Fi 2 20 0.20 0.20 3 30 0.30 0.50 4 25 0.25 0.75 5 15 0.15 0.90 6 10 0.10 1 n = 100 1 0.90 • • • 0.75 0.50 • 0.20 • 2 3 4 5 6 10 ¾ V. e. Continuas: Histograma hi Estatura ni 140-160 160-170 170-180 180-190 190-200 30 22 20 18 10 100 hi = ni / a i 1.5 2.2 2 1.8 1 ¾ “El área de cada rectángulo es proporcional a la frecuencia” 2.2 2 1.8 1.5 1 140 160 170 180 190 200 11 ¾ V. e. Continuas: Curva acumulativa de distribución Talla 140-160 160-170 170-180 180-190 190-200 ni 30 22 20 18 10 100 fi Fi 0.30 0.30 0.22 0.52 0.20 0.72 0.18 0.90 0.10 1 1 0.90 0.72 0.52 0.30 140 160 170 180 190 200 12 1.3. Características de variables estadísticas unidimensionales 1.3.1 Características de Posición Media aritmética k ∑ ni xi k x = ∑ fi xi = i =1 i =1 Estatura n Nº Personas M. Clase ni xi nixi 140-150 20 145 2900 150-160 100 155 15500 160-180 80 170 13600 180-200 10 190 1900 n = 210 33900 k ∑ ni xi Media : x = i =1 n = 33900 210 = 161.42 13 Moda Valor de la variable más frecuente 9 Puede haber más de una moda → Plurimodal ¾ Variables discretas Datos en serie 2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3 Datos en tabla ♦ Ejemplo xi 1 ni 34 2 36 3 45 4 22 5 17 Mo = 3 14 ¾ Variables continuas Mo = ei −1 + ( h i − h i −1 ) + ( hi − h i +1 ) ai xi ni hi =ni / ai 140-160 160-170 170-180 180-190 190-200 30 22 20 18 10 100 1.5 2.2 2 1.8 1 ♦ Ejemplo Mo = 160 + h i − h i −1 ( 2.2 − 1.5) × 10 = 167.777 ( 2.2 − 1.5) + ( 2.2 − 2 ) ¾ Observaciones: 1. Puede utilizarse la frecuencia relativa 2. Si las amplitudes son iguales se puede proceder directamente con las frecuencias 15 Mediana Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El 50% de los elementos de la población tienen un valor de la variable menor de la mediana. El 50% de los elementos de la población tienen un valor de la variable mayor. ¾ Variables discretas Datos en serie ♦ Ejemplos Nº impar de observaciones: → 2, 2, 2, 3, 5, 6, 7, 7, 8 Me = 5 Nº par de observaciones: 4, 6, 6, 6, 7, 8, 8, 9 → Me = 6 – 7 Indeterminado entre 6 y 7 16 ¾ Variables discretas Datos en tabla ♦ Ejemplo xi ni Ni fi Fi 0 4 4 0.142 0.142 1 6 10 0.214 0.357 2 10 20 0.357 0.714 3 5 25 0.178 0.892 4 3 28 0.107 1 28 n/2 =14 Fi= 1/2 Me = 2 1 ¾ Observación: Si n/2 coincide con un Ni la mediana está indeterminada entre xi y xi+1 17 ¾ Variables continuas n 1 − Ni −1 − Fi −1 Me = ei −1 + 2 ai = ei −1 + 2 ai ni fi ♦ Ejemplo Tallas ni Ni fi Fi 140-150 15 15 0.15 0.15 150-160 30 45 0.30 0.45 160-170 25 70 0.25 0.70 170-180 20 90 0.20 0.90 180-200 10 100 0.10 n/2 = 50 Fi = 1/2 1 100 Me = 160 + 0.5 − 0.45 × 10 = 160 + 2 = 162 0.25 ¾ Observación: Si n/2 coincide con un Ni la mediana es el extremo superior del intervalo que le corresponde 18 Percentiles Definición: Pk, k:1,2,...,99, “percentil k”, valor de la variable que deja por debajo, el k% de los valores de la variable Q1 = P25 → Cuartil 1º Q2 = P50 → Cuartil 2º = Me Q3 = P75 → Cuartil 3º Cuantiles, aún más general D1 = P10 → Decil 1º D2 = P20 → Decil 2º …. D9 = P90 → Decil 9º Cálculo para v.e. discretas: Igual que la mediana, cambiando n/2 por nk/100 Cálculo para v.e. continuas: nk k − Ni−1 − Fi−1 Pk = ei −1 + 100 ai = ei−1 + 100 ai ni fi 19 ♦ Ejemplos percentiles v.e. discreta xi ni Ni 2 20 20 3 30 50 4 44 94 5 20 114 6 10 124 nk/100 = 124x40/100 = 49.6 nk/100 = 124x95/100 = 117.8 124 Percentil 40, P40 = 3 Percentil 95, P95 = 6 nk/100 = 124x25/100 = 31 Percentil 25, P25 = 3 = Q1 nk/100 = 124x50/100 = 62 Percentil 50, P50 = 4 = Me = Q2 nk/100 = 124x75/100 = 93 Percentil 75, P75 = 4 = Q3 20 ♦ Ejemplos percentiles v.e. continua Tallas ni Ni fi Fi 140-150 15 15 0.15 0.15 150-160 30 45 0.30 0.45 160-170 25 70 0.25 0.70 170-180 20 90 0.20 0.90 180-200 10 100 0.10 P40 P75 1 100 nk k − Ni −1 − Fi −1 ai = ei −1 + 100 ai Pk = ei −1 + 100 ni fi 40 − 15 0.4 − 0.15 P40 = 150 + ×10 = 150 + ×10 = 158.33 30 0.30 P75 = 170 + 75 − 70 0.75 − 0.70 ×10 = 170 + ×10 = 172.5 = Q3 20 0.20 21 1.3.2. Características de Dispersión 9 “Miden la Homogeneidad de las observaciones” Rango o recorrido ¾ Valor máximo menos valor mínimo de la variable Recorrido intercuartílico ¾ Q3 – Q1 22 Varianza k σ 2 ( ∑ ni x i − x = i =1 ) k 2 n 2 n x ∑ ii = i =1 n −x 2 Desviación típica σ = σ2 Coeficiente de variación C. V . = σ x 23 ♦ Ejemplo xi ni nixi nixi2 4 6 8 10 12 20 40 44 36 22 162 80 240 352 360 264 1296 320 1440 2816 3600 3168 11344 k ∑ ni xi 2 σ 2 = Var [ X ] = i =1 n 2 11344 1296 −x = − = 6.02 162 162 2 σ = σ 2 = 6.02 = 2.4535 24 Momentos no centrales (Respecto al origen) k r n x ∑ii k m r = ∑ fi x i r = i =1 n i =1 k ∑ ni xi k r = 1 → m1 = ∑ fi xi = i =1 i =1 =x n k 2 n x ∑ ii k r = 2 → m 2 = ∑ fi xi 2 = i =1 i =1 n k σ 2 2 n x ∑ii = i =1 n 2 ( ) − x = m 2 − m1 2 25 Momentos centrales (Respecto a la media) k ∑ ni ( x i − x ) µ r = i =1 r n k ∑ ni ( x i − x ) r = 1 → µ1 = i =1 n k ∑ ni ( x i − x ) r = 2 → µ 2 = i =1 n =0 2 =σ2 26 1.3.3 Características de forma Coeficiente de Sesgo (Asimetría) γ1 = µ3 σ3 ► Si γ1 = 0 ⇒ Distribución simétrica ► Si γ1 > 0 ⇒ Distribución sesgada a la derecha ► Si γ1 < 0 ⇒ Distribución sesgada a la izquierda 27 Coeficiente de Curtosis (Aplastamiento) γ2 = µ4 σ 4 −3 Distribución igual de aplastada que la distribución Normal ► Si γ2 =0 ► Si Distribución menos aplastada γ2 >0 ⇒ que la distribución Normal ► Si γ2 <0 ⇒ ⇒ Distribución más aplastada que la distribución Normal 28 1.4 Concepto de variable estadística bidimensional ♦ Ejemplo . X: “Peso”, Y: “Estatura” X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 9 Frecuencias Marginales Frecuencias Marginales de X Frecuencias Marginales de Y 9 Frecuencias Condicionadas Frecuencias Condicionadas de X Frecuencias Condicionadas de Y 29 1.5 Distribuciones marginales y condicionadas ¾ Distribución marginal de X ♦ Distribución de la variable X: “Peso” X \Y 140-160 160-180 180-200 >200 Marginal X 2 0 18 40-60 10 6 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 30 ¾ Distribución marginal de X ♦ Distribución de la variable X: “Peso” X Frecuencias Marginales 40-60 18 60-80 28 80-100 25 71 9 Media Marginal de X 9 Mediana Marginal de X 9 Moda Marginal de X 9 Varianza Marginal de X 31 ¾ Distribución marginal de Y ♦ Distribución de la variable Y: “Estatura” X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 32 ¾ Distribución marginal de Y ♦ Distribución de la variable Y: “Estatura” Y Frecuencias Marginales 140-160 19 160-180 26 180-200 18 >200 8 71 9 Media Marginal de Y 9 Mediana Marginal de Y 9 Moda Marginal de Y 9 Varianza Marginal de Y 33 ¾ Distribuciones de X condicionadas a valores de Y ♦ Ejemplo . Distribución de X condicionada a 160 < Y < 180 X\Y 140-160 160-180 180-200 >200 Marginal X 2 0 18 40-60 10 6 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 34 ♦ Ejemplo . Distribución de X condicionada a 160 < Y < 180 X Frecuencias condicionadas 40-60 6 60-80 12 80-100 8 26 9 Medias condicionadas de X 9 Varianzas condicionadas de X 35 ¾ Distribuciones de Y condicionadas a valores de X ♦ Ejemplo . Distribución de Y condicionada a 60 < X < 80 X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 36 ♦ Ejemplo . Distribución de Y condicionada a 60 < X < 80 Y Frecuencias condicionadas 140-160 8 160-180 12 180-200 6 >200 2 28 9 Medias condicionadas de Y 9 Varianzas condicionadas de Y 37 1.6 Covarianza Cov [ X , Y ] = σ x y = ∑∑ n ij ( xi − x ) ( y j − y ) i j n = ∑∑ nij xi y j = i j n −x y 38 1.7 Dependencia e independencia estadística ¾ Independencia estadística No hay relación entre las variables Si n ij = n i.n. j n ∀ i, j ¾ Dependencia estadística Hay relación entre las variables El grado de relación se mide mediante un coeficiente de asociación 39 ♦ Ejemplo. Variables X e Y independientes X\Y Y1 Y2 Y3 Y4 ni ● X1 n11 n12 n13 n14 n1 ● =2 =6 =4 =8 = 20 n21 n22 n23 n24 n2 ● =3 =9 =6 = 12 = 30 n31 n32 n33 n34 n3 ● =1 =3 =2 =4 = 10 n ●1 n ●2 n ●3 n ●4 n =6 = 18 = 12 = 24 = 60 X2 X3 n ●j Independencia estadística Si nij = n 23 = n 31 = n 2. n.3 n n 3. n.1 n = 30 × 12 =6 60 = 10 × 6 =1 60 ni. n. j n ∀ i, j 40 ♦ Ejemplo. Variables X e Y no independientes X\Y Y1 Y2 Y3 Y4 ni ● X1 n11 n12 n13 n14 n1 ● =3 =6 =4 =8 = 21 n21 n22 n23 n24 n2 ● =3 = 10 =6 = 12 = 31 n31 n32 n33 n34 n3 ● =1 =3 =2 =4 = 10 n ●1 n ●2 n ●3 n ●4 n =7 = 19 = 12 = 24 = 62 X2 X3 n ●j Independencia estadística n 23 = n 31 ≠ n 2. n.3 n n 3. n.1 n Si nij = = 31 × 12 =6 62 ni. n. j n ∀ i, j 10 × 7 = = 1.129 ≠ 1 62 41 ♦ Ejemplo. Dependencia Funcional .- Dadas las siguientes distribuciones bidimensionales: 1. ¿Son independientes las variables X e Y? 2. ¿Dependen funcionalmente las variables X e Y? a. b. c. d. X\Y 10 15 20 1 2 3 0 1 0 3 0 0 0 0 5 4 0 1 0 X\Y 10 15 20 25 1 2 3 0 0 2 3 0 0 0 1 0 4 0 0 X\Y 10 15 20 1 2 3 0 3 0 5 0 0 0 0 2 X\Y 10 15 20 1 2 3 3 1 0 2 0 1 0 2 1 42 1. ¿Son independientes las variables X e Y? a. X\Y 10 15 20 Marginal X 1 0 3 0 3 2 1 0 0 1 3 0 0 5 5 4 0 1 0 1 Marginal Y 1 4 5 10 n12 ≠ n 1. n.2 n 3× 4 = = 1.2 ≠ 3 10 Las variables X e Y no son independientes b. X\Y 10 15 20 25 Marginal X 1 0 3 0 4 7 2 0 0 1 0 1 3 2 0 0 0 2 Marginal Y 2 3 1 4 10 n 23 ≠ n 2. n.3 n = 1×1 = 0.1 ≠ 1 10 Las variables X e Y no son independientes 43 1. ¿Son independientes las variables X e Y? c. X\Y 10 15 20 Marginal X 1 0 5 0 5 2 3 0 0 3 3 0 0 2 2 Marginal Y 3 5 2 10 n11 ≠ n 1. n.1 n 5×3 = = 1.5 ≠ 0 10 Las variables X e Y no son independientes d. X\Y 10 15 20 Marginal X 1 3 2 0 5 2 1 0 2 3 3 0 1 1 2 Marginal Y 4 3 3 10 n 21 ≠ n 2. n.1 n = 3× 4 = 1.2 ≠ 1 10 Las variables X e Y no son independientes 44 2. ¿Dependen funcionalmente las variables X e Y? a. X\Y 10 15 20 1 0 3 0 2 1 0 0 3 0 0 5 4 0 1 0 Y Depende funcionalmente de X X No Depende funcionalmente de Y b. X\Y 10 15 20 25 1 0 3 0 4 2 0 0 1 0 3 2 0 0 0 Y No Depende funcionalmente de X X Depende funcionalmente de Y 45 2. ¿Dependen funcionalmente las variables X e Y? c. X\Y 10 15 20 1 0 5 0 2 3 0 0 3 0 0 2 X Depende funcionalmente de Y Y Depende funcionalmente de X d. X\Y 10 15 20 1 3 2 0 2 1 0 2 3 0 1 1 X No Depende funcionalmente de Y Y No Depende funcionalmente de X 46 1.8 Regresión y correlación. Introducción Regresión ¾ Búsqueda de una función que relacione ambas variables y sirva para predecir una variable a partir de la otra y = f(x) Correlación ¾ Estudio del nivel de relación entre las variables 9 Nube de puntos (diagrama de dispersión): gráfico de las observaciones (datos bidimensionales) 9 Línea o función de regresión: tipo de función que mejor se ajuste a la nube de puntos: Lineal ; Cuadrática; Exponencial… 47 1.9 Rectas de regresión Recta de mínimos cuadrados de Y / X Y y = a + bx * * * yj * * * yj * eij * (xi, yj* ) * (xi, yj ) * X xi Residuos = eij = y j − ( a + bxi ) min ∑∑ eij = min ∑∑ 2 i j i = min ∑∑ i j ( j y j − ( a + bxi ) ) ( 2 * yj − yj = ) 2 Ecuaciones normales 48 Recta de mínimos cuadrados de Y / X y = f ( x) = a + b x Cov [ X , Y ] σ xy b= = = 2 Var [ X ] σx ∑ ni x i yi − x y n ∑ ni xi 2 n −x 2 a = y − bx ( y− y =b x−x ) b = coeficiente de regresión de Y / X “Variación de Y si X aumenta en una unidad” 49 Recta de mínimos cuadrados de X / Y x = f ( y) = c + d y Cov [ X , Y ] σ xy d= = = 2 Var [Y ] σy ∑ ni x i yi − x y n ∑ ni y i 2 n −y 2 c = x−d y ( x−x=d y− y ) d = coeficiente de regresión de X / Y “Variación de X si Y aumenta en una unidad” 50 1.10 Coeficiente de determinación y coeficiente de correlación lineal Coeficiente de determinación ¾ “Proporción de la varianza explicada por la regresión” r2 = 2 σ xy ; σ x2 σ y2 0 ≤ r2 ≤ 1 Coeficiente de correlación lineal de Pearson r= r=0 ⇔ r>0 ⇔ r<0 ⇔ r = ±1 ⇔ σ xy σ xσ y ; −1 ≤ r ≤ 1 Independencia Dependencia directa Dependencia inversa Dependencia funcional lineal 51 ♦ Ejemplo. X= “Estatura”, Y= “Peso” xi yi x i yi x2i y 2i 160 52 8320 25600 2704 172 64 11008 29584 4096 174 65 11310 30276 4225 176 72 12672 30976 5184 180 78 14040 32400 6084 Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293 x= σ xy 862 = 172.4 ; 5 y= 331 = 66.2 5 ni x i yi 57350 ∑ = − xy = − 172.4 σx 5 n × 66.2 = 57.12 2 n x 2 148836 ∑ i i 2= −x = − 172.42 = 45.44 σ y2 = 5 n 2 n y ∑ i i n 2 −y = 22293 − 66.22 = 76.16 5 52 y = a + bx b= Cov [ X , Y ] Var [ X ] = σ xy σ x2 = 57.12 = 1.257 45.44 a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068 y = a + b x = −150.5068 + 1.257 x Para x = 170 ⇒ y = a + bx = −150.5068 + 1.257 × 170 = 63.1832 σ xy 57.12 r= = = 0.9708 σx σy 45.44 76.16 53 1.11 Otros tipos de ajuste ¾ Parabólico y = ax 2 + bx + c ¾ Exponencial y = a bx ¾ Potencial y = a xb ¾ Hiperbólico y= a x 54