Análisis estadístico básico (II) Magdalena Cladera Munar mcladera@uib.es Departament d’Economia Aplicada Universitat de les Illes Balears CONTENIDOS Covarianza y correlación. Regresión lineal simple. REFERENCIAS Alegre, J. y Cladera, M. (2003). Introducción a la Estadística Descriptiva para Economistas. Materials Didàctics UIB, 101. Palma de Mallorca. Newbold, P. (1997). Estadística para los Negocios y la Economía. Prentice-Hall. Madrid. Peña, D. y Romo, D. (1997). Introducción a la Estadística para las Ciencias Sociales. McGrawHill. Madrid. Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el análisis de datos. Accesible en: http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf. Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid. Relación lineal entre variables cuantitativas Instrumentos estadísticos: Relación lineal entre dos variables cuantitativas. Representación gráfica. Medidas de relación lineal: Covarianza i Coeficiente de correlación de Pearson. Ajuste lineal entre dos variables. Interpretación gráfica y bondad de ajuste lineal. Relación lineal entre variables cuantitativas Relación lineal: relación entre dos variables que puede representarse aproximadamente como una línea recta. La asociación no implica causalidad. Dos tipos de asociación lineal: positiva y negativa. Gráfica 1. Relación lineal exacta positiva. Gráfica 2. Relación lineal exacta negativa. 3 3 2 2 1 1 0 0 -1 -1 -2 -2 Y -3 Y -3 -3 X -2 -1 0 1 2 3 -3 X -2 -1 0 1 2 3 Relación lineal entre variables cuantitativas Relaciones no lineales Gráfica 3. Gráfica 4. 10 40 20 0 0 -20 -10 -40 -60 -20 -80 Y -30 -3 X -2 -1 0 1 2 3 Y -100 -3 X -2 -1 0 1 2 3 Relación lineal entre variables cuantitativas Relaciones lineales Gráfica 1. Relación lineal exacta positiva. Gráfica 2. Relación lineal exacta negativa. 3 3 2 2 1 1 0 0 -1 -1 -2 -2 Y -3 Y -3 -3 -2 -1 0 1 2 3 -3 X -2 -1 0 X Gráfica 5. Relación lineal positiva no exacta. 6000 5000 4000 3000 2000 1000 0 Y -1000 -2000 -1000 X 0 1000 2000 3000 4000 5000 6000 1 2 3 Relación lineal entre variables cuantitativas Estadístico de covarianza n n ∑ ( X −x )(Y − y ) ∑ X Y i s XY = i =1 i n i i = i =1 n − XY Covarianza positiva (Sxy>0) ⇒ Asociación lineal positiva. Covarianza negativa (Sxy<0) ⇒ Asociación lineal negativa. Covarianza nula (Sxy=0) ⇒ Asociación lineal inexistente. Relación lineal entre variables cuantitativas Estadístico de covarianza positivo Figura 5.1. 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 Y 2 1 0 0 X 1 2 3 4 5 6 7 8 9 10 11 12 13 Relación lineal entre variables cuantitativas Estadístico de covarianza nulo Figura 5.6. 1,5 1,0 ,5 0,0 Y -,5 -1,0 -4 X -3 -2 -1 0 1 2 3 Relación lineal entre variables cuantitativas Covarianza. Ejemplo. 24 20 1 2 3 4 5 6 7 8 9 10 Suma Media 18 16 14 12 10 8 6 4 2 Y Xi i 22 0 0 2 4 6 8 10 12 14 16 18 20 22 X n X i Yi 12 14,55 10 12,85 11 13,3 13 13,53 15 18,18 14 18,94 12 16,11 11 13,82 19 23,53 20 23,02 137 167,83 13,7 16,783 174,6 128,5 146,3 175,89 272,7 265,16 193,32 152,02 447,07 460,4 2415,96 n ∑ ( X −x )(Y − y ) ∑ X Y i s XY = Yi i i =1 n i i = i =1 n − XY = 2415,96 − 13,7·16,783 = 11,67 10 Por tanto, existe asociación positiva entre ambas variables. Relación lineal entre variables cuantitativas Estadístico de covarianza Problemas del estadístico de covarianza como medida de asociación: No tiene un límite superior, con respecto al cual considerar si el grado de asociación. La covarianza depende de las unidades en que están medidas las variables. Relación lineal entre variables cuantitativas Estadístico de covarianza Propiedades de la covarianza: Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original. n ∑ (( X s XY = i =1 i + b )− ( x + b ))((Yi + c ) − ( y + c )) n n = ∑ (X i =1 i − x )(Yi − y ) n Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc. n ∑ (bX s XY = i =1 i −bx )(cYi − c y ) n n = bc ∑ ( X i − x )(Yi − y ) i =1 n Relación lineal entre variables cuantitativas Coeficiente de correlación lineal simple (Coeficiente de correlación de Pearson) s XY rXY = s X sY Substituyendo la covarianza y las desviaciones típicas: n s rXY = XY = s X sY n ∑ ( X −x )(Y − y ) i i i i =1 n ∑ ( X i −x ) 2 i =1 ∑ X Y −nx y i n ∑ (Yi − y ) 2 i =1 i =1 = n ∑ i =1 X i2 −n x 2 n ∑ i =1 Yi 2 −n y 2 Relación lineal entre variables cuantitativas Coeficiente de correlación lineal simple (Coeficiente de correlación de Pearson) s XY rXY = s X sY Asociación lineal positiva ⇒ Sxy>0 ⇒ rxy>0 Asociación lineal negativa ⇒ Sxy<0 ⇒ rxy<0 Ausencia de asociación lineal ⇒ Sxy=0 ⇒ rxy=0 El coeficiente de correlación toma valores entre –1 y 1. rxy = 1 Asociación lineal exacta de tipo positivo. rxy = -1 Asociación lineal exacta de tipo negativo. rxy = 0 Ausencia de asociación lineal. Relación lineal entre variables cuantitativas Coeficiente de correlación lineal simple (Coeficiente de correlación de Pearson) Propiedades del coeficiente de correlación: El valor del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. El coeficiente de correlación toma valores en el intervalo –1 y 1. Los valores máximo y mínimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a –1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal. Relación lineal entre variables cuantitativas Coeficiente de correlación. Ejemplo. 22 20 18 16 14 12 10 8 6 4 2 Y Xi i 24 0 0 X 2 4 6 8 10 12 14 16 18 20 22 1 2 3 4 5 6 7 8 9 10 Suma Media Yi 12 14,55 10 12,85 11 13,3 13 13,53 15 18,18 14 18,94 12 16,11 11 13,82 19 23,53 20 23,02 137 167,83 13,7 16,783 X i Yi X i2 Yi 2 174,6 144 211,70 128,5 100 165,12 146,3 121 176,89 175,89 169 183,06 272,7 225 330,51 265,16 196 358,72 193,32 144 259,53 152,02 121 190,99 447,07 361 553,66 460,4 400 529,92 2415,96 1981 2960,12 SXY = 11,67 n ∑X SX = i =1 2 i n − X2 = 1981 − 13,7 2 = 3,23 10 −Y 2 = 2960,12 − 16 ,7832 = 3,79 10 n ∑Y SY = rXY = i =1 n i 2 s XY 11,67 = = 0,95 s X sY 3,23·3,79 Por tanto, existe asociación positiva muy fuerte entre ambas variables. Relación lineal entre variables cuantitativas Objetivo: analizar las relaciones de dependencia entre una variable dependiente y un conjunto de variables explicativas. Especificación: Yi = f(X1i, X2i, X3i, ..., Xki, β) Forma funcional lineal Yi = β1 + β2X2i + β3X3i + β4X4i + ... + βkXki + ui Y: variable dependiente o endógena. Xj: variables explicativas, exógenas o regresores. β j: parámetros, coeficientes de regresión. u: término de error, término de perturbación o perturbación aleatoria. Modelo Simple: Yi = β1 + β2Xi + ui Modelo Múltiple: Yi = β1 + β2X2i + β3X3i + β4X4i + ... + βkXki + ui Relación lineal entre variables cuantitativas Modelo Simple: Yi = α + βXi + ui Relación lineal entre variables cuantitativas Ejemplo. Función de consumo sanitario Consumo Función de consumo sanitario 5000 Ci = α + βRi + ui 4000 E(Ci) = α + βRi 3000 2000 1000 0 25000 35000 45000 Renta Observaciones muestrales 55000 Relación lineal entre variables cuantitativas Ejemplo. Función de consumo sanitario Función de consumo sanitario 5000 Ci = α + βRi + ui 4000 E(Ci) = α + βRi Consumo Ci= 300,72+0,0677·Ri 3000 2000 1000 0 25000 30000 35000 40000 45000 50000 55000 Renta Observaciones muestrales Lineal (Observaciones muestrales) Relación lineal entre variables cuantitativas Obtención de α y β estimados por Mínimos Cuadrados Ordinarios (MCO) Yi = α + βXi + ui 100 95 ei 90 85 80 Y 75 ei 70 65 60 55 50 15 20 25 30 35 X n αˆ = y−βˆ x n ∑ ( X −x )(Y − y ) ∑ X Y − nxy βˆ = i =1 i n i 2 ( ) − X x ∑ i i =1 = i =1 n i i ∑X i =1 2 i − nx 2 = Sxy S 2x Relación lineal entre variables cuantitativas Obtención de α y β estimados por Mínimos Cuadrados Ordinarios (MCO) Yi = α + βXi + ui 100 y = 11,364+2,8155x 95 ei 90 85 80 Y 75 ei 70 65 60 55 50 15 20 25 30 35 X n αˆ = y−βˆ x βˆ = n ∑ ( X −x )(Y − y ) ∑ X Y − nxy i i =1 n i 2 ( ) X − x ∑ i i =1 = i =1 n i i ∑X i =1 2 i − nx 2 = Sxy S 2x Relación lineal entre variables cuantitativas Ejemplo. Función de consumo sanitario Muestra de 25 famílias: Función de consumo sanitario 5000 Consumo 4000 3000 2000 1000 0 25000 35000 45000 55000 Renta Observaciones muestrales αˆ =300,72 Lineal (Observaciones muestrales) βˆ =0,0677 Consumo 2275 3049 2050 2362 2457 2850 2499 2763 2869 2177 3184 3013 3464 2295 2224 3196 3617 3084 2951 4006 3977 3288 4085 3547 3907 Renta 30000 30000 30000 30000 30000 35000 35000 35000 35000 35000 40000 40000 40000 40000 40000 45000 45000 45000 45000 45000 50000 50000 50000 50000 50000 Relación lineal entre variables cuantitativas Ejemplo. Función de consumo sanitario Muestra de 25 famílias: Función de consumo sanitario 5000 4000 Consumo Ci= 300,72+0,0677·Ri 3000 2000 1000 0 25000 35000 45000 55000 Renta Observaciones muestrales αˆ =300,72 Lineal (Observaciones muestrales) βˆ =0,0677 Consumo 2275 3049 2050 2362 2457 2850 2499 2763 2869 2177 3184 3013 3464 2295 2224 3196 3617 3084 2951 4006 3977 3288 4085 3547 3907 Renta 30000 30000 30000 30000 30000 35000 35000 35000 35000 35000 40000 40000 40000 40000 40000 45000 45000 45000 45000 45000 50000 50000 50000 50000 50000 Relación lineal entre variables cuantitativas Bondad de ajuste A) B) ˆ 2 ( X − x )2 β VE R2 = = ∑ i 2 VT ∑ (Yi − y ) 0 ≤ R 2 ≤1 R 2 = 0 ⇔ El modelo NO es EXPLICATIVO R 2 =1 ⇔ El modelo EXPLICA toda la variación de Y Relación lineal entre variables cuantitativas Ejemplo. Función de consumo sanitario Muestra de 25 famílias: Función de consumo sanitario 5000 Ci= 300,72+0,0677·Ri R2 = 0,6169 Consumo 4000 3000 2000 1000 0 25000 35000 45000 55000 Renta Observaciones muestrales αˆ =300,72 Lineal (Observaciones muestrales) βˆ =0,0677 Consumo 2275 3049 2050 2362 2457 2850 2499 2763 2869 2177 3184 3013 3464 2295 2224 3196 3617 3084 2951 4006 3977 3288 4085 3547 3907 Renta 30000 30000 30000 30000 30000 35000 35000 35000 35000 35000 40000 40000 40000 40000 40000 45000 45000 45000 45000 45000 50000 50000 50000 50000 50000