Modelo de Regresión Lineal Múltiple. Multicolinealidad Dr. Víctor Aguirre Torres ITAM Temas ¿Qué es la multicolinealidad? Consecuencias sobre la estimación. Detección. Algunas contramedidas. Guión 19. Dr. V. Aguirre 2 ¿Qué es la multicolinealidad? det( X X ) ≠ 0 Supuesto 4 Tipos de Multicolinealidad T det( X T X ) = 0 Perfecta Cuasi perfecta det( X X ) ≈ 0 T Guión 19. Dr. V. Aguirre 3 Multicolinealidad Perfecta. No es posible estimar el modelo. Hay una singularidad. Una columna de la matriz X es una combinación lineal de las otras columnas. 1 1 1 1 1 X1 3 12 24 11 10 X2 25 20 21 10 1 X3 0.45 1.8 3.6 1.65 1.5 1 1 1 1 1 X1 3 12 24 11 10 X2 28 15 28 21 14 X3 25 3 4 10 4 det( X X ) = 0 T Guión 19. Dr. V. Aguirre 4 Multicolinealidad Cuasiperfecta. Datos sin multicolinealidad Matriz X 1 1 1 1 1 X2 0 0 1 0.5 0.5 0 1 1 0.5 0 Y 0.82 1.75 3.33 2.23 2.21 0 0 1 0.5 0.5 n=5 Xt X 5 2.5 2 r=2 1.2 2.5 2.25 1.25 2 1.25 1.5 det ( Xt X) 3.1875 1 0.8 X2 X1 0 1 1 0.5 0 0.6 0.4 0.2 (Xt X)^-1 0.568627 -0.392157 -0.431373 -0.392157 1.098039 -0.392157 -0.431373 -0.392157 1.568627 0 0 0.5 X1 1 1.5 Datos con multicolinealidad aproximada X2 0 0.99 1 0.5 0.5 Y 0.82 1.75 3.33 2.23 2.21 n=5 r=2 1.2 Xt X 5 3 2.99 1 3 2.5 2.49 2.99 2.49 2.4801 0.8 X2 X1 0 1 1 0.5 0.5 0.6 0.4 Matriz X 1 1 1 1 1 det ( Xt X) 0 1 1 0.5 0.5 0 0.99 1 0.5 0.5 0.0002 0.2 0 (Xt X)^-1 0.75 24 -25 0 24 17302 -17400 -25 -17400 17500 Guión 19. Dr. V. Aguirre 0.2 0.4 0.6 0.8 1 1.2 X1 5 Varianza Muestral del EMC de las pendientes. Proposición 10 bis Bajo los supuestos S1 a S4 c ) Var( βˆ i | X ' s ) = σ2 [SST ( 1 − R )] i 2 i i = 1,2 ,..., r Donde SSTi = ∑t =1 ( X ti − X i )2 y n Ri2 = R 2 de la regresión de X i en 1, X 1 , X 2 ,..., X i −1 , X i +1 ,..., X r Guión 19. Dr. V. Aguirre 6 Ejemplo Cálculo de Varianzas Regresión de X1 sobre X2 Resumen stadísticas de la regresión Coeficiente d 0.999959 Coeficiente de determinaci ón R^2 0.999917 R^2 ajustad 0.99989 Error típico 0.004389 Observacion 5 0.7 SST1 c22 17302 0.69208 c33 17500 Regresión de X2 sobre X1 Resumen stadísticas de la regresión Coeficiente d 0.999959 Coeficiente de determinaci ón R^2 0.999917 R^2 ajustad 0.99989 Error típico 0.004364 Observacion 5 SST2 Guión 19. Dr. V. Aguirre 7 Detección. Se da a continuación una manera de detectar multicolinealidad. Se tienen que cumplir simultáneamente las dos condiciones siguientes: 1. 2. F de significancia global significativa. Ningún estadística t significativa. Esto sugiere una contradicción. Guión 19. Dr. V. Aguirre 8 Ejemplo: Y=Consumo USA. CONS = Consumo USA INGAGR = Ingreso Agrícola INGNO = Ingreso No Salarial INGSAL = Ingreso Salarial Datos Año CONS INGAGR INGNO INGSAL 36 37 38 39 40 41 62.80000 65.00000 63.90000 67.50000 71.30000 76.60000 NA NA NA 86.30000 95.70000 98.30000 100.3000 103.2000 108.9000 108.5000 111.4000 3.960000 5.480000 4.370000 4.510000 4.880000 6.370000 NA NA NA 8.960000 9.760000 9.310000 9.850000 7.210000 7.390000 7.980000 7.420000 17.10000 18.65000 17.09000 19.28000 23.24000 28.11000 NA NA NA 30.29000 28.26000 27.91000 32.30000 31.39000 35.61000 37.58000 35.17000 43.41000 46.44000 44.35000 47.82000 51.02000 58.71000 NA NA NA 87.69000 76.73000 75.91000 77.62000 78.01000 83.57000 90.59000 95.47000 45 46 47 48 49 50 51 52 Guión 19. Dr. V. Aguirre 9 Ajuste del Modelo Original. Dependent Variable: CONS Method: Least Squares Sample: 1936 1952 Included observations: 14 Excluded observations: 3 Variable Coefficient Std. Error t-Statistic Prob. C INGSAL INGNO INGAGR 18.70206 0.380281 1.418574 0.533058 6.845355 0.312131 0.720377 1.399801 2.732081 1.218337 1.969209 0.380810 0.0211 0.2511 0.0772 0.7113 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.918721 0.894337 6.060096 367.2477 -42.73399 1.299587 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 87.12143 18.64313 3.838408 4.020995 37.67772 0.000009 Guión 19. Dr. V. Aguirre 10 Dependencia Lineal entre Variables Explicativas. 10 8 100 R G A G N I 6 80 4 L A S G NI 2 15 20 25 30 35 100 60 40 80 INGNO 40 2 4 6 8 10 L A S G NI 60 INGAGR 40 15 20 25 30 35 40 INGNO Guión 19. Dr. V. Aguirre 11 Contramedida: Eliminar una Variable. Dependent Variable: CONS Sample: 1936 1952 Variable Coefficient C INGSAL INGNO R-squared 19.28947 0.441389 1.379885 0.917542 Dependent Variable: CONS Sample: 1936 1952 Variable Coefficient C INGSAL INGAGR R-squared 23.40526 0.917087 0.144299 0.887203 Dependent Variable: CONS Sample: 1936 1952 Variable Coefficient C INGNO INGAGR R-squared 17.68958 2.185082 1.409833 0.906657 Included observations: 14 Excluded observations: 3 Std. Error t-Statistic 6.404864 0.257108 0.684900 3.011691 1.716746 2.014723 Mean dependent var 0.0118 0.1140 0.0690 87.12143 Included observations: 14 Excluded observations: 3 Std. Error t-Statistic 7.205643 0.170769 1.556565 3.248185 5.370334 0.092703 Mean dependent var 2.547939 6.094556 1.149202 Mean dependent var Prob. 0.0078 0.0002 0.9278 87.12143 Included observations: 14 Excluded observations: 3 Std. Error t-Statistic 6.942702 0.358530 1.226793 Prob. Prob. 0.0271 0.0001 0.2748 87.12143 Guión 19. Dr. V. Aguirre Eliminación de INGAGR. Sigue habiendo multicol. Estimaciones similares. Variable irrelevante omitida. Eliminación de INGNO. Ya no hay multicol. Estimaciones segadas. Variable relevante omitida. Eliminación de INGSAL. Ya no hay multicol. Estimaciones segadas. Variable relevante omitida. 12 Contramedida: Ajustar Modelo a Primera Diferencia. ∆Yt = Yt − Yt −1 Yt = β 0 + β 1 X t 1 + β 2 X t 2 + ... + β r X tr + ε t Yt −1 = β 0 + β 1 X t −1,1 + β 2 X t −1,2 + ... + β r X t −1,r + ε t −1 ∆Yt = β 1 ∆X t 1 + β 2 ∆X t 2 + ... + β r ∆X tr + ∆ε t Dependent Variable: CONS1 Sample(adjusted): 1937 1952 Included observations: 12 Excluded observations: 4 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. INGSAL1 INGNO1 INAGR1 -0.286958 0.910034 -0.041081 0.328259 0.669099 1.328017 -0.874183 1.360090 -0.030934 0.4047 0.2069 0.9760 R-squared -0.954903 Mean dependent var En este caso produce resultados incongruentes con la Teoría Económica 3.241666 Guión 19. Dr. V. Aguirre 13 Contramedida: Ajustar Modelo a Logaritmos. La interpretación de los parámetros cambia totalmente. Puede que así tampoco se quite la multicolinealidad. Dependent Variable: LCONS Method: Least Squares Date: 11/12/01 Time: 18:37 Sample: 1936 1952 Included observations: 14 Excluded observations: 3 Variable C LINGSAL LINGNO LINGAGR R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient Std. Error t-Statistic Prob. 1.590069 0.434755 0.314550 0.002951 0.390006 0.248818 0.219845 0.120974 4.077035 1.747283 1.430776 0.024394 0.0022 0.1112 0.1830 0.9810 0.931347 0.910751 0.065994 0.043552 20.54490 1.152958 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 4.445107 0.220903 -2.363557 -2.180969 45.21993 0.000004 Guión 19. Dr. V. Aguirre 14