Ejemplo de MCGF: Demanda de cigarrillos, Wooldridge Tenemos los datos de fumadores. Como la mayoría de la gente no fuma la variable respuesta cigarros: número de cigarros al día, es 0 para la mayoría de las observaciones. Las variables dependientes son lrenta: logaritmo de la renta familiar; lpreciocig: logaritmo del precio por cigarrillo; educacion: número de años de educación del fumador; edad: edad del fumador; edadcuad: edad al cuadrado del fumador; y restaurante: =1 si hay restricciones para fumadores en los restaurantes de la zona del fumador. Tenemos el modelo ajustado calculado por MCO: ^ Cigarros = -3.64 (24.08) +0.880 (0.728) lrenta-0.751 (5.773) lpreciocig-0.501 (0.167) educacion+0.771 (0.160) edad-0.0090 (0.0017) edadcuad-2.83 (1.11) restaurante De los valores ajustados, ¿qué porcentaje es negativo? ¿Es preocupante? El porcentaje que resulta negativo es el 1.61%, el porcentaje es muy bajo por lo que el modelo utilizado es bueno y no es muy preocupante este porcentaje. ¿Es la renta estadísticamente significativa? La variable renta no es estadísticamente significativa, ya que si hacemos un contraste de la t de student, con n-k-1 grados de libertad, aceptamos la hipótesis nula que nos indica que la variable renta no es significativa, ya que el p-valor obtenido es de 0.87988, mucho mayor que 0.5 ¿Es el precio del cigarrillo estadísticamente significativo? El precio del cigarrillo no es significativo debido a que el p-valor es mayor que el 1% y por tanto queda en la región de aceptación, por lo que el precio del tabaco no influye en el consumo de cigarrillos. ¿Cómo afecta cada año de educación en la media de cigarrillos por día? Afecta negativamente a la variable respuesta cigarros, al aumentar en una unidad los años de educación, disminuye en 0.50 la media de cigarrillos diarios. ¿Cómo se relaciona el consumo de cigarrillos con la edad? El consumo de cigarrillos se relaciona también con la edad de manera cuadrática. Fumar aumenta con la edad hasta que edad= 0.771/2(0.009)=42.83 y luego disminuye. Ambos términos son estadísticamente significativos. Cuando la variable y depende de la variable x de forma cuadrática tenemos un modelo ajustado de forma ^ ^ ^ ^ y = beta0+ beta1 x + beta2 x2 En este caso cuando hay una relación positiva entre la variable x y la variable y hasta llegar a un punto donde el efecto de x sobre y se revierte. Este valor de inflexión se da en | beta1/(2 beta2)| La edad es un ejemplo de forma cuadrática en muchos casos. Por ejemplo, según uno se hace mayor incrementa su velocidad hasta llegar a cierta edad que empieza a perder facultades. ¿Cómo afecta la restricción del consumo en restaurantes en el consumo de cigarrillos por día? El hecho de estar en un restaurante en el que está prohibido fumar supone consumir por media 2.83 cigarrillos menos al día. ¿Tienen heteroscedasticidad los errores de ésta ecuación? Para mirar si existe heterocedasticidad en el modelo voy a usar un contraste BP, en el cual hemos hecho una regresión con los residuos al cuadrado bajo la hipótesis nula de supuesto de homocedasticidad. La hipótesis nula nos indica que los residuos del modelo no dependen de las variables explicativas, entonces habrá homocedasticidad. El valor observado LM=n*R²=32.25579, y la region de rechazo es RR={12.59,inf}, por tanto hay alguna variable dependiente con los residuos, y por tanto hay heterocedasticidad. Estimar la ecuación usando MCGF. Como no conocemos la función de heteroscedasticidad, la debemos estimar. Estimar la ecuación usando MCGF. Como no conocemos la función de heteroscedasticidad, la debemos estimar. ¿Cómo afectan las diferentes variables al consumo? Haciendo una estimación por MCGF. El efecto de la renta es ahora estadísticamente significativa y mayor en magnitud. El efecto del precio es también notablemente mayor, pero todavía es estadísticamente no significativo. El consumo de cigarrillos se relaciona negativamente con la escolarización, tiene una relación cuadrática con la edad, y está negativamente afectado por las restricciones al consumo de tabaco en restaurantes. Como vemos los valores de los estimadores significativos han cambiado un poco en su cuantía aunque no en su signo. Estos cambios no son importantes y por lo tanto no hay que tomarlos en cuenta. En algunos problemas, las estimaciones de MCO y MCP pueden ser sustancialmente diferentes. Estas estimaciones diferiran debido al error muestral. La cuestión es si su diferencia es suficiente para cambiar conclusiones importantes. El modelo ajustado con MCGF es ^ cigarros= 5.64 (17.80) + 1.30 (0.44) logrenta -2.94 (4.46) lpreciocig -0.463 (0.120) educacion+ 0.482 (0.097) edad-0.0056 (0.0009) edadcuad-3.46 (0.80) restaurante El código de R > residuals(fumar.lm)->epsilon > g<-log(epsilon^2) > g.lm<-lm(g~1+lrenta+lpreciocig+educacion+edad+edadcuad+restaurante) > g.hat<-fitted(g.lm) > h.hat<-exp(g.hat) > x0=1/sqrt(h.hat) > x1=lrenta/sqrt(h.hat) > x2=lpreciocig/sqrt(h.hat) > x3=educacion/sqrt(h.hat) > x4=edad/sqrt(h.hat) > x5=edadcuad/sqrt(h.hat) > x6=restaurante/sqrt(h.hat) > y<-cigarros/sqrt(h.hat) > fumar2.lm<-lm(y~-1+x0+x1+x2+x3+x4+x5+x6) > summary(fumar2.lm) Call: lm(formula = y ~ -1 + x0 + x1 + x2 + x3 + x4 + x5 + x6) Residuals: Min 1Q Median 3Q Max -1.9036 -0.9532 -0.8099 0.8415 9.8556 Coefficients: Estimate Std. Error t value Pr(>|t|) x0 5.6353434 17.8031310 0.317 0.751678 x1 1.2952413 0.4370119 2.964 0.003128 ** x2 -2.9402848 4.4601431 -0.659 0.509934 x3 -0.4634462 0.1201586 -3.857 0.000124 *** x4 0.4819474 0.0968082 4.978 7.86e-07 *** x5 -0.0056272 0.0009395 -5.990 3.17e-09 *** x6 -3.4610662 0.7955046 -4.351 1.53e-05 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.579 on 800 degrees of freedom Multiple R-Squared: 0.2757, Adjusted R-squared: 0.2693 F-statistic: 43.5 on 7 and 800 DF, p-value: < 2.2e-16 Nota: El hecho es que para usar MCGF, hemos asumido que la función de heteroscedasticidad era de forma exporencial, lo que es una asunción. El estimador MCP sigue siendo consistente, pero los errores estándar y estadísticos $t$ habituales ya no serán válidos, incluso asintóticamente. ¿Qué podemos hacer? Calcular los errores estándares robustos.