ECONOMETRIA 1 Profesor: Ramón Rosales Complementarios: Mónica Reyes Camilo Gutiérrez John Gómez Monitores: Andrés Camacho Daniel Gamboa Silvia Flórez Santiago León EJC 20: PRUEBAS DE DIFERENCIAS ENTRE GRUPOS EN LAS FUNCIONES DE REGRESIÓN - ESTADÍSTICO DE CHOW Efectos del Género sobre el desempeño académico (Wooldridge, 7.22, 7.25) Se desea establecer si existen diferencias en las calificaciones (cumgpa) entre género a partir de un modelo general en función del resultado de pruebas académicas SAT, del percentil en el que se encuentra la escuela en la clasificación global hsperc y las horas totales de estudio tothrs. Los datos fueron obtenidos de la base de datos GPA3. En concreto, se desea probar que las “pendientes” y el “intercepto” son diferentes para las mujeres en comparación con los hombres. term sat tothrs cumgpa hsperc female female_sat female_hsperc female_tothrs periodo, otoño = 1, primavera = 2 Puntaje en el SAT Horas totales previas al periodo Promedio acumulado 100*(rank/hssize)Percentil al que pertenece la escuela =1 si femenino interacción female sat interacción female hsperc interacción female tothrs Female es una variable dicótoma para el género donde el grupo excluido es el masculino. . gen female_sat = female* sat . gen female_hsperc = female* hsperc . gen female_tothrs = female* tothrs Se debe especificar el periodo: term==2 para primavera. 2 1. Modelo no restringido: . reg cumgpa female sat female_sat hsperc female_hsperc tothrs female_tothrs if > term==2 Source | SS df MS -------------+-----------------------------Model | 53.5391809 7 7.64845442 Residual | 78.3545051 358 .218867333 -------------+-----------------------------Total | 131.893686 365 .361352564 Number of obs F( 7, 358) Prob > F R-squared Adj R-squared Root MSE = = = = = = 366 34.95 0.0000 0.4059 0.3943 .46783 -----------------------------------------------------------------------------cumgpa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------female | -.3534862 .4105293 -0.86 0.390 -1.160838 .4538659 sat | .0010516 .0001811 5.81 0.000 .0006955 .0014078 female_sat | .0007506 .0003852 1.95 0.052 -6.88e-06 .0015081 hsperc | -.0084516 .0013704 -6.17 0.000 -.0111465 -.0057566 female_hsp~c | -.0005498 .0031617 -0.17 0.862 -.0067676 .0056681 tothrs | .0023441 .0008624 2.72 0.007 .0006482 .0040401 female_tot~s | -.0001158 .0016277 -0.07 0.943 -.0033169 .0030852 _cons | 1.480812 .2073336 7.14 0.000 1.073067 1.888557 ------------------------------------------------------------------------------ Se probará si existe diferencia alguna entre hombres y mujeres a partir de la significancia estadística de la variable female. Por tanto, es necesario construir un modelo restringido en el que las variables relacionadas con el género estén inactivas. 2. Modelo Restringido (female = 0): . reg cumgpa sat hsperc tothrs if term==2 Source | SS df MS -------------+-----------------------------Model | 46.3786195 3 15.4595398 Residual | 85.5150666 362 .236229466 -------------+-----------------------------Total | 131.893686 365 .361352564 Number of obs F( 3, 362) Prob > F R-squared Adj R-squared Root MSE = = = = = = 366 65.44 0.0000 0.3516 0.3463 .48603 -----------------------------------------------------------------------------cumgpa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sat | .001185 .0001648 7.19 0.000 .0008609 .001509 hsperc | -.0099569 .0012446 -8.00 0.000 -.0124044 -.0075094 tothrs | .0023429 .0007554 3.10 0.002 .0008574 .0038285 _cons | 1.49085 .1836782 8.12 0.000 1.12964 1.85206 ------------------------------------------------------------------------------ 3 3. Prueba para evaluar la validez de la restricción La hipótesis conjunta a probar será: para algún La hipótesis nula establece que las variables relacionadas con el género no tienen efecto alguno sobre el promedio académico acumulado, ceteris paribus, esto es, la restricción es válida. Por el contrario, la hipótesis alterna establece que por lo menos una de las variables es significativa y que el género explica en alguna medida la variación del desempeño académico. Esto último implicaría que el modelo es diferente para hombres y para mujeres; siendo no valida la restricción. ⁄ ⁄ ⁄ ⁄ ⁄ ⁄ que es el mismo resultado obtenido por STATA: . test ( 1) ( 2) ( 3) ( 4) female female_sat female_hsperc female_tothrs female = 0 female_sat = 0 female_hsperc = 0 female_tothrs = 0 F( 4, 358) = Prob > F = 8.18 0.0000 Dado que el p-valor asociado al estadístico F calculado es menor que el nivel de confianza del 5% y equivalente a cero en cuatro decimales, es posible rechazar la hipótesis nula y concluir la significancia conjunta de las variables relacionadas con el género. 4. Prueba de Chow Si se supone la existencia de diferencias entre los grupos, es necesario especificar los modelos para cada uno de los ellos: Para las mujeres se tiene: Mientras que para los hombres: Para construir el estadístico de Chow se halla la tabla ANOVA para cada uno de los modelos. 4 Modelo para mujeres . reg cumgpa sat hsperc tothrs if female==1 Source | SS df MS -------------+-----------------------------Model | 13.1465734 3 4.38219114 Residual | 19.602786 86 .227939372 -------------+-----------------------------Total | 32.7493594 89 .36797033 Number of obs F( 3, 86) Prob > F R-squared Adj R-squared Root MSE = = = = = = 90 19.23 0.0000 0.4014 0.3805 .47743 -----------------------------------------------------------------------------cumgpa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sat | .0018022 .0003469 5.20 0.000 .0011126 .0024919 hsperc | -.0090013 .0029078 -3.10 0.003 -.0147818 -.0032209 tothrs | .0022283 .0014088 1.58 0.117 -.0005723 .0050289 _cons | 1.127325 .3615951 3.12 0.002 .4084982 1.846153 ------------------------------------------------------------------------------ Modelo para hombres . reg cumgpa sat hsperc tothrs if female==0 Source | SS df MS -------------+-----------------------------Model | 27.2497343 3 9.08324478 Residual | 58.7517192 272 .215998967 -------------+-----------------------------Total | 86.0014535 275 .312732558 Number of obs F( 3, 272) Prob > F R-squared Adj R-squared Root MSE = = = = = = 276 42.05 0.0000 0.3169 0.3093 .46476 -----------------------------------------------------------------------------cumgpa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------sat | .0010516 .0001799 5.85 0.000 .0006975 .0014058 hsperc | -.0084516 .0013613 -6.21 0.000 -.0111317 -.0057714 tothrs | .0023441 .0008567 2.74 0.007 .0006575 .0040307 _cons | 1.480812 .2059706 7.19 0.000 1.075313 1.886311 ------------------------------------------------------------------------------ para algún La hipótesis nula establece que no existen diferencias en los modelos para los hombres y para las mujeres, es decir, la restricción es válida. Por el contrario, la hipótesis alterna establece que por lo menos los interceptos o algunas de las pendientes son diferentes entre los géneros lo cual nos dice que el género explica en alguna medida la variación del desempeño académico. De esta forma, el modelo sería diferente entre hombres y mujeres y la restricción no sería válida. [ ] [ ] 5 Se sabe de los modelos estimados anteriormente y del segundo modelo estimado en la página 2 que: Modelo No Restringido Modelo Restringido [ [ ] [ ] ] El p-valor asociado es equivalente a 0.000002 y menor al nivel de tolerancia del 5%, por lo que se rechaza la hipótesis nula y se concluye que el modelo de las mujeres es diferente al de los hombres. 5. Cambio en pendientes Se desea establecer si la diferencia entre géneros sobre el promedio acumulado se debe a diferencias entre los interceptos o a diferencias entre las pendientes. Se corre entonces el modelo restringiendo las interacciones entre las variables y el género. De nuevo, se lleva a cabo una prueba F con los modelos restringido y no restringido. La hipótesis conjunta a probar será sobre el primer modelo calculado: para algún Modelo restringido . reg cumgpa female sat hsperc tothrs if term==2 Source | SS df MS Number of obs = 366 -------------+-----------------------------F( 4, 361) = 59.74 Model | 52.5320205 4 13.1330051 Prob > F = 0.0000 Residual | 79.3616656 361 .219838409 R-squared = 0.3983 -------------+-----------------------------Adj R-squared = 0.3916 Total | 131.893686 365 .361352564 Root MSE = .46887 -----------------------------------------------------------------------------cumgpa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------female | .3100975 .0586128 5.29 0.000 .1948321 .4253629 sat | .0012144 .0001591 7.63 0.000 .0009016 .0015272 hsperc | -.0084413 .0012343 -6.84 0.000 -.0108687 -.0060139 tothrs | .0024638 .0007291 3.38 0.001 .00103 .0038976 _cons | 1.328541 .1798275 7.39 0.000 .9748996 1.682182 ------------------------------------------------------------------------------ 6 La hipótesis nula establece que las diferencias entre géneros son independientes del desempeño de las demás variables explicativas (sat, hsperc y tothrs), mientras que la hipótesis alterna establece que la restricción no es válida y que hay evidencia estadística de diferencias en las pendientes de los grupos. ⁄ ⁄ ⁄ ⁄ ⁄ ⁄ que es el mismo resultado obtenido por STATA: . test ( 1) ( 2) ( 3) female_sat female_hsperc female_tothrs female_sat = 0 female_hsperc = 0 female_tothrs = 0 F( 3, 358) = Prob > F = 1.53 0.2054 Al ser el p-valor asociado al estadístico F mayor al nivel de significancia de 5%, no es posible rechazar la hipótesis nula, concluyendo que las diferencias entre género en el desempeño académico no son explicadas por variables como el puntaje en el SAT, el desempeño de la escuela o el total de horas de los cursos escolares. De esta manera, el modelo presentado a continuación refleja eficientemente las diferencias entre grupos (hombres y mujeres) en los resultados del promedio acumulado: 6. Cambio en intercepto Dado que se demostró que la diferencia entre los modelos para hombres y para mujeres no se debe a diferencias en las pendientes (interacciones), se desea probar si las diferencias en los interceptos son significativas. Así, a partir del modelo presentado en la última ecuación se estima el valor esperado de la variable dependiente dados los dos posibles valores que puede tomar la variable dummy. [ ⁄ ] [ ⁄ ] ) La diferencia en los interceptos viene dada por: [ ⁄ ] [ ⁄ ] 7 Se desea probar entonces la significancia estadística del coeficiente de la variable female Se lleva a cabo una prueba de relevancia por medio de un estadístico t: ̂ Con un p-valor asociado cercano a cero y menor que el nivel de significancia del 5%. Por tanto, se rechaza la hipótesis nula y se concluye que las diferencias entre grupos están dadas por diferencias en los interceptos. De esta manera, una mujer tiene un valor predicho del promedio acumulado 0.31 puntos mayor que un hombre.