EJC 20 Diferencias entre Grupos

Anuncio
ECONOMETRIA 1
Profesor: Ramón Rosales
Complementarios:
Mónica Reyes
Camilo Gutiérrez
John Gómez
Monitores:
Andrés Camacho
Daniel Gamboa
Silvia Flórez
Santiago León
EJC 20: PRUEBAS DE DIFERENCIAS ENTRE GRUPOS EN LAS FUNCIONES
DE REGRESIÓN - ESTADÍSTICO DE CHOW
Efectos del Género sobre el desempeño académico (Wooldridge, 7.22, 7.25)
Se desea establecer si existen diferencias en las calificaciones (cumgpa) entre género a
partir de un modelo general en función del resultado de pruebas académicas SAT, del
percentil en el que se encuentra la escuela en la clasificación global hsperc y las horas
totales de estudio tothrs. Los datos fueron obtenidos de la base de datos GPA3.
En concreto, se desea probar que las “pendientes” y el “intercepto” son diferentes para
las mujeres en comparación con los hombres.
term
sat
tothrs
cumgpa
hsperc
female
female_sat
female_hsperc
female_tothrs
periodo, otoño = 1, primavera = 2
Puntaje en el SAT
Horas totales previas al periodo
Promedio acumulado
100*(rank/hssize)Percentil al que pertenece la escuela
=1 si femenino
interacción female sat
interacción female hsperc
interacción female tothrs
Female es una variable dicótoma para el género donde el grupo excluido es el masculino.
. gen female_sat = female* sat
. gen female_hsperc = female* hsperc
. gen female_tothrs = female* tothrs
Se debe especificar el periodo: term==2 para primavera.
2
1. Modelo no restringido:
. reg cumgpa female sat female_sat hsperc female_hsperc tothrs female_tothrs if
> term==2
Source |
SS
df
MS
-------------+-----------------------------Model | 53.5391809
7 7.64845442
Residual | 78.3545051
358 .218867333
-------------+-----------------------------Total | 131.893686
365 .361352564
Number of obs
F( 7,
358)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
366
34.95
0.0000
0.4059
0.3943
.46783
-----------------------------------------------------------------------------cumgpa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------female | -.3534862
.4105293
-0.86
0.390
-1.160838
.4538659
sat |
.0010516
.0001811
5.81
0.000
.0006955
.0014078
female_sat |
.0007506
.0003852
1.95
0.052
-6.88e-06
.0015081
hsperc | -.0084516
.0013704
-6.17
0.000
-.0111465
-.0057566
female_hsp~c | -.0005498
.0031617
-0.17
0.862
-.0067676
.0056681
tothrs |
.0023441
.0008624
2.72
0.007
.0006482
.0040401
female_tot~s | -.0001158
.0016277
-0.07
0.943
-.0033169
.0030852
_cons |
1.480812
.2073336
7.14
0.000
1.073067
1.888557
------------------------------------------------------------------------------
Se probará si existe diferencia alguna entre hombres y mujeres a partir de la significancia
estadística de la variable female. Por tanto, es necesario construir un modelo restringido
en el que las variables relacionadas con el género estén inactivas.
2. Modelo Restringido (female = 0):
. reg cumgpa sat hsperc tothrs if term==2
Source |
SS
df
MS
-------------+-----------------------------Model | 46.3786195
3 15.4595398
Residual | 85.5150666
362 .236229466
-------------+-----------------------------Total | 131.893686
365 .361352564
Number of obs
F( 3,
362)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
366
65.44
0.0000
0.3516
0.3463
.48603
-----------------------------------------------------------------------------cumgpa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------sat |
.001185
.0001648
7.19
0.000
.0008609
.001509
hsperc | -.0099569
.0012446
-8.00
0.000
-.0124044
-.0075094
tothrs |
.0023429
.0007554
3.10
0.002
.0008574
.0038285
_cons |
1.49085
.1836782
8.12
0.000
1.12964
1.85206
------------------------------------------------------------------------------
3
3. Prueba para evaluar la validez de la restricción
La hipótesis conjunta a probar será:
para algún
La hipótesis nula establece que las variables relacionadas con el género no tienen efecto
alguno sobre el promedio académico acumulado, ceteris paribus, esto es, la restricción es
válida. Por el contrario, la hipótesis alterna establece que por lo menos una de las
variables es significativa y que el género explica en alguna medida la variación del
desempeño académico. Esto último implicaría que el modelo es diferente para hombres y
para mujeres; siendo no valida la restricción.
⁄
⁄
⁄
⁄
⁄
⁄
que es el mismo resultado obtenido por STATA:
. test
( 1)
( 2)
( 3)
( 4)
female female_sat female_hsperc female_tothrs
female = 0
female_sat = 0
female_hsperc = 0
female_tothrs = 0
F(
4,
358) =
Prob > F =
8.18
0.0000
Dado que el p-valor asociado al estadístico F calculado es menor que el nivel de
confianza del 5% y equivalente a cero en cuatro decimales, es posible rechazar la
hipótesis nula y concluir la significancia conjunta de las variables relacionadas con el
género.
4. Prueba de Chow
Si se supone la existencia de diferencias entre los grupos, es necesario especificar los
modelos para cada uno de los ellos:
Para las mujeres se tiene:
Mientras que para los hombres:
Para construir el estadístico de Chow se halla la tabla ANOVA para cada uno de los
modelos.
4
Modelo para mujeres
. reg cumgpa sat hsperc tothrs if female==1
Source |
SS
df
MS
-------------+-----------------------------Model | 13.1465734
3 4.38219114
Residual |
19.602786
86 .227939372
-------------+-----------------------------Total | 32.7493594
89
.36797033
Number of obs
F( 3,
86)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
90
19.23
0.0000
0.4014
0.3805
.47743
-----------------------------------------------------------------------------cumgpa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------sat |
.0018022
.0003469
5.20
0.000
.0011126
.0024919
hsperc | -.0090013
.0029078
-3.10
0.003
-.0147818
-.0032209
tothrs |
.0022283
.0014088
1.58
0.117
-.0005723
.0050289
_cons |
1.127325
.3615951
3.12
0.002
.4084982
1.846153
------------------------------------------------------------------------------
Modelo para hombres
. reg cumgpa sat hsperc tothrs if female==0
Source |
SS
df
MS
-------------+-----------------------------Model | 27.2497343
3 9.08324478
Residual | 58.7517192
272 .215998967
-------------+-----------------------------Total | 86.0014535
275 .312732558
Number of obs
F( 3,
272)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
276
42.05
0.0000
0.3169
0.3093
.46476
-----------------------------------------------------------------------------cumgpa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------sat |
.0010516
.0001799
5.85
0.000
.0006975
.0014058
hsperc | -.0084516
.0013613
-6.21
0.000
-.0111317
-.0057714
tothrs |
.0023441
.0008567
2.74
0.007
.0006575
.0040307
_cons |
1.480812
.2059706
7.19
0.000
1.075313
1.886311
------------------------------------------------------------------------------
para algún
La hipótesis nula establece que no existen diferencias en los modelos para los hombres y
para las mujeres, es decir, la restricción es válida. Por el contrario, la hipótesis alterna
establece que por lo menos los interceptos o algunas de las pendientes son diferentes
entre los géneros lo cual nos dice que el género explica en alguna medida la variación del
desempeño académico. De esta forma, el modelo sería diferente entre hombres y
mujeres y la restricción no sería válida.
[
] [
]
5
Se sabe de los modelos estimados anteriormente y del segundo modelo estimado en la
página 2 que:
Modelo No Restringido
Modelo Restringido
[
[
] [
]
]
El p-valor asociado es equivalente a 0.000002 y menor al nivel de tolerancia del 5%, por
lo que se rechaza la hipótesis nula y se concluye que el modelo de las mujeres es
diferente al de los hombres.
5. Cambio en pendientes
Se desea establecer si la diferencia entre géneros sobre el promedio acumulado se debe
a diferencias entre los interceptos o a diferencias entre las pendientes. Se corre entonces
el modelo restringiendo las interacciones entre las variables y el género.
De nuevo, se lleva a cabo una prueba F con los modelos restringido y no restringido. La
hipótesis conjunta a probar será sobre el primer modelo calculado:
para algún
Modelo restringido
. reg cumgpa female sat hsperc tothrs if term==2
Source |
SS
df
MS
Number of obs =
366
-------------+-----------------------------F( 4,
361) =
59.74
Model | 52.5320205
4 13.1330051
Prob > F
= 0.0000
Residual | 79.3616656
361 .219838409
R-squared
= 0.3983
-------------+-----------------------------Adj R-squared = 0.3916
Total | 131.893686
365 .361352564
Root MSE
= .46887
-----------------------------------------------------------------------------cumgpa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------female |
.3100975
.0586128
5.29
0.000
.1948321
.4253629
sat |
.0012144
.0001591
7.63
0.000
.0009016
.0015272
hsperc | -.0084413
.0012343
-6.84
0.000
-.0108687
-.0060139
tothrs |
.0024638
.0007291
3.38
0.001
.00103
.0038976
_cons |
1.328541
.1798275
7.39
0.000
.9748996
1.682182
------------------------------------------------------------------------------
6
La hipótesis nula establece que las diferencias entre géneros son independientes del
desempeño de las demás variables explicativas (sat, hsperc y tothrs), mientras que la
hipótesis alterna establece que la restricción no es válida y que hay evidencia estadística
de diferencias en las pendientes de los grupos.
⁄
⁄
⁄
⁄
⁄
⁄
que es el mismo resultado obtenido por STATA:
. test
( 1)
( 2)
( 3)
female_sat female_hsperc female_tothrs
female_sat = 0
female_hsperc = 0
female_tothrs = 0
F(
3,
358) =
Prob > F =
1.53
0.2054
Al ser el p-valor asociado al estadístico F mayor al nivel de significancia de 5%, no es
posible rechazar la hipótesis nula, concluyendo que las diferencias entre género en el
desempeño académico no son explicadas por variables como el puntaje en el SAT, el
desempeño de la escuela o el total de horas de los cursos escolares. De esta manera, el
modelo presentado a continuación refleja eficientemente las diferencias entre grupos
(hombres y mujeres) en los resultados del promedio acumulado:
6. Cambio en intercepto
Dado que se demostró que la diferencia entre los modelos para hombres y para mujeres
no se debe a diferencias en las pendientes (interacciones), se desea probar si las
diferencias en los interceptos son significativas. Así, a partir del modelo presentado en la
última ecuación se estima el valor esperado de la variable dependiente dados los dos
posibles valores que puede tomar la variable dummy.
[
⁄
]
[
⁄
]
)
La diferencia en los interceptos viene dada por:
[
⁄
]
[
⁄
]
7
Se desea probar entonces la significancia estadística del coeficiente de la variable female
Se lleva a cabo una prueba de relevancia por medio de un estadístico t:
̂
Con un p-valor asociado cercano a cero y menor que el nivel de significancia del 5%. Por
tanto, se rechaza la hipótesis nula y se concluye que las diferencias entre grupos están
dadas por diferencias en los interceptos. De esta manera, una mujer tiene un valor
predicho del promedio acumulado
0.31 puntos mayor que un hombre.
Descargar