Tema 3

Anuncio
TEMA 3
MODELO DE REGRESIÓN LINEAL MÚLTIPLE
1
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
INGRESOS = !1 + !2S + !3EXPER + u
!1
INGRESOS
EXPER
S
Interpretación geométrica de la regresión múltiple, a traves de la modelización de los
ingresos en función de los años de estudio, S, y la experiencia, EXPER.
El modelo tiene tres dimensiones y el punto de partida para la determinar los ingresos es la
ordenada en el origen !1. Este punto surge de aquéllos que no tienen estudios ni
2
experiencia
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
INGRESOS = !1 + !2S + !3EXPER + u
efecto S
!1 + !2S
!1
INGRESOS
EXPER
S
El incremento de la educación, cuando la experiencia queda constante está dado por el
movimiento hacia la “derecha”: un año de estudios generaría una variación de los ingresos
3
en !2 pesetas, dado el nivel de experiencia.
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
INGRESOS = !1 + !2S + !3EXPER + u
!1 + !3EXPER
efecto EXPER
!1
INGRESOS
EXPER
S
De la misma manera, !3 recoge el incremento de ingreso ante un aumento unitario de la
experiencia, dado el nivel de educación, S.
4
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
INGRESOS = !1 + !2S + !3EXPER + u
!1 + !3EXPER
!1 + !2S + !3EXPER
efecto conjunto S y
EXPER
efecto EXPER
efecto S
!1 + !2S
!1
INGRESOS
EXPER
S
Distintas combinaciones de S y EXPER dan lugar al hiperplano definido por INGRESOS = !1
+ !2S + !3EXPER. Este sería el componente no aleatorio del modelo.
IMPORTANTE: En regresión múltiple, cuando se evalúa el efecto de una variable sobre la
5
variable dependiente, es necesario discriminar el efecto propio de los efectos de las otras
variables.
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
INGRESOS = !1 + !2S + !3EXPER + u
u
!1 + !3EXPER
efecto EXPER
efecto S
!1 + !2S + !3EXPER + u
!1 + !2S + !3EXPER
efecto conjunto S y
EXPER
!1 + !2S
!1
INGRESOS
EXPER
S
El elemento aleatorio del modelo, u, nace como consecuencia de que las observaciones no
coinciden con el hiperplano.
6
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados
ordinarios, de donde se obtienen los estimadores b1, b2, y b3.
El residuo, ei de la observación i no es más que la diferencia entre la observación actual y
la ajustada.
7
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
SCR = ! e i2 = ! (Yi - b1 - b2 X 2 i - b3 X 3 i ) 2
Derivar los estimadores de los parámetros a partir
de las condiciones de primer
orden que hacen mínima la expresión anterior.
"SCR
=0
"b1
"SCR
=0
"b2
"SCR
=0
"b3
8
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
Obtenemos entonces tres ecuaciones para los tres parámetros. De estas ecuaciones
obtenemos los estimadores b1, b2, y b3.
9
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
¿Qué sucede si la covarianza entre X2 y X3 es cero?
Interpretar
¿En este caso, de qué depende el signo que tome el parámetro?
¿Tiene sentido en economía pensar que la covarianza entre X2 y X3 sea cero?
Observar, por tanto, cómo la interrelación entre las distintas variables interactúan
entre sí para definir el estimador
¿Qué sucede si en el denominador saco como factor común las varianzas?
Hacerlo e interpretar
10
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
. reg INGRESOS S EXPER
Source |
SS
df
MS
---------+-----------------------------Model | 4745.74965
2 2372.87483
Residual | 33651.2874
567 59.3497133
---------+-----------------------------Total | 38397.0371
569 67.4816117
Number of obs
F( 2,
567)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
39.98
0.0000
0.1236
0.1205
7.7039
-----------------------------------------------------------------------------INGRESOS |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S |
.7390366
.1606216
4.601
0.000
.4235506
1.054523
EXPER |
.1545341
.0429486
3.598
0.000
.0701764
.2388918
_cons | -4.624749
2.0132
-2.297
0.022
-8.578989
-.6705095
------------------------------------------------------------------------------
ˆ
= - 4.62 + 0.74 S + 0.15 Exper
ingresos
11
RELACIONES MULTIVARIANTES
. reg ingresos S hábil
Source |
SS
df
MS
---------+-----------------------------Model | 4745.74965
2 2372.87483
Residual | 33651.2874
567 59.3497133
---------+-----------------------------Total | 38397.0371
569 67.4816117
Number of obs
F( 2,
567)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
39.98
0.0000
0.1236
0.1205
7.7039
-----------------------------------------------------------------------------ingresos |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S |
.7390366
.1606216
4.601
0.000
.4235506
1.054523
hábil |
.1545341
.0429486
3.598
0.000
.0701764
.2388918
_cons | -4.624749
2.0132
-2.297
0.022
-8.578989
-.6705095
------------------------------------------------------------------------------
Este resultado surge de hacer la regresión de ingresos, medido en pesetas por hora, frente
a años de educación, S, y el resultado de un test de habilidad o aptitud hábil.
Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos
únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado
que sabemos que la habilidad afecta al ingreso, pero también a la educación.
12
Relaciones Multivariantes
. correlación S hábil
(obs=570)
|
S
hábil
--------+-----------------S|
1.0000
hábil |
0.5779
1.0000
Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por
ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones
13
equivocadas.
Relaciones Multivariantes
. reg ingresos hábil
Source |
SS
df
MS
---------+-----------------------------Model | 3489.30726
1 3489.30726
Residual | 34907.7298
568 61.4572708
---------+-----------------------------Total | 38397.0371
569 67.4816117
Number of obs
F( 1,
568)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
56.78
0.0000
0.0909
0.0893
7.8395
-----------------------------------------------------------------------------ingresos |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------hábil |
.2687432
.035666
7.535
0.000
.1986898
.3387966
_cons |
-.359883
1.818571
-0.198
0.843
-3.931829
3.212063
------------------------------------------------------------------------------
Para eliminar el efecto de la habilidad, lo que debería hacerse es limpiar de ingresos y S el
efecto que se debe a hábil y después graficar ambas variables. Para ello, es necesario
regresar, por separado, ingresos y estudios frente a hábil y quedarnos con los residuos de
estas regresiones.
14
Relaciones Multivariantes
. reg S hábil
Source |
SS
df
MS
---------+-----------------------------Model | 1153.80864
1 1153.80864
Residual | 2300.43873
568 4.05006818
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 1,
568)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
284.89
0.0000
0.3340
0.3329
2.0125
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------hábil |
.1545378
.0091559
16.879
0.000
.1365543
.1725213
_cons |
5.770845
.4668473
12.361
0.000
4.853888
6.687803
------------------------------------------------------------------------------
15
Relaciones Multivariantes
Una vez que hemos hecho eso, graficamos los residuos de ambas regresiones. Esta gráfica
nos muestra la relación entre el ingreso y S, una vez depurado el efecto de la habilidad. La
16
recta oscura es la regresión entre los residuos y la más clara es la regresión original entre
ingresos y estudios.
Relaciones Multivariantes
. reg Res-ingresos res-estudios
Source |
SS
df
MS
Number of obs =
570
---------+-----------------------------F( 1,
568) =
21.21
Model | 1256.44239
1 1256.44239
Prob > F
= 0.0000
Residual | 33651.2873
568 59.2452241
R-squared
= 0.0360
---------+-----------------------------Adj R-squared = 0.0343
Total | 34907.7297
569 61.3492613
Root MSE
= 7.6971
-----------------------------------------------------------------------------Resin |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------RS |
.7390366
.1604802
4.605
0.000
.4238296
1.054244
_cons | -5.99e-09
.3223957
0.000
1.000
-.6332333
.6332333
------------------------------------------------------------------------------
Regresión de los residuos.
¿POR QUÉ LA ESTIMACIÓN DE LA CONSTANTE EN ESTE MODELO ES PRÁCTICAMENTE
IGUAL A 0?
17
Relaciones Multivariantes
. reg Res-ing RS
Source |
SS
df
MS
Number of obs =
570
---------+-----------------------------F( 1,
568) =
21.21
Model | 1256.44239
1 1256.44239
Prob > F
= 0.0000
Residual | 33651.2873
568 59.2452241
R-squared
= 0.0360
---------+-----------------------------Adj R-squared = 0.0343
Total | 34907.7297
569 61.3492613
Root MSE
= 7.6971
-----------------------------------------------------------------------------Resin |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------RS |
.7390366
.1604802
4.605
0.000
.4238296
1.054244
_cons | -5.99e-09
.3223957
0.000
1.000
-.6332333
.6332333
------------------------------------------------------------------------------
Regresión multiple:
-----------------------------------------------------------------------------ingresos |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S |
.7390366
.1606216
4.601
0.000
.4235506
1.054523
exper |
.1545341
.0429486
3.598
0.000
.0701764
.2388918
_cons | -4.624749
2.0132
-2.297
0.022
-8.578989
-.6705095
------------------------------------------------------------------------------
Es importante observar que el procedimiento seguido anteriormente da lugar al mismo
estimador que la regresión multiple. ¿Entonces, cuál es la interpretación del estimador del
18
coeficiente?
EJERCICIO
Vamos a descomponer el estimador:
para demostrar que este estimador surge de la regresión entre
los residuos obtenidos de regresar Y frente X3, frente a los
residuos obtenidos de regresar X2 frente X3
19
PRECISIÓN DE LOS ESTIMADORES
! u2
1
!
Varianza poblacional b2 = ! =
nVar ( X 2 ) 1 - rX22 , X 3
2
b2
Observar que la varianza se compone de dos elementos:
El primero es idéntico al caso de regresión simple: depende de la
varianza de la perturbación, del número de observaciones en la muestra y
de la varianza de la variable explicativa de interés.
El segundo componente está relacionado con la correlación que existe
entre las dos variables explicativas del modelo: observar que cuanto
mayor sea la correlación entre estas dos variables, mayor será la
varianza del estimador.
Cuanto mayor sea la correlación entre las dos variables explicativas, más
difícil será discriminar entre el efecto que dichas variables producen en la
20
Y y, por lo tanto, menos precisa será la estimación.
PRECISIÓN DE LOS ESTIMADORES
! u2
1
!
Varianza poblacional b2 = ! =
nVar ( X 2 ) 1 - rX22 , X 3
2
b2
! u2
1
!
Desviación típica b2 =
nVar ( X 2 ) 1 - rX22 , X 3
21
Veremos ahora un ejemplo utilizando dos muestras de salarios: una,
de trabajadores sindicalizados, cuyo salario ha sido fijado a través de
negociación colectiva y otra de trabajadores no sindicalizados.
El objetivo es analizar las diferencias en la precisión de la estimación
de los parámetros de ambas muestras, tratando de discernir las
causas de estas diferencias
22
Precisión de los estimadores
. reg SALARIOS S HABIL (NO SINDICALIZADO)
Source |
SS
df
MS
---------+-----------------------------Model | 4966.96516
2 2483.48258
Residual | 31052.2066
504 61.6115211
---------+-----------------------------Total | 36019.1718
506
71.184134
Number of obs
F( 2,
504)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
507
40.31
0.0000
0.1379
0.1345
7.8493
-----------------------------------------------------------------------------SALARIOS |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S |
.8891909
.1741617
5.106
0.000
.5470186
1.231363
HABIL |
.1398727
.0461806
3.029
0.003
.0491425
.2306029
_cons | -6.100961
2.15968
-2.825
0.005
-10.34404
-1.857877
-----------------------------------------------------------------------------RESPONDER:
¿El signo del estimador del parámetro de HABIL es el esperable ?
¿Es significativo el efecto de HABIL en el salario?
¿Hay rendimientos constantes a escala en HABIL y S?¿qué
significa esto y cómo lo constrastaría?
¿El modelo ajusta bien?
23
Precisión de los estimadores
. reg SALARIOS S HABIL (SINDICALIZADO)
Source |
SS
df
MS
---------+-----------------------------Model | 172.902083
2 86.4510417
Residual | 2012.88504
60 33.5480841
---------+-----------------------------Total | 2185.78713
62 35.2546311
Number of obs
F( 2,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
63
2.58
0.0844
0.0791
0.0484
5.7921
-----------------------------------------------------------------------------SALARIOS |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S | -.3872787
.3530145
-1.097
0.277
-1.093413
.3188555
HABIL |
.2309133
.1019211
2.266
0.027
.0270407
.4347858
_cons |
8.291716
4.869209
1.703
0.094
-1.448152
18.03158
------------------------------------------------------------------------------
24
Precisión de los estimadores
Descomposición del error standard de S
Componente
su
n
Var(S)
rS, HABIL
s.e.
No-sindic
0.1742
Sindic
0.3530
Factor
No-sindic
Sindic
Descompondremos la desviación típica.
25
Precisión de los estimadores
. reg SALARIOS S HABIL (NO SINDICALIZADO)
Source |
SS
df
MS
---------+-----------------------------Model | 4966.96516
2 2483.48258
Residual | 31052.2066
504 61.6115211
---------+-----------------------------Total | 36019.1718
506
71.184134
Number of obs
F( 2,
504)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
507
40.31
0.0000
0.1379
0.1345
7.8493
-----------------------------------------------------------------------------SALARIOS |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S |
.8891909
.1741617
5.106
0.000
.5470186
1.231363
HABIL |
.1398727
.0461806
3.029
0.003
.0491425
.2306029
_cons | -6.100961
2.15968
-2.825
0.005
-10.34404
-1.857877
------------------------------------------------------------------------------
su2 =
1
SCR
n- k
Por tanto, SCR/(n-k) es 61.6115, por lo que, la raíz cuadrada es 7.8493.
26
Precisión de los estimadores
. reg SALARIOS S HABIL (SINDICALIZADO)
Source |
SS
df
MS
---------+-----------------------------Model | 172.902083
2 86.4510417
Residual | 2012.88504
60 33.5480841
---------+-----------------------------Total | 2185.78713
62 35.2546311
Number of obs
F( 2,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
63
2.58
0.0844
0.0791
0.0484
5.7921
-----------------------------------------------------------------------------SALARIOS |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------S | -.3872787
.3530145
-1.097
0.277
-1.093413
.3188555
HABIL |
.2309133
.1019211
2.266
0.027
.0270407
.4347858
_cons |
8.291716
4.869209
1.703
0.094
-1.448152
18.03158
------------------------------------------------------------------------------
De la misma manera, calculamos para la muestra de trabajadores sindicalizados 33.54808,
con raíz cuadrada 5.7921. El número de observaciones es 63.
27
Precisión de los estimadores
Descomposición del error standard de S
Componente
su
n
Var(S)
rS, HABIL
s.e.
No-sindic
7.8493
507
6.0645
0.1742
Sindic
5.7921
63
6.0136
0.3530
Factor
No-sindic
Sindic
La varianza de S se calcula a partir de los datos de la muestra para cada una de las
submuestras
28
Precisión de los estimadores
. cor S HABIL (NO SINDICALIZADO)
(obs=507)
|
S
HABIL
--------+-----------------S|
1.0000
HABIL |
0.5826
1.0000
. cor S HABIL (SINDICALIZADO)
(obs=63)
|
S
HABIL
--------+-----------------S|
1.0000
HABIL |
0.5380
1.0000
Se calcula el coeficiente de correlación.
29
Precisión de los estimadores
Descomposición del error standard de S
Componente
su
n
Var(S)
rS, HABIL
No-sindic
7.8493
507
6.0645
0.5826
0.1742
Sindic
5.7921
63
6.0136
0.5380
0.3530
Factor
s.e.
product
No-sindic
7.8493
0.0444
0.4061
1.2304
0.1741
Sindic
5.7921
0.1260
0.4078
1.1863
0.3531
30
! u2
1
!
Varianza poblacional b2 = ! =
nVar ( X 2 ) 1 - rX22 , X 3
2
b2
¿Qué ocurriría si la correlación entre las variables explicativas fuese
perfecta (es decir, igual a 1 o -1? .... MULTICOLINEALIDAD
31
CONTRASTE F DE BONDAD DEL AJUSTE
H 0 : ! 2 = ... = ! k = 0
H 1 : al menos un ! ! 0
Observar:
- hay k-1 variables explicativas
- la hipótesis nula se pregunta si estas variables explican la variabilidad
de la variable dependiente.
PREGUNTA ¿Cómo interpreta la hipótesis nula?
32
CONTRASTE F DE BONDAD DEL AJUSTE
H 0 : ! 2 = ... = ! k = 0
H 1 : al menos un ! ! 0
SCE ( k - 1)
SCR ( n - k )
SCE
( k - 1)
R 2 ( k - 1)
SCT
=
=
SCR
- R 2 ) (n - k )
(
1
(n k )
SCT
F ( k - 1, n - k ) =
33
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
Source |
SS
df
MS
---------+-----------------------------Model | 1278.24153
3 426.080508
Residual | 2176.00584
566 3.84453329
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 3,
566)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
110.83
0.0000
0.3700
0.3667
1.9607
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1295006
.0099544
13.009
0.000
.1099486
.1490527
SM |
.069403
.0422974
1.641
0.101
-.013676
.152482
SF |
.1102684
.0311948
3.535
0.000
.0489967
.1715401
_cons |
4.914654
.5063527
9.706
0.000
3.920094
5.909214
------------------------------------------------------------------------------
34
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
Otra utilización del contraste de bondad de ajuste: analizar la capacidad
predictiva de un subconjunto de variables explicativas
35
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o
!3 y !4 ! 0
36
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o
F(coste, gl ) =
!3 y !4 ! 0
mejora
remanente
no explicado
coste
gl
Mejora: es la reducción de la suma de los cuadrados residuales cuando agregamos las nuevas
variables explicativas.
Coste: es la disminución de grados de libertad por añadir nuevas variables. En este caso es
igual al número de variables explicativas añadidas, dado que éste es el número de parámetros
a estimar adicionales. Los grados de libertad pasarían de n-2 a n-4 cuando X3 y X4 se agregan
Remanente no explicado: la suma de los cuadrados residuales en la estimación después
de introducir las nuevas variables
gl: grados de libertad que quedan después de realizar los cambios
37
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC
Source |
SS
df
MS
---------+-----------------------------Model | 1153.80864
1 1153.80864
Residual | 2300.43873
568 4.05006818
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 1,
568)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
284.89
0.0000
0.3340
0.3329
2.0125
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1545378
.0091559
16.879
0.000
.1365543
.1725213
_cons |
5.770845
.4668473
12.361
0.000
4.853888
6.687803
------------------------------------------------------------------------------
38
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
Source |
SS
df
MS
---------+-----------------------------Model | 1278.24153
3 426.080508
Residual | 2176.00584
566 3.84453329
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 3,
566)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
110.83
0.0000
0.3700
0.3667
1.9607
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1295006
.0099544
13.009
0.000
.1099486
.1490527
SM |
.069403
.0422974
1.641
0.101
-.013676
.152482
SF |
.1102684
.0311948
3.535
0.000
.0489967
.1715401
_cons |
4.914654
.5063527
9.706
0.000
3.920094
5.909214
------------------------------------------------------------------------------
39
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o
F(coste, gl ) =
F ( 2,570 - 4) =
!3 y !4 ! 0
mejora
remanente
no explicado
coste
gl
( SCR1 - SCR2 ) 2 ( 2300.4 - 2176.0) / 2 =16.18
=
= 16.18
SCR2 (570 - 4)
2176.0 / 566
Fcrit,0.1% ( 2,120) = 7.32
40
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
Para concluir este análisis del contraste de bondad de ajuste, haremos una
reinterpretación del contraste t: básicamente, este contraste t es equivalente
al contraste F cuando se agrega una sola variable al modelo.
Es decir, el contraste t mide la capacidad explicativa de una variable, dadas
todas las demás. Ahora lo veremos.
41
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
F(coste, d.f. ) =
mejora
remanente
no explicado
coste
gl
Suponga que el modelo original es Y en función de X2 y X3, y que el modelo
revisado es aquel en el que se incluye X4 .
42
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM
Source |
SS
df
MS
---------+-----------------------------Model |
1230.2039
2 615.101949
Residual | 2224.04347
567 3.92247526
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 2,
567)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
156.81
0.0000
0.3561
0.3539
1.9805
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1381062
.0097494
14.166
0.000
.1189567
.1572556
SM |
.154783
.0350728
4.413
0.000
.0858946
.2236715
_cons |
4.791277
.5102431
9.390
0.000
3.78908
5.793475
------------------------------------------------------------------------------
43
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
Source |
SS
df
MS
---------+-----------------------------Model | 1278.24153
3 426.080508
Residual | 2176.00584
566 3.84453329
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 3,
566)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
110.83
0.0000
0.3700
0.3667
1.9607
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1295006
.0099544
13.009
0.000
.1099486
.1490527
SM |
.069403
.0422974
1.641
0.101
-.013676
.152482
SF |
.1102684
.0311948
3.535
0.000
.0489967
.1715401
_cons |
4.914654
.5063527
9.706
0.000
3.920094
5.909214
------------------------------------------------------------------------------
44
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
F(coste, d.f. ) =
F (1,570 - 4) =
mejora
remanente
no explicado
coste
gl
( SCR1 - SCR2 ) 1 ( 2224.0 - 2176.0) / 1
=
= 12.49
SCR2 (570 - 4)
2176.0 / 566
Observación importante: siempre que agregamos variables disminuye
la suma de los cuadrados de los residuos
¿Qué pasa entonces con el R-cuadrado cuando agregamos variables?
¿Qué pasa con el contraste t de dos colas?
45
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
Source |
SS
df
MS
---------+-----------------------------Model | 1278.24153
3 426.080508
Residual | 2176.00584
566 3.84453329
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 3,
566)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
110.83
0.0000
0.3700
0.3667
1.9607
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1295006
.0099544
13.009
0.000
.1099486
.1490527
SM |
.069403
.0422974
1.641
0.101
-.013676
.152482
SF |
.1102684
.0311948
3.535
0.000
.0489967
.1715401
_cons |
4.914654
.5063527
9.706
0.000
3.920094
5.909214
------------------------------------------------------------------------------
Este resultado muestra que el contraste t es un test sobre la importancia marginal de una
variable, después de que todas las otras variables fueran incluidas en la ecuación. Si la
correlación de esta nueva variable con las otras ya incluidas fuera muy alta, entonces su
poder explicativo sería muy bajo y probablemente no rechazaríamos la hipótesis nula.
46
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
Source |
SS
df
MS
---------+-----------------------------Model | 1278.24153
3 426.080508
Residual | 2176.00584
566 3.84453329
---------+-----------------------------Total | 3454.24737
569 6.07073351
Number of obs
F( 3,
566)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
570
110.83
0.0000
0.3700
0.3667
1.9607
-----------------------------------------------------------------------------S |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------ASVABC |
.1295006
.0099544
13.009
0.000
.1099486
.1490527
SM |
.069403
.0422974
1.641
0.101
-.013676
.152482
SF |
.1102684
.0311948
3.535
0.000
.0489967
.1715401
_cons |
4.914654
.5063527
9.706
0.000
3.920094
5.909214
------------------------------------------------------------------------------
Si la correlación entre todas las variables incluidas fuera alta, cada variable tendría un
efecto explicativo marginal muy pequeño, por lo que su t sería bajo. Sin embargo, es
posible que en conjunto, el modelo explique bien y por lo tanto, el valor del contraste F
fuera relevante.
47
Descargar