Subido por Julia Alicia

G7a Regresinlineal

Anuncio
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/327667753
Manual de Stata. Breve guía de estudio. Tema 7. Regresión lineal
Preprint · September 2018
DOI: 10.13140/RG.2.2.12734.54082
CITATIONS
READS
0
185
2 authors:
Andrés Santana
Jose Rama
Universidad Autónoma de Madrid
Universidad Autónoma de Madrid
43 PUBLICATIONS 35 CITATIONS
31 PUBLICATIONS 7 CITATIONS
SEE PROFILE
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
La política lingüística en la educación en Cataluña: respaldo y efectos // La política lingüística a l'educació a Catalunya: suport i efectes View project
Gender Studies View project
All content following this page was uploaded by Andrés Santana on 15 September 2018.
The user has requested enhancement of the downloaded file.
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
1
Manual de Stata
Breve guía de estudio. Tema 7. Regresión lineal
(Andrés Santana: andres.santana@uam.es y José Rama: jose.rama@uam.es)
Para saber más: Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata, Madrid,
Tecnos, 2017, bit.ly/SantanaRamaStata
Este capítulo abre la última parte del libro, en la que aprenderás los modelos de regresión para
examinar relaciones de causa-efecto entre variables. La diferencia fundamental con los tres
capítulos precedentes es que trazarás una línea de distinción muy clara entre las variables según el
papel que desempeñan en tus modelos:
•
Por una parte, las variables que quieres explicar o “dependientes” o endógenas, es decir, los
“efectos”. Por tradición, se las etiqueta con la letra ‘Y’.
•
Por otra parte, las variables explicativas o “independientes”, es decir, las “causas”. Por
tradición, es habitual etiquetarlas con la letra ‘X’.
Aquí, estudiarás modelos de regresión cuyo objetivo es explicar el valor de una Y en función de
una o varias X. La distinción más importante entre ellos se establece en función de si Y es
cuantitativa (V) o cualitativa (W). En el primer caso, hablamos de modelos de “regresión lineal”
(MRL); en el segundo, de modelos de “regresión no lineal” (MRNL), que verás en el capítulo
siguiente. Para este capítulo, volverás a utilizar la base de datos (simplificada) de Pipa Norris que
usaste para estudiar relaciones entre Vs. Recuerda que está en Stata 13 y que, si tu versión de Stata
es anterior, deberás utilizar ‘use13’ para abrirla:
use13 “nordemor.dta”
1. Preparación de tus variables
El trabajo de preparación de variables será mínimo. Crea una copia del pib per capita con la escala
en millares y una copia de la anterior, que tome diferencias respecto a su media. Renombra la
variable de régimen político.
generate mpib = pib / 1000 // copia del pib per capita, con la escala en millares
label variable mpib "pibpc(miles)"
summarize mpib // media de ‘mpib’
generate dmpib = mpib - 6.247971 // copia de ‘mpib’, que le resta su media
label variable dmpib "pippc(mil,dif)"
rename Cheibub2Type = dicta // régimen político, renombrado
label variable dicta "dictadura"
Crea una copia de la variable ‘Religion’ que valga 1 para países con predominio de la religión
católica, 2, de la protestante, 3, del Islam, y 0, del resto:
label list Religion
generate religp = Religion
recode religp (3/4 = 0) (6/8 = 0) (5 = 3)
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
2
label define relip 0 "Otra" 1 "Católica" 2 "Protestante" 3 "Islam"
label values religp "relip"
label variable religp "Relig(ppal)"
2. Más allá de la correlación
En el capítulo 4, empleaste técnicas, como la obtención de coeficientes de correlación de Pearson,
para estudiar si dos Vs están relacionadas entre sí. Por ejemplo, viste que había una relación
positiva y estadísticamente significativa entre la esperanza de vida y el porcentaje de gasto público
en salud sobre el PIB. Sin embargo, las herramientas del capítulo 4 dejan una serie de preguntas
por contestar:
1. ¿Qué parte de la variabilidad de ‘espvida’ es posible explicar atendiendo a los cambios en
los valores de ‘gsalud’?
2. ¿Cuánto cabe esperar que cambie la esperanza de vida por cada punto porcentual adicional
de gasto público en salud?
3. ¿Qué valor cabría esperar que adoptara la esperanza de vida en un país que no realizara
esfuerzo presupuestario alguno en salud?
3. El modelo de regresión lineal simple
Los MRL ofrecen respuestas claras, inmediatas y precisas a todas las preguntas planteadas. El más
sencillo es el “modelo de regresión lineal simple”. El MRLS explica el comportamiento de una V
de interés (Y) en función de una única X, asimismo cuantitativa. Emplea la orden ‘regress’,
seguida de las variables:
regress espvida gsalud
Éste es tu primer modelo. El orden en el que enuncias las variables es importante: primero, Y, y
luego, X. El ‘output’ de un modelo de regresión impresiona la primera vez. Sin embargo, si lo
descompones en sus partes constituyentes, es fácil de entender. En la parte superior izquierda, se
reproducen los resultados de un modelo ANOVA para tus variables. En la superior derecha, hay
varios estadísticos del modelo. En la inferior, se muestra la estimación de los efectos:
--------------------------------------------
-----------------------
Modelo ANOVA
Estadísticos del modelo
-----------------------------------------------------------------------------VARDEP = Y |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------X |
estimación de los efectos
_cons |
En tu regresión, este esquema se concreta en el siguiente resultado:
Source |
SS
df
MS
-------------+------------------------------
Number of obs =
F(
1,
174
172) =
58.61
Model |
6744.84613
1
6744.84613
Prob > F
=
0.0000
Residual |
19793.3169
172
115.077424
R-squared
=
0.2542
Adj R-squared =
0.2498
Root MSE
10.727
-------------+-----------------------------Total |
26538.163
173
153.399786
=
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
3
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
3.592858
.4692985
7.66
0.000
2.666532
4.519184
_cons |
53.53574
1.808954
29.59
0.000
49.96513
57.10635
El plan es responder a las preguntas planteadas más arriba (ya habrá tiempo de analizar el resto del
‘output’ obtenido). La respuesta a la primera pregunta se halla en la parte superior derecha: el
valor de R-cuadrado (R2, ‘R-squared’ = 0.2542) informa de que es posible explicar un 25,42% de
la variabilidad de ‘espvida’ atendiendo a los cambios en los valores de ‘gsalud’, la única variable
de tu modelo. R2 oscila entre un máximo de 1 y un mínimo de 0, aunque es habitual expresarlo en
tantos por ciento.
La segunda respuesta se encuentra en la primera columna de la primera fila de la parte inferior
(‘Coef’ de ‘gsalud’ = 3,592858): por cada punto porcentual del PIB dedicado a gasto público en
salud, la esperanza de vida aumenta, en promedio, 3,59 años.
La tercera respuesta se encuentra en la primera columna de la segunda fila de la parte inferior
(‘Coef’ de ‘_cons’ = 53,53574): la mejor estimación puntual de la esperanza de vida en un país que
no realizara esfuerzo presupuestario alguno en salud es 53,54 años de vida.
Es decir, Y(esperado) sería igual a un valor base o punto de partida (53,54: su valor cuando X = 0)
más 3,59 por cada unidad adicional de X:
espvida(esperado) = 53,54 + 3,59 * gsalud
El miembro de la izquierda es el valor esperado, estimado o predicho de ‘espvida’. Tu mejor
estimación de ‘espvida’ cuando el gasto público en salud es el 0% del PIB es 53,54 años; cuando
es el 1% del PIB, es 57,13 años (53,54 + 3,59 * 1 = 57,13), etcétera. Reconocerás que la fórmula es
la ecuación de una recta. Y(esperado) es una función lineal de X. Por eso se denomina “modelo de
regresión lineal simple”. El supuesto clave del MRLS es que el efecto esperado de X sobre Y es
siempre el mismo, independientemente de los valores de X e Y. Si el paso de X = 0 a X = 1
conlleva un aumendo esperado de 3,59 unidades de Y, el de X = 2 a X = 3 conllevará un aumento
esperado idéntico, de otras 3,59. A partir de ahí, es inmediato calcular el efecto esperado de
cualquier aumento de X sobre Y: si X pasa de 25 a 30, esperarás que Y aumente 5 * 3,59 = 17,95.
En lugar de computar estos valores artesanalmente, puedes obtener la estimación de Y para
cualquier X con el comando ‘predict’, acompañado del nombre que le quieras dar a la variable que
almacene los valores predichos de Y:
predict espvp
Como toda estimación, ‘espvp’ puede diferir del valor real y efectivo de ‘espvida’: al fin y al cabo,
el modelo no explica toda la variabilidad de ‘espvida’. Puedes crear otra variable con las
diferencias entre ‘espvida’ y ‘espvp’. Emplea ‘predict’, pero añade la opción ‘residuals’:
predict espvr, residuals
Para comparar los valores efectivamente observados con tu predicción, usa la instrucción ‘list’, que
enumera los valores de las variables solicitadas. Restringe la orden a los países en que ‘gsalud’ = 1.
La opción ‘noobs’ ayuda a que la tabla salga más bonita:
sort espvida // ordena antes los datos de menor a mayor esperanza de vida
list Country espvida espvp espvr if gsalud == 1, noobs
La tabla confirma que tu mejor estimación de ‘espvida’ cuando ‘gsalud’ es 1 es 57,13 años (última
columna, ‘espvp’ = 57,1286). Ninguno de los países con un gasto público en salud del 1% sobre el
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
4
PIB tiene una esperanza de vida de 57,13: Costa de Marfil la tiene de 45,9 (unos 11,2 años menos),
Pakistán, de 63,4 (6,3 años más) y Tajikistan, de 63,7 (6,6 años más):
+-----------------------------------------------+
|
Country
espvida
espvp
espvr |
|-----------------------------------------------|
|
Cote d'Ivoire
45.9
57.1286
-11.2286 |
|
Pakistan
63.4
57.1286
6.271402 |
|
Tajikistan
63.7
57.1286
6.571403 |
|
Iraq
.
57.1286
. |
+-----------------------------------------------+
Obviamente, una característica fundamental de los errores es que no sean sistemáticos: su media
para los tres países es inferior a un año y, si enumeraras los 174 con datos de ‘gsalud’ y ‘espvida’,
es cero. Déjalos, no obstante, para otro momento y céntrate en la interpretación del resto de
elementos de los modelos de regresión.
Aunque lo has hecho con cierta profusión y detalle, hasta este momento, sólo has interpretado tres
de los resultados del modelo de regresión. Para facilitar la discusión, copio la parte inferior:
espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
3.592858
.4692985
7.66
0.000
2.666532
4.519184
_cons |
53.53574
1.808954
29.59
0.000
49.96513
57.10635
Las respuestas a las preguntas 1-3 se basan en resultados obtenidos con una muestra de 174 países,
como te recuerda el primero de los resultados de la parte superior derecha (‘Number of
observations’ = 174). Al igual que hiciste en los capítulos precedentes, querrás construir intervalos
que te permitan realizar afirmaciones para la población de todos los países del mundo. Ello te lleva
a plantear dos preguntas adicionales:
4. ¿Cuál es el intervalo en el que podemos asegurar que se encontrará el cambio en la
esperanza de vida por cada punto del PIB dedicado a gasto público en salud?
5. Más allá de la predicción puntual, ¿en qué horquilla de esperanza de vida podrías
“asegurar” que se encontrara un país con gasto público en salud cero?
Las dos últimas columnas de la primera línea de la parte inferior aportan la respuesta a la cuarta
pregunta: más allá de tu estimación puntual (3,59), puedes asegurar (con una confianza del 95%,
es decir, con una probabilidad de equivocarte del 5%) que el aumento de la esperanza de vida
media provocado por cada punto adicional del PIB dedicado a gasto público en salud estará entre
2,67 y 4,52.
Por lo que se refiere a la respuesta a la quinta pregunta, las dos últimas columnas de la última fila
precisan que puedes asegurar que, más allá de la predicción puntual (53,5) la esperanza de vida
para un país sin gasto público alguno en salud se encontrará comprendida entre 49,97 y 57,11.
4. Regresión lineal con dos explicativas cuantitativas
Si tu interés es explicar la esperanza de vida, tiene poco sentido que trates hacerlo exclusivamente
en función de “gsalud”; estarías desperdiciando mucha información potencialmente útil, de
terceras variables que también podrían incidir sobre aquélla. La regresión lineal múltiple no es más
que la extensión del MRLS a dos o más variables explicativas: X1, X2, X3, etcétera. Por ejemplo,
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
5
“espvida” podría depender también de la riqueza de los países. Una buena forma de medir esto es
con el PIB per cápita (recogido en la variable ‘pibpc’). Tener en cuenta la nueva variable da pie a
dos preguntas adicionales:
6. ¿Cuánto mejora la predicción de la esperanza de vida gracias a esta segunda variable?
7. ¿Existe también una relación significativa entre el PIB per capita y la esperanza de vida?
¿Es positiva, como supones? ¿Cuál es la mejor estimación puntual de su magnitud? ¿En
qué horquilla podrías asegurar que está comprendido el efecto?
Alto ahí. La palabra “también” ha aflorado tres veces, como si la relación entre ‘gsalud’ e Y
estuviera garantizada de antemano. Sin embargo, haber detectado tal relación en un MRLS no
garantiza que siga teniendo lugar en el nuevo modelo, y mucho menos, que permanezca inalterada.
8. ¿Sigue existiendo una relación estadísticamente significativa entre ‘gsalud’ y ‘espvida’
cuando se tiene en cuenta ‘pib’, o era un mero “artificio” que afloraba por la exclusión del
PIB per capita?
9. De seguir existiendo, ¿se mantiene el signo del efecto de ‘gsalud’ sobre ‘espvida’?
10. En todo caso, ¿cómo cambia la magnitud del efecto?
Las preguntas 8-10 sólo se plantearán si se cumplen tres condiciones: (a) X1 y X2 están
correlacionadas entre sí; (b) X2 e Y están correlacionadas entre sí; (c) X2 no está después de Y en
la cadena causal, no es un efecto de Y.
pwcorr espvida gsalud pib, star(0.05)
La matriz de correlaciones (omitida) muestra que las dos primeras condiciones se cumplen.
También tiene sentido sospechar que la tercera se cumple, que Y podría depender de X2 (mayor
nivel de renta daría pie a mejor higiene, alcantarillado, etc., y, por ende, mayor esperanza de vida).
Entonces, las preguntas 8-10 son pertinentes. Lo que, en definitiva, está sobre la mesa es que, en el
modelo en el que no se incluía X2, X1 podía estar “recogiendo” parte del efecto de X2 sobre Y. Es
hora de contrastar tu segundo modelo:
regress espvida gsalud pib
Si observas la estimación del efecto de X2 sobre Y (resultados omitidos por economía de espacio),
verás un efecto es muy “pequeño” (0,0005 años de vida medios adicionales por cada dólar per
cápita), debido a que ‘pib’ está en dólares (per capita). Incluye, en su lugar, ‘mpib’:
regress espvida gsalud mpib
Los resultados del modelo con dos X son muy parecidos a los del modelo con una X. La novedad
es que, en la parte inferior, aparece una línea adicional, con la estimación del efecto de X2 (‘mpib’)
sobre Y (‘espvida’). El cambio en la escala de la variable facilita la interpretación: por cada mil
dólares per capita adicionales que tenga un país, la esperanza de vida aumenta 0,5 años:
(parte superior omitida)
espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.872574
.5939786
3.15
0.002
.6996893
3.045459
mpib |
.5020344
.1061348
4.73
0.000
.2924581
.7116108
_cons |
56.06935
1.882512
29.78
0.000
52.3521
59.7866
------------------------------------------------------------------------------
Olvídate de todo lo demás, y céntrate en la interpretación de la constante (‘_cons’). Extendiendo la
interpretación del MRLS, su valor informa de que “en un país cuyo gasto público en salud sea nulo
y cuyo PIB per capita (en millares) sea nulo, la esperanza de vida es 56 años”. Desde un punto de
vista substantivo, esto es heterodoxo: ¿cómo podrían sobrevivir siquiera unos días, ya no medio
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
6
siglo, los habitantes de un hipotético país con renta per capita nula? Para evitar interpretaciones
extrañas de la constante, sustituye ‘mpib’ por ‘dmpib’:
regress espvida gsalud dmpib
La parte superior y la estimación de los efectos de X1 y X2 (coeficientes, intervalos de confianza,
etcétera) permanecen inalteradas. Lo único que cambia son los resultados de la constante. La nueva
interpretación es que “en un país cuyo gasto público en salud sea nulo y con un nivel medio de PIB
per capita, la esperanza de vida es 59 años”. Esto es mucho más sensato.
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
2,
166
163) =
42.66
Model |
8991.46307
2
4495.73153
Prob > F
=
0.0000
Residual |
17179.771
163
105.397368
R-squared
=
0.3436
Adj R-squared =
0.3355
Root MSE
10.266
-------------+-----------------------------Total |
26171.234
165
158.61354
=
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.872574
.5939786
3.15
0.002
.6996893
3.045459
dmpib |
.5020344
.1061348
4.73
0.000
.2924581
.7116108
_cons |
59.20605
2.191807
27.01
0.000
54.87805
63.53404
------------------------------------------------------------------------------
La respuesta a la sexta pregunta es inmediata: la inclusión de X2 ha aumentado considerablemente
la capacidad de predicción de tu modelo, de 25,4% a 34,4%.
La séptima comprobación confirma tus sospechas: la relación entre ‘dmpib’ y ‘espvida’ es positiva
y estadísticamente significativa (el intervalo de confianza al 95% es íntegramente positivo). Tu
mejor estimación puntual es que, por cada millar de euros adicionales de renta per capita, la
esperanza de vida aumenta, en promedio, medio año. Con un margen de error del 95%, puedes
asegurar que el efecto es mayor que 0,29 y menor que 0,71.
Octavo: el efecto de ‘gsalud’ sobre ‘espvida’ no es un mero artificio provocado por la exclusión
del pib per capita. Incluso cuando tienes en cuenta esta variable (decimos que “controlas” por ella),
la relación es estadísticamente significativa (el intervalo de confianza al 95% no pasa por el cero).
Noveno: dicho intervalo es íntegramente positivo (su mínimo es 0,70 y su máximo, 3,04). La
introducción de X2 no provoca un cambio cualitativo en el efecto de X1 sobre Y.
Décimo: la magnitud del efecto se ha reducido notablemente: de 3,59 en el con X1, a 1,87, en el
modelo que también incluye ‘mpib’. Ahora, tu mejor estimación puntual es que, por cada punto
porcentual dedicado a gasto público en salud, la esperanza de vida aumenta, en promedio, 1,87
años:
El número de casos modelo 1 (con ‘gsalud’) es 174 y el del modelo 2 (con ‘gsalud’ y ‘mpib’), 166.
Tus modelos con una X y con dos X no son comparables, ya que no emplean la misma muestra de
países. Esto es crucial, porque abre las puertas para cuestionar las conclusiones octava y décima:
11. La fuerte caída del efecto de ‘gsalud’ sobre ‘espvida’, de 3,59 a 1,87 (-48% del efecto
inicial) podría deberse a dos razones muy diferentes: ¿en qué medida se debe al cambio de
la muestra, y en qué medida a la introducción de la segunda variable?
Para evitar este escollo, lo más correcto es “relanzar” el primer modelo (el “restringido” a X1) solo
para los casos en los que se basa el segundo (el “más general”, que tiene en cuenta X2):
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
7
regress espvida gsalud if dmpib < .
Undécimo: en esta ocasión, las conclusiones no cambian cualitativamente: ‘gsalud’ es significativa,
su efecto sobre ‘espvida’ es positivo, y su magnitud (3,65) es parecida a la que obtenías sin
restringir los casos (3,59). La inclusión de ‘mpib’ tiene un efecto parecido al que habías observado
cuando no tuviste en cuenta el cambio en la muestra. Sin embargo, existen situaciones en las que
las conclusiones varían de manera sustancial.
(Parte superior, omitida; N = 166; R2 = 0.2535; R2 ajustada = 0. 2489)
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
3.649736
.4891204
7.46
0.000
2.683951
4.615521
_cons |
53.14323
1.890284
28.11
0.000
49.4108
56.87566
------------------------------------------------------------------------------
5. Más variables explicativas cuantitativas
Una vez sabes cómo interpretar un MRL, añadir más variables explicativas es sencillo. Valdría la
pena tener en cuenta la desigualdad en los ingresos, medida en esta base de datos por el índice de
Gini (variable ‘gini’). Cuanto mayor es éste, mayor es la desigualdad del país. En la base de datos,
‘gini’ está expresado en una escala de 0 (igualdad total) a 100 (máxima desigualdad):
summarize gini
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------gini |
126
40.13889
10.35998
24.4
70.7
Cabría adelantar la hipótesis de un efecto causal negativo de la desigualdad (‘gini) sobre la
esperanza de vida (‘espvida’). Las preguntas que te plantearás esta vez son las siguientes:
12. ¿Mejora la capacidad de explicativa del modelo gracias a esta tercera variable? ¿Cuánto?
13. ¿Es necesario matizar la respuesta a la pregunta anterior si se usa un criterio más
“sofisticado” de lo que representa una mejora de la capacidad predictiva de un modelo?
14. ¿Cuáles son el signo y la magnitud del efecto de la desigualdad sobre la esperanza de vida?
15. ¿Es el efecto detectado estadísticamente significativo? ¿Se mantiene la significatividad de
los efectos de X1 y X2 sobre Y?
16. ¿Cómo cambia el efecto de X1 sobre Y como consecuencia de la introducción de X3?
17. ¿Y el efecto de X2 sobre Y?
Antes de contrastar el modelo con tres X, reenvia tu modelo de dos X solo para los casos en los
que también cuentas información de X3 (‘gini’). A éste, lo llamarás modelo 2b:
regress espvida gsalud dmpib if gini < .
El número de casos baja de 166 a 125, pero los resultados son bastante parecidos. Lo más
importante, a efectos de su comparación con los resultados de un modelo con tres X, es que la
capacidad explicativa es 33,99%, el efecto de ‘gsalud’ es 1,93 y el de ‘dmpib’ es 0,45:
(Resto de la parte superior, omitida)
Number of obs =
R-squared
125
=
0.3399
Adj R-squared =
0.3291
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
8
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.931791
.7145847
2.70
0.008
.5171992
3.346383
dmpib |
.456904
.1243701
3.67
0.000
.210701
.703107
_cons |
58.70752
2.689419
21.83
0.000
53.38354
64.03149
------------------------------------------------------------------------------
Usa ‘regress’ para obtener los resultados del modelo 3:
regress espvida gsalud dmpib gini
Verás que hay una nueva línea en la parte inferior de los resultados:
(Resto de la parte superior, omitida)
Number of obs =
R-squared
125
=
0.4318
Adj R-squared =
0.4177
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.735189
.6671758
2.60
0.010
.4143388
3.05604
dmpib |
.3278792
.1194742
2.74
0.007
.0913485
.5644099
gini |
-.4108228
.0928477
-4.42
0.000
-.5946393
-.2270063
_cons |
75.95039
4.632865
16.39
0.000
66.77842
85.12237
------------------------------------------------------------------------------
Responder a la duodécima pregunta requiere comparar el R2 del modelo con el del modelo
precedente. La tercera variable explicativa ha vuelto a tener un impacto importante en la capacidad
explicativa del modelo, que pasa de 33,99% a 43,18%.
Para responder a la decimotercera cuestión, es necesario reflexionar sobre qué sucede con R2 cada
vez que introduces una nueva variable. Lo peor que puede pasar es que no contribuya en absoluto a
explicar la variabilidad de ‘espvida’, en cuyo caso, R2 se quedará “clavado”, no cambiará un ápice.
En cualquier otro caso, R2 subirá. Por lo tanto, una manera poco sofisticada de incrementar la
capacidad explicativa de los modelos sería añadir variables con la esperanza de que, por poco
relacionadas que estuvieran con ‘espvida’, alguna relación existiera. Dado que una estrategia así
resultaría poco útil, se ha diseñado un estadístico, “R2 ajustado”, que “refina” el valor de R2,
penalizando por el número de variables introducidas. Su valor siempre menor que el de R2, y figura
justo debajo de éste. En este caso, mantendrías la conclusión de que X3 ha ayudado a mejorar la
capacidad explicativa del modelo, ya que el R2 ajustado ha aumentado notablemente, de 32,91% a
41,77%.
Decimocuarta: lo primero que llama la atención es el signo negativo (-0,41) del coeficiente de la
variable ‘gini’. Esto significa que, manteniendo constantes el porcentaje del gasto público en salud
y el producto interior bruto per capita (en millares), cada punto adicional de desigualdad reduce
la esperanza de vida 0,41 años. En verde y en botella: “la desigualdad mata”.
Decimoquinta: significatividad. Puedes responder a estas preguntas atendiendo a los intervalos de
confianza o a los contrastes de hipótesis. Hasta ahora, habías centrado la atención en los primeros.
Puedes seguir haciéndolo. Las preguntas sobre la significatividad de cada una de las variables
equivalen al contraste de tres hipótesis independientes entre sí:
H0-1: X1 (‘gsalud’) no tiene efecto alguno sobre la esperanza de vida (β1 = 0).
H0-2: X2 (‘mpib’) no tiene efecto alguno sobre la esperanza de vida (β2 = 0).
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
9
H0-3: X3 (‘gini’) no tiene efecto alguno sobre la esperanza de vida (β3 = 0).
Simplificando mucho, se supone que, si tomaras un número muy elevado (tendente a infinito) de
muestras de la población, un 95% de ellas arrojaría valores del efecto incluidos en el intervalo de
confianza del 95%. Si el intervalo de confianza no cambia de signo (si no pasa por el 0), rechazarás
H0, y dirás que existe una relación estadísticamente significativa entre las variables. Éste es el caso
de los efectos de X1, X2 y X3. El efecto de ‘gini’ es estadísticamente significativo porque su
intervalo de confianza es consistentemente negativo (va de -0.59 a -0.23); el de ‘gsalud’ (0,41 a
3,06) y del de ‘mpib’ (de 0,09 a 0,56) también lo son, porque los intervalos de ambos son
estrictamente positivos.
Como alternativa, puedes inferir la significatividad a partir del contraste formal de hipótesis. Las
hipótesis sometidas a contraste son las hipótesis nulas definidas unas líneas más arriba. Como sólo
se conocen los valores muestrales, el contraste responde a la siguiente pregunta: ¿cuál es la
probabilidad de que, siendo cierta la hipótesis nula, se consiga en la muestra un coeficiente con un
valor absoluto igual o mayor al obtenido en el resultado? Para responderla, se construye un
estadístico, ‘t’. Dado que su distribución muestral es conocida, observando el valor de ‘t’, se puede
saber cuál es la probabilidad de haberlo obtenido por mero azar. Esta probabilidad (en la tabla,
‘P>|t|’) recibe el nombre de “pvalue”.
El “pvalue” del efecto de ‘gsalud’ es 0,010 = 1%, considerablemente inferior al 5%, con lo que
descartas la hipótesis nula, de haber obtenido el ‘t’ de 2,60 por azar. El “pvalue” del efecto de
‘mpib’ es aún menor, 0,007 = 0,7%, y vuelves a descartar H0. El “pvalue” del efecto de ‘gini’ es
tan bajo que, con el nivel de precisión de tres decimales, Stata no muestra ninguna cifra diferente
de cero: descartarás, una vez más, que el ‘t’ de -4,42 se haya podido obtener siendo cierto que el
parámetro poblacional valiera cero. La conclusión es la misma que si analizas intervalos de
confianza: las tres variables tienen efectos estadísticamente significativos sobre ‘espvida’.
Decimoquinta: la introducción de X3 hace caer el coeficiente de X1; el modelo comparable es el
2b, con 125 casos, en el que el efecto de ‘gsalud’ sobre ‘espvida’ era 1,93. Este efecto cae un 10%,
hasta 1,74, en tu modelo con tres X. Ahora, el 1,74 se interpreta así: manteniendo constantes la
desigualdad y la riqueza de los países, cada punto adicional de gasto público en salud aumenta la
esperanza de vida media en 1,74 años.
Decimosexta. La introducción de ‘gini’ lastra aún más dramáticamente el efecto de ‘dmpib’ sobre
‘espvida’, que se desploma un 28%: cae de 0,46 a 0,33. Manteniendo todo lo demás constante
(‘gsalud’ y ‘gini’), cada 1000$ adicionales de renta per cápita aumentan la esperanza de vida media
en 0,33 años.
Pasemos a un cuarto modelo, con X1, X2, X3 y una nueva variable, X4. Imagina que un amigo te
dijera que tiene la intuición de que el porcentaje de exportaciones también afecta positivamente a
la esperanza de vida. En el cuestionario, dispones de una variable, ‘exports’, que te permite recoger
el concepto buscado. Repite tu modelo de tres variables sin los casos perdidos de ‘exports’
(modelo 3b):
regress espvida gsalud dmpib gini if exports < .
En este caso, no reproduciré los resultados. Todas las variables mantienen su significatividad con
un nivel de significación del 5%; todos sus coeficientes varían “poco” (menos de 0,05), el R2 es
0,4140 y el R2 ajustado, 0,3990. Usa ‘regress’ para obtener los resultados del modelo 4:
regress espvida gsalud dmpib gini exports
La primera indicación de que algo va mal es que el R2 apenas cambia (sube 0,0116), y el R2
ajustado, aún menos (sube 0,0068). Aunque las antiguas variables mantienen su significatividad
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
10
(“pvalues” de 0,008, 0,030 y 0,000, todos menores que 0,05), el ‘t’ de la nueva variable podría
haber sido obtenido simplemente por azar con una probabilidad no desdeñable (“pvalue” = 0,128,
muy superior a 0,05). Es decir, no puedes rechazar la hipótesis nula de ausencia de efectos de
‘exports’ sobre la esperanza de vida. Si hubieras centrado la atención en el intervalo de confianza,
habrías llegado a la misma conclusión, ya que el intervalo pasa por el cero. Aprovecha y dile a tu
amigo que se dedique a la petanca, a ver si le va mejor que con las ciencias sociales:
(Resto de la parte superior, omitida)
Number of obs =
R-squared
121
=
0.4256
Adj R-squared =
0.4058
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.85357
.6811576
2.72
0.008
.5044516
3.202688
dmpib |
.2740071
.1250554
2.19
0.030
.0263191
.5216951
gini |
-.3851703
.0949714
-4.06
0.000
-.5732732
-.1970675
exports |
.0522625
.0341361
1.53
0.128
-.0153484
.1198734
_cons |
72.5497
5.01906
14.45
0.000
62.60882
82.49059
------------------------------------------------------------------------------
6. Regresión con variables independientes cualitativas
Los MRL admiten la inclusión de Ws como variables independientes. Si W es dicotómica, la
puedes incluir directamente en tu modelo. Si sospechases que “la democracia es buena para una
vida larga”, podrías usar tu copia de la variable dicotómica de Cheibub y colaboradores para medir
el régimen político (variable ‘dicta’). Contrasta tu quinto modelo.
regress espvida gsalud dmpib gini dicta
Dado que ‘exports’ no resultó significativa, no la incluyes en este modelo. Además, el modelo que
usarás como referencia comparativa para evaluar el cambio en la capacidad explicativa del modelo
es el modelo 3. En este caso, no necesitas repetirlo sin los casos perdidos de ‘dicta’, ya que el
régimen político no ocasiona la pérdida de ningún caso adicional:
(Resto de la parte superior, omitida)
Number of obs =
R-squared
121
=
0.4512
Adj R-squared =
0.4329
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gsalud |
1.27767
.6949473
1.84
0.068
-.0982778
2.653617
dmpib |
.3051716
.1184233
2.58
0.011
.0707018
.5396415
gini |
-.4479011
.0933851
-4.80
0.000
-.632797
-.2630052
dicta |
-4.408969
2.142309
-2.06
0.042
-8.650591
-.1673458
_cons |
80.45527
5.0691
15.87
0.000
70.4188
90.49173
------------------------------------------------------------------------------
El aumento del R2 ajustado es modesto: en el modelo 3, era 41,77%, y en éste, pasa a 43,29%. La
nueva variable es significativa al 5% (“pvalue” = 0,042); ‘dmpib’ y ‘gini’ mantinen su
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
11
signficatividad (“pvalues” = 0,011 y 0,000), aunque, si eres estricto, ‘gsalud’ la pierde (“pvalue” =
0,068 > 0,05)
La interpretación de ‘gsalud’, ‘dmpib’ y ‘gini’ es análoga a la de los modelos predecentes. Por
ejemplo, “manteniendo constantes el gasto público en salud, el pib per capita y el régimen político
de los países, cada punto adicional de desigualdad en el índice de Gini reduce la esperanza de vida
media en 0,45 años”.
La interpretación de la variable dicotómica es la siguiente: “manteniendo constantes el gasto
público en salud, el pib per capita y la desigualdad de los países, cada punto adicional de ‘dicta’
(“dictadura”) reduce la esperanza de vida media de los países en 4,4 años”. De acuerdo, pero el
régimen político solo admite dos valores, democracia (0) y dictadura (1): sólo hay un “punto
adicional” posible en esta variable, el que supone pasar de una democracia a una dictadura. Por lo
tanto, será mejor reformular la interpretación con una expresión más elegante: “manteniendo
constantes el gasto público en salud, el pib per capita y la desigualdad de los países, las dictaduras
tienen una esperanza de vida media 4,4 años menor que las democracias”. Es decir, “la tiranía
mata”.
La interpretación de la constante cambia levemente: “en un país que no dedique ningún recurso a
gasto público en salud, que tenga un PIB per cápita medio, que sea completamente igualitario, y
que no sea una dictadura, la esperanza de vida media es 80,46 años”. De nuevo, podrías formularlo
de manera más elegante: “en una democracia que no dedique recursos a gasto público en salud,
que tenga un PIB per cápita medio, y que sea completamente igualitaria, la esperanza de vida
media es 80,46 años”.
Imagina que quieres incluir como X una W nominal de más de dos valores, por ejemplo, la religión
mayoritaria (‘religp’: 0 = otra, 1 = católica, 2 = protestante, 3 = musulmana). Para centrar la
atención en esta cuestión, añade esta variable al tercer modelo:
regress espvida gsalud dmpib gini religp
El coeficiente estimado para ‘religp’ (omito el resto de los resultados) se interpretaría así:
“manteniendo constantes las demás variables, cada aumento unitario en ‘religp’ disminuye
‘espvida’ en 1 año”, dicho de otra forma, el paso de “otra religión” a “católico” supondría una
reducción de un año de la esperanza de vida; el paso de “católico a “protestante”, en otro, y el paso
de “protestante” a “musulmán”, en un tercer año. Como habrás anticipado, esto no tiene sentido, ya
que la religión no es una variable cuantitativa:
(resto del ‘output’ omitido)
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------religp |
-1.039431
.8047037
-1.29
0.199
-2.632689
.5538262
------------------------------------------------------------------------------
Si quieres ver cómo influye la religión mayoritaria de un país sobre la esperanza de vida, deberás
introducir las distintas categorías de manera separada, como variables dicotómicas:
regress espvida gsalud dmpib gini Protestant Catholic Muslim
En la base de datos, ya se dispone de variables dicotómicas. No se ha introducido una cuarta
variable, porque, así, podemos interpretar los efectos hallados en comparación con la categoría
excluida: “manteniendo todo lo demás constante, los países con religión protestante tienen una
esperanza de vida 7,8 años inferior a los países con ‘otra’ religión”.
(resto del ‘output’ omitido)
http://bit.ly/SantanaTwitter |
http://bit.ly/SantanaFacebook |
12
-----------------------------------------------------------------------------espvida |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------Protestant |
-7.837525
2.605695
-3.01
0.003
-12.99751
-2.67754
Catholic |
5.085319
2.343042
2.17
0.032
.4454575
9.72518
Muslim |
-2.207772
2.399663
-0.92
0.359
-6.959758
2.544214
_cons |
78.13131
4.687673
16.67
0.000
68.84844
87.41418
Compartimos una publicación conjunta de los autores de la guía, con análisis similares a los que se
presentarán en el tema siguente, a ver si os abre el apetito:
Santana, Andrés and Jose Rama, 2018, “Electoral Support for Left Wing Populist Parties”,
European Politics & Society, https://doi.org/10.1080/23745118.2018.1482848.
View publication stats
Descargar