See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/327667753 Manual de Stata. Breve guía de estudio. Tema 7. Regresión lineal Preprint · September 2018 DOI: 10.13140/RG.2.2.12734.54082 CITATIONS READS 0 185 2 authors: Andrés Santana Jose Rama Universidad Autónoma de Madrid Universidad Autónoma de Madrid 43 PUBLICATIONS 35 CITATIONS 31 PUBLICATIONS 7 CITATIONS SEE PROFILE SEE PROFILE Some of the authors of this publication are also working on these related projects: La política lingüística en la educación en Cataluña: respaldo y efectos // La política lingüística a l'educació a Catalunya: suport i efectes View project Gender Studies View project All content following this page was uploaded by Andrés Santana on 15 September 2018. The user has requested enhancement of the downloaded file. http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 1 Manual de Stata Breve guía de estudio. Tema 7. Regresión lineal (Andrés Santana: andres.santana@uam.es y José Rama: jose.rama@uam.es) Para saber más: Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata, Madrid, Tecnos, 2017, bit.ly/SantanaRamaStata Este capítulo abre la última parte del libro, en la que aprenderás los modelos de regresión para examinar relaciones de causa-efecto entre variables. La diferencia fundamental con los tres capítulos precedentes es que trazarás una línea de distinción muy clara entre las variables según el papel que desempeñan en tus modelos: • Por una parte, las variables que quieres explicar o “dependientes” o endógenas, es decir, los “efectos”. Por tradición, se las etiqueta con la letra ‘Y’. • Por otra parte, las variables explicativas o “independientes”, es decir, las “causas”. Por tradición, es habitual etiquetarlas con la letra ‘X’. Aquí, estudiarás modelos de regresión cuyo objetivo es explicar el valor de una Y en función de una o varias X. La distinción más importante entre ellos se establece en función de si Y es cuantitativa (V) o cualitativa (W). En el primer caso, hablamos de modelos de “regresión lineal” (MRL); en el segundo, de modelos de “regresión no lineal” (MRNL), que verás en el capítulo siguiente. Para este capítulo, volverás a utilizar la base de datos (simplificada) de Pipa Norris que usaste para estudiar relaciones entre Vs. Recuerda que está en Stata 13 y que, si tu versión de Stata es anterior, deberás utilizar ‘use13’ para abrirla: use13 “nordemor.dta” 1. Preparación de tus variables El trabajo de preparación de variables será mínimo. Crea una copia del pib per capita con la escala en millares y una copia de la anterior, que tome diferencias respecto a su media. Renombra la variable de régimen político. generate mpib = pib / 1000 // copia del pib per capita, con la escala en millares label variable mpib "pibpc(miles)" summarize mpib // media de ‘mpib’ generate dmpib = mpib - 6.247971 // copia de ‘mpib’, que le resta su media label variable dmpib "pippc(mil,dif)" rename Cheibub2Type = dicta // régimen político, renombrado label variable dicta "dictadura" Crea una copia de la variable ‘Religion’ que valga 1 para países con predominio de la religión católica, 2, de la protestante, 3, del Islam, y 0, del resto: label list Religion generate religp = Religion recode religp (3/4 = 0) (6/8 = 0) (5 = 3) http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 2 label define relip 0 "Otra" 1 "Católica" 2 "Protestante" 3 "Islam" label values religp "relip" label variable religp "Relig(ppal)" 2. Más allá de la correlación En el capítulo 4, empleaste técnicas, como la obtención de coeficientes de correlación de Pearson, para estudiar si dos Vs están relacionadas entre sí. Por ejemplo, viste que había una relación positiva y estadísticamente significativa entre la esperanza de vida y el porcentaje de gasto público en salud sobre el PIB. Sin embargo, las herramientas del capítulo 4 dejan una serie de preguntas por contestar: 1. ¿Qué parte de la variabilidad de ‘espvida’ es posible explicar atendiendo a los cambios en los valores de ‘gsalud’? 2. ¿Cuánto cabe esperar que cambie la esperanza de vida por cada punto porcentual adicional de gasto público en salud? 3. ¿Qué valor cabría esperar que adoptara la esperanza de vida en un país que no realizara esfuerzo presupuestario alguno en salud? 3. El modelo de regresión lineal simple Los MRL ofrecen respuestas claras, inmediatas y precisas a todas las preguntas planteadas. El más sencillo es el “modelo de regresión lineal simple”. El MRLS explica el comportamiento de una V de interés (Y) en función de una única X, asimismo cuantitativa. Emplea la orden ‘regress’, seguida de las variables: regress espvida gsalud Éste es tu primer modelo. El orden en el que enuncias las variables es importante: primero, Y, y luego, X. El ‘output’ de un modelo de regresión impresiona la primera vez. Sin embargo, si lo descompones en sus partes constituyentes, es fácil de entender. En la parte superior izquierda, se reproducen los resultados de un modelo ANOVA para tus variables. En la superior derecha, hay varios estadísticos del modelo. En la inferior, se muestra la estimación de los efectos: -------------------------------------------- ----------------------- Modelo ANOVA Estadísticos del modelo -----------------------------------------------------------------------------VARDEP = Y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------X | estimación de los efectos _cons | En tu regresión, este esquema se concreta en el siguiente resultado: Source | SS df MS -------------+------------------------------ Number of obs = F( 1, 174 172) = 58.61 Model | 6744.84613 1 6744.84613 Prob > F = 0.0000 Residual | 19793.3169 172 115.077424 R-squared = 0.2542 Adj R-squared = 0.2498 Root MSE 10.727 -------------+-----------------------------Total | 26538.163 173 153.399786 = http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 3 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 3.592858 .4692985 7.66 0.000 2.666532 4.519184 _cons | 53.53574 1.808954 29.59 0.000 49.96513 57.10635 El plan es responder a las preguntas planteadas más arriba (ya habrá tiempo de analizar el resto del ‘output’ obtenido). La respuesta a la primera pregunta se halla en la parte superior derecha: el valor de R-cuadrado (R2, ‘R-squared’ = 0.2542) informa de que es posible explicar un 25,42% de la variabilidad de ‘espvida’ atendiendo a los cambios en los valores de ‘gsalud’, la única variable de tu modelo. R2 oscila entre un máximo de 1 y un mínimo de 0, aunque es habitual expresarlo en tantos por ciento. La segunda respuesta se encuentra en la primera columna de la primera fila de la parte inferior (‘Coef’ de ‘gsalud’ = 3,592858): por cada punto porcentual del PIB dedicado a gasto público en salud, la esperanza de vida aumenta, en promedio, 3,59 años. La tercera respuesta se encuentra en la primera columna de la segunda fila de la parte inferior (‘Coef’ de ‘_cons’ = 53,53574): la mejor estimación puntual de la esperanza de vida en un país que no realizara esfuerzo presupuestario alguno en salud es 53,54 años de vida. Es decir, Y(esperado) sería igual a un valor base o punto de partida (53,54: su valor cuando X = 0) más 3,59 por cada unidad adicional de X: espvida(esperado) = 53,54 + 3,59 * gsalud El miembro de la izquierda es el valor esperado, estimado o predicho de ‘espvida’. Tu mejor estimación de ‘espvida’ cuando el gasto público en salud es el 0% del PIB es 53,54 años; cuando es el 1% del PIB, es 57,13 años (53,54 + 3,59 * 1 = 57,13), etcétera. Reconocerás que la fórmula es la ecuación de una recta. Y(esperado) es una función lineal de X. Por eso se denomina “modelo de regresión lineal simple”. El supuesto clave del MRLS es que el efecto esperado de X sobre Y es siempre el mismo, independientemente de los valores de X e Y. Si el paso de X = 0 a X = 1 conlleva un aumendo esperado de 3,59 unidades de Y, el de X = 2 a X = 3 conllevará un aumento esperado idéntico, de otras 3,59. A partir de ahí, es inmediato calcular el efecto esperado de cualquier aumento de X sobre Y: si X pasa de 25 a 30, esperarás que Y aumente 5 * 3,59 = 17,95. En lugar de computar estos valores artesanalmente, puedes obtener la estimación de Y para cualquier X con el comando ‘predict’, acompañado del nombre que le quieras dar a la variable que almacene los valores predichos de Y: predict espvp Como toda estimación, ‘espvp’ puede diferir del valor real y efectivo de ‘espvida’: al fin y al cabo, el modelo no explica toda la variabilidad de ‘espvida’. Puedes crear otra variable con las diferencias entre ‘espvida’ y ‘espvp’. Emplea ‘predict’, pero añade la opción ‘residuals’: predict espvr, residuals Para comparar los valores efectivamente observados con tu predicción, usa la instrucción ‘list’, que enumera los valores de las variables solicitadas. Restringe la orden a los países en que ‘gsalud’ = 1. La opción ‘noobs’ ayuda a que la tabla salga más bonita: sort espvida // ordena antes los datos de menor a mayor esperanza de vida list Country espvida espvp espvr if gsalud == 1, noobs La tabla confirma que tu mejor estimación de ‘espvida’ cuando ‘gsalud’ es 1 es 57,13 años (última columna, ‘espvp’ = 57,1286). Ninguno de los países con un gasto público en salud del 1% sobre el http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 4 PIB tiene una esperanza de vida de 57,13: Costa de Marfil la tiene de 45,9 (unos 11,2 años menos), Pakistán, de 63,4 (6,3 años más) y Tajikistan, de 63,7 (6,6 años más): +-----------------------------------------------+ | Country espvida espvp espvr | |-----------------------------------------------| | Cote d'Ivoire 45.9 57.1286 -11.2286 | | Pakistan 63.4 57.1286 6.271402 | | Tajikistan 63.7 57.1286 6.571403 | | Iraq . 57.1286 . | +-----------------------------------------------+ Obviamente, una característica fundamental de los errores es que no sean sistemáticos: su media para los tres países es inferior a un año y, si enumeraras los 174 con datos de ‘gsalud’ y ‘espvida’, es cero. Déjalos, no obstante, para otro momento y céntrate en la interpretación del resto de elementos de los modelos de regresión. Aunque lo has hecho con cierta profusión y detalle, hasta este momento, sólo has interpretado tres de los resultados del modelo de regresión. Para facilitar la discusión, copio la parte inferior: espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 3.592858 .4692985 7.66 0.000 2.666532 4.519184 _cons | 53.53574 1.808954 29.59 0.000 49.96513 57.10635 Las respuestas a las preguntas 1-3 se basan en resultados obtenidos con una muestra de 174 países, como te recuerda el primero de los resultados de la parte superior derecha (‘Number of observations’ = 174). Al igual que hiciste en los capítulos precedentes, querrás construir intervalos que te permitan realizar afirmaciones para la población de todos los países del mundo. Ello te lleva a plantear dos preguntas adicionales: 4. ¿Cuál es el intervalo en el que podemos asegurar que se encontrará el cambio en la esperanza de vida por cada punto del PIB dedicado a gasto público en salud? 5. Más allá de la predicción puntual, ¿en qué horquilla de esperanza de vida podrías “asegurar” que se encontrara un país con gasto público en salud cero? Las dos últimas columnas de la primera línea de la parte inferior aportan la respuesta a la cuarta pregunta: más allá de tu estimación puntual (3,59), puedes asegurar (con una confianza del 95%, es decir, con una probabilidad de equivocarte del 5%) que el aumento de la esperanza de vida media provocado por cada punto adicional del PIB dedicado a gasto público en salud estará entre 2,67 y 4,52. Por lo que se refiere a la respuesta a la quinta pregunta, las dos últimas columnas de la última fila precisan que puedes asegurar que, más allá de la predicción puntual (53,5) la esperanza de vida para un país sin gasto público alguno en salud se encontrará comprendida entre 49,97 y 57,11. 4. Regresión lineal con dos explicativas cuantitativas Si tu interés es explicar la esperanza de vida, tiene poco sentido que trates hacerlo exclusivamente en función de “gsalud”; estarías desperdiciando mucha información potencialmente útil, de terceras variables que también podrían incidir sobre aquélla. La regresión lineal múltiple no es más que la extensión del MRLS a dos o más variables explicativas: X1, X2, X3, etcétera. Por ejemplo, http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 5 “espvida” podría depender también de la riqueza de los países. Una buena forma de medir esto es con el PIB per cápita (recogido en la variable ‘pibpc’). Tener en cuenta la nueva variable da pie a dos preguntas adicionales: 6. ¿Cuánto mejora la predicción de la esperanza de vida gracias a esta segunda variable? 7. ¿Existe también una relación significativa entre el PIB per capita y la esperanza de vida? ¿Es positiva, como supones? ¿Cuál es la mejor estimación puntual de su magnitud? ¿En qué horquilla podrías asegurar que está comprendido el efecto? Alto ahí. La palabra “también” ha aflorado tres veces, como si la relación entre ‘gsalud’ e Y estuviera garantizada de antemano. Sin embargo, haber detectado tal relación en un MRLS no garantiza que siga teniendo lugar en el nuevo modelo, y mucho menos, que permanezca inalterada. 8. ¿Sigue existiendo una relación estadísticamente significativa entre ‘gsalud’ y ‘espvida’ cuando se tiene en cuenta ‘pib’, o era un mero “artificio” que afloraba por la exclusión del PIB per capita? 9. De seguir existiendo, ¿se mantiene el signo del efecto de ‘gsalud’ sobre ‘espvida’? 10. En todo caso, ¿cómo cambia la magnitud del efecto? Las preguntas 8-10 sólo se plantearán si se cumplen tres condiciones: (a) X1 y X2 están correlacionadas entre sí; (b) X2 e Y están correlacionadas entre sí; (c) X2 no está después de Y en la cadena causal, no es un efecto de Y. pwcorr espvida gsalud pib, star(0.05) La matriz de correlaciones (omitida) muestra que las dos primeras condiciones se cumplen. También tiene sentido sospechar que la tercera se cumple, que Y podría depender de X2 (mayor nivel de renta daría pie a mejor higiene, alcantarillado, etc., y, por ende, mayor esperanza de vida). Entonces, las preguntas 8-10 son pertinentes. Lo que, en definitiva, está sobre la mesa es que, en el modelo en el que no se incluía X2, X1 podía estar “recogiendo” parte del efecto de X2 sobre Y. Es hora de contrastar tu segundo modelo: regress espvida gsalud pib Si observas la estimación del efecto de X2 sobre Y (resultados omitidos por economía de espacio), verás un efecto es muy “pequeño” (0,0005 años de vida medios adicionales por cada dólar per cápita), debido a que ‘pib’ está en dólares (per capita). Incluye, en su lugar, ‘mpib’: regress espvida gsalud mpib Los resultados del modelo con dos X son muy parecidos a los del modelo con una X. La novedad es que, en la parte inferior, aparece una línea adicional, con la estimación del efecto de X2 (‘mpib’) sobre Y (‘espvida’). El cambio en la escala de la variable facilita la interpretación: por cada mil dólares per capita adicionales que tenga un país, la esperanza de vida aumenta 0,5 años: (parte superior omitida) espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.872574 .5939786 3.15 0.002 .6996893 3.045459 mpib | .5020344 .1061348 4.73 0.000 .2924581 .7116108 _cons | 56.06935 1.882512 29.78 0.000 52.3521 59.7866 ------------------------------------------------------------------------------ Olvídate de todo lo demás, y céntrate en la interpretación de la constante (‘_cons’). Extendiendo la interpretación del MRLS, su valor informa de que “en un país cuyo gasto público en salud sea nulo y cuyo PIB per capita (en millares) sea nulo, la esperanza de vida es 56 años”. Desde un punto de vista substantivo, esto es heterodoxo: ¿cómo podrían sobrevivir siquiera unos días, ya no medio http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 6 siglo, los habitantes de un hipotético país con renta per capita nula? Para evitar interpretaciones extrañas de la constante, sustituye ‘mpib’ por ‘dmpib’: regress espvida gsalud dmpib La parte superior y la estimación de los efectos de X1 y X2 (coeficientes, intervalos de confianza, etcétera) permanecen inalteradas. Lo único que cambia son los resultados de la constante. La nueva interpretación es que “en un país cuyo gasto público en salud sea nulo y con un nivel medio de PIB per capita, la esperanza de vida es 59 años”. Esto es mucho más sensato. Source | SS df MS Number of obs = -------------+------------------------------ F( 2, 166 163) = 42.66 Model | 8991.46307 2 4495.73153 Prob > F = 0.0000 Residual | 17179.771 163 105.397368 R-squared = 0.3436 Adj R-squared = 0.3355 Root MSE 10.266 -------------+-----------------------------Total | 26171.234 165 158.61354 = -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.872574 .5939786 3.15 0.002 .6996893 3.045459 dmpib | .5020344 .1061348 4.73 0.000 .2924581 .7116108 _cons | 59.20605 2.191807 27.01 0.000 54.87805 63.53404 ------------------------------------------------------------------------------ La respuesta a la sexta pregunta es inmediata: la inclusión de X2 ha aumentado considerablemente la capacidad de predicción de tu modelo, de 25,4% a 34,4%. La séptima comprobación confirma tus sospechas: la relación entre ‘dmpib’ y ‘espvida’ es positiva y estadísticamente significativa (el intervalo de confianza al 95% es íntegramente positivo). Tu mejor estimación puntual es que, por cada millar de euros adicionales de renta per capita, la esperanza de vida aumenta, en promedio, medio año. Con un margen de error del 95%, puedes asegurar que el efecto es mayor que 0,29 y menor que 0,71. Octavo: el efecto de ‘gsalud’ sobre ‘espvida’ no es un mero artificio provocado por la exclusión del pib per capita. Incluso cuando tienes en cuenta esta variable (decimos que “controlas” por ella), la relación es estadísticamente significativa (el intervalo de confianza al 95% no pasa por el cero). Noveno: dicho intervalo es íntegramente positivo (su mínimo es 0,70 y su máximo, 3,04). La introducción de X2 no provoca un cambio cualitativo en el efecto de X1 sobre Y. Décimo: la magnitud del efecto se ha reducido notablemente: de 3,59 en el con X1, a 1,87, en el modelo que también incluye ‘mpib’. Ahora, tu mejor estimación puntual es que, por cada punto porcentual dedicado a gasto público en salud, la esperanza de vida aumenta, en promedio, 1,87 años: El número de casos modelo 1 (con ‘gsalud’) es 174 y el del modelo 2 (con ‘gsalud’ y ‘mpib’), 166. Tus modelos con una X y con dos X no son comparables, ya que no emplean la misma muestra de países. Esto es crucial, porque abre las puertas para cuestionar las conclusiones octava y décima: 11. La fuerte caída del efecto de ‘gsalud’ sobre ‘espvida’, de 3,59 a 1,87 (-48% del efecto inicial) podría deberse a dos razones muy diferentes: ¿en qué medida se debe al cambio de la muestra, y en qué medida a la introducción de la segunda variable? Para evitar este escollo, lo más correcto es “relanzar” el primer modelo (el “restringido” a X1) solo para los casos en los que se basa el segundo (el “más general”, que tiene en cuenta X2): http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 7 regress espvida gsalud if dmpib < . Undécimo: en esta ocasión, las conclusiones no cambian cualitativamente: ‘gsalud’ es significativa, su efecto sobre ‘espvida’ es positivo, y su magnitud (3,65) es parecida a la que obtenías sin restringir los casos (3,59). La inclusión de ‘mpib’ tiene un efecto parecido al que habías observado cuando no tuviste en cuenta el cambio en la muestra. Sin embargo, existen situaciones en las que las conclusiones varían de manera sustancial. (Parte superior, omitida; N = 166; R2 = 0.2535; R2 ajustada = 0. 2489) -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 3.649736 .4891204 7.46 0.000 2.683951 4.615521 _cons | 53.14323 1.890284 28.11 0.000 49.4108 56.87566 ------------------------------------------------------------------------------ 5. Más variables explicativas cuantitativas Una vez sabes cómo interpretar un MRL, añadir más variables explicativas es sencillo. Valdría la pena tener en cuenta la desigualdad en los ingresos, medida en esta base de datos por el índice de Gini (variable ‘gini’). Cuanto mayor es éste, mayor es la desigualdad del país. En la base de datos, ‘gini’ está expresado en una escala de 0 (igualdad total) a 100 (máxima desigualdad): summarize gini Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------gini | 126 40.13889 10.35998 24.4 70.7 Cabría adelantar la hipótesis de un efecto causal negativo de la desigualdad (‘gini) sobre la esperanza de vida (‘espvida’). Las preguntas que te plantearás esta vez son las siguientes: 12. ¿Mejora la capacidad de explicativa del modelo gracias a esta tercera variable? ¿Cuánto? 13. ¿Es necesario matizar la respuesta a la pregunta anterior si se usa un criterio más “sofisticado” de lo que representa una mejora de la capacidad predictiva de un modelo? 14. ¿Cuáles son el signo y la magnitud del efecto de la desigualdad sobre la esperanza de vida? 15. ¿Es el efecto detectado estadísticamente significativo? ¿Se mantiene la significatividad de los efectos de X1 y X2 sobre Y? 16. ¿Cómo cambia el efecto de X1 sobre Y como consecuencia de la introducción de X3? 17. ¿Y el efecto de X2 sobre Y? Antes de contrastar el modelo con tres X, reenvia tu modelo de dos X solo para los casos en los que también cuentas información de X3 (‘gini’). A éste, lo llamarás modelo 2b: regress espvida gsalud dmpib if gini < . El número de casos baja de 166 a 125, pero los resultados son bastante parecidos. Lo más importante, a efectos de su comparación con los resultados de un modelo con tres X, es que la capacidad explicativa es 33,99%, el efecto de ‘gsalud’ es 1,93 y el de ‘dmpib’ es 0,45: (Resto de la parte superior, omitida) Number of obs = R-squared 125 = 0.3399 Adj R-squared = 0.3291 http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 8 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.931791 .7145847 2.70 0.008 .5171992 3.346383 dmpib | .456904 .1243701 3.67 0.000 .210701 .703107 _cons | 58.70752 2.689419 21.83 0.000 53.38354 64.03149 ------------------------------------------------------------------------------ Usa ‘regress’ para obtener los resultados del modelo 3: regress espvida gsalud dmpib gini Verás que hay una nueva línea en la parte inferior de los resultados: (Resto de la parte superior, omitida) Number of obs = R-squared 125 = 0.4318 Adj R-squared = 0.4177 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.735189 .6671758 2.60 0.010 .4143388 3.05604 dmpib | .3278792 .1194742 2.74 0.007 .0913485 .5644099 gini | -.4108228 .0928477 -4.42 0.000 -.5946393 -.2270063 _cons | 75.95039 4.632865 16.39 0.000 66.77842 85.12237 ------------------------------------------------------------------------------ Responder a la duodécima pregunta requiere comparar el R2 del modelo con el del modelo precedente. La tercera variable explicativa ha vuelto a tener un impacto importante en la capacidad explicativa del modelo, que pasa de 33,99% a 43,18%. Para responder a la decimotercera cuestión, es necesario reflexionar sobre qué sucede con R2 cada vez que introduces una nueva variable. Lo peor que puede pasar es que no contribuya en absoluto a explicar la variabilidad de ‘espvida’, en cuyo caso, R2 se quedará “clavado”, no cambiará un ápice. En cualquier otro caso, R2 subirá. Por lo tanto, una manera poco sofisticada de incrementar la capacidad explicativa de los modelos sería añadir variables con la esperanza de que, por poco relacionadas que estuvieran con ‘espvida’, alguna relación existiera. Dado que una estrategia así resultaría poco útil, se ha diseñado un estadístico, “R2 ajustado”, que “refina” el valor de R2, penalizando por el número de variables introducidas. Su valor siempre menor que el de R2, y figura justo debajo de éste. En este caso, mantendrías la conclusión de que X3 ha ayudado a mejorar la capacidad explicativa del modelo, ya que el R2 ajustado ha aumentado notablemente, de 32,91% a 41,77%. Decimocuarta: lo primero que llama la atención es el signo negativo (-0,41) del coeficiente de la variable ‘gini’. Esto significa que, manteniendo constantes el porcentaje del gasto público en salud y el producto interior bruto per capita (en millares), cada punto adicional de desigualdad reduce la esperanza de vida 0,41 años. En verde y en botella: “la desigualdad mata”. Decimoquinta: significatividad. Puedes responder a estas preguntas atendiendo a los intervalos de confianza o a los contrastes de hipótesis. Hasta ahora, habías centrado la atención en los primeros. Puedes seguir haciéndolo. Las preguntas sobre la significatividad de cada una de las variables equivalen al contraste de tres hipótesis independientes entre sí: H0-1: X1 (‘gsalud’) no tiene efecto alguno sobre la esperanza de vida (β1 = 0). H0-2: X2 (‘mpib’) no tiene efecto alguno sobre la esperanza de vida (β2 = 0). http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 9 H0-3: X3 (‘gini’) no tiene efecto alguno sobre la esperanza de vida (β3 = 0). Simplificando mucho, se supone que, si tomaras un número muy elevado (tendente a infinito) de muestras de la población, un 95% de ellas arrojaría valores del efecto incluidos en el intervalo de confianza del 95%. Si el intervalo de confianza no cambia de signo (si no pasa por el 0), rechazarás H0, y dirás que existe una relación estadísticamente significativa entre las variables. Éste es el caso de los efectos de X1, X2 y X3. El efecto de ‘gini’ es estadísticamente significativo porque su intervalo de confianza es consistentemente negativo (va de -0.59 a -0.23); el de ‘gsalud’ (0,41 a 3,06) y del de ‘mpib’ (de 0,09 a 0,56) también lo son, porque los intervalos de ambos son estrictamente positivos. Como alternativa, puedes inferir la significatividad a partir del contraste formal de hipótesis. Las hipótesis sometidas a contraste son las hipótesis nulas definidas unas líneas más arriba. Como sólo se conocen los valores muestrales, el contraste responde a la siguiente pregunta: ¿cuál es la probabilidad de que, siendo cierta la hipótesis nula, se consiga en la muestra un coeficiente con un valor absoluto igual o mayor al obtenido en el resultado? Para responderla, se construye un estadístico, ‘t’. Dado que su distribución muestral es conocida, observando el valor de ‘t’, se puede saber cuál es la probabilidad de haberlo obtenido por mero azar. Esta probabilidad (en la tabla, ‘P>|t|’) recibe el nombre de “pvalue”. El “pvalue” del efecto de ‘gsalud’ es 0,010 = 1%, considerablemente inferior al 5%, con lo que descartas la hipótesis nula, de haber obtenido el ‘t’ de 2,60 por azar. El “pvalue” del efecto de ‘mpib’ es aún menor, 0,007 = 0,7%, y vuelves a descartar H0. El “pvalue” del efecto de ‘gini’ es tan bajo que, con el nivel de precisión de tres decimales, Stata no muestra ninguna cifra diferente de cero: descartarás, una vez más, que el ‘t’ de -4,42 se haya podido obtener siendo cierto que el parámetro poblacional valiera cero. La conclusión es la misma que si analizas intervalos de confianza: las tres variables tienen efectos estadísticamente significativos sobre ‘espvida’. Decimoquinta: la introducción de X3 hace caer el coeficiente de X1; el modelo comparable es el 2b, con 125 casos, en el que el efecto de ‘gsalud’ sobre ‘espvida’ era 1,93. Este efecto cae un 10%, hasta 1,74, en tu modelo con tres X. Ahora, el 1,74 se interpreta así: manteniendo constantes la desigualdad y la riqueza de los países, cada punto adicional de gasto público en salud aumenta la esperanza de vida media en 1,74 años. Decimosexta. La introducción de ‘gini’ lastra aún más dramáticamente el efecto de ‘dmpib’ sobre ‘espvida’, que se desploma un 28%: cae de 0,46 a 0,33. Manteniendo todo lo demás constante (‘gsalud’ y ‘gini’), cada 1000$ adicionales de renta per cápita aumentan la esperanza de vida media en 0,33 años. Pasemos a un cuarto modelo, con X1, X2, X3 y una nueva variable, X4. Imagina que un amigo te dijera que tiene la intuición de que el porcentaje de exportaciones también afecta positivamente a la esperanza de vida. En el cuestionario, dispones de una variable, ‘exports’, que te permite recoger el concepto buscado. Repite tu modelo de tres variables sin los casos perdidos de ‘exports’ (modelo 3b): regress espvida gsalud dmpib gini if exports < . En este caso, no reproduciré los resultados. Todas las variables mantienen su significatividad con un nivel de significación del 5%; todos sus coeficientes varían “poco” (menos de 0,05), el R2 es 0,4140 y el R2 ajustado, 0,3990. Usa ‘regress’ para obtener los resultados del modelo 4: regress espvida gsalud dmpib gini exports La primera indicación de que algo va mal es que el R2 apenas cambia (sube 0,0116), y el R2 ajustado, aún menos (sube 0,0068). Aunque las antiguas variables mantienen su significatividad http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 10 (“pvalues” de 0,008, 0,030 y 0,000, todos menores que 0,05), el ‘t’ de la nueva variable podría haber sido obtenido simplemente por azar con una probabilidad no desdeñable (“pvalue” = 0,128, muy superior a 0,05). Es decir, no puedes rechazar la hipótesis nula de ausencia de efectos de ‘exports’ sobre la esperanza de vida. Si hubieras centrado la atención en el intervalo de confianza, habrías llegado a la misma conclusión, ya que el intervalo pasa por el cero. Aprovecha y dile a tu amigo que se dedique a la petanca, a ver si le va mejor que con las ciencias sociales: (Resto de la parte superior, omitida) Number of obs = R-squared 121 = 0.4256 Adj R-squared = 0.4058 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.85357 .6811576 2.72 0.008 .5044516 3.202688 dmpib | .2740071 .1250554 2.19 0.030 .0263191 .5216951 gini | -.3851703 .0949714 -4.06 0.000 -.5732732 -.1970675 exports | .0522625 .0341361 1.53 0.128 -.0153484 .1198734 _cons | 72.5497 5.01906 14.45 0.000 62.60882 82.49059 ------------------------------------------------------------------------------ 6. Regresión con variables independientes cualitativas Los MRL admiten la inclusión de Ws como variables independientes. Si W es dicotómica, la puedes incluir directamente en tu modelo. Si sospechases que “la democracia es buena para una vida larga”, podrías usar tu copia de la variable dicotómica de Cheibub y colaboradores para medir el régimen político (variable ‘dicta’). Contrasta tu quinto modelo. regress espvida gsalud dmpib gini dicta Dado que ‘exports’ no resultó significativa, no la incluyes en este modelo. Además, el modelo que usarás como referencia comparativa para evaluar el cambio en la capacidad explicativa del modelo es el modelo 3. En este caso, no necesitas repetirlo sin los casos perdidos de ‘dicta’, ya que el régimen político no ocasiona la pérdida de ningún caso adicional: (Resto de la parte superior, omitida) Number of obs = R-squared 121 = 0.4512 Adj R-squared = 0.4329 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------gsalud | 1.27767 .6949473 1.84 0.068 -.0982778 2.653617 dmpib | .3051716 .1184233 2.58 0.011 .0707018 .5396415 gini | -.4479011 .0933851 -4.80 0.000 -.632797 -.2630052 dicta | -4.408969 2.142309 -2.06 0.042 -8.650591 -.1673458 _cons | 80.45527 5.0691 15.87 0.000 70.4188 90.49173 ------------------------------------------------------------------------------ El aumento del R2 ajustado es modesto: en el modelo 3, era 41,77%, y en éste, pasa a 43,29%. La nueva variable es significativa al 5% (“pvalue” = 0,042); ‘dmpib’ y ‘gini’ mantinen su http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 11 signficatividad (“pvalues” = 0,011 y 0,000), aunque, si eres estricto, ‘gsalud’ la pierde (“pvalue” = 0,068 > 0,05) La interpretación de ‘gsalud’, ‘dmpib’ y ‘gini’ es análoga a la de los modelos predecentes. Por ejemplo, “manteniendo constantes el gasto público en salud, el pib per capita y el régimen político de los países, cada punto adicional de desigualdad en el índice de Gini reduce la esperanza de vida media en 0,45 años”. La interpretación de la variable dicotómica es la siguiente: “manteniendo constantes el gasto público en salud, el pib per capita y la desigualdad de los países, cada punto adicional de ‘dicta’ (“dictadura”) reduce la esperanza de vida media de los países en 4,4 años”. De acuerdo, pero el régimen político solo admite dos valores, democracia (0) y dictadura (1): sólo hay un “punto adicional” posible en esta variable, el que supone pasar de una democracia a una dictadura. Por lo tanto, será mejor reformular la interpretación con una expresión más elegante: “manteniendo constantes el gasto público en salud, el pib per capita y la desigualdad de los países, las dictaduras tienen una esperanza de vida media 4,4 años menor que las democracias”. Es decir, “la tiranía mata”. La interpretación de la constante cambia levemente: “en un país que no dedique ningún recurso a gasto público en salud, que tenga un PIB per cápita medio, que sea completamente igualitario, y que no sea una dictadura, la esperanza de vida media es 80,46 años”. De nuevo, podrías formularlo de manera más elegante: “en una democracia que no dedique recursos a gasto público en salud, que tenga un PIB per cápita medio, y que sea completamente igualitaria, la esperanza de vida media es 80,46 años”. Imagina que quieres incluir como X una W nominal de más de dos valores, por ejemplo, la religión mayoritaria (‘religp’: 0 = otra, 1 = católica, 2 = protestante, 3 = musulmana). Para centrar la atención en esta cuestión, añade esta variable al tercer modelo: regress espvida gsalud dmpib gini religp El coeficiente estimado para ‘religp’ (omito el resto de los resultados) se interpretaría así: “manteniendo constantes las demás variables, cada aumento unitario en ‘religp’ disminuye ‘espvida’ en 1 año”, dicho de otra forma, el paso de “otra religión” a “católico” supondría una reducción de un año de la esperanza de vida; el paso de “católico a “protestante”, en otro, y el paso de “protestante” a “musulmán”, en un tercer año. Como habrás anticipado, esto no tiene sentido, ya que la religión no es una variable cuantitativa: (resto del ‘output’ omitido) -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------religp | -1.039431 .8047037 -1.29 0.199 -2.632689 .5538262 ------------------------------------------------------------------------------ Si quieres ver cómo influye la religión mayoritaria de un país sobre la esperanza de vida, deberás introducir las distintas categorías de manera separada, como variables dicotómicas: regress espvida gsalud dmpib gini Protestant Catholic Muslim En la base de datos, ya se dispone de variables dicotómicas. No se ha introducido una cuarta variable, porque, así, podemos interpretar los efectos hallados en comparación con la categoría excluida: “manteniendo todo lo demás constante, los países con religión protestante tienen una esperanza de vida 7,8 años inferior a los países con ‘otra’ religión”. (resto del ‘output’ omitido) http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 12 -----------------------------------------------------------------------------espvida | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------Protestant | -7.837525 2.605695 -3.01 0.003 -12.99751 -2.67754 Catholic | 5.085319 2.343042 2.17 0.032 .4454575 9.72518 Muslim | -2.207772 2.399663 -0.92 0.359 -6.959758 2.544214 _cons | 78.13131 4.687673 16.67 0.000 68.84844 87.41418 Compartimos una publicación conjunta de los autores de la guía, con análisis similares a los que se presentarán en el tema siguente, a ver si os abre el apetito: Santana, Andrés and Jose Rama, 2018, “Electoral Support for Left Wing Populist Parties”, European Politics & Society, https://doi.org/10.1080/23745118.2018.1482848. View publication stats