pdf 3623 kb - Instituto de Estudios Fiscales

Anuncio
TÉCNICAS DE EVALUACIÓN DE IMPACTO:
PROPENSITY SCORE MATCHING Y
APLICACIONES PRÁCTICAS CON STATA
Autora: Magdalena Rodríguez Coma
Instituto de Estudios Fiscales
DOC. n.o 2/2012
N. I. P. O.: 634-12-002-1
IF
INSTITUTO DE
ESTUDIOS
FISCALES
N.B.: Las opiniones expresadas en este documento son de la exclusiva responsabilidad de los
autores, pudiendo no coincidir con las del Instituto de Estudios Fiscales.
Edita: Instituto de Estudios Fiscales I.S.S.N.: 1578-0244 Depósito Legal: M-23771-2001
ÍNDICE
11. INTRODUCCIÓN
12. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES
13. IMPORTANCIA DE LOS DISEÑOS CUASI-EXPERIMENTALES EN LA EVALUACIÓN
14. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES
15. EL PROBLEMA DE LA DIMENSIONALIDAD
16. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN
17. PROPENSITY SCORE MATCHING (PSM)
18. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE
CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM
INDEPENDENCIA
19. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN. CÁLCULO
DEL PROPENSITY SCORE (PS) CON STATA
10. DIFERENTES ALGORITMOS DE MATCHING
11. ESTIMACIÓN DEL CONTRAFACTUAL , EVALUACIÓN DE RESULTADOS Y ESTIMACIÓN DE
ERRORES CON STATA
11.1. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
Matching basado en el método del vecino mas cercano (Nearest Neighbor Matching)
11.2. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
Matching con estratificación (Becker & Ichino)
11.3. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
Matching basado en Kernel
11.4. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
Radius Matching
11.5. Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del
tratamiento
11.6. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando el
PSMATH2 (autores Edwin Leuven y B)
12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS RESULTADOS
12.1. Sensibilidad a los algoritmos de Matching
12.2. Sensibilidad a la especificación del modelo de participación
13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES
14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS
15. CONCLUSIONES
ANEXOS
Anexo 1. Software libre y alternativas comerciales a STATA para implementar métodos de Matching
y PS
—3—
Anexo 2. Direcciones útiles en Internet
Anexo 3. Glosario
Anexo 4. Documentación adicional
REFERENCIAS BIBLIOGRAFICAS
—4—
Instituto de Estudios Fiscales
1. INTRODUCCIÓN
El uso de técnicas micro econométricas para estimar los efectos las políticas de desarrollo se ha con­
vertido en un enfoque común, no sólo para los estudiosos, sino también para los responsables políti­
cos involucrados en el diseño, implantación y evaluación de proyectos en diferentes campos. Desde
el punto de vista académico, la mayor parte de los estudios de evaluación publicados son cuasi­
experimentales y se basan en la aplicación de estas técnicas a la información proporcionada por im­
portantes fuentes de datos secundarias1.
Entre estas técnicas cuasi-experimentales, el Propensity Score Matching (PSM) se aplica cada vez
más en la comunidad de evaluación de políticas. En este trabajo se proporciona una guía de los as­
pectos clave para utilizar la metodología de PSM, con aplicaciones prácticas y ejemplos utilizando el
programa STATA. Este documento ha sido elaborado con fines docentes. Dirigido a los alumnos asis­
tentes al III CURSO DE EVALUACIÓN DE POLÍTICAS PÚBLICAS Y PROGRAMAS PRESUPUESTARIOS celebrado en
el Instituto de Estudios Fiscales, en Madrid del 3 al 28 de octubre de 2011, puede ser útil a profesio­
nales interesados en la comprensión de la aplicación de estas técnicas a determinados problemas de
evaluación.
La unidad didáctica resume las condiciones básicas para que el PSM se pueda utilizar para evaluar el
impacto de un programa y también las fuentes de datos necesaria. Se explica de qué modo, en base
al supuesto de independencia condicional junto con la hipótesis de soporte común, puede reducirse el
sesgo de selección cuando la participación en un programa se determina a través de un modelo de
participación especificado con variables que miden características observables. Se contemplan los
principales aspectos técnicos de forma sencilla, abordándolos desde una perspectiva conceptual, que
permita la comprensión de la metodología y su aplicación al trabajo empírico.
También se describen diferentes algoritmos de matching y algunos test para evaluar la calidad de los
resultados, ilustrando la importancia de realizar siempre un análisis de sensibilidad de las estimacio­
nes que proporcione mayor credibilidad a las evaluaciones de impacto realizadas. La inclusión de
ejemplos basados en estudios de casos, se refieren a investigaciones realizadas con registros admi­
nistrativos procedentes de un programa social (IMI) que proporciona rentas a los más desfavorecidos,
combinadas con programas de ayuda a la reinserción laboral2 y pretende facilitar a los alumnos la
aplicación práctica con software y datos reales. Estos ejemplos, realizados con STATA3, abarcan
evaluación de efectos directos, indirectos y también evaluación de una matriz de decisión en un con­
texto de tratamientos múltiples.
Se dedica4 un apartado al software libre para tratar métodos de matching y PSM y alternativas co­
merciales de otros programas econométricos a STATA, con objeto de presentar a los lectores una
panorámica más completa de las posibilidades analíticas que les permita adoptar las decisiones ade­
cuadas en cada caso. También se presenta un glosario5 con una breve descripción de los conceptos
fundamentales de esta metodología. El apartado de referencias bibliográficas abarca referencias fun­
damentales6, manuales del Banco Mundial y Banco Inter-americano de Desarrollo7, referencias para
aplicaciones con STATA8 y estudios empíricos.
1
A estos efectos, es interesante consultar Social Experimentation, Program Evaluation, and Public Policy (2009), volumen que
contiene una colección de los mejores artículos de experimentos sociales y evaluación de programas que han aparecido en
Journal of Policy Analysis and Management (JPAM). 2
Estudios realizados por Ayala y Rodríguez (2006, 2007, 2010a, 2010b, 2011).
3
En el III Curso de Evaluación de Políticas Públicas y Programas Presupuestarios se dedican varias sesiones a formación en
STATA. En un excelente manual sobre evaluación de impacto como es el de Shahidur R. Khandker, Gayatri B. Koolwal, Hus­
sain Samad (2009) se incluyen todos los ejemplos con STATA.
4
Véase Anexo 1.
5
Los términos que aparecen en el texto en cursiva se incluyen en el glosario del Anexo 3
6
Caliendo, M. and Kopeinig, S. ( 2005); Dehejia, R. (2005); Dehejia, R.H. and Wahba, S. (2002); Heckman, J.;, Ichimura, H.
and Todd, P. (1998); Heckman, James J.; LaLonde, Robert and Smith, Jeffrey (1999).; Imbens, G.W. (2004); Jalan, J. and
Ravallion, M. (2003); Rosenbaum, P. and Rubin, D. (1983); Smith, J. and Todd, P. (2005).
7
Shahidur R.K. et al. (2009); Gertler, P.J. et al. (2011); Baker Judy L. (2000); Heinrich C. et al. (2010). 8
Abadie, A., D. et al. (2004); Becker, S.O. & Caliendo, M. (2007); Becker, S., &. Ichino, A. (2002); Nannicini, T. (2007).
—5—
2. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES
En todas las actividades de evaluación de programas es de interés fundamental conocer si una inter­
vención concreta, tal y como ha sido diseñada, es eficaz en el logro de sus objetivos principales. Una
intervención bien diseñada (o "tratamiento") generalmente se basa en la teoría y la evidencia empíri­
ca, articulada en torno a los mecanismos de intervención del colectivo implicado en el proyecto, que
en la práctica suele ser complejo e interdisciplinar, para lograr sus objetivos y producir los resultados
deseados.
El principal reto de la evaluación de impacto, para que sea creíble, es la construcción de la hipótesis
resultado, es decir, lo que habría sucedido a los participantes en ausencia de tratamiento. Este fenó­
meno es inobservable por su propia definición, es lo que se denomina resultado contrafactual, y tiene
que ser estimado utilizando métodos estadísticos dado que no se puede observar.
La evaluación experimental, en la que la asignación al tratamiento (o la participación en el programa)
es aleatoria, se utiliza en la evaluación de las intervenciones debido a sus ventajas estadísticas en la
identificación de los impactos del programa. Cuando existe una asignación aleatoria de los participan­
tes a un programa, los grupos de participante y no participantes son comparables a efectos de resul­
tados medibles u objetivos definidos por indicadores. La aleatoriedad asegura que los grupos son
comparables. Un tema muy relacionado como es el de la causalidad, que está en el fondo de todos
los debates sobre evaluación, tiene enfoques poliédricos en la literatura y de gran complejidad9 . El
tema de la causalidad es el núcleo de la evaluación de programas. La pregunta relevante podría ser:
¿Existe alguna actuación deliberada, a veces llamada tratamiento o variable independiente que causa
un cambio en determinados resultados o variables dependientes, con una vinculación teórica entre
ellos? Desde una perspectiva de evaluación de programas públicos, los tratamientos incluyen pro­
gramas y políticas de gobierno, legislación e innovaciones de la gestión pública.
La asignación aleatoria al tratamiento se considera el estándar de oro (gold standard) en el trabajo de
evaluación simplemente porque10 las unidades asignadas a los grupos tratamiento y control deben ser
estadísticamente equivalentes en ambas características: las observables y las no observables. Una
asignación aleatoria a los grupos de tratamiento y control permite asegurar que la participación en la
intervención es el único factor diferenciador entre las unidades que participan y quienes quedan ex­
cluidos del programa, por lo que el grupo de control se puede utilizar para evaluar lo que habría suce­
dido a los participantes en ausencia de la intervención, sin necesidad de estimar un cortrafactual.
Las unidades participantes pueden diferir en características medibles y no medibles. Desde una pers­
pectiva de evaluación, las diferencias medibles (por ejemplo, edad, peso, altura, número de hijos,
ingresos, nivel de estudios) no son problemáticas, ya que pueden ser controladas en los análisis es­
tadísticos, si bien puede suponer un esfuerzo considerable recopilar y disponer de los datos. Sin em­
bargo, las diferencias imposibles de medir (por ejemplo, la inteligencia, la motivación, el altruismo)
son mucho más problemáticas, porque si están relacionadas con las medidas de resultado, pueden
tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de
características pertinentes no medidas, normalmente sesga las estimaciones de los impactos del
programa. Esta fuente de sesgo se llama sesgo de selección o sesgo de auto-selección si los partici­
pantes son voluntarios para el tratamiento.
En relación a la evaluación de programas sociales, es interesante investigar la incorporación de me­
didas activas de empleo en los programas de garantía de rentas. En España el desarrollo relativa­
mente reciente de estas medidas y la dispersión de algunas de estas actuaciones, tanto en el plano
territorial como funcional, impide contar con un conjunto de evaluaciones tan extendido como el de
otros países. Buena parte de estas iniciativas han surgido al hilo de la creciente asunción de compe­
tencias por parte de los gobiernos autonómicos y locales, siendo compleja la sistematización de los
logros y los límites.
9
Sobre este tema y más concretamente la inferencia causal en las ciencias sociales pueden resultar de interés los trabajos de
M.E.Sobel (1995, 1996, 1998) y Holland(1986). Pearl (2009) presenta una revisión de los más recientes avances en la inferen­
cia causal. Glymour (1986) desarrolla la importancia filosófica del tema.
10
Céteris páribus: método en el que se mantienen constantes todas las variables de una situación, excepto aquella cuya
influencia se desea estudiar, permitiendo simplificar el análisis en fenómenos complejos. Expresión que, en economía, facilita
la aplicación de modelos abstractos.
—6—
Instituto de Estudios Fiscales
No existe en la actualidad una base de datos común de las diferentes experiencias territoriales. Sólo
algunas Comunidades Autónomas cuentan con sistemas de registros adecuados para la evaluación11.
Como ejemplo de las posibilidades y límites del uso de este tipo de información, pueden consultarse
algunos resultados de las evaluaciones realizadas del programa (IMI) de renta mínima de inserción
de la Comunidad Autónoma de Madrid (Ayala y Rodríguez, 2006, 2007, 2011), que utilizando técnicas
de evaluación de impacto PSM con información procedente de registros administrativos y de encues­
tas realizadas a los beneficiarios que pasan por el programa IMI, estudian la movilidad general de los
hogares participantes, identificando una serie de características socioeconómicas que determinan
una mayor duración en los programas y que deberían ser tenidas en cuenta a la hora de decidir incluir
a los beneficiarios en las actividades orientadas al empleo. Las iniciativas que consigan aumentar la
empleabilidad de los beneficiarios contribuirán a reducir los procesos de dependencia de las presta­
ciones. En este sentido conviene resaltar la importancia de evaluar efectos indirectos de los progra­
mas que mejoren la empleabilidad, tema en el que se volverá a incidir más adelante.
Otra conclusión importante de las evaluaciones realizadas se refiere a que las actividades orientadas
al mercado de trabajo reducen la probabilidad de que los hogares vuelvan a los programas o alargan,
al menos, el tiempo pasado fuera de los programas en el caso de las reincorporaciones, es decir
alargan el tiempo de independencia del programa. También se han investigado los factores que influ­
yen en las reincorporaciones al programa, estudiando los efectos combinados de la longitud del pri­
mer episodio en el programa y el tipo de salida la primera vez12.
Los ejemplos que se incluyen en estas páginas como estudios de caso, para realizar las estimaciones
del PSM y evaluación de efectos del tratamiento con STATA, proceden de un fichero de micro datos
obtenido a partir de las bases de datos utilizadas en estos trabajos. El fichero no contiene la informa­
ción completa, es un subconjunto de registros y variables con fines docentes que permita realizar en
clase ejercicios que ayuden a una mejor comprensión de los conceptos (Fichero PSMDATOS).
3. IMPORTANCIA DE LOS DISEÑOS CUASI EXPERIMENTALES EN LA EVALUACIÓN
A pesar de que la asignación aleatoria al tratamiento, que se realiza en la evaluación experimental, es
una herramienta extraordinariamente útil para la evaluación, no siempre es factible ni a veces siquiera
deseable su utilización. Además de lo costosa que puede resultar obtener la cooperación de los res­
ponsables y participantes en el proyecto en estudio que se trata de evaluar, un diseño de asignación
aleatoria exige que la planificación, desarrollo e implementación se realice antes del inicio de la inter­
vención. Se trata en estos casos de evaluaciones “ex ante”. Pocos estudios de evaluación han sido
diseñados antes de la ejecución del programa, en estos casos se pueden realizar diseños cuasi- ex­
perimentales para evaluar los programas.
En algunas situaciones existen consideraciones éticas que no deben ser menospreciadas. Tampoco
es irrelevante la complejidad que supone establecer la aleatoriedad en sentido estricto, que en mu­
chas ocasiones resulta muy difícil aplicar en la práctica. . La cuestión está en diseñar un proceso de
asignación al azar que no pueda ser socavado por los técnicos del programa, que tienen incentivos
para demostrar la efectividad del programa, unidades que quieran poder optar por estar dentro o fue­
ra del tratamiento, o políticos que quieran garantizar que las unidades de tratamiento en sus distritos
políticos (bien sean personas, escuelas, hospitales, plantas de tratamiento de agua etc.) son los pre­
feridos. A veces, la aplicación de la aleatoriedad puede requerir la modificación de complicados pa­
quetes de software para asegurar que los solicitantes seleccionados al azar se eligen solamente para
formar parte del grupo de tratamiento o el de control. Algunos experimentos han incorporado explíci­
tamente las presiones para socavar el proceso de asignación aleatoria en su diseño inicial13.
La evaluación “ex post” también tiene ventajas, no exclusivamente de costes. En muchos casos per­
mite aprovechar una información que ya existe, procedente de la gestión y puesta en marcha del pro­
11
Es el caso, entre otras, de Navarra, donde el sistema de registros del programa de Renta Básica ha permitido evaluaciones
sistemáticas de los resultados de las estrategias de activación. 12
Ayala, L. & Rodríguez, M. (2010) utilizan modelos de duración paramétricos, incluyendo tres dimensiones: la duración del primer episodio, las condiciones macroeconómicas y características socio demográficas.
13
Puede consultarse King et al. (2007).
—7—
grama que no se tiene a priori, con lo que elementos desconocidos del proceso que puedan producir
disfunciones es factible que sean tenidos en cuenta introduciéndolos como información adicional que
permita una evaluación más realista y certera. A menudo los métodos no experimentales son necesa­
rios para abordar las evaluaciones de forma más global y completa.
A través de la aplicación de métodos rigurosos de evaluación no experimental, se puede avanzar de
forma notable en la comprensión de la efectividad de las intervenciones sobre los resultados principa­
les de interés Además de proporcionar estimaciones directas de los efectos del programa sobre los
resultados relevantes, con estos métodos también se pueden abordar una gran variedad de cuestio­
nes relacionadas y complementarias con los objetivos fundamentales de la intervención, Por ejemplo,
si algunas de las intervenciones son más eficaces para determinados grupos particulares ó individuos
con características específicas que para otros. Además de permitir conocer los posibles factores que
quedan fuera del control de los responsables y pueden influir en los resultados y cómo puede modifi­
carse la intervención para tenerlos en cuenta.
En estas páginas se describe el método de evaluación no experimental denominado propensity score
matching (PSM), método que se enmarca en el contexto de la estimación no paramétrica. El PSM
utiliza la información de un grupo de unidades que no participan en la intervención y tienen caracterís­
ticas observables similares a los que participan, para identificar lo que habría ocurrido a las unidades
participantes en ausencia de la intervención. La clave es buscar y construir un grupo de comparación
válido (contrafactual) para calcular la diferencia de los resultados entre los participantes y los no parti­
cipantes que son similares desde el punto de vista observacional. De esta forma es posible estimar
los efectos de la intervención.
En los últimos años debido a las facilidades proporcionadas por las mejoras en la capacidad de cálcu­
lo, los algoritmos de asociación y el desarrollo de software específico, los métodos que emparejan
directamente a los participantes con los no participantes que tienen características similares han sus­
tituido a la regresión como uno de los métodos preferidos para la estimación del impacto de la inter­
vención a partir de datos del grupo de comparación construido con esta técnica.
4. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES
James Heckman introdujo el concepto de sesgo de selección en la econometría moderna. Recibió el
Premio Nobel de Economía en 2000 por sus trabajos pioneros en abordar esta problemática14 y abrió
un camino que ha producido una amplia y compleja literatura para corregirlo. Desde entonces, se han
desarrollado una variedad de métodos para corregir el sesgo de selección incluyendo el propensity
score matching (PSM), el estimador de la doble diferencia (DD) los métodos de variables instrumenta­
les (VI), los enfoques de modelos con efectos fijos (EF), cada uno de ellos con sus propias limitacio­
nes y aplicables sólo en determinadas circunstancias.
La idea general del procedimiento PSM es sencilla. En ausencia de un diseño experimental la asigna­
ción al tratamiento es con frecuencia no aleatoria, y por lo tanto, los participantes en el tratamiento y
los excluidos pueden variar no sólo en cuanto ser o no participantes, sino también en otras caracterís­
ticas que afecten tanto a la participación como al resultado de interés para la evaluación. Para evitar
los sesgos que esto puede generar, los métodos de emparejamiento (matching) tratan de encontrar
una unidad no tratada que sea “similar" a una unidad participante, lo que permite una estimación del
impacto de la intervención como la diferencia entre el resultado de un participante y el caso de com­
paración emparejado. Calculando la media de todos los participantes y la de los no participantes “em­
parejados”, el método proporciona, a través de la diferencia de medias, una estimación del impacto
medio del programa para los participantes.
El mayor reto en la evaluación de cualquier intervención o programa es obtener una estimación fiable
del denominado contrafactual es decir de la situación contraria: ¿Qué habría sido de las unidades
participantes si no hubieran participado? Sin una respuesta creíble a esta pregunta, no es posible
determinar si la intervención ha influido realmente en los resultados de los participantes o no. Sin
14
Véase Heckman, J.J. (2001). Artículo que además de servir como excelente referencia de los avances de la econometría
moderna, incluye una bibliografía muy extensa sobre trabajos de evaluación de impacto con micro datos.
—8—
Instituto de Estudios Fiscales
embargo, como su nombre indica, es imposible observar la situación contraria que solamente puede
ser estimada.
La evaluación del programa se enfrenta por tanto a un problema de falta de datos, ausencia de infor­
mación suficiente para el investigador, que el estadístico Paul Holland15 considera el problema fun­
damental de la inferencia causal: es imposible observar los resultados de la misma unidad en
condiciones de tratamiento y al mismo tiempo en condiciones de no recibir el tratamiento (Holland
1986), no es factible observar al individuo que está en un programa y al mismo tiempo no está.
En principio, una posible solución a este problema consiste en calcular un resultado hipotético basado
en un grupo de no participantes y calcular el impacto de la intervención como la diferencia en el resul­
tado medio entre los grupos: diferencia de medias entre el grupo de tratados y no tratados. Sin em­
bargo, este planteamiento sólo es válido en una situación muy precisa: el grupo de comparación debe
ser estadísticamente equivalente al grupo tratado. En otras palabras, los grupos deben ser idénticos,
excepto por el hecho de que uno de ellos recibió el tratamiento. Por lo tanto, la principal preocupación
es cómo encontrar un grupo de comparación adecuado.
Sin tener un grupo de comparación válido, no es posible atribuir al programa la causa de los efectos
que se tratan de evaluar. Cuando existe sesgo de selección porque no existe una asignación aleatoria
de los participantes a un programa, los grupos de participante y no participantes no son comparables
a efectos de resultados medibles u objetivos definidos por indicadores. La ausencia de aleatoriedad
genera sesgos dado que los grupos no son comparables. Para eliminar o corregir estos sesgos, es
preciso construir un grupo de comparación válido acudiendo a técnicas cuasi experimentales como el
PSM.
Con carácter general, los estudios cuasi-experimentales y no experimentales que tratan de corregir
estadísticamente el sesgo de selección, suelen tener mayor credibilidad que los estudios en los que
se ignora por completo el sesgo de selección.
5. EL PROBLEMA DE LA DIMENSIONALIDAD
Uno de los temas críticos en la aplicación de técnicas de matching es definir claramente y justificar lo
que significa "similar". Aunque puede ser relativamente sencillo asignar una unidad de comparación
basada en una única característica observable, en la práctica, para que el proceso de matching logre
eliminar el sesgo potencial, tiene que hacerse considerando una amplia gama de variables observa­
bles y observadas en las que las unidades de tratamiento y de comparación pueden variar. Lo que
introduce el denominado problema de la dimensionalidad.
Con las técnicas de matching se pretende emparejar cada unidad participante en el programa (trata­
da) con una o varias unidades similares, en términos de variables observadas X, no participantes (sin
tratamiento). Cuando X es una única variable, p. ej. La edad, el concepto similar es claro: la misma
edad o la más próxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con­
cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 años, NE4) con el Caso-2 (36 años, NE1) y
el Caso-3 (50 años, NE4) ¿Cuál de ellos es similar al Caso-1? El Caso-2 es más próximo al Caso-1
en edad, pero el Caso-3 lo es en nivel de estudios.
Cuando se trabaja con múltiples variables X, no está definida con claridad la idea de proximidad. Ro­
sembaum y Rubin resolvieron este problema proponiendo el cálculo de una medida única el propensi­
ty score (PS), probabilidad estimada de participación en el programa mediante un modelo probit o
logit16 con variables explicativas X17. Los resultados de Rosembaum y Rubin forman la base teórica
del propensity score matching (PSM): la probabilidad de participación en un programa estimada a
través del PS resume toda la información relevante contenida en las variables X. La idea de proximi­
dad en PS se define con claridad proporcionando una solución excelente al problema, cuya mayor
15
Véase Holland (1986). Modelos estadísticos que generalizan los modelos lineales clásicos, son modelos con heterocedasticidad, que estiman los
parámetros por el método de máxima verosimilitud. Toda la formalización teórica puede verse en Mc Cullach, P. & Nelder, J.A. (1983). 17
Véase Rosenbaum, P.R. and Rubin, D.B. (1983). 16
—9—
ventaja consiste en la reducción de la dimensionalidad, que permite emparejar por una única variable
(PS) en lugar de un conjunto completo de variables observadas X.
6. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN
Mientras que los experimentos aleatorios suelen exigir una recogida de datos original, la gran mayoría
de las evaluaciones cuasi-experimentales utilizan datos secundarios previamente recogidos en las
estadísticas oficiales del país de que se trate, censos y encuestas y también registros administrativos
del estado, comunidad autónoma, provincia o ciudad, en función del ámbito territorial de la evaluación
y otras fuentes similares. Al tratarse de evaluaciones ex post, permiten utilizar la propia información
generada en la puesta en marcha del programa que se trata de evaluar y la de la gestión de las pres­
taciones que contempla el mismo. En este sentido, disminuye los costes de la evaluación, y permite
aprovechar la información disponible con otros fines, aunque debe tenerse en cuenta la gran cantidad
de transformaciones necesarias para convertir registros administrativos en bases de datos utilizables
en la evaluación empírica18.
Los datos necesarios para el PSM han de permitir que se cumpla el supuesto de independencia con­
dicional, es decir que una vez controladas todas las características observadas relevantes, las unida­
des de comparación deberían tener, en promedio, el mismo resultado que las unidades de
tratamiento hubieran tenido en ausencia de la intervención. Esto exige trabajar con micro datos para
estimar el modelo de participación y no suele ser suficiente disponer de datos agregados. La mayoría
de los estudios de evaluación publicados son cuasi-experimentales y se basan en importantes fuen­
tes de datos secundarias19.
Dado que, en muchos casos, el investigador no sabe con precisión los criterios que determinan la
participación en el programa, es conveniente controlar todas las variables que se sospecha que influ­
yen en la selección para participar en el tratamiento, aunque debe tenerse en consideración que el
control de muchas variables puede generar problemas con el cumplimiento de la hipótesis de soporte
común y esta es tan fundamental como la anterior para caracterizar correctamente el PSM. Como
resultado de ello, el investigador debe tener acceso a un gran número de variables con suficiente
calidad para realizar las estimaciones.
La investigación empírica realizada en evaluación de impacto ex post, ha mostrado que también es im­
portante que los datos de las unidades de tratamiento y los de las unidades de control procedan de las
mismas fuentes, con los mismos instrumentos de recogida, mismas unidades de medida y mismas defi­
niciones. En los casos en que los datos sobre las unidades de tratamiento y las unidades de compara­
ción se derivan de diferentes fuentes, es fundamental tratar de evitar que las variables se construyan de
la misma forma (por ejemplo, con los mismos sistemas de codificación, si hay evidencia de lo contrario).
Es muy importante dar un tratamiento similar a los valores missing para las unidades tratadas y no
tratadas. A pesar de que los datos siempre tienen errores y esto es un problema potencial, el sesgo
en las estimaciones de impacto puede ser relativamente pequeño si los datos de tratados y no trata­
dos tienen la misma estructura de error debido al uso del mismo sistema de imputaciones. Por el con­
trario, si existen diferencias sistemáticas en la forma en que se trataron los errores, en particular las
medidas de los indicadores de resultado, incluso pequeñas diferencias pueden inducir importantes
sesgos en las estimaciones de impacto.
Es conveniente que los datos estén tomados en el mismo momento de tiempo en lugar de que exista
un desfase temporal que provoque alteraciones importantes en los conceptos, definiciones, sistemas
de codificación etc., a efectos de validez de la comparación. Todas estas consideraciones sobre las
exigencias de los datos hacen que sean tan limitativos como la propia hipótesis de independencia
condicional para poder llevar a cabo una evaluación de calidad mediante PSM.
18
Véase Ayala L. y Rodríguez M. (2007 a). La publicación que contiene este trabajo, referenciada en la bibliografía incluye
múltiples estudios que contemplan esta problemática desde distintos enfoques y ámbitos temáticos.
19
Por ejemplo, en EEUU el sitio web de NLSY (National Longitudinal Surveys) contiene más de 4.000 artículos de revistas basados
en el NSL, monografías, documentos de trabajo, y disertaciones http://www.bls.gov/nls/nlsbib.htm. El sitio web de PSID (Panel Study of
Income Dynamics —Institute for Social Research— Bureau of Labor Statistics) incluye más de 2.700 artículos de revistas, libros y capítu­
los de libros y actas de congresos. http://psidonline.isr.umich.edu/Publications/Bibliography/default.aspx.
— 10 —
Instituto de Estudios Fiscales
Los estudios de Ayala y Rodríguez, utilizados como ejemplos en este documento, que han sido reali­
zados utilizando técnicas de evaluación de impacto PSM, se basan en la información procedente de
registros administrativos y de encuestas realizadas a los beneficiarios que pasan por el programa IMI.
En programas con cierta trayectoria, la posibilidad de explotar estos registros permite disponer de
bases de datos longitudinales, que, gracias a la existencia de un conjunto de métodos de análisis
cada vez más sofisticadas aplicables a micro datos, hacen posible abordar diferentes aspectos rela­
cionados tanto con el funcionamiento de los programas como con las características de los hogares
beneficiarios.
En el campo de las políticas sociales en España, existe una experiencia limitada en el uso de regis­
tros administrativos para la investigación. De ahí deriva la menor tradición en la utilización de datos
administrativos para evaluar estas políticas, que en otros países ha permitido contar con un importan­
te acervo de resultados. En España no existe esta cultura y es muy reciente y reducida, todavía, la
importancia de los registros administrativos como fuente de datos, aunque la progresiva disminución
de los costes en el proceso automático de la información permite acceder a ellos mediante herramientas
analíticas modernas y eficientes. En otros países, como los nórdicos, el seguimiento y la evaluación de
las políticas sociales se han basado, tradicionalmente, en el uso de registros administrativos. Algunas
Comunidades Autónomas, en nuestro país, han realizado esfuerzos notables para convertir esos regis­
tros en bases de datos para el estudio de las políticas dirigidas a los hogares con menores ingresos.
Las ventajas de la utilización de los datos administrativos sobre los programas de garantía de rentas
son varias. La riqueza informativa contenida en los ficheros de beneficiarios representa un gran activo
de conocimiento de la realidad social. Los sistemas administrativos en algunos servicios sociales son,
además, esencialmente dinámicos y pueden ayudar a evaluar los cambios producidos a lo largo del
tiempo, ya que ofrecen la posibilidad de seguir a los mismos individuos a lo largo de un periodo am­
plio. Su gran tamaño y, muy a menudo, la cobertura de universos completos permiten abordar tipos
de análisis imposibles de realizar con otras fuentes. Existe, además, la posibilidad de enriquecer la
base de micro datos creada a partir del proceso administrativo mediante el cruce con otras fuentes
procedentes de encuestas, estadísticas oficiales u otros registros administrativos.
No se debe olvidar, sin embargo, que existen también algunos problemas en la utilización de los da­
tos administrativos para el estudio de los hogares de baja renta y la evaluación de los programas de
garantía de rentas. Estos datos deben ser depurados antes de poder ser utilizados para la investiga­
ción, ya que existen numerosas fuentes potenciales de errores y los formatos no suelen ser adecua­
dos para el análisis. Esta depuración incluye el proceso completo de transformación de los registros
tal cual están en el sistema de información para la gestión en un fichero analítico. La preferencia por
ficheros longitudinales en la mayor parte de los proyectos de investigación y evaluación de estos pro­
gramas suele exigir también transformaciones importantes en la estructura de los ficheros de datos
administrativos. Estos trabajos suelen verse ampliamente compensados cuando se consigue llevar a
cabo las evaluaciones de impacto que permiten conocer mejor la realidad, el funcionamiento de los
programas y las posibles mejoras que permitan utilizar los recursos públicos con mayor utilidad social.
7. PROPENSITY SCORE MATCHING (PSM)
Existe una amplia y variada literatura sobre la aplicación de la técnica de PSM en la evaluación de
programas. Por ejemplo, Heckman, Ichimura y Todd (1998), Lechner (1999), Dehejia y Wahba (2002)
y Smith y Todd (2005) utilizan las técnicas de PSM para estimar el impacto del mercado de trabajo y
programas de capacitación sobre la renta; Jalan y Ravallion (2003) evalúan los programas de empleo
y lucha contra la pobreza.
En el campo de la medicina los ejemplos son abundantes. Tiene gran interés la reciente controversia
en el Stat. Med., iniciada con el trabajo de Peter C. Austin20 que realiza una evaluación crítica del
propensity score matching en la literatura médica incluyendo 47 artículos que abarcan el período
comprendido entre 1996 y 2003 y permite obtener una panorámica muy completa en este ámbito.
También el trabajo previo de Kurth et al. ((2005) en el que los autores comparan cinco métodos de
evaluación, entre los que se incluyen varios algoritmos de PSM, para evaluar los efectos de un
20
Véase Austin: (2008), Hill (2008), Hansen (2008) y Stuart(2008).
— 11 —
fármaco en más de 6000 pacientes con problemas de isquemia procedentes de un registro de acci­
dentes cerebro vasculares en Alemania.
En cuanto a evaluaciones relacionadas con la asistencia sanitaria, Trujillo, Portillo y Vernon (2005)
analizan el impacto de la participación del seguro de salud en la atención sanitaria, Galiani, Gertler y
Schargrodsky (2005) estudian el efecto de suministro de agua en la mortalidad infantil.
Otros ámbitos de aplicación como la educación y la política permiten encontrar ejemplos como el
trabajo de Almus y Czarnitzki (2003) y Moser (2005) que evalúan el impacto de los subsidios de in­
vestigación y desarrollo y las leyes de patentes en la innovación; Lavy (2002) estima el efecto de los
incentivos de desempeño docente en el rendimiento de los alumnos, y Persson, Tabellini y Trebbi
(2003) analizan el impacto de la reforma electoral en materia de corrupción.
En España, además de los trabajos citados de Ayala y Rodríguez, la Agencia de Evaluación de Cali­
dad (AEVAL), dependiente del Ministerio de Política Territorial y Administración Pública, realizó la
evaluación de la política de bonificaciones y reducciones de cuotas de la Seguridad Social destinada
a las personas en situación de discapacidad con esta metodología21.
El Propensity score matching (PSM), es un algoritmo que empareja participantes y no participantes en
un programa en base a la probabilidad condicional de participar (PS), dada una serie de característi­
cas observables. Si los resultados son independientes de la participación, condicionada en variables
observables, utilizar el grupo de comparación obtenido de esta forma, permite lograr un estimador no
sesgado del impacto medio del programa.
El PSM es una de las innovaciones más importantes en el desarrollo aplicado de los métodos de em­
parejamiento, resuelve el problema de la dimensionalidad sintetizando toda la información que pro­
porcionan múltiples variables en una variable única, permitiendo realizar el matching con sola
dimensión. El PSM se define como la probabilidad de que una unidad de la muestra combinada de
participantes y no participantes reciba el tratamiento, a partir de un conjunto de variables observadas.
Si toda la información relevante para la participación y los resultados es observada por el investigador,
el PSM (probabilidad estimada de participación) produce emparejamientos válidos para estimar el im­
pacto de una intervención. Por lo tanto, en lugar de intentar que coincidan en todos los valores de las
variables observadas, los casos pueden ser comparados sobre la base del PSM exclusivamente.
Existen fundamentalmente dos tipos de algoritmos de matching: el nearest neighbor matchig (vecino
más próximo) que empareja una unidad participante con la unidad del grupo de comparación que
tenga el PS más parecido y los métodos basados en kernel que emparejan a cada participante con un
resultado calculado como una media ponderada kernel de resultados de todos los no participantes.
8. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE INDEPENDENCIA
8. CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM
Una respuesta individual es una función de participación con características observables e inobserva­
bles. En general los que no participan difieren de los que participan en la situación de la participación.
La heterogeneidad es debida tanto a características observables como no observables. En el contex­
to de los estudios observacionales, no experimentales, el PSM se enmarca en el contexto de la esti­
mación no paramétrica. Para obtener estimadores consistentes del impacto del programa, con este
método, hay que asumir lo que se denomina independencia condicional en su aplicación. También
denominada selección en observables, supone una fuerte restricción de ortogonalidad entre los posi­
bles resultados y el estado del tratamiento, dadas las variables observadas.
Lo que conlleva asumir esta hipótesis es que la participación, condicionada a las características obser­
vables, es independiente de los posibles resultados. Selección en observables implica que las carac­
terísticas inobservables no juegan ningún papel para determinar la participación22 . A partir de aquí, para
obtener un grupo de comparación que permita evaluar los efectos de la participación, se buscará para
cada participante uno o varios no participantes que tengan las mismas características observables.
21
Véase Aeval (2009).
22
Véase Dehejia and Wahba (2002). — 12 —
Instituto de Estudios Fiscales
En la prá
áctica, la sosspecha de qu
ue esta hipóttesis no se sostiene, es lo que condicciona la valid
dez de un
bilidad de los resultadoss precisa de otra hipótes
sis adicio­
estudio realizado con esta técnicca. La credib
erteza de qu
ue existe un solapamientto en la distribución
r
de observables entre el grup
po de tra­
nal: la ce
e comparación, lo que se denomin
na hipótesis de soporte
e común, que es tan
tados y el grupo de
elección en observables..
restrictivva como la se
La posib
bilidad de ap
plicar el PSM
M en una eva
aluación de impacto suele exigir cierrtos equilibrio
os en los
oximándose todo lo posib
ble al cumplimiento de am
mbas hipótesis, con la co
onsidera­
condicionantes, apro
ue los datos de que se dispone tengan la riqueza y calidad suficiente pa
ara poder
ción adiccional de qu
do con las co
onsideracione
es que se ex
xponen en el apartado 6.
abordarlo, de acuerd
e el matching
g resulte possible se precisa que existtan unidadess en el grupo
o de compara
ación con
Para que
mos valores de PS que lo
os que participan en el prrograma de interés. Ello exige un sola
apamien­
los mism
S entre los do
os grupos qu
ue se van a comparar. En el caso
to o intersección de las distribuciones del PS
ades en las que los valores
r de las variables observadas que entran en la ecuación
de que existan unida
mación del PS
S dan como resultado qu
ue no reciba
an nunca el tratamiento o que siemprre lo reci­
de estim
afactual para
a ellos. Los que nunca re
eciben tratam
miento no tienen con quie
en empa­
ban, no existe contra
ben tratamiento no pued
den emparejarse con
rejarse en el grupo de tratadoss, los que siiempre recib
n el grupo de
e controles. En el histog
grama del ejemplo de la página 36 puede obserrvarse de
nadie en
osibilidad. En estos caso
os lo que debe hacerse es restringir el matching y la esti­
modo grráfico esta po
el tratamiento
o a la región de soporte común.
mación del efecto de
En la práctica lo que
e implica es que debe restringirse el análisis al grupo de no
o participantes cuyos
olapan con lo
os de los qu
ue participan. Si se asum
me la selecciión en carac
cterísticas
valores del PS se so
bles porque se acepta qu
ue se cumple la hipótesis de soporte
e común, el matching deb
be hacer­
observab
ndo en cuen
nta que del colectivo de no participan
ntes se seleccione un grrupo de com
mparación
se tenien
ución de las características observad
das sea lo más parecida posible a la
a distribu­
en el cual la distribu
es. En el casso de un ma
atching exactto, la única diferencia que existe
ción en el grupo de participante
n participante
e y su pareja
a es que el participante recibe el tratamiento y su contrafacttual no lo
entre un
n comparable
es y que pueda aplicarse el método PSM para
recibe. De ahí se deriva que los grupos sean
estimas el efecto dell programa.
En el dia
agrama que se incluye más abajo, se presentan
n de modo esquemático los rangos de casos
ados en funcción del PS estimado (co
olor naranja)) y los excluidos por ambos extremo
os del PS
empareja
erde). Estos últimos no se incluirían
n en el análisis por que
edar fuera de
e la zona de
e soporte
(color ve
común.
— 13 —
A continuación se incluye la función de densidad, estimada mediante una función kernel normal, para
el PS de participantes y no participantes donde puede apreciarse una zona de soporte común entre
0.3 y 0.9 aproximadamente. El gráfico está realizado con datos reales procedentes del trabajo de
Ayala L. and Rodríguez, M. (2011).
Es importante destacar que la utilización del PS como única medida de todas las características
observables que intervienen en su estimación, simplificando de modo notable todo el proceso de
evaluación, es posible debido al hecho de que la hipótesis de independencia condicional se mantiene
cuando se utiliza el PS en lugar de todas las variables (Rosembaun and Rubin 1983).
9. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN.
9. CÁLCULO DEL PROPENSITY SCORE (PS) CON STATA
En el marco de la evaluación de impacto, el propensity score , introducido por Rosembaum y Rubin
(1993) es un método alternativo al diseño experimental y a otros enfoques cuasi-experimentales para
estimar efectos del tratamiento cuando la asignación al mismo no es aleatoria, siempre que se pueda
asumir selección en observables o lo que es lo mismo independencia condicional. Se utiliza un
modelo logit o probit23, con variable dependiente binaria que indica el tratamiento y variables
explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta
esta ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las
variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad.
El comando STATA que permite estimar el propensity score, es decir la probabilidad de que una uni­
dad en la muestra combinada de los participantes y los no participantes reciba el tratamiento, dado un
conjunto de variables observadas, es el pscore.
Comando:
pscore
Instalar el comando en el PC:
Buscar información sobre el comando:
ssc install pscore, replace
help pscore
Con una estructura similar a cualquier comando de STATA, las páginas de información sobre pscore
que se obtienen a través de help, incluyen la sintaxis, es decir la forma en que debe ser escrito en el
editor de STATA la sentencia completa del comando pscore.
23
El marco teórico de estos modelos puede verse en McCullagh, P. and Nelder, J.A. (1983).
— 14 —
Instituto de Estudios Fiscales
A continuación hay una descripción detallada de todas las utilidades del comando: estima la probabili­
dad de recibir el tratamiento (PS) mediante un modelo probit o logit, a partir de un conjunto de variables
y agrupa los individuos en bloques en función del valor estimado por el modelo para el PS, muestra una
estadística resumiendo la distribución del PS estimado en los bloques y aplica un test de comprobación
de la hipótesis de equilibrio de cada una de las variables que intervienen en el modelo. En el caso de
que no se verifique esta hipótesis, se especifica un modelo menos parsimonioso para el PS.
Por último se almacena en una variable el valor del PS para cada registro y opcionalmente el número
de bloque al que pertenece. El PS estimado de esta forma puede ser utilizado conjuntamente con
otros comandos de STATA como attr, attk, attnw, attnd, para obtener estimaciones del efecto medio
del tratamiento en los tratados, utilizando diferentes fórmulas de matching: radio, kernel, vecino más
próximo en una de las dos versiones (con pesos iguales ó con recorrido aleatorio), con estratifica­
ción… De ellos se hablará más adelante en este documento.
La información continúa con una descripción detallada de todas las posibles opciones que admite el
comando, incluyen unas notas sobre aspectos relevantes como la consideración de los valores mis­
sing, como debe ser la variable que describe el tratamiento, la conveniencia de actualizar STATA
antes de proceder a realizar el análisis y algunas otras.
A continuación se incluyen algunos ejemplos de cómo se utiliza el comando y la referencia de los
autores, en este caso Sascha O. Becker Center for Economic Studies, University of Munich y Andrea
Ichino Department of Economics, European University Institute, Florence. Por último, la referencia a
comandos relacionados con pscore y la dirección de internet donde pueden encontrarse referencias a
las fórmulas y algorítmos utilizados en los programas que conforman el comando.
A título de ejemplo del funcionamiento, utilizando un fichero ficticio de datos transformados
(PSMDATOS), procedente de los estudios realizados por Ayala y Rodriguez con los registros
administrativos del IMI de la CAM, se estima el PS con STATA, para conocer la probabilidad de
— 15 —
participar en proyectos de inserción entre el colectivo de los perceptores de un subsidio de rentas
mínimas. La probabilidad se estima en función de las variables observadas a la entrada en el
programa IMI: tamaño del hogar, nivel de educacuón, nivel de empleabilidad, número de problemas
sociales, edad y sexo de los participantes.
PSMDATOS es el fichero que contiene los microdatos. Las variable eval1 es una variable dicotómica
que toma valor 1 cunado un beneficiario del IMI participa en proyectos de inserción, y valor 0 en caso
contrario. Las varibles observadas que se incluyen el el modelo, en este fichero de datos se
denominan gtotal, pesola, sexo, ed, estu, emplea y problemas. El valor del ps estimado por el modelo
se almacenará en la variable psclase. Se incluye comsup como opción, en cumplimiento de la
hipótesis de soporte común, para restringir el análisis a todos los tratados y todos los controles que
cumplen la propiedad de equilibrio de todas las variables que intervienen en la estimación. Esta
opción genera automáticamente una variable dicotómica adicional denominada comsup que identifica
cuando toma valor 1 los registros que están en la zona de soporte común.
Las siguientes sentencias de STATA:
use "C:\psmdatos", clear
pscore eval1 gtotal pesola sexo ed estu emplea problemas,
pscore (psclase) blockid (bkclase) comsup
Producen los resultados que se incluyen a continuación:
****************************************************
Algorithm to estimate the propensity score
****************************************************
The treatment is eval1
eval1
Freq.
Percent
Cum.
0
1
811
1,038
43.86
56.14
43.86
100.00
Total
1,849
100.00
Estimation of the propensity score
Iteration 0:
Iteration 1:
Iteration 2:
log likelihood = -979.86622
log likelihood = -953.25484
log likelihood = -953.23828
Probit regression
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Log likelihood = -953.23828
eval1
Coef.
gtotal
pesola
sexo
ed
estu
emplea
problemas
_cons
-.040304
.1208904
.1056909
-.1959597
.0169852
.0648292
.0700118
.4796768
Std. Err.
.076101
.1279056
.0719277
.0315764
.0357807
.0368797
.0397731
.3087687
z
-0.53
0.95
1.47
-6.21
0.47
1.76
1.76
1.55
P>|z|
-.1894592
-.1298001
-.0352847
-.2578484
-.0531437
-.0074536
-.007942
-.1254986
Description of the estimated propensity score in region of common support Estimated propensity score
1%
5%
10%
25%
50%
.5954652 75%
90%
95%
99%
.6597818
.7077516
.7305123
.7688693
Smallest
.3552976
.3597025
.3616426
.3622831
Largest
.7930194
.8124483
.8149598
.8307079
Obs
Sum of Wgt.
Mean
Std. Dev.
Variance
Skewness
Kurtosis
1446
53.26
0.0000
0.0272
[95% Conf. Interval]
0.596
0.345
0.142
0.000
0.635
0.079
0.078
0.120
Note: the common support option has been selected
The region of common support is [.35529761, .83070789]
Percentiles
.375231
.4271826
.4585166
.5228032
=
=
=
=
1444
1444
.5876926
.0931448
.008676
-.2024601
2.394718
— 16 —
.1088512
.3715808
.2466665
-.1340711
.0871141
.137112
.1479656
1.084852
Instituto de Estudios Fiscales
El fichero
o tiene 1849
9 casos de lo
os cuales un 56,14 % parrticipan en prroyectos de iinserción.
El mode
elo que estim
ma el PS es un modelo probit, qu
ue estima lo
os parámetro
os por el mé
étodo de
d, eliminand
do los valores missing y con dos iteraciones.. Las variab
bles mas
máxima--verosimilitud
dad, empleab
bilidad y núm
mero de prob
blemas y la región de so
oporte comú
ún abarca
significattivas son ed
e 0 y 1. A co
ontinuación se presenta la distribució
ón del PS
desde 0.35 a 0.83, de un rango teórico entre
o en la región de soporte
e común:
estimado
Descr
ription of the estimated propen
nsity score
in re
egion of common support
Est
timated propensi
ity score
1%
5%
10%
25%
Percentiles
.375231
.4271826
.4585166
.5228032
50%
.5954652
75%
90%
95%
99%
.6597818
.7077516
.7305123
.7688693
Smallest
.3552976
.3597025
.3616426
.3622831
Largest
.7930194
.8124483
.8149598
.8307079
Obs
Sum of Wgt.
Mean
Std. Dev.
Variance
Skewness
Kurtosis
1444
1444
.5876926
.0931448
.008676
-.2024601
2.394718
Por últim
mo se incluyen en los re
esultados el número de bloques (7) que logra eq
quilibrar la media del
PS, el grupo de tratados con la
a media, el grupo de co
ontroles en cada uno de
e los 7 estratos y el
resultado
o satisfactorrio del test de equilibrio que añade una tabla co
on la distribución del nú
úmero de
tratados y controles en cada uno
o de los estra
atos de la reg
gión de sopo
orte común.
Se añad
den dos nue
evas variable
es al fichero
o original ps
sclase y bkcclase. En la variable ps
sclase se
almacen
nen los valore
es estimadoss del propen
nsity score. En la variable
e bkclase se almacena el número
del bloqu
ue a que perrtenece cada
a uno de los valores del PS estimado
o. Puede aña
adirse la opc
ción detail
para obttener una do
ocumentació
ón mas detallada de los pasos realizzados hasta
a llegar a ob
btener los
resultado
os finales.
— 17 —
10. DIFERENTES ALGORITMOS DE MATCHING
Cuando hay que elegir entre los diferentes algoritmos mediante los que se trata de emparejar, en
base al PS, unidades tratadas con unidades del grupo de control hay determinadas cuestiones que
deben ser tenidas en cuenta. En primer lugar si se realiza el matching con o sin reemplazamiento,
además de establecer una medida de proximidad, establecer un sistema de ponderación y decidir
cuantas unidades de comparación se emparejan con cada unidad de tratamiento.
Historicamente, el matching uno a uno es el primero que se ha utilizado. Se realiza mediante un
muestreo sin reemplazamiento en el grupo de comparación, es decir cada unidad del grupo de
comparación unicamente se empareja una vez y cada unidad participante tiene un enlace en el grupo
de control. Los problemas en este caso se presentan cuando la hipótesis de soporte comun deja
amplias zonas de la distribución del PS sin solapar, y también cuando el grupo de comparación es
24
muy reducido. En estos casos las unidades tratadas se emparejan con otras que no son similiares .
Por ello muchas veces se utiliza el muestreo con reemplazamiento, y una misma unidad del grupo de
comparación se utiliza como pareja de varios casos.
Las especificaciones alternativas al mathing uno a uno son mas recientes. Si en lugar de un elemento
del grupo de comparación se utilizan todos los que tienen un PS próximo, las estimaciones utilizan
mejor la información disponible y son mas estables. La contrapartida es que si un mismo elemento del
grupo de comparación se utiliza muchas veces podría aumentar el error de muestreo.
Entre los algoritmos de matching mas utilizados en la práctica y uno de los que produce mejores
resultados es el denominado nearest neighbor matching (vecino mas próximo). Consiste
sencillamente en elegir del grupo de comparación el elemento con el PS mas proximo. El sistema
puede utilizarse con o sin reemplazamiento. En el último caso hay un matching uno a uno, en el
primero un elemento del grupo de control es utilizado mas de una vez.
El radius matchig debe emplearse cuando existe riesgo de un matching muy pobre por alguna de las
razones ya aludidas. Consiste en especificar una distancia máxima del PS (caliper) dentro de cuyo
radio se busca el enlace. La idea es que no solamente se utiliza el mas proximo dentro del radio sinó
todos los que existan en el grupo de comparación que estén dentro del radio, sin limitación de
número, con lo que se asegura que son tan similares como se quiera establecer al definir el caliper.
El kernel matching es un estimador de matching no paramétrico que compara el resultado de cada
unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de
comparación, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se
compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos
emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este
enfoque, hay que asegurarse que el grado de cumplimiento de la hipótesis de soporte común es
elevado. La aplicación de este sistema necesita decidir sobre el tipo de kernel, generalmente
Gaussiano y Epanechnikov, y el intervalo.
Todos estos algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una
regla clara de cual es el mas indicado en cada contexto. Es evidente que el nearest neighbor uno a
uno garantiza que se está utilizando la unidad mas similar para construir el contrafactual minimizando
el sesgo, pero al no tener en cuenta una gran cantidad de información del grupo de comparación
aumenta la varianza, lo que implica una pérdida de precisión. Cuando se utiliza muestreo con
reemplazamiento, el aumento de precisión se realiza a costa de un contrafactual menos similar
11. ESTIMACIÓN DEL CONTRAFACTUAL, EVALUACIÓN DE RESULTADOS Y
11. ESTIMACIÓN DE ERRORES CON STATA
Una vez estimado el PS, se debe estimar el contrafactual para evaluar los efectos del tratamiento. En
este momento existe una gran cantidad de software disponible para realizar estas estimaciones que
24
Véase Dehejia, R.H. and Wahba, S. (2002).
— 18 —
Instituto de Estudios Fiscales
permiten elegir cualquiera de los algoritmos de matching descritos25. STATA es uno de los productos
comerciales que cuenta con varios programas que surgen principalmente de tres grupos de
desarrolladores.
En primer lugar Becker and Ichino (2002) programan comandos para nearest neighbor, kernel, radius,
and matching con estratificación. Becker and Caliendo 200326 proponen el comando mhbounds para
realizar análisis de sensibilidad.
En segundo lugar, Leuven and Sianesi (2003) desarrollan el software PSMATH2 que incluye
estimaciones de nearest neighbor, caliper matching (con y sin reemplazamiento), radius, kernel, locallinear matching y matching con métrica de Mahalanobis, además de comandos para comprobar el
cumplimiento de la hipótesis de soporte común psgraph, y el test de equilibrio de las variables que se
incluyen en la estimación del PS pstest.
El comando nnmatch implementado por Abadie, A., D. Drukker, J.L. Herr, and G. Imbens en 2004,
permite estimar los efectos medios del tratamiento para todas las unidades y no únicamente para
tratados y grupo de comparación, especificar la métrica de la distancia, el número de emparejamien­
tos y también incluye estimadores de la varianza robustos a la heterocedasticidad27. Debe tenerse en
cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el
método de máxima verosimilitud.
Con posterioridad Ichino, A., F. Mealli, and T. Nannicini 2006, implementan el comando sensatt para
realizar análisis de sensibilidad de los efectos medios del tratamiento. El comando cem, debido a
Blackwell, M.; Iacus, S.; King,G,; Porro, G. 2009 introduce un nuevo método de estimación de efectos.
El algoritmo se describe en Iacus, King and Porro 200828 Es interesante destacar que también está
disponible para R (software libre) y para SPSS como se indica en el Anexo 1.
En el apartado siguiente se describe el funcionamiento de algunos de estos programas y se proponen
algunos ejemplos para realizar con STATA.
11.1. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
11.1. Matching basado en el método del vecino mas cercano (nearest neighbor matching)
Este método realiza una ordenación previa de todos los registros del fichero por el valor del PS
calculado con el comando pscore. Una vez en orden, para cada caso busca el control mas próximo
en el valor del PS recorriendo el conjunto de datos del grupo de comparación hacia arriba y hacia
abajo. Si una unidad tratada empareja igual de bien hacia arriba y hacia abajo con dos unidades no
tratadas, el programa da la misma ponderación a ambos grupos de emparejamiento.
Hay otra forma de buscar los controles por este método, utilizando la aleatoriedad para el recorrido en
el conjunto de datos hacia arriba y hacia abajo. En la práctica no suele ser muy frecuente encontrar
varios vecinos mas próximos, en particular cuando las variables utilizadas para la estimación del PS
son continuas. En estos casos los resultados para ambos sistemas coinciden.
Los comandos de STATA, diseñados por Becker and Ichino para relizar el matching son attnw, en el
caso de ponderación igual hacia arriba y hacia abajo y attnd cuando se trata del recorrido aleatorio
(random draw) en el conjunto del grupo de comparación.
Comando:
attnw
Instalar el comando en el PC:
Buscar información sobre el comando:
ssc install attnw, replace
help attnw
25
En el Anexo 1 se incluyen referencias de software libre y alternativas comerciales a STATA para implementar métodos de
PSM. 26
Puede consultarse la descripción en Becker & Caliendo (2007). 27
Véase Abadie, A., D. & others. (2004), Abadie & Imbens (2006, 2008, 2011) para conocer el marco teórico de este software.
28
Información disponible en http://gking.harvard.edu/files/cem.pdf
— 19 —
Las páginas de información sobre attnw que se obtienen a partir de help:
En el caso del comando attnd
Comando:
attnd
Instalar el comando en el PC:
Buscar información sobre el comando:
ssc install attnd, replace
help attnd
Las páginas de información muestran la descripción,opciones, notas, ejemplos, autores (Becker &
Ichino) y direcciones para obtener mas información.
Casi todos los comandos que permiten estimar el efecto medio del tratamiento con STATA, incluyen
opciones que permiten calcular los errores mediante bootstrap, método propuesto por Bradley Efron
en 1979, que permite aproximar la distribución de un estadístico en el muestreo mediante la
generación de varias muestras por ordenador29. Ponerlo en práctica exige gran capacidad de cálculo,
y es por esta razón por la que los fuertes avances tecnólogicos en la potencia de los ordenadores
actuales, facilita el cálculo del sesgo, varianza, intervalos de confianza y contraste de hipótesis
estadísticas mediante bootstrapping . Debido a esta facilidad es normal encontrar la posibilidad de
utilizar este método en el software destinado a aplicar PSM.
29
Sobre este tema puede consultarse Efron, B. & Tibshirani, R.J. (1993). En Abadie, A. & Imbens, G. (2006) se proponen
unas modificaciones para lograr que los estimadores de los efectos medios del tratamiento sean consistentes y asintóticamente
normales. El software para calcular estos estimadores está disponible en el comando de STATA nnmatch.
— 20 —
Instituto de Estudios Fiscales
El próximo ejemplo consiste en utilizar el fichero PSMDATOS para realizar la estimación del efecto
medio del tratamiento en los tratados, por ambos sistemas de emparejamiento, con el método nearest
neighbor matching. El planteamiento es análogo al que se realiza en el apartado 11.2. La
comparación de los resultados con los obtenidos con diferentes algoritmos de matching presenta un
análisis de sensibilidad que aumenta, en su caso, la robustez y por tanto la credibilidad de las
estimaciones.
Téngase en cuenta que todos los ejemplos de este documento se realizan con el mismo fichero
PSMDATOS y con los resultados de estimar el PS obtenidos en el apartado 10 a través del comando
pscore, con la exigencia de soporte común, utilizando 7 variables observadas (edad, empleabilidad,
número de problemas, sexo,nivel de estudios, número de miembros del hogar, hogar monoparental)
para los hogares participantes y no participantes en proyectos de inserción sociolaboral, dentro de los
beneficiarios de un programa de rentas mínimas de la Comunidad Autónoma de Madrid.
— 21 —
Por tanto, al mantener en todos los ejemplos el mismo PS que está almacenado en la variable
psclase, para realizar las estimaciones del efecto medio del tratamiento en los tratados (ATT) a través
de los diferentes métodos de matching, no es necesario expliciar de nuevo las variables de la
ecuación de asignación. Además, se utiliza la posible variabilidad de los resultados como análisis de
sensibilidad a los distintos métodos de emparejamiento.
Tal y como se indica mas adelante, en el apartado 12, también es interesante realizar un análisis de
sensibilidad de los resultados a diferentes especificaciones de la ecuación de participación.
Las siguientes sentencias de STATA:
use "C:\psmdatos", clear
attnd psalud0 eval1, pscore (psclase) boot
attnw psalud0 eval1, pscore (psclase) boot
Producen los siguientes resultados:
n. treat.
n. contr.
ATT
Std. Err.
t
1038
645
-0.014
0.030
-0.469
Note: the numbers of treated and controls refer to actual
nearest neighbour matches
ATT estimation with Nearest Neighbor Matching method
(equal weights version)
Analytical standard errors
n. treat.
n. contr.
ATT
Std. Err.
t
1038
645
-0.004
0.032
-0.131
Note: the numbers of treated and controls refer to actual
nearest neighbour matches
Aunque se mantiene el signo negativo del efecto, la magnitud es mucho menor y se pierde la
significación estadística.
El análisis de sensibilidad de los resultados a los algoritmos de matching realizados con los
comandos attr, attk, attnw, attnd, pueden efectuarse también con el comando sensatt, que
implementa el análisis de sensibilidad propuesto por Ichino, Mealli, and Nannicini (2006).
Su funcionamiento se describe en la ayuda del comando (help).
11.2. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
11.2. Matching con estratificación (Becker & Ichino)
El comando STATA que pesrmite realizar el matching con estratificación, es decir un emparejamiento
entre casos y controles basado en una variable que contiene el número de bloque (estrato) al que
pertenece el registro de la zona de soporte común, además de la variable que contiene el valor del
PS previamente estimado, es atts.
Comando:
atts
Instalar el comando en el PC:
Buscar información sobre el comando:
ssc install atts, replace
help atts
Las páginas de información sobre atts que se obtienen a través de help, de modo similar al caso de
otros comandos incluyen la sintaxis, descripción detallada de todas las utilidades del comando, op­
ciones posibles, notas sobre aspectos relevantes, ejemplos, referencias de los autores de los pro­
gramas, dirección de internet donde se puede obtener mayor información sobre los algoritmos de
cálculo y comandos relacionados con el que se describe.
— 22 —
Instituto de Estudios Fiscales
En este caso, atts, permite haber realizado previamente la estimación del PS y del número de bloque
al que pertenece cada registro del fichero, a través del comando pscore descrito anteriormente, utili­
zando esta información para realizar el matching, ya que por construcción, el cálculo del PS y del
número de estratos que permite verificar la hipótesis de equilibrio del PS en cada uno de ellos hace
que la asignación al grupo de tratamiento y de control pueda considerarse aleatoria. Debe ejecutarse
pscore con la opción comsup, para obtener unos resultados correctos sobre el número de tratados y
controles estimados con anterioridad. Se describe en el apartado 9.
Para calcular el ATT (efecto medio del tratamiento en los tratados), se utiliza una media ponderada
por el número de tratados de los efectos del tratamiento en cada uno de los bloques. Se calcula como
la diferencia de resultados medios entre tratados y controles dentro del mismo bloque para el cual
pscore ha logrado equilibrar todas las variables que intervienen en el cálculo del PS.
Entre las posibles opciones del comando, que se incluyen a continuación, figura bootstrap, que permi­
te calcular los errores de la estimación del efecto del tratamiento, mediante esta técnica. Otras opcio­
nes descritas, que tienen relación con este cálculo de errores, son reps, noisily y dots, referidas al
número de réplicas de muestras que se solicitan (por defecto son 50), a la información en los resulta­
dos del efecto producido en cada una de las muestras, y al requerimiento de que figure un punto en la
pantalla cada vez que comienzan los cálculos con una nueva réplica de muestra.
Se describen además las opciones obligatorias pscore que indica el nombre de la variable que con­
tiene la información del propensity score previamente calculado, blockid que indica el nombre de la
variable que contiene el número de bloque al que pertenece el propensity score. Por último las opcio­
nes detail para obtener una información más detallada de todos los procesos de cálculo hasta llegar a
los resultados finales y comsup que restringe los valores utilizados para el cálculo del ATT a la zona d
soporte común.
— 23 —
En las notas se hace una referencia al cálculo de los errores por bootstrapping, con las especificida­
des de la estimación por estratos, y una explicación de los casos en que en alguno de los estratos no
haya ningún caso y/o control o exista solamente un caso y/o un control.
A continuación unas referencias al almacenamiento de los resultados en el fichero de análisis: ATT,
errores, valor del test de la t y en su caso errores y test calculados por bootstrapping. Tras los ejem­
plos de cómo se utiliza el comando, la referencia de los autores (Becker & Ichino), la referencia a
comandos relacionados con atts y la dirección de internet donde pueden encontrarse referencias a las
fórmulas y algorítmos utilizados en los programas que conforman el comando.
Utilizando el fichero PSMDATOS, a título de ejemplo, se estima con STATA el efecto medio del
tratamiento en los tratados (ATT) mediante un matching con estratificación. Se trata de ver si los
participantes en proyectos de inserción laboral, dentro del colectivo de los perceptores de un subsidio
de rentas mínimas, tienen mejores resultados, en términos de salud, que los que participan en
proyectos de capacitación general. Es un ejemplo en el que se miden efectos indirectos de un
programa. El programa no va dirigido a mejorar la salud de los beneficiarios, pero hay un círculo
virtuoso empleo-salud, y mejorar la salud puede mejorar la empleabilidad. Conocer rasultados en
términos de salud puede ayudar a definir mejor el programa.
La variable eval1 toma valor 1 cuando el beneficiario participa en proyectos de inserción sociolaboral
y valor 0 en caso contrario. El propensity score que se almacena en la variable psclase, se ha
calculado previamente con STATA en el ejercicio anterior cumpliendo con la propiedad de equilibrio
de todas las variables que intervenían en la ecuación de asignación, en la zona de soporte común en
todos los estratos. La variable que contiene el PS previamente estimado en el ejercicio anterior es
psclase. El estrato a que pertenece cada PS se refleja en la variable bkclase como se había indicado
en el ejercicio anterior.
Las siguientes sentencias de STATA:
use "C:\psmdatos", clear
atts psalud0 eval1, pscore (psclase) blockid (bkclase) boot
Producen los siguientes resultados
ATT estimation with the Stratification method
Analytical standard errors
n. treat.
n. contr.
ATT
Std. Err.
t
847
597
-0.034
0.027
-1.263
Bootstrapping of standard errors command:
statistic:
(obs=1849)
atts psalud0 eval1
r(atts)
, pscore(psclase) blockid(bkclase) Bootstrap statistics
Variable
Reps
Observed
Bias
bs1
50
-.0338797
.0002055
Std. Err.
.0242477
[95% Conf. Interval]
-.0826073
-.078116
-.078116
.0148479 (N)
.0048754 (P)
.0048754 (BC)
N = normal, P = percentile, BC = bias-corrected
ATT estimation with the Stratification method
Bootstrapped standard errors
n. treat.
n. contr.
ATT
Std. Err.
t
847
597
-0.034
0.024
-1.397
Indicando un resultado negativo en términos de problemas de salud, o lo que es lo mismo los partici­
pantes en proyectos de inserción laboral tienen menos problemas de salud que los que no participan.
El error de la estimación obtenido por bootstrapping con 50 réplicas de muestra mantiene el efecto
— 24 —
Instituto de Estudios Fiscales
negativo dentro del intervalo. Añadiendo la opción detail, se muestran los pasos intermedios previos
al resultado final que se presentan a continuación.
*****************************************************
Estimation of the ATT with the stratification method
*****************************************************
The outcome is psalud0
Variable
Obs
Mean
psalud0
1833
.3840698
Std. Dev.
.4865073
Min
Max
0
1
The treatment is eval1
eval1
Freq.
Percent
Cum.
0
1
811
1,038
43.86
56.14
43.86
100.00
Total
1,849
100.00
The distribution of the pscore is
Estimated propensity score
Percentiles
.3750936
.4252926
.4564608
.5228032
1%
5%
10%
25%
50%
.5953571
75%
90%
95%
99%
.6597818
.7077516
.7305123
.7688693
Smallest
.3341996
.3357525
.3552976
.3597025
Obs
Sum of Wgt.
Largest
.7930194
.8124483
.8149598
.8307079
1446
1446
Mean
Std. Dev.
.5873431
.0935533
Variance
Skewness
Kurtosis
.0087522
-.215623
2.420353
The structure of blocks is
Key
frequency
column percentage
Number of
block
eval1
0
1
Total
2
21
2.59
12
1.16
33
1.78
3
64
7.89
30
2.89
94
5.08
4
87
10.73
64
6.17
151
8.17
5
193
23.80
289
27.84
482
26.07
6
229
28.24
452
43.55
681
36.83
7
0
0.00
3
0.29
3
0.16
.
217
26.76
188
18.11
405
21.90
Total
811
100.00
1,038
100.00
1,849
100.00
-> bkclase = 2
Variable
Obs
Mean
psclase
33
.3792881
Std. Dev.
.0126809
Min
Max
.3552976
.3999165
-> bkclase = 3
Variable
Obs
Mean
psclase
94
.4282963
Std. Dev.
.0134487
Min
Max
.4019199
.4490555
-> bkclase = 4
Variable
Obs
Mean
psclase
151
.4764241
Std. Dev.
.0138859
Min
Max
.4501263
.4996543
-> bkclase = 5
Variable
Obs
Mean
psclase
482
.5541624
Std. Dev.
.0290837
Min
Max
.500069
.5999239
-> bkclase = 6
Variable
Obs
Mean
psclase
681
.6671768
Std. Dev.
.0448057
Min
Max
.600662
.7930194
-> bkclase = 7
Variable
Obs
Mean
psclase
3
.819372
Std. Dev.
.0098972
Min
Max
.8124483
.8307079
-> bkclase = .
Variable
Obs
Mean
psclase
2
.334976
Std. Dev.
.0010981
Min
Max
.3341996
.3357525
Computation of treatment effect block by block
Block 1 does not have observations
Move to next block
Block 7 does not have controls
The effect of treatment is set to 0
— 25 —
11.3 Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
11.3 Matching basado en Kernel
El comando STATA que pesrmite realizar el matching basado en una función kernel, es decir un em­
parejamiento en el cual la unidad de control que se empareja con una observación tratada se obtiene
como una función kernel ponderada media de los resultados de los controles, es attk.
Comando:
attk
Instalar el comando en el PC:
Buscar información sobre el comando:
ssc install attk, replace
help attk
Analogamente al caso de otros comandos STATA, a través de help se obtiene la sintaxis, descripción
detallada de todas las utilidades y posibles opciones, ejemplos, referencias de los autores de los pro­
gramas (Backer & Ichino), dirección de internet donde se puede obtener mayor información sobre los
algoritmos de cálculo y comandos relacionados.
Entre las opciones posibles, epan permite elegir el kernel Epanechnicov en lugar del Gaussiano que
se calcula por defecto, en cuyo caso a través de la opción bwidth se define el intervalo para aplicar la
fórmula Epanechnicov, que si no se especifica STATA utiliza por defecto 0.06.
También es posible calcular los errores por bootstrapping con este método y especificar el número de
réplicas muestrales, establecidas por defecto en 50.
Analogamente al caso de otros comandos, attk permite haber realizado previamante la estimación del
valor del PS a través del comando ya descrito pscore, que debe ejecutarse con la opción comsup
para obtener resultados para la zona de soporte común.
— 26 —
Instituto de Estudios Fiscales
También existe la posiblidad de almacenar. en escalares los resultados: media de tratados, media de
controles, número de tratados, número de controles, errores, valor del test de la t en el fichero de
análisis etc, de forma similar al caso de otros comandos con otros algoritmos de matching.
El ejemplo siguiente utiliza el fichero PSMDATOS para estimar el efecto medio del tratamiento en los
tratados mediante kernel matching, repitiendo el ejercicio del apartado 12.1, lo que permitirá apreciar
la sensibilidad de los resultados al cambio de algoritmo de matching.
Las siguientes sentencias de STATA:
use "C:\psmdatos", clear
attk psalud0 eval1, pscore (psclase) blockid (bkclase) boot
producen los siguientes resultados:
ATT estimation with the Kernel Matching method
n. treat.
n. contr.
ATT
Std. Err.
t
1038
811
-0.042
.
.
Note: Analytical standard errors cannot be computed. Use
the bootstrap option to get bootstrapped standard errors.
Bootstrapping of standard errors
command:
statistic:
(obs=1849)
attk psalud0 eval1
r(attk)
, pscore(psclase)
bwidth(.06)
El ATT estimado con este algoritmo, emparejamiento basado el el cálculo del PS previamente
realizado con el comando pscore para la zona de soporte común da un resultado de -0.042, utilizando
el método kernel Gaussiano.
El cálculo de errores por bootstrapping, con 50 reposiciones de muestra y un intervalo por defecto
establecido en 0.06 genera los resultados que aparecen a continuación:
Bootstrap statistics
Variable
Reps
Observed
Bias
bs1
50
-.0417316
.0046144
Std. Err.
.0261087
[95% Conf. Interval]
-.0941989 .0107357 (N)
-.0845923 .0008328 (P)
-.0976464 -.0021065 (BC)
N = normal, P = percentile, BC = bias-corrected
ATT estimation with the Kernel Matching method
Bootstrapped standard errors
n. treat.
n. contr.
ATT
Std. Err.
t
1038
811
-0.042
0.026
-1.598
El error calculado es 0.026. Estos resultados comparados con los del ejercicio 12.2, son bastante
parecidos (ATT= -0.034. Std. Error=0.024). Se mantiene el resultado negativo en términos de
problemas de salud de magnitud parecida, con un error similar que mantiene el efecto negativo dentro
del intervalo. Parece que está avalado por dos algoritmos de matching diferentes, que los
participantes en proyectos de inserción laboral tienen menos problemas de salud que los que no
participan.
Con la sentencia:
attk psalud0 eval1, pscore(psclase) boot epan bwidth(0.01)
Se realizan las estimaciones de nuevo con el método de matching kernel Epanechnicov y un intervalo
de 0.01 que produce resultados parecidos, tal como se indica a continuación:
— 27 —
ATT estimation with the Kernel Matching method
Bootstrapped standard errors
n. treat.
n. contr.
ATT
Std. Err.
t
1038
811
-0.039
0.029
-1.349
11.4. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
11.4. Radius Matching
En este caso el emparejamiento entre casos y controles se realiza con un algoritmo que, a partir del
PS calculado, busca cada control en un radio establecido por el usuario. STATA mediante el coman­
do attr establece por defecto el radio en 0.1.
— 28 —
Instituto de Estudios Fiscales
Por medio de la opción radius, el usuario puede cambiar este valor. El comando attr debe utilizarse
una vez estimado correctamente el PS, lo que puede realizarse mediante pscore. También puede
estimarse en el propio proceso del comando attr, especificando la lista de todas las variables utiliza­
das en la ecuación de participación, pero en este caso no se realiza el test de equilibrio.
Se establecen opciones para calcular los errores por bootstrapping, además de las opciones asocia­
das habitualmente con este procedimiento de estimación. También se contemplan ejemplos y notas.
Los autores (Becker & Ichino), facilitan su página y la dirección de internet donde pueden encontrarse
referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando30.
Se puede repetir el ejercicio del apartado anterior con este comando, para apreciar la sensibilidad de
los resultados al cambio en el algoritmo de matching. Este proceso es muy lento, por lo que no es
aconsejable hacerlo en clase En este caso las sentencias que deben utilizarse son las siguientes:
use "C:\psmdatos", clear
attr psalud0 eval1, pscore (psclase) boot
11.5. Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del
11.5. tratamiento
Los comandos para implementar el análisis de sensibilidad son: sensatt que utiliza una simulación de
variable binaria, mhbounds que utiliza los límites de Mantel-Haenszel. Puede consultarse su
funcionamiento en la ayuda de STATA.
11.6. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando
11.6. el comando psmath2 (autores Edwin Leuven y Barbara Sianesi)
Con el comando psmath2 se pueden implementar una variedad de métodos de propensity score
matching vecino mas próximo, kernel (Gaussiano, Uniforma, Epanechnicov), caliper, radio, así como
la métrica completa de Mahalanobis. El mismo comando puede utilizarse también para estimar
unicamente el PS.
30
Véase Anexo 2.
— 29 —
Comando:
psmatch2
Instalar el comando en el PC:
ssc install psmatch2, replace
Buscar información sobre el comando:
help psmatch2
En el próximo ejemplo utilizando el fichero PSMDATOS , estimaremos el PS a partir de las variables
observadas que incluiremos en el modelo de asignación al tratamiento eval1. El ejercicio es el mismo
que el realizado con el comando pscore.en la página 17.
La siguiente sentencia:
psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, common
Produce los resultados que aparecen a continuación:
Probit regression
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Log likelihood = -953.23828
eval1
Coef.
gtotal
pesola
sexo
ed
estu
emplea
problemas
_cons
-.040304
.1208904
.1056909
-.1959597
.0169852
.0648292
.0700118
.4796768
Std. Err.
.076101
.1279056
.0719277
.0315764
.0357807
.0368797
.0397731
.3087687
z
-0.53
0.95
1.47
-6.21
0.47
1.76
1.76
1.55
P>|z|
0.596
0.345
0.142
0.000
0.635
0.079
0.078
0.120
=
=
=
=
1446
53.26
0.0000
0.0272
[95% Conf. Interval]
-.1894592
-.1298001
-.0352847
-.2578484
-.0531437
-.0074536
-.007942
-.1254986
There are observations with identical propensity score values.
The sort order of the data could affect your results.
Make sure that the sort order is random before calling psmatch2.
— 30 —
.1088512
.3715808
.2466665
-.1340711
.0871141
.137112
.1479656
1.084852
Instituto de Estudios Fiscales
Como puede comprobarse son idénticos a los obtenidos con los mismos datos y el comando pscore.
Una vez calculado el PS con el comando psmatch2, se puede hacer un test de equilibrio de las
variables que intervienen en el modelo mediante el comando pstest.
También, con posterioridad al cálculo del PS, el comando psgraph presenta un gráfico del histograma
del PS para casos y controles lo que permite visualizar el grado de cumplimiento de la hipótesis de
soporte común.
El comando graph, en este ejemplo, realiza el gráfico que aparece a continuación:
.3
.4
.5
.6
Propensity Score
.7
Untreated
Treated: Off support
.8
Treated: On support
Este histograma representa que existe un cumplimiento aceptable de la hipótesis y permite además
reflejar casos de tratados fuera del soporte común (color verde) a los que se aludía en el apartado 9
de este documento.
Para estimar el efecto medio del tratamiento en los tratados con el método kernel normal con
psmath2, puede utilizarse la siguiente sentencia:
psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, kernel k(normal) common ate
out(psalud0).
Que produce los siguientes resultados:
Probit regression Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Log likelihood = -940.82995
eval1
Coef.
gtotal
pesola
sexo
ed
estu
emplea
problemas
_cons
-.0405308
.1462446
.1185782
-.1998551
.0162992
.0705424
.0860166
.4477802
Std. Err.
.0763826
.1287075
.0724062
.0317371
.0359886
.0371416
.0403248
.309747
z
-0.53
1.14
1.64
-6.30
0.45
1.90
2.13
1.45
P>|z|
0.596
0.256
0.101
0.000
0.651
0.058
0.033
0.148
=
=
=
=
1432
56.04
0.0000
0.0289
[95% Conf. Interval]
-.1902379
-.1060175
-.0233354
-.2620587
-.0542372
-.0022537
.0069815
-.1593127
.1091764
.3985067
.2604918
-.1376515
.0868356
.1433386
.1650516
1.054873
Variable
Sample
Treated
Controls
Difference
S.E.
T-stat
psalud0
Unmatched
ATT
ATU
ATE
.360520095
.358669834
.41609589
.414675768
.402419743
.359784355
-.054155673
-.04374991
-.056311535
-.048894362
.026101272
.027281345
.
.
-2.07
-1.60
.
.
Note: S.E. does not take into account that the propensity score is estimated.
psmatch2:
Treatment
assignment
psmatch2: Common
support
Off suppo On suppor
Total
Untreated
Treated
2
4
584
842
586
846
Total
6
1,426
1,432
— 31 —
Resultados muy similares a los obtenidos en el ejemplo del apartado 11. Los participantes en
proyectos de inserción laboral tienen menos problemas de salud que los no participantes.
12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS
12. RESULTADOS
El objetivo del análisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la
selección en variables no observables (Caliendo y Kopeinig, 2008). Tal y como se describía en el
apartado 10, todos los algoritmos de matching implican una elección entre sesgo y precisión, sin que
exista una regla clara de cual es el mas indicado en cada contexto.
Las consideraciones en torno al tamaño del grupo de comparación a la hora de elegir uno en concreto
no resultan suficientes para garantizar el resultado con ninguno de los métodos. Por ello, lo mas
conveniente, es comprobar de forma empírica la robustez de los estimadores, lo cual es factible
realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y
comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados
debe medirse también en relación a la especificación del modelo de participación (Dehejia 2005).
12.1. Sensibilidad a los algoritmos de Matching
— 32 —
Instituto de Estudios Fiscales
Los resultados que se presentan en esta tabla proceden del trabajo de Ayala, L. y Rodríguez, M.
(2011). Muestran todas las variables resultado, para las que se han estimado los efectos medios del
tratamiento, mediante cuatro algoritmos de matching diferentes. Se trata de evaluar si la participación
en programas de reinserción laboral, produce mejores resultados en términos de salud y comporta­
mientos saludables medidos por los 6 indicadores presentados en la tabla, que participar en progra­
mas dirigidos a mejorar capacidades en la vida cotidiana. Los resultados en cuanto a salud física, son
relativamente robustos, mantenimiento de efectos negativos en los problemas de salud física. No
sucede lo mismo en términos de salud mental. El signo negativo del efecto y la magnitud aproximada
que resulta con todos los algoritmos aplicados en hábitos como la adicción al juego y al alcohol, pone
de manifiesto que los resultados son estables.
12.2. Sensibilidad a la especificación del modelo de participación
En el trabajo de Rajeev Dehejia (2005) pueden encontrarse algunas sugerencias para la selección de
variables del modelo de asignación, así como la recomendación de ampliar el análisis de sensibilidad
de los resultados a pequeños cambios en la especificación de PS, incluyendo y excluyendo términos
de orden más elevado en la ecuación y contemplando interacciones entre variables. Se presenta a
continuación una tabla resumen del estudio de Ayala y Rodríguez citado en el apartado anterior a
título de ejemplo.
— 33 —
13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES
Las estrategias orientadas a la reinserción rápida de los beneficiarios de programas de welfare en el
mercado de trabajo combinan, con frecuencia, programas a mas largo plazo con objetivos de
formación y capacitación de los beneficiarios31. Cuando se evalúan estos programas es habitual que
existan difentes tratamientos simultáneos orientados a la reinserción laboral coexistiendo con
tratamientos orientados al desarrollo de capital humano, es decir heterogeneidad de programas o
tratamientos múltiples. En estos casos tiene interés evaluar la efectividad de un programa frente a
otro contemplando medidas alternativas de éxito para estudiar el impacto de cada uno de ellos en
función de indicadores diversos, o lo que es lo mismo diferentes variables resultado como pueden ser
distintas formas de empleo más o menos estable, indicadores de bienestar material, bienestar
subjetivo indicadores del estado de salud y muchas otras.
La situación de partida para la evaluación, en estos casos, es de heterogeneidad de programas y
medidas alternativas de resultados. Desde el punto de vista analítico, la estimación del PS, puede
enfocarse como un modelo logit multinomial , en el que la variable explicada es una variable
categórica que toma tantos valores como tratamientos excluyentes se trata de evaluar, pasando de
32
un modelo de dos estados a uno de múltiples estados .También es posible abordarlo estimando
tantos modelos logit o probit como contrafactuales sean necesarios, para evaluar programas
heterogéneos. La exigencia de que los tratamientos sean excluyentes, es decir que los beneficiarios
que participan en uno no lo hacen simultaneamente en otro, está conticionada por el marco teórico,
por lo que en la práctica puede ser necesario realizar una nueva definición de los tratamientos que
cumpla con esta necesidad.
Evaluation
Treatment A
Treatment B
1
Participation in a work-related scheme
Non-participation in a work-related scheme
2
Participation in general work-related schemes
Non-participation in a work-related scheme
3
Participation in intensive work-related
schemes
Non-participation in a work-related scheme
4
Participation in mixed work-related schemes
Non-participation in a work-related scheme
5
Participation in intensive work-related schemes
Participation in a general work-related scheme
6
Participation in mixed work-related schemes
Participation in a general work-related scheme
En el trabajo de Ayala, L. y Rodríguez, M. 2006b, relizado con datos del IMI, se agrega toda una
casuística de diferentes tratamientos en cuatro mutuamente excluyentes: actividades intensivas de
empleo (1), actividades generales orientadas al empleo(2), actividades orientadas a mejorar habitos
de vida(3), actividades orientadas al empleo generales e intensivas(1+2). A partir de estas
definiciones se realiazan varias evaluaciones (tratamientos múltiples) de unos tratamientos frente a
otros para observar los resultados desde el punto de vista del empleo, pobreza subjetiva, situación
económica comparada con 10 años antes, bienestar material y problemas de vivienda (medidas
alternativas de éxito).
En la tabla anterior se incluyen 6 de las evaluaciones realizadas. Cada grupo de tratados exige un
grupo de comparación estimado mediante PSM. Las estimaciones de la función de densidad, median­
te una función kernel normal, para el PS de participantes y no participantes en cada evaluación permi­
ten apreciar el grado cumplimiento de la hipótesis de soporte común para cada evaluación.
31
Véase Cancian and Meyer (2004), Moffitt (2001).
32
Véase Imbens (2000), Lechner (2001, 2002), Sianesi (2008), Imbens and Wooldridge (2009).
— 34 —
Instituto de Estudios Fiscales
Con el comando graph de STATA en combinación con el comando psmath2, se obtienen los histo­
gramas del PS para los 6 tratamientos tal como se indicaba en el apartado 11.6.
A continuación se incluye una tabla resumen de los efectos de cada evaluación en términos del ATT
para 7 variables resultado.
— 35 —
Los programas orientados al empleo tienen más éxito para independizar a las familias que dependen
del IMI, aunque no parece suficiente para mejorar el bienestar material. De los subprogramas orienta­
dos al empleo, los programas intensivos dan mejor resultado que los generales tanto en términos de
empleo como de bienestar material.
14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS
Hay un interés creciente entre los investigadores y también en la sociedad en evaluar los efectos de
la prevalencia de enfermedades físicas, mentales y problemas de comportamiento entre los
perceptores de prestaciones de welfare. Interesantes trabajos publicados en EEUU33 lo muestran. Se
han estudiado las interferencias de los problemas de salud física y mental para lograr los objetivos de
estos programas y también hay evidencias de que estas situaciones de salud precaria pueden ser
concurrentes con problemas de capital humano34. En los años 80 en Inglaterra se realizaron una gran
cantidad de investigaciones sobre las consecuencias del desempleo sobre la salud35. La Organización
Mundial de la Salud tiene en marcha Health Impact Assessment (HIA) una campaña para promover la
salud en todas las políticas que enmarca con rotundidad esta línea de investigación: identificar los
impactos indirectos sobre la salud de políticas, planes y proyectos en sectores y áreas que no son
salud36.
Desde un punto de vista de evaluación de programas, este planteamiento se corresponde con lo que
podría definirse como efectos indirectos, dado que mejorar la salud no entra dentro de los objetivos
que se persiguen con un programa de reinserción sociolaboral, o en un programa que trata de
proporcionar rentas a ciudadanos necesitados.
El enfoque analítico descrito en este documento, es totalmente válido en estos casos y varía unica­
mente en que en el momento de definir los indicadores de resultados para medir el éxito del progra­
ma, se incluyen además de las variables que representan los objetivos del mismo, otras que
contemplan situaciones de salud de los beneficiarios de los programas sociales. El trabajo de Ayala y
Rodríguez (2011), puede servir como ejemplo de evaluación de efectos indirectos con técnicas de
propensiy score matching37.
En concreto, en los ejemplos propuestos en los apartados anteriores, la variable resultado (Psalud0)
es precisamente una de las que mide efectos indirectos de la participación de los beneficiarios del
programa IMI en proyectos destinados a la reinserción laboral. A continuación se incluyen los
principales resultados obtenidos en términos de salud física y mental, y problemas ligados a
adicciones como alcoholismo y dependencias del juego y drogas, que aunque no son concluyentes
presentan efectos positivos. De hecho la reducción de problemas de salud física, aumenta la
empleabilidad y puede tener un efecto empleo positivo en el futuro. Además se reduciría el gasto de
hacer frente a los problemas de salud.
33
Véase Bjorklund (1985), Kovess et al. (1999), Danziger et al. (2000), Coiro (2008), Cawley and Danziger (2005), Meara and
Frank (2006).
34
Son interesantes los trabajos de Danziger, Kalil and Anderson ( 2000), Jayakody et al. (2000).
35
Una buena síntesis de estos trabajos se presenta en Fagin & Little (1984).
36
A estos efectos puede consultarse http://www.who.int/hia/en/. 37
Las tablas que se incluyen aquí proceden de una versión posterior del trabajo que está en evaluación. — 36 —
Instituto de Estudios Fiscales
Sirvan estas líneas para dar una idea de la gran cantidad de posibilidades que las técnicas cuasi
experimentales proporcionan a los investigadores, si bien la disponibilidad de los datos necesarios no
siempre se produce. En este caso, una encuesta realizada a beneficiarios del programa IMI, ha
permitido recabar una gran cantidad de información que no suele ser fácil de obtener.
15. CONCLUSIONES
El tema de la causalidad es la esencia de la evaluación de programas: ¿Hay alguna actuación delibe­
rada que causa un cambio en determinados resultados existiendo una vinculación teórica entre ellos?
Desde una perspectiva de evaluación de programas públicos, los tratamientos están en gran parte
compuestos de los programas de gobierno, políticas, legislación e innovaciones de la gestión pública.
En cambio, en el campo de la medicina, pionero en este tema y del que se ha incorporado una gran
— 37 —
parte de la terminología, los tratamientos pueden incluir, entre otros, la utilización de nuevos sistemas
de medicamentos, procedimientos quirúrgicos, y el uso de nuevos recursos médicos.
Comparar sin más los resultados del grupo de tratados con el de no tratados para atribuir la causa al
tratamiento implica resultados sesgados. El PSM es una de las técnicas más utilizadas para hacer
frente a los sesgos asociados con factores observables al evaluar el impacto de un programa. El pro­
cedimiento se basa en la estimación de un contrafactual, y en la definición de grupos comparables de
tratados y no tratados. El objetivo principal de este documento que es facilitar una guía para la aplica­
ción del estimador PSM, ha contado con ejemplos que ilustran los conceptos importantes en la eva­
luación de impacto y el PSM, ayudando a plantear las preguntas que con frecuencia son de interés en
las evaluaciones y explicando por qué, a menudo, son necesarios los métodos no experimentales
para abordar evaluaciones de impacto de forma complementaria.
La utilización de STATA en los ejemplos prácticos, pretende aprovechar las enseñanzas impartidas
en otros módulos del Curso, evitando la dispersión de la atención por desconocimiento del software
utilizado. La inclusión de referencias de software libre y otras alternativas comerciales en el Anexo 1,
pretende ampliar el campo de referencia de las herramientas analíticas que los alumnos puedan utili­
zar en el futuro, en consonancia con su situación laboral específica.
Se ha tratado, por tanto, de proporcionar información sobre cuestiones de evaluación de programas
con la idea de relacionar las técnicas, describiendo el contexto en el que el PSM es una metodología
válida teniendo en cuenta los supuestos teóricos y las hipótesis que es necesario verificar para su
aplicación, pero con un enfoque eminentemente práctico. Toda la formalización teórica necesaria está
disponible en la bibliografía recomendada y materiales complementarios facilitados a los alumnos. Al
tratarse de una metodología de evaluación cuantitativa, se ha abordado la necesidad de contar con
fuentes de información adecuadas y la problemática que puede existir con los datos disponibles para
que se respeten las condiciones que garanticen que el PSM sea una técnica apropiada para estimar
el efecto del programa que se trata de evaluar.
También se ha explicado la mecánica básica de esta técnica, los principales condicionantes y cues­
tiones a tener en cuenta en la implementación del estimador PSM. Con posterioridad a la estimación
del PS, debe realizarse la elección de un algoritmo de emparejamiento, para estimar el efecto del
tratamiento y por último algunos test para evaluar la validez de las hipótesis y la calidad del PSM. Se
han contemplado cuestiones como el cálculo de errores estándar del estimador con técnicas de bo­
otstrapping, algunos problemas que pueden surgir en la aplicación de las técnicas de PSM y la con­
veniencia de realizar un análisis de sensibilidad que incluya tanto la especificación del modelo de
participación como los algoritmos de matching.
A modo de síntesis, tras haber descrito las principales cuestiones a considerar en la aplicación de
esta metodología, se incluye a continuación la secuencia que debe respetarse al abordar una evalua­
ción de impacto mediante PSM. Lo que exige realizar, de forma ordenada, las siguientes tareas:
Dado que se trata de una técnica cuantitativa, lo esencial para iniciarla es disponer de la información
que permita abordarla, en concreto micro datos que se utilizaran para definir el modelo de participa­
ción a partir de características observables de las unidades en estudio, tanto participantes como no
participantes. Esta información deberá utilizarse también para la definición de los indicadores de re­
sultados que se consideren convenientes y que servirán de medida del éxito del programa o política
que se trate de evaluar y que en definitiva permiten medir el grado de cumplimiento de los objetivos
que se persiguen con el programa, es decir los efectos directos. En determinados casos la informa­
ción disponible permite además detectar efectos indirectos, positivos o negativos, que pueden haber­
se producido sin que se hayan planteado inicialmente al poner en marcha la política o el programa.
Debe tenerse presente que la calidad de la investigación depende en gran medida de la calidad de
los datos utilizados.
A partir de los datos disponibles, en primer lugar es necesario especificar el modelo de participación,
es decir la ecuación de asignación al programa que se pretende evaluar, y es necesario predecir la
probabilidad de participación a partir del modelo. Un objetivo clave de este momento es incluir todas
las variables que puedan afectar tanto a la participación en el programa como al resultado de interés.
Con ello se logra que, condicionado a estas variables observadas y medidas, no haya factores no
— 38 —
Instituto de Estudios Fiscales
medidos que afecten tanto a la participación como a los resultados de la falta de participación. Estas
variables observadas se utilizan para calcular el propensity score (probabilidad estimada de participa­
ción en el programa: PS) mediante un modelo probit o logit, que es una estimación paramétrica de un
modelo con variable dependiente binaria que, calcula los parámetros por el método de máxima vero­
similitud, en el marco de los modelos lineales generalizados (P. McCullach and J.A. Nelder, 1983). En
economía son los denominados modelos de elección discreta.
A continuación, las unidades participantes en el programa (tratadas) se emparejan (matching) con
unidades similares no participantes (sin tratamiento) basándose en la proximidad del valor de su PS.
En este punto, se debe elegir un algoritmo de matching entre las diferentes alternativas posibles (ve­
cino más cercano, radio, kernel, etc) teniendo en cuenta las características y posibles problemas de
los datos: tamaño de la muestra y trade-off entre el sesgo y la varianza de los estimadores. El softwa­
38
re disponible y en concreto STATA, permite aplicar cualquiera de estos algoritmos, basados en la
distancia de Mahalanobis.
Una vez logrado que cada unidad de tratamiento haya sido emparejada con una o varias unidades no
tratadas (matching), se puede evaluar el impacto del programa calculando sencillamente una diferen­
cia de medias del valor de la variable elegida para medir los resultados del programa entre tratados y
no tratados. Debe tenerse en cuenta que después del matching, se dispone de un grupo de tratados y
un grupo de no tratados que ya son comparables, porque la metodología PSM ha corregido el sesgo
de selección. Estos resultados deben complementarse con un test de equilibrio de las variables utili­
zadas en el modelo de participación entre los grupos y con un test de robustez de los estimadores.
Quizás la cuestión más importante en la aplicación de PSM es comprender en que contextos tiene
mayor probabilidad de funcionar siempre que se disponga de datos que permitan aplicarlo.
Como ya se ha mencionado, el PSM requiere de dos condiciones fundamentales para la correcta
estimación del impacto de un programa. La primera, es el supuesto de independencia condicional
(condición de selección en características observables), se mantiene cuando la asignación al trata­
miento es determinada únicamente por las características observables. Si es probable que la partici­
pación en el programa se derive de factores que no son observables para el investigador, el
estimador de emparejamiento (matching) puede ser sesgado. Sin embargo, en presencia de informa­
ción pre-tratamiento, se puede aplicar una versión modificada, el estimador matching de doble dife­
rencia para corregir algunos de estos sesgos, siempre y cuando el efecto de factores no observados
sea fijo en el tiempo.
La segunda condición, conocida como supuesto de soporte común, requiere la existencia de un sola­
pamiento importante entre los valores del PS de los tratados y el de los no tratados. Si esta hipótesis
no se sostiene, es imposible construir un contrafactual para estimar el impacto del programa. Es cru­
cial, por tanto, evaluar cuidadosamente si estas dos condiciones se cumplen antes de la aplicación
del enfoque del PSM que se ha descrito en estas páginas.
La comprensión sólida del programa que se trata de evaluar y una fuerte base teórica y conceptual
son esenciales para definir si la metodología del PSM es una técnica apropiada para estimar el im­
pacto del programa. Por ello los equipos de evaluación deben contar con profesionales de las diferen­
tes disciplinas que integran el proceso, la evaluación es un trabajo de equipo que precisa personas
bien formadas en técnicas cuantitativas que colaboren con los expertos del programa y contribuyan a
generar evaluaciones de calidad, creíbles y respetadas.
38
Véase Anexo 1.
— 39 —
Instituto de Estudios Fiscales
ANEXOS
ANEXO 1. Software libre y alternativas comerciales a STATA para implementar métodos de
ANMatching
PSAgraphics
Es una colección de funciones que realizan gráficos para el análisis propensity score. Desarrollado en R,
es software libre. Descrito en profundidad en James E. Helmreich, Robert M. Pruzek (2009). PSAgraphics:
An R Package to Support Propensity Score Analysis. Journal of Statistical Software 29(6), 1-23.
http://cran.r-project.org/
cem
Stefano Iacus, Gary King, and Giuseppe Porro son los autores de cem (Coarsened Exact Matching),
progama desarrollado para R, y también para STATA y para SPSS para estimar efectos causales
mediante métodos de matching.
http://gking.harvard.edu/cem/
Matching
Página web para la distribución de Matching, software desarrollado en R para estimar efectos causa­
les mediante propensity score matching. Contiene una gran cantidad de documentación de interés.
http://sekhon.berkeley.edu/matching
Matchit
Daniel Ho, Kosuke Imai, Gary King, Elizabeth Stuart son los autores de MatchIt, procesos no paramé­
tricos previos a estimaciones paramétricas.
http://gking.harvard.edu/matchit
Zelig
Kosuke Imai, Gary King, Olivia Lau son los autores de Zelig desarrollado en R. Matchit está integrado
en R que incluye una colección de análisis estadístico mucho más completa que las técnicas de mat­
ching. También puede descargarse de esta página la documentación e instrucciones de instalación
de Zelig y un documento con los avances más recientes del producto.
http://gking.harvard.edu/zelig
rbounds
Diseñado por Luke J. Keele con el software Matching desarrollado en R, está orientado al análisis de
sensibilidad con el método de Rosenbaum (2002). Puede descargarse de la página de CRAN.
http://cran.r-project.org/
SAS
Nota técnica.
http://support.sas.com/kb/30/971.html
Algoritmo Greedy matching
Matching 1:1 vecino mas próximo (nearest neighbor). Documentado en el SUGI:
Parsons, L. S. (2001). Reducing bias in a propensity score matched-pair sample using greedy match­
ing techniques.SAS SUGI 26, Paper 214-26
http://www2.sas.com/proceedings/sugi26/p214-26.pdf
Parsons, L.S. (2005). Using SAS software to perform a case-control match on propensity score in an
observational study.SAS SUGI 30, Paper 225-25.
http://www2.sas.com/proceedings/sugi25/25/po/25p225.pdf
— 41 —
Macro Gmatch
Emparejamiento de uno o más controles utilizando la macro GREEDY. Programada por Kosanke, J.,
and Bergstralh, E. (2004). Disponible en:
http://mayoresearch.mayo.edu/mayo/research/biostat/upload/gmatch.sas
Macro Vmatch
Emparejamiento de casos con controles utilizando un algoritmo de matching óptimo. Programada por
Kosanke, J., and Bergstralh, E. (2004). Disponible en:
http://mayoresearch.mayo.edu/mayo/research/biostat/upload/vmatch.sas
Macro Mahalanobis
Emparejamiento uno a uno, basado en PS y distancia de Mahalanobis. Programada por Feng, W.W.,
Jun, Y., and Xu, R. (2005). A method/macro based on propensity score and Mahalanobis distance to
reduce bias in treatment comparison in observational study. Disponible en:
www.lexjansen.com/pharmasug/2006/publichealthresearch/pr05.pdf
Modelo de selección ponderado en PS
Descrito en Leslie, S. and Thiebaud, P. (2006).Using propensity scores to adjust for treatment selec­
tion bias. Disponible en:
http://www.lexjansen.com/wuss/2006/Analytics/ANL-Leslie.pdf
Procedimientos SAS
PROC SURVEYSELECT
Descrito en Robby Diseker (2004) SUGI 29 209-29
http://www2.sas.com/proceedings/sugi29/209-29.pdf
PROC QLIM
Descrito en R. Scott Leslie y Hassan Ghomrawi (2008) SAS Global FORUM 366-2008
http://www2.sas.com/proceedings/forum2008/366-2008.pdf
PROC DISTANCE / PROC CANDISC / PROC DISCRIM
http://support.sas.com/documentation/onlinedoc/91pdf/sasdoc_91/stat_ug_7313.pdf
SPSS
Matching 1:1 vecino mas próximo (nearest neighbor PS matching). Programado por Painter, John.
(2004), desarrollado y probado en SPSS 11.5. Disponible en:
http://www.unc.edu/~painter/SPSSsyntax/propen.txt
EXCEL
Aplicación de análisis de sensibilidad realizada por Thomas E. Love, Center for Health Care Research
& Policy.
http://www.chrp.org/propensity/
Documentado en Thomas E. Love (2008) “Simple” Sensitivity Analyses for Matched Samples.
http://www.chrp.org/propensity/sensitivitydocumentation.pdf
Disponible en.
http://www.chrp.org/propensity/sensitivityspreadsheet.xls
— 42 —
Instituto de Estudios Fiscales
ANEXO 2. Direcciones útiles en internet
Página de Edwin Leuven
http://leuven.economists.nl/
Tiene un documento muy interesante de Introducción a STATA. Además de toda la documentación
sobre el comando psmath2 y muchas referencias de software libre para análisis econométrico.
Página de Guido Imbens
http://www.economics.harvard.edu/faculty/imbens
Tiene software disponible para implementar estimadores matching y regresión en discontinuidad con
STATA y MATLAB.
— 43 —
Página de Sascha O. Becker
http://sobecker.de/
Contiene software disponible para implementar estimadores matching con STATA pscore y análisis
de sensibilidad nhbounds.
Página de Barbara Sianesi
http://www.ifs.org.uk/people/profile/id/67/show/alll
Contiene varios trabajos muy interesantes sobre evaluación de impacto aplicando propensity score
matching y evaluación con múltiples tratamientos. Coautora del comando de STATA psmatch2.
— 44 —
Instituto de Estudios Fiscales
Página de Andrea Ichino
http://www2.dse.unibo.it/ichino/
Contiene software disponible para implementar estimadores matching con STATA pscore y análisis
de sensibilidad nhbounds. Coautor de los comandos con Becker.
Página de Jasjeet S. Sekhon
http://sekhon.berkeley.edu/
Contiene la dirección de una página especial de software para matching multivariante y propensity
score matching a través de la que se que distribuye Matching producto desarrollado en R que se in­
cluye en el apartado de software libre de este documento. Puede descargarse una gran cantidad de
información sobre Linux y R y muy interesantes trabajos sobre métodos cuantitativos.
— 45 —
Página de Thomas Ezra Love
http://www.chrp.org/love/
Contiene materiales muy interesantes sobre propensity score matching. También muchos enlaces.
Página del Banco Mundial
http://www.worldbank.org/
De donde se pueden descargar los mejores manuales de evaluación de impacto y muchos otros re­
cursos. Conviene consultarla a menudo.
— 46 —
Instituto de Estudios Fiscales
Página de STATA
http://www.stata.com/gsearch.php?q=propensity+score+matching&site=stata&client=stata&proxystyle
sheet=stata&output=xml_no_dtd/
Resultado de la búsqueda de documentación para propensity score matching con STATA.
Página de The Stata Journal
http://www.stata-journal.com/
Publicación trimestral que incluye artículos sobre la utilización del software STATA y también sobre
técnicas analíticas de datos. Se necesita suscripción para poder descargarlos. Trabajos de interés
sobre propensity score matching Vol2 N4 y 8, Vol4 N3, Vol7 N1 3 y 4, Vol8 N3 y 4, Vol9 N4.
— 47 —
Página de R
http://www.r-project.org/
Permite descargar el software R y toda la documentación necesaria. Entorno de software libre, dispo­
nible para Linux, Windows y MacOS X, orientado al análisis estadístico y gráfico, en el que están
desarrolladas gran cantidad de aplicaciones para análisis propensity score Una de las más interesan­
tes es el paquete PSAgraphics, que puede descargarse desde la misma página.
Página de CRAN
http://www.cran.r-project.org/
Red mundial de ftp y servidores web, que contiene versiones idénticas de código y documentación de
R totalmente actualizadas.
— 48 —
Instituto de Estudios Fiscales
Página de SCILAB
http://www.scilab.org/
Software libre para cálculo numérico. Muy parecido a Matlab. Puede descargarse el software y toda la
documentación necesaria.
Otras direcciones:
psmatch2
http://ideas.repec.org/c/boc/bocode/s432001.html
pscore
http://www.lrz-muenchen.de/~sobecker/pscore.html
cem
http://gking.harvard.edu/cem/
— 49 —
ANEXO 3. Glosario
Análisis de sensibilidad
El objetivo del análisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la
selección en variables no observables (Caliendo y Kopeinig, 2008). Todos los algoritmos de matching
implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas
indicado en cada contexto. Las consideraciones en torno al tamaño del grupo de comparación a la
hora de elegir un algoritmo no resultan suficientes para garantizar el resultado con ninguno de los
métodos. Por ello, lo mas conveniente, es comprobar de forma empírica la robustez de los
estimadores, los cual es factible realizando las estimaciones del efecto del tratamiento utilizando
distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios.
La sensibilidad de los resultados debe medirse también en relación a la especificación del modelo de
participación (Dehejia 2005).
Balancing Tests
En el marco de la evaluación de impacto mediante PSM, la búsqueda de un equilibrio de todas las
variables observables que intervienen en el cálculo del propensity score, entre participantes y grupo
de comparación, exige realizar un test, en el momento de la estimación para garantizar el cumplimiento
de la hipótesis de soporte común, que es una de las que sustenta la garantía de una aplicación rigu­
rosa de esta metodología.
Bootstrapping
Método propuesto por Bradley Efron en 1979, que permite aproximar la distribución de un estadístico
en el muestreo mediante la generación de varias muestras por ordenador. Ponerlo en práctica exige
gran capacidad de cálculo, y es por esta razón por la que los fuertes avances tecnólogicos en la
potencia de los ordenadores actuales, facilita su uso. Debido a esta facilidad, actualmente es normal
encontrar este método implementado en el software destinado a aplicar PSM.
Contrafactual
El principal reto de la evaluación de impacto, para que sea creíble, es la construcción de la hipótesis
resultado, es decir, lo que habría sucedido a los participantes en ausencia de tratamiento. Este fenó­
meno es inobservable por su propia definición, es lo que se denomina resultado contrafactual. Tiene
que ser estimado utilizando métodos estadísticos.
Distancia de Mahalanobis
Es una medida de distancia introducida por Mahalanobis que permite determinar la similitud entre dos
variables aleatorias multidimensionales teniendo en cuenta la correlación que existe entre ellas. Este
concepto de distancia está en la base de todas las métricas del matching.
Kernel Matching
Es un estimador de matching no paramétrico que compara el resultado de cada unidad tratada con
una media ponderada de los resultados de todas las unidades del grupo de comparación, utilizando
las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque
tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden
producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse
que el grado de cumplimiento de la hipótesis de soporte común es elevado.
Modelo de participación
Un modelo logit o probit, con variable dependiente binaria que indica el tratamiento y variables
explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta
ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X,
que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. Esta ecuación de
— 50 —
Instituto de Estudios Fiscales
asignación al programa es el modelo de participación Debe tenerse en cuenta que los modelos logit y
probit son modelos con heterocedasticidad que se estiman por el método de máxima verosimilitud.
Nearest-neighbor Matching (Vecino mas próximo).
Es uno de los algoritmos de matching mas utilizados en la práctica y uno de los que produce mejores
resultados. Consiste sencillamente en elegir del grupo de comparación el elemento con el PS mas
proximo. El sistema puede utilizarse con o sin reemplazamiento. En el último caso hay un matching uno
a uno, en el primero un elemento del grupo de control es utilizado mas de unoa vez, matching 1 a n.
Problema de la dimensionalidad
Con las técnicas de matching se pretende emparejar cada unidad participante en el programa (trata­
da) con una o varias unidades similares, en términos de variables observadas X, no participantes (sin
tratamiento). Cuando X es una única variable, p. ej. La edad, el concepto similar es claro: la misma
edad o la más próxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con­
cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 años, NE4) con el Caso-2 (36 años, NE1) y
el Caso-3 (50 años, NE4) ¿Cuál de ellos es similar al Caso-1? El Caso-2 es más próximo al Caso-1
en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con múltiples variables X, no
está definida con claridad la idea de proximidad.
Rosembaum y Rubin (1983) resolvieron este problema proponiendo el cálculo de una medida única el
propensity score (PS), probabilidad estimada de participación en el programa mediante un modelo
probit o logit con variables explicativas X. Los resultados de Rosembaum y Rubin forman la base
teórica del propensity score matching (PSM): la probabilidad de participación en un programa estima­
da a través del PS resume toda la información relevante contenida en las variables X. La idea de
proximidad en PS se define con claridad proporcionando una solución excelente al problema de la
dimensionalidad, cuya mayor ventaja consiste en la reducción de la dimensionalidad, que permite
emparejar por una única variable (PS) en lugar de un conjunto completo de variables observadas X.
Propensity Score (PS)
En el contexto de la evaluación de impacto, el propensity score , introducido por Rosembaum y Rubin
(1993) es un método alternativo para estimar efectos del tratamiento cuando la asignación al mismo
no es aleatoria, siempre que se pueda asumir selección en observables o lo que es lo mismo
independencia condicional . Un modelo logit o probit, con variable dependiente binaria que indica el
tratamiento y variables explicativas X, define la ecuación de asignación al programa. El valor del PS
calculado mediante esta esta ecuación es una probabilidad estimada de participar en el tratamiento,
condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la
dimensionalidad.
Propensity Score Matching (PSM)
Método de estimación no paramétrica, en el ámbito de la evaluación de impacto es un algoritmo que
empareja participantes y no participantes en un programa en base a la probabilidad condicional de
participar (PS), dada una serie de características observables. Si los resultados son independientes
de la participación, utilizar el grupo de comparación así obtenido, permite obtener un estimador no
sesgado del impacto medio del programa. El PSM utiliza la información de un grupo de unidades que
no participan en la intervención y tienen características observables similares a los que participan,
para identificar lo que habría ocurrido a las unidades que participan en ausencia de la intervención. La
clave es buscar y construir un grupo de comparación válido (contrafactual) para ver la diferencia de
los resultados entre los participantes y los no participantes similares en las características observa­
bles. De esta forma es posible estimar los efectos de la intervención.
Radius Matching
Consiste en especificar una distancia máxima del PS, denominada caliper, dentro de cuyo radio
buscar el enlace. La idea es que no solamente se utiliza el mas próximo dentro del radio sinó todos
los que existan en el grupo de comparación que estén dentro del radio, sin limitación de número, con
— 51 —
lo que se asegura que son tan similares como se quiera establecer al definir el caliper El radius
matchig debe emplearse cuando exixte riesgo de un matching muy pobre porque el cumplimiento de
la hipótesis de soporte comun deja amplias zonas de la distribución del PS sin solapar, y también
cuando el grupo de comparación es muy reducido.
Región de soporte común
En el contexto de la evaluación de impacto mediante PSM, para que el matching resulte factible se
precisa que existan unidades en el grupo de comparación con los mismos valores de PS que los que
participan en el programa de interés. Ello exige un solapamiento o intersección de las distribuciones
del PS entre los dos grupos que se van a comparar.
Selección en observables
En el contexto de evaluación de impacto con la metodología PSM, supone una fuerte restricción de
ortogonalidad entre los posibles resultados y el estado del tratamiento, dadas las variables observa­
das. Asumir esta hipótesis implica que la participación, condicionada a las características observa­
bles, es independiente de los posibles resultados. Selección en observables implica que las
características inobservables no juegan ningún papel para determinar la participación. A partir de
aquí, para obtener un grupo de comparación que permita evaluar los efectos cada participante puede
ser comparado con un no participante que tenga las mismas características observables. También se
denomina independencia condicional.
Sesgo de selección
Concepto introducido por James Heckman en la Econometría moderna. En el contexto de la evalua­
ción de impacto, las unidades participantes pueden diferir en características medibles y no medibles.
Desde una perspectiva de evaluación, las diferencias medibles (por ejemplo, edad, peso, altura,
número de hijos, ingresos, nivel de estudios) no son problemáticas, ya que pueden ser controladas en
los análisis estadísticos. Sin embargo, las diferencias imposibles de medir (por ejemplo, la inteligen­
cia, la motivación, el altruismo) son mucho más problemáticas, porque cuando están relacionadas con
las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del
programa. Hacer caso omiso de características pertinentes no medidas, normalmente sesga las esti­
maciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de selección.
Sesgo de auto-selección
Consecuencia de una selección no aleatoria, se denomina así al sesgo de selección en el caso parti­
cular de que los participantes se prestan voluntarios para el tratamiento.
Sesgos ocultos (Hidden Bias Rosembaum 2002)
En estudios de observación o experimentos aleatorios, los grupos de tratamiento y de control pueden
diferir en sus resultados, incluso si el tratamiento no tiene ningún efecto, lo que puede ocurrir cuando
los grupos no eran comparables antes del inicio del tratamiento. Los grupos pueden no ser compara­
bles de dos maneras diferentes: podrían variar con respecto a las características que se han medido,
en cuyo caso existe un sesgo evidente, o pueden diferir respecto a características que no se han
medido, en este caso habría un sesgo oculto. Los sesgos evidentes pueden ser controlados a través
de ajustes, como las técnicas de matching. Los sesgos ocultos son más difíciles de tratar porque las
medidas relevantes no están disponibles. Un análisis de sensibilidad pregunta acerca de cuánto ses­
go oculto tendría que estar presente para explicar los diferentes resultados en los grupos tratados y
controles. Un análisis de sensibilidad proporciona un marco tangible y específico para la discusión de
los sesgos ocultos, Rosenbaum (2002).
Tratamiento
En general, en el contexto de la evaluación de impacto, es una actuación deliberada también denomi­
nada variable independiente en la metodología PSM. Desde una perspectiva de evaluación de pro­
gramas públicos, los tratamientos incluyen programas y políticas de gobierno, legislación e
— 52 —
Instituto de Estudios Fiscales
innovaciones de la gestión pública. En el campo de la medicina, pionero en este tema y del que se ha
incorporado una gran parte de la terminología, los tratamientos pueden incluir, entre otros, la utiliza­
ción de nuevos sistemas de medicamentos, procedimientos quirúrgicos, y el uso de nuevos recursos
médicos.
ANEXO 4. Documentación adicional
• Fichero de datos para ejemplos PSMDATOS.
Contiene la información de microdatos en formato STATA para realizar todos los ejemplos en el aula.
• Comandos de STATA: PSCORE, GRAPH, ATTS, ATTR, ATTK, ATTNW, ATTND,SENSATT,
MHBOUNDS, PSMATCH2, PSGRAPH, PSTEST.
Son los comandos que permiten realizar los ejercicios con STATA.
— 53 —
REFERENCIAS BIBLIOGRÁFICAS
ABADIE, A.; DRUKKER, D.; HERR, J. L. and IMBENS, G. (2004): “Implementing Matching Estimators for
Average Treatment effects in Stata”. The Stata Journal 4(3), pp. 290-311.
ABADIE, A. and IMBENS, G. (2006): “Large Sample Properties of Matching Estimators for Average
Treatment Effects”. Econometrica 74(1), pp. 235-267.
– (2008): “On the Failure of the Bootstrap for Matching Estimators”. Econometrica 76(6), pp. 1537-1557.
– (2011): “Bias-Corrected Matching Estimators for Average Treatment Effects” Journal of Business
& Economic Statistic 29(1), pp. 1-11.
AUSTIN, PETER C. (2008): “A critical appraisal of propensity-score matching in the medical literature
between 1996 and 2003” Statist. Med. 2008; 27, pp. 2037-2049.
– (2008): REJOINDER. Discussion of “A critical appraisal of propensity-score matching in the medical
literature between 1996 and 2003” Statist. Med. 2008; 27, pp. 2066-2069.
AYALA, L. and RODRÍGUEZ, M. (2006a): “The Latin Model of Welfare: Do ‘Insertion Contracts’ Reduce
Long-Term Dependence?”, Labour Economics, 13, pp. 799-822.
– (2006b): “Evaluating welfare reform under program heterogeneity and alternative outcomes”, Con­
ference Improving Work and Income for low-income households: drawing lessons from UE and
U.S. reforms, Instituto de Estudios Fiscales, Madrid, 1-2 de junio de 2006.
– (2007a): “La utilización de registros administrativos como base para la investigación de políticas
sociales”. In Marcos, C. (dir.): El papel de los registros administrativos en el análisis social y
económico y el desarrollo del sistema estadístico. Madrid: Instituto de Estudios Fiscales.
– (2007b): “Barriers to employment and welfare duration”, Journal of Policy Modeling 29, pp. 237-257.
– (2010): “Explaining welfare recidivism: what role do unemployment and initial spells have?” Jour­
nal of Population Economics, 23, 2010, pp. 373-392.
– (2011): “Health-related Effects of Welfare-to-Work Policies: Evidence from Spain”. XVIII Encuentro
de Economía Pública. Málaga 3-4 febrero de 2011.
ALMUS, M. and CZARNITZKI, D. (2003): “The Effects of Public R&D Subsidies on Firms' Innovation Activi­
ties: The Case of Eastern Germany”. Journal of Business & Economic Statistics 21(2), pp. 226-236.
BAKER JUDY L. (2000): “Evaluating the Impact of Development Projects on Poverty. A Handbook for
Practitioners”. The World Bank. Washington D.C.
BECKER, S. O. & CALIENDO, M. (2007): “Sensitivity Analysis for Average Treatment Effects”. The Stata
Journal, 7 (1), pp. 71-83.
BECKER, S. and ICHINO, A. (2002): “Estimation of Average Treatment Effects Based on Propensity
Score”. The Stata Journal 2(4), pp. 358-377.
BLACK, D. and SMITH, J. (2004): “How Robust is the Evidence on the Effects of the College Quality?
Evidence from Matching”. Journal of Econometrics 121(1), pp. 99-124.
BLACKWELL, M.; IACUS, S.; KING, G. and PORRO, G. (2009): “cem: Coarsened exact matching in Stata”.
The Stata Journal 9(4), pp. 524-546.
— 55 —
BJORKLUND, A. (1985): “Unemployment and Mental Health: Some Evidence from Panel Data,” Journal
of Human Resources 20, pp. 469-483.
CALIENDO, M. and KOPEINIG, S. (2005): “Some Practical Guidance for the Implementation of Propensi­
ty-score matching”. Iza Discussion Paper 1588. Institute for the Study of Labor (IZA).
CANCIAN, M. and MEYER, D. R. (2004): ” Alternative Measures of Economic Success among TANF
Participants: Avoiding Poverty, Hardship, and Dependence on Public Assistance”. Journal of Poli­
cy Analysis and Management 23, pp. 531-548.
CAWLEY, J. and DANZIGER, S. (2005): “Morbid Obesity and the Transition from Welfare to Work” Jour­
nal of Policy Analysis and Management 24, pp. 727-43.
COIRO, M. J. (2008): “Depressive Symptoms Among Women Receiving Welfare,” Women & Health 32,
pp. 1-23.
DANZIGER, S.; KALIL, A. and ANDERSON, N. J. (2000): “Human Capital, Physical Health and Mental Health of
Welfare Recipients: Co-occurrence and Correlates,” Journal of Social Issues 56, pp. 635-654.
DEHEJIA, R. (2005): “Practical propensity score matching: a reply to Smith and Todd,” Journal of Eco­
nometrics 125, pp. 355-364.
DEHEJIA, R. H. and WAHBA, S. (1999): “Causal Effects in Nonexperimental Studies: Reeevaluating the
Evaluation of Training Programs”. Journal of the American Statistical Association 94, pp. 1053-1062.
– (2002): "Propensity Score-Matching Methods For Nonexperimental Causal Studies". The Review
of Economics and Statistics 84, pp. 151-161.
EFRON, B. and TIBSHIRANI, R. J. (1993): “An Introduction to the Bootstrap”. London: Chapman & Hall.
“Evaluación de la política de bonificaciones y reducciones de cuotas de la Seguridad Social destinada
a las personas en situación de discapacidad”.
FAGIN, LEONARD and LITTLE MARTIN (1984): ”The Forsaken Families: Effects of Unemployment on
Family Life”, London, Pelican.
FLORES-LAGUNES, A.; GONZALEZ, A. and NEUMANN, T. (2007): “Estimating the Effects of Length of Ex­
posure to a Training Program: The Case of Job Corps”. IZA Discussion Papers 2846, Institute for
the Study of Labor (IZA).
GALIANI, S.; GERTLER, P. and SCHARGRODSKY, E. (2005): “Water for Life: The Impact of the Privatiza­
tion of Water Services on Child Mortality”. Journal of Political Economy 113(1), pp. 83-120.
GERTLER, P. J.; MARTINEZ, S.; PREMAND, P.; RAWLINGS, L.; CHRISTEL, M. and VERMEERSCH, J. (2011):
“Impact Evaluation in Practice”. The International Bank for Reconstruction and Development / The
World Bank.
GLYMOUR, C. (1986): “Statistics and causal inference: comment: statistics and metaphysics” Journal of
the American Statistical Association, Vol. 81, n.º 396, pp. 964-966.
HANSEN, B. B. (2008): ”The esssential role of balance test in propensity-matched observational studies:
Comments on ‘A critical appraisal of propensity-score matching in the medical literature between
1996 and 2003’ by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2050-2054.
HANSEN, B. B. and KLOPFER, S. O. (2006): “Optimal full matching and related designs via network
flows”. JCGS 15, pp. 609-627.
HECKMAN JAMES J. (2001): “Micro Data, Heterogeneity, and the Evaluation of Public Policy: Nobel Lec­
ture”. Journal of Political Economy Vol. 109, n.º 4, pp. 673-748.
HECKMAN, J.; ICHIMURA, H. and TODD, P. (1998): “Matching as an Econometric Evaluation Estimator”.
The Review of Economic Studies 65(2), pp. 261-294.
HECKMAN, JAMES J.; ROBERT LALONDE, and JEFFREY SMITH. (1999): “The Economics and Econometrics
of Active Labor Market Programs.” In Handbook of Labor Economics, vol. 3, ed. Orley Ashenfelter
and David Card, 1865-2097. Amsterdam: North-Holland.
— 56 —
HEINRICH C.; MAFFIOLI, A. and VAZQUEZ, G. (2010): “A Primer for Applying Propensity-Score Matching.
Impact-Evaluation Guidelines” Inter-American Development Bank.
HILL, JENNIFER (2008): “Discussion of research using propensity-score matching: Comments on ‘A
critical appraisal of propensity-score matching in the medical literature between 1996 and 2003’
by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2055-2061.
HIRANO, K. and IMBENS, G. (2004): “The Propensity Score with Continuous Treatments”. Mimeographic
document.
HOLLAND, P. (1986): “Statistics and Causal Inference”. Journal of the American Statistical Associa­
tion 81(396), pp. 945-960.
ICHINO, A.; MEALLI, F. and NANNICINI, T. (2006): “From temporary help jobs to permanent employment:
What can we learn from matching estimators and their sensitivity?” IZA DP n.º 2149.
IMAI, K. and VAN DIJK, D. (2004): “Causal Inference with General Treatment Regimes: Generalizing the
Propensity Score”. Journal of the American Statistical Association 99(467), pp. 854-866.
IMBENS, G. W. (2000): “The Role of Propensity Score in Estimating Dose-Response Functions”. Bio­
metrika 87, 706—710.
– (2004): “Nonparametric Estimation of Average Treatment Effects Under Exogeneity: A Review”.
The Review of Economics and Statistics 86, pp. 4-29.
– (2008): “Estimating Variances for Estimators of Average Treatment Effects”. Mimeographic document.
IMBENS, G. W. and WOOLDRIDGE, J. M. (2009): “Recent Developments in the Econometrics of Program
Evaluation”, Journal of Economic Literature 47, pp. 5-86.
JALAN, J. and RAVALLION, M. (2003): “Estimating the Benefit Incidence of an Antipoverty Program by
Propensity-Score Matching”. Journal of Business & Economic Statistics 21(1), pp. 19-30.
JAYAKODY, R.; DANZIGER, S. and POLLACK, H. (2000): “Welfare Reform, Substance Use, and Mental
Health,” Journal of Health Politics, Policy and Law 25, pp. 623-651.
KING, G.; GAKIDOU, E.; RAVISHANKAR, N.; MOORE, R. T.; LAKIN, J.; VARGAS, M.; TÉLLEZ-ROJO, M. M.; ÁVI­
LA, J. E. H.; ÁVILA, M. H.; & LLAMAS H. H. (2007): A "politically robust" experimental design for pub­
lic policy evaluation with application to the Mexican universal health insurance program. Journal
of Policy Analysis and Management, 26(3), pp. 479-506.
KOVESS, V.; GYSENS, S.; POINSARD, R.; CHANOIT, P. F. and LABARTE, S. (1999): “Mental health and use
of care in people receiving a French social benefit,” Social psychiatry and psychiatric epidemiology 34,
pp. 588-594.
KURTH, T.; WALKER, A. M.; GLYNN, R. J.; CHAN, K. A.; L GAZIANO, J. M.; BERGER, K. and ROBINS, J. M.
(2005): “Results of Multivariable Logistic Regression, Propensity Matching, Propensity Adjust­
ment, and Propensity-based Weighting under Conditions of Nonuniform Effect” American Journal
of Epidemiology Vol. 163, No.3.
LAVY, V. (2002): “Evaluating the Effect of Teachers' Group Performance Incentives on Pupil Achieve­
ment”. The Journal of Political Economy 110(6), pp. 1286-1317.
LECHNER, M. (1999): “The Effects of Enterprise-Related Training in East Germany on Individual Em­
ployment and Earnings”. Annales d'Économie et de Statistique 55/56, pp. 97-128.
– (2001): “Some Practical Issues in the Evaluation of Heterogeneous Labor Market Programs by
Matching Methods”. In Lechner, M., and F. Pfeiffer (eds.), Econometric Evaluations of Active La­
bor Market Policies in Europe. Heidelberg: Physica/Springer.
– (2002): “Program Heterogeneity and Propensity-score matching: An Application to the Evaluation
of Active Labor Market Policies”. The Review of Economics and Statistics 84(2), pp. 205-220.
LEUVEN, E. and SIANESI, B. (2003): "PSMATCH2: Stata Module to Perform Full Mahalanobis and Pro­
pensity-Score Matching, Common Support Graphing, and Covariate Imbalance Testing”. Statis­
— 57 —
tical Software Components S432001 (revised May 2009). Newton, MA, United States: Boston
College Department of Economics.
Disponible en http://ideas.repec.org/c/boc/bocode/s432001.html.
MAFFIOLI, A.; VALDIVIA, M. and VÁZQUEZ, G. (2009): “Impact of a Technology Transfer Program on
Small Farmers: The Case of Ecuador’s PROMSA”. Mimeographic document.
MEARA, E. and FRANK, R. G. (2006): “Welfare Reform, Work Requirements, and Employment Barriers.”
N.B.E.R. Working Paper 12480.
MINISTERIO DE LA PRESIDENCIA. AGENCIA ESTATAL DE EVALUACIÓN DE LAS POLÍTICAS PÚBLICAS Y LA CALI­
DAD DE LOS SERVICIOS (2009): “Evaluación de la política de bonificaciones y reducciones de cuo­
tas de la Seguridad Social destinada a las personas en situación de discapacidad”. Disponible en
http://www.aeval.es/es/difusion_y_comunicacion/Publicaciones_AEVAL/Informes/Evaluaciones_2009/
E19.html
MCCULLAGH, P. and NELDER, J. A. (1983): “Generalized Linear Models”. Chapman & Hall/CRC Mono­
graphs on Statistics & Applied Probability.
MOSER, P. (2005): “How Do Patent Laws Influence Innovation? Evidence from Nineteenth-Century
World's Fairs”. The American Economic Review 95(4), pp. 1214-1236.
MOFFITT, R. (2001): “From Welfare to Work: What the Evidence Shows?” The Brookings Institution,
Policy Brief 13/2002.
NANNICINI, T. (2007): “Simulation-based Sensitivity Analysis for Matching Estimators”. The Stata Jour­
nal, 7 (3), pp. 334-350.
PEARL, J. (2009): Understanding propensity scores. In Causality: Models, Reasoning, and Inference,
Cambridge University Press, Second Edition.
– (2009b): Letter to the editor: Remarks on the method of propensity scores. Statistics in Medicine 28,
pp. 1415-1416.
PERSSON, T.; TABELLINI, G. and TREBBI, F. (2003): “Electoral Rules and Corruption”. Journal of the Eu­
ropean Economic Association 1(4), pp. 958-989.
ROSENBAUM, P. R. (2002): “Observational Studies”, Second Edition. New York, NY: Springer.
ROSENBAUM, P. and D. RUBIN. (1983): “The Central Role of the Propensity Score in Observational Stu­
dies for Causal Effects”. Biometrika 70(1), pp. 41-55.
– (1985): “Constructing a Control Group Using Multivariate Matched Sampling Methods that Incor­
porate the Propensity Score”. The American Statistican 39, pp. 33-38.
SIANESI, B. (2008): “Differential effects of active labor market programs for the unemployed”. Labor
Economics 15, pp. 370-399.
SMITH, J. and TODD, P. (2005): “Does matching overcome Lalonde’s critique of nonexperimental esti­
mators?”. Journal of Econometrics 125(1-2), pp. 305-353.
SHAHIDUR R. KHANDKER; GAYATRI B. KOOLWAL; and HUSSAIN SAMAD (2009): “Handbook On Impact
Evaluation: Quantitative Methods And Practices” World Bank Publications.
“Social Experimentation, Program Evaluation, and Public Policy”(2009): Maureen Pirog (Editor). WileyBlackwell.
STUART, E. A. (2008): “Developing practical recommendations for the use of propensity scores: Dis­
cussion of ‘A critical appraisal of propensity-score matching in the medical literature between
1996 and 2003’ by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2062-2065.
TRUJILLO, A.; PORTILLO, J. and VERNON, J. (2005): “The Impact of Subsidized Health Insurance for the
Poor: Evaluating the Colombian Experience Using Propensity-score matching”. International
Journal of Health Care Finance and Economics 5(3), pp. 211-239.
— 58 —
Descargar