TÉCNICAS DE EVALUACIÓN DE IMPACTO: PROPENSITY SCORE MATCHING Y APLICACIONES PRÁCTICAS CON STATA Autora: Magdalena Rodríguez Coma Instituto de Estudios Fiscales DOC. n.o 2/2012 N. I. P. O.: 634-12-002-1 IF INSTITUTO DE ESTUDIOS FISCALES N.B.: Las opiniones expresadas en este documento son de la exclusiva responsabilidad de los autores, pudiendo no coincidir con las del Instituto de Estudios Fiscales. Edita: Instituto de Estudios Fiscales I.S.S.N.: 1578-0244 Depósito Legal: M-23771-2001 ÍNDICE 11. INTRODUCCIÓN 12. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES 13. IMPORTANCIA DE LOS DISEÑOS CUASI-EXPERIMENTALES EN LA EVALUACIÓN 14. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES 15. EL PROBLEMA DE LA DIMENSIONALIDAD 16. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN 17. PROPENSITY SCORE MATCHING (PSM) 18. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM INDEPENDENCIA 19. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN. CÁLCULO DEL PROPENSITY SCORE (PS) CON STATA 10. DIFERENTES ALGORITMOS DE MATCHING 11. ESTIMACIÓN DEL CONTRAFACTUAL , EVALUACIÓN DE RESULTADOS Y ESTIMACIÓN DE ERRORES CON STATA 11.1. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en el método del vecino mas cercano (Nearest Neighbor Matching) 11.2. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching con estratificación (Becker & Ichino) 11.3. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en Kernel 11.4. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Radius Matching 11.5. Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del tratamiento 11.6. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando el PSMATH2 (autores Edwin Leuven y B) 12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS RESULTADOS 12.1. Sensibilidad a los algoritmos de Matching 12.2. Sensibilidad a la especificación del modelo de participación 13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES 14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS 15. CONCLUSIONES ANEXOS Anexo 1. Software libre y alternativas comerciales a STATA para implementar métodos de Matching y PS —3— Anexo 2. Direcciones útiles en Internet Anexo 3. Glosario Anexo 4. Documentación adicional REFERENCIAS BIBLIOGRAFICAS —4— Instituto de Estudios Fiscales 1. INTRODUCCIÓN El uso de técnicas micro econométricas para estimar los efectos las políticas de desarrollo se ha con­ vertido en un enfoque común, no sólo para los estudiosos, sino también para los responsables políti­ cos involucrados en el diseño, implantación y evaluación de proyectos en diferentes campos. Desde el punto de vista académico, la mayor parte de los estudios de evaluación publicados son cuasi­ experimentales y se basan en la aplicación de estas técnicas a la información proporcionada por im­ portantes fuentes de datos secundarias1. Entre estas técnicas cuasi-experimentales, el Propensity Score Matching (PSM) se aplica cada vez más en la comunidad de evaluación de políticas. En este trabajo se proporciona una guía de los as­ pectos clave para utilizar la metodología de PSM, con aplicaciones prácticas y ejemplos utilizando el programa STATA. Este documento ha sido elaborado con fines docentes. Dirigido a los alumnos asis­ tentes al III CURSO DE EVALUACIÓN DE POLÍTICAS PÚBLICAS Y PROGRAMAS PRESUPUESTARIOS celebrado en el Instituto de Estudios Fiscales, en Madrid del 3 al 28 de octubre de 2011, puede ser útil a profesio­ nales interesados en la comprensión de la aplicación de estas técnicas a determinados problemas de evaluación. La unidad didáctica resume las condiciones básicas para que el PSM se pueda utilizar para evaluar el impacto de un programa y también las fuentes de datos necesaria. Se explica de qué modo, en base al supuesto de independencia condicional junto con la hipótesis de soporte común, puede reducirse el sesgo de selección cuando la participación en un programa se determina a través de un modelo de participación especificado con variables que miden características observables. Se contemplan los principales aspectos técnicos de forma sencilla, abordándolos desde una perspectiva conceptual, que permita la comprensión de la metodología y su aplicación al trabajo empírico. También se describen diferentes algoritmos de matching y algunos test para evaluar la calidad de los resultados, ilustrando la importancia de realizar siempre un análisis de sensibilidad de las estimacio­ nes que proporcione mayor credibilidad a las evaluaciones de impacto realizadas. La inclusión de ejemplos basados en estudios de casos, se refieren a investigaciones realizadas con registros admi­ nistrativos procedentes de un programa social (IMI) que proporciona rentas a los más desfavorecidos, combinadas con programas de ayuda a la reinserción laboral2 y pretende facilitar a los alumnos la aplicación práctica con software y datos reales. Estos ejemplos, realizados con STATA3, abarcan evaluación de efectos directos, indirectos y también evaluación de una matriz de decisión en un con­ texto de tratamientos múltiples. Se dedica4 un apartado al software libre para tratar métodos de matching y PSM y alternativas co­ merciales de otros programas econométricos a STATA, con objeto de presentar a los lectores una panorámica más completa de las posibilidades analíticas que les permita adoptar las decisiones ade­ cuadas en cada caso. También se presenta un glosario5 con una breve descripción de los conceptos fundamentales de esta metodología. El apartado de referencias bibliográficas abarca referencias fun­ damentales6, manuales del Banco Mundial y Banco Inter-americano de Desarrollo7, referencias para aplicaciones con STATA8 y estudios empíricos. 1 A estos efectos, es interesante consultar Social Experimentation, Program Evaluation, and Public Policy (2009), volumen que contiene una colección de los mejores artículos de experimentos sociales y evaluación de programas que han aparecido en Journal of Policy Analysis and Management (JPAM). 2 Estudios realizados por Ayala y Rodríguez (2006, 2007, 2010a, 2010b, 2011). 3 En el III Curso de Evaluación de Políticas Públicas y Programas Presupuestarios se dedican varias sesiones a formación en STATA. En un excelente manual sobre evaluación de impacto como es el de Shahidur R. Khandker, Gayatri B. Koolwal, Hus­ sain Samad (2009) se incluyen todos los ejemplos con STATA. 4 Véase Anexo 1. 5 Los términos que aparecen en el texto en cursiva se incluyen en el glosario del Anexo 3 6 Caliendo, M. and Kopeinig, S. ( 2005); Dehejia, R. (2005); Dehejia, R.H. and Wahba, S. (2002); Heckman, J.;, Ichimura, H. and Todd, P. (1998); Heckman, James J.; LaLonde, Robert and Smith, Jeffrey (1999).; Imbens, G.W. (2004); Jalan, J. and Ravallion, M. (2003); Rosenbaum, P. and Rubin, D. (1983); Smith, J. and Todd, P. (2005). 7 Shahidur R.K. et al. (2009); Gertler, P.J. et al. (2011); Baker Judy L. (2000); Heinrich C. et al. (2010). 8 Abadie, A., D. et al. (2004); Becker, S.O. & Caliendo, M. (2007); Becker, S., &. Ichino, A. (2002); Nannicini, T. (2007). —5— 2. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES En todas las actividades de evaluación de programas es de interés fundamental conocer si una inter­ vención concreta, tal y como ha sido diseñada, es eficaz en el logro de sus objetivos principales. Una intervención bien diseñada (o "tratamiento") generalmente se basa en la teoría y la evidencia empíri­ ca, articulada en torno a los mecanismos de intervención del colectivo implicado en el proyecto, que en la práctica suele ser complejo e interdisciplinar, para lograr sus objetivos y producir los resultados deseados. El principal reto de la evaluación de impacto, para que sea creíble, es la construcción de la hipótesis resultado, es decir, lo que habría sucedido a los participantes en ausencia de tratamiento. Este fenó­ meno es inobservable por su propia definición, es lo que se denomina resultado contrafactual, y tiene que ser estimado utilizando métodos estadísticos dado que no se puede observar. La evaluación experimental, en la que la asignación al tratamiento (o la participación en el programa) es aleatoria, se utiliza en la evaluación de las intervenciones debido a sus ventajas estadísticas en la identificación de los impactos del programa. Cuando existe una asignación aleatoria de los participan­ tes a un programa, los grupos de participante y no participantes son comparables a efectos de resul­ tados medibles u objetivos definidos por indicadores. La aleatoriedad asegura que los grupos son comparables. Un tema muy relacionado como es el de la causalidad, que está en el fondo de todos los debates sobre evaluación, tiene enfoques poliédricos en la literatura y de gran complejidad9 . El tema de la causalidad es el núcleo de la evaluación de programas. La pregunta relevante podría ser: ¿Existe alguna actuación deliberada, a veces llamada tratamiento o variable independiente que causa un cambio en determinados resultados o variables dependientes, con una vinculación teórica entre ellos? Desde una perspectiva de evaluación de programas públicos, los tratamientos incluyen pro­ gramas y políticas de gobierno, legislación e innovaciones de la gestión pública. La asignación aleatoria al tratamiento se considera el estándar de oro (gold standard) en el trabajo de evaluación simplemente porque10 las unidades asignadas a los grupos tratamiento y control deben ser estadísticamente equivalentes en ambas características: las observables y las no observables. Una asignación aleatoria a los grupos de tratamiento y control permite asegurar que la participación en la intervención es el único factor diferenciador entre las unidades que participan y quienes quedan ex­ cluidos del programa, por lo que el grupo de control se puede utilizar para evaluar lo que habría suce­ dido a los participantes en ausencia de la intervención, sin necesidad de estimar un cortrafactual. Las unidades participantes pueden diferir en características medibles y no medibles. Desde una pers­ pectiva de evaluación, las diferencias medibles (por ejemplo, edad, peso, altura, número de hijos, ingresos, nivel de estudios) no son problemáticas, ya que pueden ser controladas en los análisis es­ tadísticos, si bien puede suponer un esfuerzo considerable recopilar y disponer de los datos. Sin em­ bargo, las diferencias imposibles de medir (por ejemplo, la inteligencia, la motivación, el altruismo) son mucho más problemáticas, porque si están relacionadas con las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de características pertinentes no medidas, normalmente sesga las estimaciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de selección o sesgo de auto-selección si los partici­ pantes son voluntarios para el tratamiento. En relación a la evaluación de programas sociales, es interesante investigar la incorporación de me­ didas activas de empleo en los programas de garantía de rentas. En España el desarrollo relativa­ mente reciente de estas medidas y la dispersión de algunas de estas actuaciones, tanto en el plano territorial como funcional, impide contar con un conjunto de evaluaciones tan extendido como el de otros países. Buena parte de estas iniciativas han surgido al hilo de la creciente asunción de compe­ tencias por parte de los gobiernos autonómicos y locales, siendo compleja la sistematización de los logros y los límites. 9 Sobre este tema y más concretamente la inferencia causal en las ciencias sociales pueden resultar de interés los trabajos de M.E.Sobel (1995, 1996, 1998) y Holland(1986). Pearl (2009) presenta una revisión de los más recientes avances en la inferen­ cia causal. Glymour (1986) desarrolla la importancia filosófica del tema. 10 Céteris páribus: método en el que se mantienen constantes todas las variables de una situación, excepto aquella cuya influencia se desea estudiar, permitiendo simplificar el análisis en fenómenos complejos. Expresión que, en economía, facilita la aplicación de modelos abstractos. —6— Instituto de Estudios Fiscales No existe en la actualidad una base de datos común de las diferentes experiencias territoriales. Sólo algunas Comunidades Autónomas cuentan con sistemas de registros adecuados para la evaluación11. Como ejemplo de las posibilidades y límites del uso de este tipo de información, pueden consultarse algunos resultados de las evaluaciones realizadas del programa (IMI) de renta mínima de inserción de la Comunidad Autónoma de Madrid (Ayala y Rodríguez, 2006, 2007, 2011), que utilizando técnicas de evaluación de impacto PSM con información procedente de registros administrativos y de encues­ tas realizadas a los beneficiarios que pasan por el programa IMI, estudian la movilidad general de los hogares participantes, identificando una serie de características socioeconómicas que determinan una mayor duración en los programas y que deberían ser tenidas en cuenta a la hora de decidir incluir a los beneficiarios en las actividades orientadas al empleo. Las iniciativas que consigan aumentar la empleabilidad de los beneficiarios contribuirán a reducir los procesos de dependencia de las presta­ ciones. En este sentido conviene resaltar la importancia de evaluar efectos indirectos de los progra­ mas que mejoren la empleabilidad, tema en el que se volverá a incidir más adelante. Otra conclusión importante de las evaluaciones realizadas se refiere a que las actividades orientadas al mercado de trabajo reducen la probabilidad de que los hogares vuelvan a los programas o alargan, al menos, el tiempo pasado fuera de los programas en el caso de las reincorporaciones, es decir alargan el tiempo de independencia del programa. También se han investigado los factores que influ­ yen en las reincorporaciones al programa, estudiando los efectos combinados de la longitud del pri­ mer episodio en el programa y el tipo de salida la primera vez12. Los ejemplos que se incluyen en estas páginas como estudios de caso, para realizar las estimaciones del PSM y evaluación de efectos del tratamiento con STATA, proceden de un fichero de micro datos obtenido a partir de las bases de datos utilizadas en estos trabajos. El fichero no contiene la informa­ ción completa, es un subconjunto de registros y variables con fines docentes que permita realizar en clase ejercicios que ayuden a una mejor comprensión de los conceptos (Fichero PSMDATOS). 3. IMPORTANCIA DE LOS DISEÑOS CUASI EXPERIMENTALES EN LA EVALUACIÓN A pesar de que la asignación aleatoria al tratamiento, que se realiza en la evaluación experimental, es una herramienta extraordinariamente útil para la evaluación, no siempre es factible ni a veces siquiera deseable su utilización. Además de lo costosa que puede resultar obtener la cooperación de los res­ ponsables y participantes en el proyecto en estudio que se trata de evaluar, un diseño de asignación aleatoria exige que la planificación, desarrollo e implementación se realice antes del inicio de la inter­ vención. Se trata en estos casos de evaluaciones “ex ante”. Pocos estudios de evaluación han sido diseñados antes de la ejecución del programa, en estos casos se pueden realizar diseños cuasi- ex­ perimentales para evaluar los programas. En algunas situaciones existen consideraciones éticas que no deben ser menospreciadas. Tampoco es irrelevante la complejidad que supone establecer la aleatoriedad en sentido estricto, que en mu­ chas ocasiones resulta muy difícil aplicar en la práctica. . La cuestión está en diseñar un proceso de asignación al azar que no pueda ser socavado por los técnicos del programa, que tienen incentivos para demostrar la efectividad del programa, unidades que quieran poder optar por estar dentro o fue­ ra del tratamiento, o políticos que quieran garantizar que las unidades de tratamiento en sus distritos políticos (bien sean personas, escuelas, hospitales, plantas de tratamiento de agua etc.) son los pre­ feridos. A veces, la aplicación de la aleatoriedad puede requerir la modificación de complicados pa­ quetes de software para asegurar que los solicitantes seleccionados al azar se eligen solamente para formar parte del grupo de tratamiento o el de control. Algunos experimentos han incorporado explíci­ tamente las presiones para socavar el proceso de asignación aleatoria en su diseño inicial13. La evaluación “ex post” también tiene ventajas, no exclusivamente de costes. En muchos casos per­ mite aprovechar una información que ya existe, procedente de la gestión y puesta en marcha del pro­ 11 Es el caso, entre otras, de Navarra, donde el sistema de registros del programa de Renta Básica ha permitido evaluaciones sistemáticas de los resultados de las estrategias de activación. 12 Ayala, L. & Rodríguez, M. (2010) utilizan modelos de duración paramétricos, incluyendo tres dimensiones: la duración del primer episodio, las condiciones macroeconómicas y características socio demográficas. 13 Puede consultarse King et al. (2007). —7— grama que no se tiene a priori, con lo que elementos desconocidos del proceso que puedan producir disfunciones es factible que sean tenidos en cuenta introduciéndolos como información adicional que permita una evaluación más realista y certera. A menudo los métodos no experimentales son necesa­ rios para abordar las evaluaciones de forma más global y completa. A través de la aplicación de métodos rigurosos de evaluación no experimental, se puede avanzar de forma notable en la comprensión de la efectividad de las intervenciones sobre los resultados principa­ les de interés Además de proporcionar estimaciones directas de los efectos del programa sobre los resultados relevantes, con estos métodos también se pueden abordar una gran variedad de cuestio­ nes relacionadas y complementarias con los objetivos fundamentales de la intervención, Por ejemplo, si algunas de las intervenciones son más eficaces para determinados grupos particulares ó individuos con características específicas que para otros. Además de permitir conocer los posibles factores que quedan fuera del control de los responsables y pueden influir en los resultados y cómo puede modifi­ carse la intervención para tenerlos en cuenta. En estas páginas se describe el método de evaluación no experimental denominado propensity score matching (PSM), método que se enmarca en el contexto de la estimación no paramétrica. El PSM utiliza la información de un grupo de unidades que no participan en la intervención y tienen caracterís­ ticas observables similares a los que participan, para identificar lo que habría ocurrido a las unidades participantes en ausencia de la intervención. La clave es buscar y construir un grupo de comparación válido (contrafactual) para calcular la diferencia de los resultados entre los participantes y los no parti­ cipantes que son similares desde el punto de vista observacional. De esta forma es posible estimar los efectos de la intervención. En los últimos años debido a las facilidades proporcionadas por las mejoras en la capacidad de cálcu­ lo, los algoritmos de asociación y el desarrollo de software específico, los métodos que emparejan directamente a los participantes con los no participantes que tienen características similares han sus­ tituido a la regresión como uno de los métodos preferidos para la estimación del impacto de la inter­ vención a partir de datos del grupo de comparación construido con esta técnica. 4. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES James Heckman introdujo el concepto de sesgo de selección en la econometría moderna. Recibió el Premio Nobel de Economía en 2000 por sus trabajos pioneros en abordar esta problemática14 y abrió un camino que ha producido una amplia y compleja literatura para corregirlo. Desde entonces, se han desarrollado una variedad de métodos para corregir el sesgo de selección incluyendo el propensity score matching (PSM), el estimador de la doble diferencia (DD) los métodos de variables instrumenta­ les (VI), los enfoques de modelos con efectos fijos (EF), cada uno de ellos con sus propias limitacio­ nes y aplicables sólo en determinadas circunstancias. La idea general del procedimiento PSM es sencilla. En ausencia de un diseño experimental la asigna­ ción al tratamiento es con frecuencia no aleatoria, y por lo tanto, los participantes en el tratamiento y los excluidos pueden variar no sólo en cuanto ser o no participantes, sino también en otras caracterís­ ticas que afecten tanto a la participación como al resultado de interés para la evaluación. Para evitar los sesgos que esto puede generar, los métodos de emparejamiento (matching) tratan de encontrar una unidad no tratada que sea “similar" a una unidad participante, lo que permite una estimación del impacto de la intervención como la diferencia entre el resultado de un participante y el caso de com­ paración emparejado. Calculando la media de todos los participantes y la de los no participantes “em­ parejados”, el método proporciona, a través de la diferencia de medias, una estimación del impacto medio del programa para los participantes. El mayor reto en la evaluación de cualquier intervención o programa es obtener una estimación fiable del denominado contrafactual es decir de la situación contraria: ¿Qué habría sido de las unidades participantes si no hubieran participado? Sin una respuesta creíble a esta pregunta, no es posible determinar si la intervención ha influido realmente en los resultados de los participantes o no. Sin 14 Véase Heckman, J.J. (2001). Artículo que además de servir como excelente referencia de los avances de la econometría moderna, incluye una bibliografía muy extensa sobre trabajos de evaluación de impacto con micro datos. —8— Instituto de Estudios Fiscales embargo, como su nombre indica, es imposible observar la situación contraria que solamente puede ser estimada. La evaluación del programa se enfrenta por tanto a un problema de falta de datos, ausencia de infor­ mación suficiente para el investigador, que el estadístico Paul Holland15 considera el problema fun­ damental de la inferencia causal: es imposible observar los resultados de la misma unidad en condiciones de tratamiento y al mismo tiempo en condiciones de no recibir el tratamiento (Holland 1986), no es factible observar al individuo que está en un programa y al mismo tiempo no está. En principio, una posible solución a este problema consiste en calcular un resultado hipotético basado en un grupo de no participantes y calcular el impacto de la intervención como la diferencia en el resul­ tado medio entre los grupos: diferencia de medias entre el grupo de tratados y no tratados. Sin em­ bargo, este planteamiento sólo es válido en una situación muy precisa: el grupo de comparación debe ser estadísticamente equivalente al grupo tratado. En otras palabras, los grupos deben ser idénticos, excepto por el hecho de que uno de ellos recibió el tratamiento. Por lo tanto, la principal preocupación es cómo encontrar un grupo de comparación adecuado. Sin tener un grupo de comparación válido, no es posible atribuir al programa la causa de los efectos que se tratan de evaluar. Cuando existe sesgo de selección porque no existe una asignación aleatoria de los participantes a un programa, los grupos de participante y no participantes no son comparables a efectos de resultados medibles u objetivos definidos por indicadores. La ausencia de aleatoriedad genera sesgos dado que los grupos no son comparables. Para eliminar o corregir estos sesgos, es preciso construir un grupo de comparación válido acudiendo a técnicas cuasi experimentales como el PSM. Con carácter general, los estudios cuasi-experimentales y no experimentales que tratan de corregir estadísticamente el sesgo de selección, suelen tener mayor credibilidad que los estudios en los que se ignora por completo el sesgo de selección. 5. EL PROBLEMA DE LA DIMENSIONALIDAD Uno de los temas críticos en la aplicación de técnicas de matching es definir claramente y justificar lo que significa "similar". Aunque puede ser relativamente sencillo asignar una unidad de comparación basada en una única característica observable, en la práctica, para que el proceso de matching logre eliminar el sesgo potencial, tiene que hacerse considerando una amplia gama de variables observa­ bles y observadas en las que las unidades de tratamiento y de comparación pueden variar. Lo que introduce el denominado problema de la dimensionalidad. Con las técnicas de matching se pretende emparejar cada unidad participante en el programa (trata­ da) con una o varias unidades similares, en términos de variables observadas X, no participantes (sin tratamiento). Cuando X es una única variable, p. ej. La edad, el concepto similar es claro: la misma edad o la más próxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con­ cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 años, NE4) con el Caso-2 (36 años, NE1) y el Caso-3 (50 años, NE4) ¿Cuál de ellos es similar al Caso-1? El Caso-2 es más próximo al Caso-1 en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con múltiples variables X, no está definida con claridad la idea de proximidad. Ro­ sembaum y Rubin resolvieron este problema proponiendo el cálculo de una medida única el propensi­ ty score (PS), probabilidad estimada de participación en el programa mediante un modelo probit o logit16 con variables explicativas X17. Los resultados de Rosembaum y Rubin forman la base teórica del propensity score matching (PSM): la probabilidad de participación en un programa estimada a través del PS resume toda la información relevante contenida en las variables X. La idea de proximi­ dad en PS se define con claridad proporcionando una solución excelente al problema, cuya mayor 15 Véase Holland (1986). Modelos estadísticos que generalizan los modelos lineales clásicos, son modelos con heterocedasticidad, que estiman los parámetros por el método de máxima verosimilitud. Toda la formalización teórica puede verse en Mc Cullach, P. & Nelder, J.A. (1983). 17 Véase Rosenbaum, P.R. and Rubin, D.B. (1983). 16 —9— ventaja consiste en la reducción de la dimensionalidad, que permite emparejar por una única variable (PS) en lugar de un conjunto completo de variables observadas X. 6. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN Mientras que los experimentos aleatorios suelen exigir una recogida de datos original, la gran mayoría de las evaluaciones cuasi-experimentales utilizan datos secundarios previamente recogidos en las estadísticas oficiales del país de que se trate, censos y encuestas y también registros administrativos del estado, comunidad autónoma, provincia o ciudad, en función del ámbito territorial de la evaluación y otras fuentes similares. Al tratarse de evaluaciones ex post, permiten utilizar la propia información generada en la puesta en marcha del programa que se trata de evaluar y la de la gestión de las pres­ taciones que contempla el mismo. En este sentido, disminuye los costes de la evaluación, y permite aprovechar la información disponible con otros fines, aunque debe tenerse en cuenta la gran cantidad de transformaciones necesarias para convertir registros administrativos en bases de datos utilizables en la evaluación empírica18. Los datos necesarios para el PSM han de permitir que se cumpla el supuesto de independencia con­ dicional, es decir que una vez controladas todas las características observadas relevantes, las unida­ des de comparación deberían tener, en promedio, el mismo resultado que las unidades de tratamiento hubieran tenido en ausencia de la intervención. Esto exige trabajar con micro datos para estimar el modelo de participación y no suele ser suficiente disponer de datos agregados. La mayoría de los estudios de evaluación publicados son cuasi-experimentales y se basan en importantes fuen­ tes de datos secundarias19. Dado que, en muchos casos, el investigador no sabe con precisión los criterios que determinan la participación en el programa, es conveniente controlar todas las variables que se sospecha que influ­ yen en la selección para participar en el tratamiento, aunque debe tenerse en consideración que el control de muchas variables puede generar problemas con el cumplimiento de la hipótesis de soporte común y esta es tan fundamental como la anterior para caracterizar correctamente el PSM. Como resultado de ello, el investigador debe tener acceso a un gran número de variables con suficiente calidad para realizar las estimaciones. La investigación empírica realizada en evaluación de impacto ex post, ha mostrado que también es im­ portante que los datos de las unidades de tratamiento y los de las unidades de control procedan de las mismas fuentes, con los mismos instrumentos de recogida, mismas unidades de medida y mismas defi­ niciones. En los casos en que los datos sobre las unidades de tratamiento y las unidades de compara­ ción se derivan de diferentes fuentes, es fundamental tratar de evitar que las variables se construyan de la misma forma (por ejemplo, con los mismos sistemas de codificación, si hay evidencia de lo contrario). Es muy importante dar un tratamiento similar a los valores missing para las unidades tratadas y no tratadas. A pesar de que los datos siempre tienen errores y esto es un problema potencial, el sesgo en las estimaciones de impacto puede ser relativamente pequeño si los datos de tratados y no trata­ dos tienen la misma estructura de error debido al uso del mismo sistema de imputaciones. Por el con­ trario, si existen diferencias sistemáticas en la forma en que se trataron los errores, en particular las medidas de los indicadores de resultado, incluso pequeñas diferencias pueden inducir importantes sesgos en las estimaciones de impacto. Es conveniente que los datos estén tomados en el mismo momento de tiempo en lugar de que exista un desfase temporal que provoque alteraciones importantes en los conceptos, definiciones, sistemas de codificación etc., a efectos de validez de la comparación. Todas estas consideraciones sobre las exigencias de los datos hacen que sean tan limitativos como la propia hipótesis de independencia condicional para poder llevar a cabo una evaluación de calidad mediante PSM. 18 Véase Ayala L. y Rodríguez M. (2007 a). La publicación que contiene este trabajo, referenciada en la bibliografía incluye múltiples estudios que contemplan esta problemática desde distintos enfoques y ámbitos temáticos. 19 Por ejemplo, en EEUU el sitio web de NLSY (National Longitudinal Surveys) contiene más de 4.000 artículos de revistas basados en el NSL, monografías, documentos de trabajo, y disertaciones http://www.bls.gov/nls/nlsbib.htm. El sitio web de PSID (Panel Study of Income Dynamics —Institute for Social Research— Bureau of Labor Statistics) incluye más de 2.700 artículos de revistas, libros y capítu­ los de libros y actas de congresos. http://psidonline.isr.umich.edu/Publications/Bibliography/default.aspx. — 10 — Instituto de Estudios Fiscales Los estudios de Ayala y Rodríguez, utilizados como ejemplos en este documento, que han sido reali­ zados utilizando técnicas de evaluación de impacto PSM, se basan en la información procedente de registros administrativos y de encuestas realizadas a los beneficiarios que pasan por el programa IMI. En programas con cierta trayectoria, la posibilidad de explotar estos registros permite disponer de bases de datos longitudinales, que, gracias a la existencia de un conjunto de métodos de análisis cada vez más sofisticadas aplicables a micro datos, hacen posible abordar diferentes aspectos rela­ cionados tanto con el funcionamiento de los programas como con las características de los hogares beneficiarios. En el campo de las políticas sociales en España, existe una experiencia limitada en el uso de regis­ tros administrativos para la investigación. De ahí deriva la menor tradición en la utilización de datos administrativos para evaluar estas políticas, que en otros países ha permitido contar con un importan­ te acervo de resultados. En España no existe esta cultura y es muy reciente y reducida, todavía, la importancia de los registros administrativos como fuente de datos, aunque la progresiva disminución de los costes en el proceso automático de la información permite acceder a ellos mediante herramientas analíticas modernas y eficientes. En otros países, como los nórdicos, el seguimiento y la evaluación de las políticas sociales se han basado, tradicionalmente, en el uso de registros administrativos. Algunas Comunidades Autónomas, en nuestro país, han realizado esfuerzos notables para convertir esos regis­ tros en bases de datos para el estudio de las políticas dirigidas a los hogares con menores ingresos. Las ventajas de la utilización de los datos administrativos sobre los programas de garantía de rentas son varias. La riqueza informativa contenida en los ficheros de beneficiarios representa un gran activo de conocimiento de la realidad social. Los sistemas administrativos en algunos servicios sociales son, además, esencialmente dinámicos y pueden ayudar a evaluar los cambios producidos a lo largo del tiempo, ya que ofrecen la posibilidad de seguir a los mismos individuos a lo largo de un periodo am­ plio. Su gran tamaño y, muy a menudo, la cobertura de universos completos permiten abordar tipos de análisis imposibles de realizar con otras fuentes. Existe, además, la posibilidad de enriquecer la base de micro datos creada a partir del proceso administrativo mediante el cruce con otras fuentes procedentes de encuestas, estadísticas oficiales u otros registros administrativos. No se debe olvidar, sin embargo, que existen también algunos problemas en la utilización de los da­ tos administrativos para el estudio de los hogares de baja renta y la evaluación de los programas de garantía de rentas. Estos datos deben ser depurados antes de poder ser utilizados para la investiga­ ción, ya que existen numerosas fuentes potenciales de errores y los formatos no suelen ser adecua­ dos para el análisis. Esta depuración incluye el proceso completo de transformación de los registros tal cual están en el sistema de información para la gestión en un fichero analítico. La preferencia por ficheros longitudinales en la mayor parte de los proyectos de investigación y evaluación de estos pro­ gramas suele exigir también transformaciones importantes en la estructura de los ficheros de datos administrativos. Estos trabajos suelen verse ampliamente compensados cuando se consigue llevar a cabo las evaluaciones de impacto que permiten conocer mejor la realidad, el funcionamiento de los programas y las posibles mejoras que permitan utilizar los recursos públicos con mayor utilidad social. 7. PROPENSITY SCORE MATCHING (PSM) Existe una amplia y variada literatura sobre la aplicación de la técnica de PSM en la evaluación de programas. Por ejemplo, Heckman, Ichimura y Todd (1998), Lechner (1999), Dehejia y Wahba (2002) y Smith y Todd (2005) utilizan las técnicas de PSM para estimar el impacto del mercado de trabajo y programas de capacitación sobre la renta; Jalan y Ravallion (2003) evalúan los programas de empleo y lucha contra la pobreza. En el campo de la medicina los ejemplos son abundantes. Tiene gran interés la reciente controversia en el Stat. Med., iniciada con el trabajo de Peter C. Austin20 que realiza una evaluación crítica del propensity score matching en la literatura médica incluyendo 47 artículos que abarcan el período comprendido entre 1996 y 2003 y permite obtener una panorámica muy completa en este ámbito. También el trabajo previo de Kurth et al. ((2005) en el que los autores comparan cinco métodos de evaluación, entre los que se incluyen varios algoritmos de PSM, para evaluar los efectos de un 20 Véase Austin: (2008), Hill (2008), Hansen (2008) y Stuart(2008). — 11 — fármaco en más de 6000 pacientes con problemas de isquemia procedentes de un registro de acci­ dentes cerebro vasculares en Alemania. En cuanto a evaluaciones relacionadas con la asistencia sanitaria, Trujillo, Portillo y Vernon (2005) analizan el impacto de la participación del seguro de salud en la atención sanitaria, Galiani, Gertler y Schargrodsky (2005) estudian el efecto de suministro de agua en la mortalidad infantil. Otros ámbitos de aplicación como la educación y la política permiten encontrar ejemplos como el trabajo de Almus y Czarnitzki (2003) y Moser (2005) que evalúan el impacto de los subsidios de in­ vestigación y desarrollo y las leyes de patentes en la innovación; Lavy (2002) estima el efecto de los incentivos de desempeño docente en el rendimiento de los alumnos, y Persson, Tabellini y Trebbi (2003) analizan el impacto de la reforma electoral en materia de corrupción. En España, además de los trabajos citados de Ayala y Rodríguez, la Agencia de Evaluación de Cali­ dad (AEVAL), dependiente del Ministerio de Política Territorial y Administración Pública, realizó la evaluación de la política de bonificaciones y reducciones de cuotas de la Seguridad Social destinada a las personas en situación de discapacidad con esta metodología21. El Propensity score matching (PSM), es un algoritmo que empareja participantes y no participantes en un programa en base a la probabilidad condicional de participar (PS), dada una serie de característi­ cas observables. Si los resultados son independientes de la participación, condicionada en variables observables, utilizar el grupo de comparación obtenido de esta forma, permite lograr un estimador no sesgado del impacto medio del programa. El PSM es una de las innovaciones más importantes en el desarrollo aplicado de los métodos de em­ parejamiento, resuelve el problema de la dimensionalidad sintetizando toda la información que pro­ porcionan múltiples variables en una variable única, permitiendo realizar el matching con sola dimensión. El PSM se define como la probabilidad de que una unidad de la muestra combinada de participantes y no participantes reciba el tratamiento, a partir de un conjunto de variables observadas. Si toda la información relevante para la participación y los resultados es observada por el investigador, el PSM (probabilidad estimada de participación) produce emparejamientos válidos para estimar el im­ pacto de una intervención. Por lo tanto, en lugar de intentar que coincidan en todos los valores de las variables observadas, los casos pueden ser comparados sobre la base del PSM exclusivamente. Existen fundamentalmente dos tipos de algoritmos de matching: el nearest neighbor matchig (vecino más próximo) que empareja una unidad participante con la unidad del grupo de comparación que tenga el PS más parecido y los métodos basados en kernel que emparejan a cada participante con un resultado calculado como una media ponderada kernel de resultados de todos los no participantes. 8. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE INDEPENDENCIA 8. CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM Una respuesta individual es una función de participación con características observables e inobserva­ bles. En general los que no participan difieren de los que participan en la situación de la participación. La heterogeneidad es debida tanto a características observables como no observables. En el contex­ to de los estudios observacionales, no experimentales, el PSM se enmarca en el contexto de la esti­ mación no paramétrica. Para obtener estimadores consistentes del impacto del programa, con este método, hay que asumir lo que se denomina independencia condicional en su aplicación. También denominada selección en observables, supone una fuerte restricción de ortogonalidad entre los posi­ bles resultados y el estado del tratamiento, dadas las variables observadas. Lo que conlleva asumir esta hipótesis es que la participación, condicionada a las características obser­ vables, es independiente de los posibles resultados. Selección en observables implica que las carac­ terísticas inobservables no juegan ningún papel para determinar la participación22 . A partir de aquí, para obtener un grupo de comparación que permita evaluar los efectos de la participación, se buscará para cada participante uno o varios no participantes que tengan las mismas características observables. 21 Véase Aeval (2009). 22 Véase Dehejia and Wahba (2002). — 12 — Instituto de Estudios Fiscales En la prá áctica, la sosspecha de qu ue esta hipóttesis no se sostiene, es lo que condicciona la valid dez de un bilidad de los resultadoss precisa de otra hipótes sis adicio­ estudio realizado con esta técnicca. La credib erteza de qu ue existe un solapamientto en la distribución r de observables entre el grup po de tra­ nal: la ce e comparación, lo que se denomin na hipótesis de soporte e común, que es tan tados y el grupo de elección en observables.. restrictivva como la se La posib bilidad de ap plicar el PSM M en una eva aluación de impacto suele exigir cierrtos equilibrio os en los oximándose todo lo posib ble al cumplimiento de am mbas hipótesis, con la co onsidera­ condicionantes, apro ue los datos de que se dispone tengan la riqueza y calidad suficiente pa ara poder ción adiccional de qu do con las co onsideracione es que se ex xponen en el apartado 6. abordarlo, de acuerd e el matching g resulte possible se precisa que existtan unidadess en el grupo o de compara ación con Para que mos valores de PS que lo os que participan en el prrograma de interés. Ello exige un sola apamien­ los mism S entre los do os grupos qu ue se van a comparar. En el caso to o intersección de las distribuciones del PS ades en las que los valores r de las variables observadas que entran en la ecuación de que existan unida mación del PS S dan como resultado qu ue no reciba an nunca el tratamiento o que siemprre lo reci­ de estim afactual para a ellos. Los que nunca re eciben tratam miento no tienen con quie en empa­ ban, no existe contra ben tratamiento no pued den emparejarse con rejarse en el grupo de tratadoss, los que siiempre recib n el grupo de e controles. En el histog grama del ejemplo de la página 36 puede obserrvarse de nadie en osibilidad. En estos caso os lo que debe hacerse es restringir el matching y la esti­ modo grráfico esta po el tratamiento o a la región de soporte común. mación del efecto de En la práctica lo que e implica es que debe restringirse el análisis al grupo de no o participantes cuyos olapan con lo os de los qu ue participan. Si se asum me la selecciión en carac cterísticas valores del PS se so bles porque se acepta qu ue se cumple la hipótesis de soporte e común, el matching deb be hacer­ observab ndo en cuen nta que del colectivo de no participan ntes se seleccione un grrupo de com mparación se tenien ución de las características observad das sea lo más parecida posible a la a distribu­ en el cual la distribu es. En el casso de un ma atching exactto, la única diferencia que existe ción en el grupo de participante n participante e y su pareja a es que el participante recibe el tratamiento y su contrafacttual no lo entre un n comparable es y que pueda aplicarse el método PSM para recibe. De ahí se deriva que los grupos sean estimas el efecto dell programa. En el dia agrama que se incluye más abajo, se presentan n de modo esquemático los rangos de casos ados en funcción del PS estimado (co olor naranja)) y los excluidos por ambos extremo os del PS empareja erde). Estos últimos no se incluirían n en el análisis por que edar fuera de e la zona de e soporte (color ve común. — 13 — A continuación se incluye la función de densidad, estimada mediante una función kernel normal, para el PS de participantes y no participantes donde puede apreciarse una zona de soporte común entre 0.3 y 0.9 aproximadamente. El gráfico está realizado con datos reales procedentes del trabajo de Ayala L. and Rodríguez, M. (2011). Es importante destacar que la utilización del PS como única medida de todas las características observables que intervienen en su estimación, simplificando de modo notable todo el proceso de evaluación, es posible debido al hecho de que la hipótesis de independencia condicional se mantiene cuando se utiliza el PS en lugar de todas las variables (Rosembaun and Rubin 1983). 9. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN. 9. CÁLCULO DEL PROPENSITY SCORE (PS) CON STATA En el marco de la evaluación de impacto, el propensity score , introducido por Rosembaum y Rubin (1993) es un método alternativo al diseño experimental y a otros enfoques cuasi-experimentales para estimar efectos del tratamiento cuando la asignación al mismo no es aleatoria, siempre que se pueda asumir selección en observables o lo que es lo mismo independencia condicional. Se utiliza un modelo logit o probit23, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta esta ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. El comando STATA que permite estimar el propensity score, es decir la probabilidad de que una uni­ dad en la muestra combinada de los participantes y los no participantes reciba el tratamiento, dado un conjunto de variables observadas, es el pscore. Comando: pscore Instalar el comando en el PC: Buscar información sobre el comando: ssc install pscore, replace help pscore Con una estructura similar a cualquier comando de STATA, las páginas de información sobre pscore que se obtienen a través de help, incluyen la sintaxis, es decir la forma en que debe ser escrito en el editor de STATA la sentencia completa del comando pscore. 23 El marco teórico de estos modelos puede verse en McCullagh, P. and Nelder, J.A. (1983). — 14 — Instituto de Estudios Fiscales A continuación hay una descripción detallada de todas las utilidades del comando: estima la probabili­ dad de recibir el tratamiento (PS) mediante un modelo probit o logit, a partir de un conjunto de variables y agrupa los individuos en bloques en función del valor estimado por el modelo para el PS, muestra una estadística resumiendo la distribución del PS estimado en los bloques y aplica un test de comprobación de la hipótesis de equilibrio de cada una de las variables que intervienen en el modelo. En el caso de que no se verifique esta hipótesis, se especifica un modelo menos parsimonioso para el PS. Por último se almacena en una variable el valor del PS para cada registro y opcionalmente el número de bloque al que pertenece. El PS estimado de esta forma puede ser utilizado conjuntamente con otros comandos de STATA como attr, attk, attnw, attnd, para obtener estimaciones del efecto medio del tratamiento en los tratados, utilizando diferentes fórmulas de matching: radio, kernel, vecino más próximo en una de las dos versiones (con pesos iguales ó con recorrido aleatorio), con estratifica­ ción… De ellos se hablará más adelante en este documento. La información continúa con una descripción detallada de todas las posibles opciones que admite el comando, incluyen unas notas sobre aspectos relevantes como la consideración de los valores mis­ sing, como debe ser la variable que describe el tratamiento, la conveniencia de actualizar STATA antes de proceder a realizar el análisis y algunas otras. A continuación se incluyen algunos ejemplos de cómo se utiliza el comando y la referencia de los autores, en este caso Sascha O. Becker Center for Economic Studies, University of Munich y Andrea Ichino Department of Economics, European University Institute, Florence. Por último, la referencia a comandos relacionados con pscore y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando. A título de ejemplo del funcionamiento, utilizando un fichero ficticio de datos transformados (PSMDATOS), procedente de los estudios realizados por Ayala y Rodriguez con los registros administrativos del IMI de la CAM, se estima el PS con STATA, para conocer la probabilidad de — 15 — participar en proyectos de inserción entre el colectivo de los perceptores de un subsidio de rentas mínimas. La probabilidad se estima en función de las variables observadas a la entrada en el programa IMI: tamaño del hogar, nivel de educacuón, nivel de empleabilidad, número de problemas sociales, edad y sexo de los participantes. PSMDATOS es el fichero que contiene los microdatos. Las variable eval1 es una variable dicotómica que toma valor 1 cunado un beneficiario del IMI participa en proyectos de inserción, y valor 0 en caso contrario. Las varibles observadas que se incluyen el el modelo, en este fichero de datos se denominan gtotal, pesola, sexo, ed, estu, emplea y problemas. El valor del ps estimado por el modelo se almacenará en la variable psclase. Se incluye comsup como opción, en cumplimiento de la hipótesis de soporte común, para restringir el análisis a todos los tratados y todos los controles que cumplen la propiedad de equilibrio de todas las variables que intervienen en la estimación. Esta opción genera automáticamente una variable dicotómica adicional denominada comsup que identifica cuando toma valor 1 los registros que están en la zona de soporte común. Las siguientes sentencias de STATA: use "C:\psmdatos", clear pscore eval1 gtotal pesola sexo ed estu emplea problemas, pscore (psclase) blockid (bkclase) comsup Producen los resultados que se incluyen a continuación: **************************************************** Algorithm to estimate the propensity score **************************************************** The treatment is eval1 eval1 Freq. Percent Cum. 0 1 811 1,038 43.86 56.14 43.86 100.00 Total 1,849 100.00 Estimation of the propensity score Iteration 0: Iteration 1: Iteration 2: log likelihood = -979.86622 log likelihood = -953.25484 log likelihood = -953.23828 Probit regression Number of obs LR chi2(7) Prob > chi2 Pseudo R2 Log likelihood = -953.23828 eval1 Coef. gtotal pesola sexo ed estu emplea problemas _cons -.040304 .1208904 .1056909 -.1959597 .0169852 .0648292 .0700118 .4796768 Std. Err. .076101 .1279056 .0719277 .0315764 .0357807 .0368797 .0397731 .3087687 z -0.53 0.95 1.47 -6.21 0.47 1.76 1.76 1.55 P>|z| -.1894592 -.1298001 -.0352847 -.2578484 -.0531437 -.0074536 -.007942 -.1254986 Description of the estimated propensity score in region of common support Estimated propensity score 1% 5% 10% 25% 50% .5954652 75% 90% 95% 99% .6597818 .7077516 .7305123 .7688693 Smallest .3552976 .3597025 .3616426 .3622831 Largest .7930194 .8124483 .8149598 .8307079 Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis 1446 53.26 0.0000 0.0272 [95% Conf. Interval] 0.596 0.345 0.142 0.000 0.635 0.079 0.078 0.120 Note: the common support option has been selected The region of common support is [.35529761, .83070789] Percentiles .375231 .4271826 .4585166 .5228032 = = = = 1444 1444 .5876926 .0931448 .008676 -.2024601 2.394718 — 16 — .1088512 .3715808 .2466665 -.1340711 .0871141 .137112 .1479656 1.084852 Instituto de Estudios Fiscales El fichero o tiene 1849 9 casos de lo os cuales un 56,14 % parrticipan en prroyectos de iinserción. El mode elo que estim ma el PS es un modelo probit, qu ue estima lo os parámetro os por el mé étodo de d, eliminand do los valores missing y con dos iteraciones.. Las variab bles mas máxima--verosimilitud dad, empleab bilidad y núm mero de prob blemas y la región de so oporte comú ún abarca significattivas son ed e 0 y 1. A co ontinuación se presenta la distribució ón del PS desde 0.35 a 0.83, de un rango teórico entre o en la región de soporte e común: estimado Descr ription of the estimated propen nsity score in re egion of common support Est timated propensi ity score 1% 5% 10% 25% Percentiles .375231 .4271826 .4585166 .5228032 50% .5954652 75% 90% 95% 99% .6597818 .7077516 .7305123 .7688693 Smallest .3552976 .3597025 .3616426 .3622831 Largest .7930194 .8124483 .8149598 .8307079 Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis 1444 1444 .5876926 .0931448 .008676 -.2024601 2.394718 Por últim mo se incluyen en los re esultados el número de bloques (7) que logra eq quilibrar la media del PS, el grupo de tratados con la a media, el grupo de co ontroles en cada uno de e los 7 estratos y el resultado o satisfactorrio del test de equilibrio que añade una tabla co on la distribución del nú úmero de tratados y controles en cada uno o de los estra atos de la reg gión de sopo orte común. Se añad den dos nue evas variable es al fichero o original ps sclase y bkcclase. En la variable ps sclase se almacen nen los valore es estimadoss del propen nsity score. En la variable e bkclase se almacena el número del bloqu ue a que perrtenece cada a uno de los valores del PS estimado o. Puede aña adirse la opc ción detail para obttener una do ocumentació ón mas detallada de los pasos realizzados hasta a llegar a ob btener los resultado os finales. — 17 — 10. DIFERENTES ALGORITMOS DE MATCHING Cuando hay que elegir entre los diferentes algoritmos mediante los que se trata de emparejar, en base al PS, unidades tratadas con unidades del grupo de control hay determinadas cuestiones que deben ser tenidas en cuenta. En primer lugar si se realiza el matching con o sin reemplazamiento, además de establecer una medida de proximidad, establecer un sistema de ponderación y decidir cuantas unidades de comparación se emparejan con cada unidad de tratamiento. Historicamente, el matching uno a uno es el primero que se ha utilizado. Se realiza mediante un muestreo sin reemplazamiento en el grupo de comparación, es decir cada unidad del grupo de comparación unicamente se empareja una vez y cada unidad participante tiene un enlace en el grupo de control. Los problemas en este caso se presentan cuando la hipótesis de soporte comun deja amplias zonas de la distribución del PS sin solapar, y también cuando el grupo de comparación es 24 muy reducido. En estos casos las unidades tratadas se emparejan con otras que no son similiares . Por ello muchas veces se utiliza el muestreo con reemplazamiento, y una misma unidad del grupo de comparación se utiliza como pareja de varios casos. Las especificaciones alternativas al mathing uno a uno son mas recientes. Si en lugar de un elemento del grupo de comparación se utilizan todos los que tienen un PS próximo, las estimaciones utilizan mejor la información disponible y son mas estables. La contrapartida es que si un mismo elemento del grupo de comparación se utiliza muchas veces podría aumentar el error de muestreo. Entre los algoritmos de matching mas utilizados en la práctica y uno de los que produce mejores resultados es el denominado nearest neighbor matching (vecino mas próximo). Consiste sencillamente en elegir del grupo de comparación el elemento con el PS mas proximo. El sistema puede utilizarse con o sin reemplazamiento. En el último caso hay un matching uno a uno, en el primero un elemento del grupo de control es utilizado mas de una vez. El radius matchig debe emplearse cuando existe riesgo de un matching muy pobre por alguna de las razones ya aludidas. Consiste en especificar una distancia máxima del PS (caliper) dentro de cuyo radio se busca el enlace. La idea es que no solamente se utiliza el mas proximo dentro del radio sinó todos los que existan en el grupo de comparación que estén dentro del radio, sin limitación de número, con lo que se asegura que son tan similares como se quiera establecer al definir el caliper. El kernel matching es un estimador de matching no paramétrico que compara el resultado de cada unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de comparación, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse que el grado de cumplimiento de la hipótesis de soporte común es elevado. La aplicación de este sistema necesita decidir sobre el tipo de kernel, generalmente Gaussiano y Epanechnikov, y el intervalo. Todos estos algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas indicado en cada contexto. Es evidente que el nearest neighbor uno a uno garantiza que se está utilizando la unidad mas similar para construir el contrafactual minimizando el sesgo, pero al no tener en cuenta una gran cantidad de información del grupo de comparación aumenta la varianza, lo que implica una pérdida de precisión. Cuando se utiliza muestreo con reemplazamiento, el aumento de precisión se realiza a costa de un contrafactual menos similar 11. ESTIMACIÓN DEL CONTRAFACTUAL, EVALUACIÓN DE RESULTADOS Y 11. ESTIMACIÓN DE ERRORES CON STATA Una vez estimado el PS, se debe estimar el contrafactual para evaluar los efectos del tratamiento. En este momento existe una gran cantidad de software disponible para realizar estas estimaciones que 24 Véase Dehejia, R.H. and Wahba, S. (2002). — 18 — Instituto de Estudios Fiscales permiten elegir cualquiera de los algoritmos de matching descritos25. STATA es uno de los productos comerciales que cuenta con varios programas que surgen principalmente de tres grupos de desarrolladores. En primer lugar Becker and Ichino (2002) programan comandos para nearest neighbor, kernel, radius, and matching con estratificación. Becker and Caliendo 200326 proponen el comando mhbounds para realizar análisis de sensibilidad. En segundo lugar, Leuven and Sianesi (2003) desarrollan el software PSMATH2 que incluye estimaciones de nearest neighbor, caliper matching (con y sin reemplazamiento), radius, kernel, locallinear matching y matching con métrica de Mahalanobis, además de comandos para comprobar el cumplimiento de la hipótesis de soporte común psgraph, y el test de equilibrio de las variables que se incluyen en la estimación del PS pstest. El comando nnmatch implementado por Abadie, A., D. Drukker, J.L. Herr, and G. Imbens en 2004, permite estimar los efectos medios del tratamiento para todas las unidades y no únicamente para tratados y grupo de comparación, especificar la métrica de la distancia, el número de emparejamien­ tos y también incluye estimadores de la varianza robustos a la heterocedasticidad27. Debe tenerse en cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el método de máxima verosimilitud. Con posterioridad Ichino, A., F. Mealli, and T. Nannicini 2006, implementan el comando sensatt para realizar análisis de sensibilidad de los efectos medios del tratamiento. El comando cem, debido a Blackwell, M.; Iacus, S.; King,G,; Porro, G. 2009 introduce un nuevo método de estimación de efectos. El algoritmo se describe en Iacus, King and Porro 200828 Es interesante destacar que también está disponible para R (software libre) y para SPSS como se indica en el Anexo 1. En el apartado siguiente se describe el funcionamiento de algunos de estos programas y se proponen algunos ejemplos para realizar con STATA. 11.1. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.1. Matching basado en el método del vecino mas cercano (nearest neighbor matching) Este método realiza una ordenación previa de todos los registros del fichero por el valor del PS calculado con el comando pscore. Una vez en orden, para cada caso busca el control mas próximo en el valor del PS recorriendo el conjunto de datos del grupo de comparación hacia arriba y hacia abajo. Si una unidad tratada empareja igual de bien hacia arriba y hacia abajo con dos unidades no tratadas, el programa da la misma ponderación a ambos grupos de emparejamiento. Hay otra forma de buscar los controles por este método, utilizando la aleatoriedad para el recorrido en el conjunto de datos hacia arriba y hacia abajo. En la práctica no suele ser muy frecuente encontrar varios vecinos mas próximos, en particular cuando las variables utilizadas para la estimación del PS son continuas. En estos casos los resultados para ambos sistemas coinciden. Los comandos de STATA, diseñados por Becker and Ichino para relizar el matching son attnw, en el caso de ponderación igual hacia arriba y hacia abajo y attnd cuando se trata del recorrido aleatorio (random draw) en el conjunto del grupo de comparación. Comando: attnw Instalar el comando en el PC: Buscar información sobre el comando: ssc install attnw, replace help attnw 25 En el Anexo 1 se incluyen referencias de software libre y alternativas comerciales a STATA para implementar métodos de PSM. 26 Puede consultarse la descripción en Becker & Caliendo (2007). 27 Véase Abadie, A., D. & others. (2004), Abadie & Imbens (2006, 2008, 2011) para conocer el marco teórico de este software. 28 Información disponible en http://gking.harvard.edu/files/cem.pdf — 19 — Las páginas de información sobre attnw que se obtienen a partir de help: En el caso del comando attnd Comando: attnd Instalar el comando en el PC: Buscar información sobre el comando: ssc install attnd, replace help attnd Las páginas de información muestran la descripción,opciones, notas, ejemplos, autores (Becker & Ichino) y direcciones para obtener mas información. Casi todos los comandos que permiten estimar el efecto medio del tratamiento con STATA, incluyen opciones que permiten calcular los errores mediante bootstrap, método propuesto por Bradley Efron en 1979, que permite aproximar la distribución de un estadístico en el muestreo mediante la generación de varias muestras por ordenador29. Ponerlo en práctica exige gran capacidad de cálculo, y es por esta razón por la que los fuertes avances tecnólogicos en la potencia de los ordenadores actuales, facilita el cálculo del sesgo, varianza, intervalos de confianza y contraste de hipótesis estadísticas mediante bootstrapping . Debido a esta facilidad es normal encontrar la posibilidad de utilizar este método en el software destinado a aplicar PSM. 29 Sobre este tema puede consultarse Efron, B. & Tibshirani, R.J. (1993). En Abadie, A. & Imbens, G. (2006) se proponen unas modificaciones para lograr que los estimadores de los efectos medios del tratamiento sean consistentes y asintóticamente normales. El software para calcular estos estimadores está disponible en el comando de STATA nnmatch. — 20 — Instituto de Estudios Fiscales El próximo ejemplo consiste en utilizar el fichero PSMDATOS para realizar la estimación del efecto medio del tratamiento en los tratados, por ambos sistemas de emparejamiento, con el método nearest neighbor matching. El planteamiento es análogo al que se realiza en el apartado 11.2. La comparación de los resultados con los obtenidos con diferentes algoritmos de matching presenta un análisis de sensibilidad que aumenta, en su caso, la robustez y por tanto la credibilidad de las estimaciones. Téngase en cuenta que todos los ejemplos de este documento se realizan con el mismo fichero PSMDATOS y con los resultados de estimar el PS obtenidos en el apartado 10 a través del comando pscore, con la exigencia de soporte común, utilizando 7 variables observadas (edad, empleabilidad, número de problemas, sexo,nivel de estudios, número de miembros del hogar, hogar monoparental) para los hogares participantes y no participantes en proyectos de inserción sociolaboral, dentro de los beneficiarios de un programa de rentas mínimas de la Comunidad Autónoma de Madrid. — 21 — Por tanto, al mantener en todos los ejemplos el mismo PS que está almacenado en la variable psclase, para realizar las estimaciones del efecto medio del tratamiento en los tratados (ATT) a través de los diferentes métodos de matching, no es necesario expliciar de nuevo las variables de la ecuación de asignación. Además, se utiliza la posible variabilidad de los resultados como análisis de sensibilidad a los distintos métodos de emparejamiento. Tal y como se indica mas adelante, en el apartado 12, también es interesante realizar un análisis de sensibilidad de los resultados a diferentes especificaciones de la ecuación de participación. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attnd psalud0 eval1, pscore (psclase) boot attnw psalud0 eval1, pscore (psclase) boot Producen los siguientes resultados: n. treat. n. contr. ATT Std. Err. t 1038 645 -0.014 0.030 -0.469 Note: the numbers of treated and controls refer to actual nearest neighbour matches ATT estimation with Nearest Neighbor Matching method (equal weights version) Analytical standard errors n. treat. n. contr. ATT Std. Err. t 1038 645 -0.004 0.032 -0.131 Note: the numbers of treated and controls refer to actual nearest neighbour matches Aunque se mantiene el signo negativo del efecto, la magnitud es mucho menor y se pierde la significación estadística. El análisis de sensibilidad de los resultados a los algoritmos de matching realizados con los comandos attr, attk, attnw, attnd, pueden efectuarse también con el comando sensatt, que implementa el análisis de sensibilidad propuesto por Ichino, Mealli, and Nannicini (2006). Su funcionamiento se describe en la ayuda del comando (help). 11.2. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.2. Matching con estratificación (Becker & Ichino) El comando STATA que pesrmite realizar el matching con estratificación, es decir un emparejamiento entre casos y controles basado en una variable que contiene el número de bloque (estrato) al que pertenece el registro de la zona de soporte común, además de la variable que contiene el valor del PS previamente estimado, es atts. Comando: atts Instalar el comando en el PC: Buscar información sobre el comando: ssc install atts, replace help atts Las páginas de información sobre atts que se obtienen a través de help, de modo similar al caso de otros comandos incluyen la sintaxis, descripción detallada de todas las utilidades del comando, op­ ciones posibles, notas sobre aspectos relevantes, ejemplos, referencias de los autores de los pro­ gramas, dirección de internet donde se puede obtener mayor información sobre los algoritmos de cálculo y comandos relacionados con el que se describe. — 22 — Instituto de Estudios Fiscales En este caso, atts, permite haber realizado previamente la estimación del PS y del número de bloque al que pertenece cada registro del fichero, a través del comando pscore descrito anteriormente, utili­ zando esta información para realizar el matching, ya que por construcción, el cálculo del PS y del número de estratos que permite verificar la hipótesis de equilibrio del PS en cada uno de ellos hace que la asignación al grupo de tratamiento y de control pueda considerarse aleatoria. Debe ejecutarse pscore con la opción comsup, para obtener unos resultados correctos sobre el número de tratados y controles estimados con anterioridad. Se describe en el apartado 9. Para calcular el ATT (efecto medio del tratamiento en los tratados), se utiliza una media ponderada por el número de tratados de los efectos del tratamiento en cada uno de los bloques. Se calcula como la diferencia de resultados medios entre tratados y controles dentro del mismo bloque para el cual pscore ha logrado equilibrar todas las variables que intervienen en el cálculo del PS. Entre las posibles opciones del comando, que se incluyen a continuación, figura bootstrap, que permi­ te calcular los errores de la estimación del efecto del tratamiento, mediante esta técnica. Otras opcio­ nes descritas, que tienen relación con este cálculo de errores, son reps, noisily y dots, referidas al número de réplicas de muestras que se solicitan (por defecto son 50), a la información en los resulta­ dos del efecto producido en cada una de las muestras, y al requerimiento de que figure un punto en la pantalla cada vez que comienzan los cálculos con una nueva réplica de muestra. Se describen además las opciones obligatorias pscore que indica el nombre de la variable que con­ tiene la información del propensity score previamente calculado, blockid que indica el nombre de la variable que contiene el número de bloque al que pertenece el propensity score. Por último las opcio­ nes detail para obtener una información más detallada de todos los procesos de cálculo hasta llegar a los resultados finales y comsup que restringe los valores utilizados para el cálculo del ATT a la zona d soporte común. — 23 — En las notas se hace una referencia al cálculo de los errores por bootstrapping, con las especificida­ des de la estimación por estratos, y una explicación de los casos en que en alguno de los estratos no haya ningún caso y/o control o exista solamente un caso y/o un control. A continuación unas referencias al almacenamiento de los resultados en el fichero de análisis: ATT, errores, valor del test de la t y en su caso errores y test calculados por bootstrapping. Tras los ejem­ plos de cómo se utiliza el comando, la referencia de los autores (Becker & Ichino), la referencia a comandos relacionados con atts y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando. Utilizando el fichero PSMDATOS, a título de ejemplo, se estima con STATA el efecto medio del tratamiento en los tratados (ATT) mediante un matching con estratificación. Se trata de ver si los participantes en proyectos de inserción laboral, dentro del colectivo de los perceptores de un subsidio de rentas mínimas, tienen mejores resultados, en términos de salud, que los que participan en proyectos de capacitación general. Es un ejemplo en el que se miden efectos indirectos de un programa. El programa no va dirigido a mejorar la salud de los beneficiarios, pero hay un círculo virtuoso empleo-salud, y mejorar la salud puede mejorar la empleabilidad. Conocer rasultados en términos de salud puede ayudar a definir mejor el programa. La variable eval1 toma valor 1 cuando el beneficiario participa en proyectos de inserción sociolaboral y valor 0 en caso contrario. El propensity score que se almacena en la variable psclase, se ha calculado previamente con STATA en el ejercicio anterior cumpliendo con la propiedad de equilibrio de todas las variables que intervenían en la ecuación de asignación, en la zona de soporte común en todos los estratos. La variable que contiene el PS previamente estimado en el ejercicio anterior es psclase. El estrato a que pertenece cada PS se refleja en la variable bkclase como se había indicado en el ejercicio anterior. Las siguientes sentencias de STATA: use "C:\psmdatos", clear atts psalud0 eval1, pscore (psclase) blockid (bkclase) boot Producen los siguientes resultados ATT estimation with the Stratification method Analytical standard errors n. treat. n. contr. ATT Std. Err. t 847 597 -0.034 0.027 -1.263 Bootstrapping of standard errors command: statistic: (obs=1849) atts psalud0 eval1 r(atts) , pscore(psclase) blockid(bkclase) Bootstrap statistics Variable Reps Observed Bias bs1 50 -.0338797 .0002055 Std. Err. .0242477 [95% Conf. Interval] -.0826073 -.078116 -.078116 .0148479 (N) .0048754 (P) .0048754 (BC) N = normal, P = percentile, BC = bias-corrected ATT estimation with the Stratification method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t 847 597 -0.034 0.024 -1.397 Indicando un resultado negativo en términos de problemas de salud, o lo que es lo mismo los partici­ pantes en proyectos de inserción laboral tienen menos problemas de salud que los que no participan. El error de la estimación obtenido por bootstrapping con 50 réplicas de muestra mantiene el efecto — 24 — Instituto de Estudios Fiscales negativo dentro del intervalo. Añadiendo la opción detail, se muestran los pasos intermedios previos al resultado final que se presentan a continuación. ***************************************************** Estimation of the ATT with the stratification method ***************************************************** The outcome is psalud0 Variable Obs Mean psalud0 1833 .3840698 Std. Dev. .4865073 Min Max 0 1 The treatment is eval1 eval1 Freq. Percent Cum. 0 1 811 1,038 43.86 56.14 43.86 100.00 Total 1,849 100.00 The distribution of the pscore is Estimated propensity score Percentiles .3750936 .4252926 .4564608 .5228032 1% 5% 10% 25% 50% .5953571 75% 90% 95% 99% .6597818 .7077516 .7305123 .7688693 Smallest .3341996 .3357525 .3552976 .3597025 Obs Sum of Wgt. Largest .7930194 .8124483 .8149598 .8307079 1446 1446 Mean Std. Dev. .5873431 .0935533 Variance Skewness Kurtosis .0087522 -.215623 2.420353 The structure of blocks is Key frequency column percentage Number of block eval1 0 1 Total 2 21 2.59 12 1.16 33 1.78 3 64 7.89 30 2.89 94 5.08 4 87 10.73 64 6.17 151 8.17 5 193 23.80 289 27.84 482 26.07 6 229 28.24 452 43.55 681 36.83 7 0 0.00 3 0.29 3 0.16 . 217 26.76 188 18.11 405 21.90 Total 811 100.00 1,038 100.00 1,849 100.00 -> bkclase = 2 Variable Obs Mean psclase 33 .3792881 Std. Dev. .0126809 Min Max .3552976 .3999165 -> bkclase = 3 Variable Obs Mean psclase 94 .4282963 Std. Dev. .0134487 Min Max .4019199 .4490555 -> bkclase = 4 Variable Obs Mean psclase 151 .4764241 Std. Dev. .0138859 Min Max .4501263 .4996543 -> bkclase = 5 Variable Obs Mean psclase 482 .5541624 Std. Dev. .0290837 Min Max .500069 .5999239 -> bkclase = 6 Variable Obs Mean psclase 681 .6671768 Std. Dev. .0448057 Min Max .600662 .7930194 -> bkclase = 7 Variable Obs Mean psclase 3 .819372 Std. Dev. .0098972 Min Max .8124483 .8307079 -> bkclase = . Variable Obs Mean psclase 2 .334976 Std. Dev. .0010981 Min Max .3341996 .3357525 Computation of treatment effect block by block Block 1 does not have observations Move to next block Block 7 does not have controls The effect of treatment is set to 0 — 25 — 11.3 Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.3 Matching basado en Kernel El comando STATA que pesrmite realizar el matching basado en una función kernel, es decir un em­ parejamiento en el cual la unidad de control que se empareja con una observación tratada se obtiene como una función kernel ponderada media de los resultados de los controles, es attk. Comando: attk Instalar el comando en el PC: Buscar información sobre el comando: ssc install attk, replace help attk Analogamente al caso de otros comandos STATA, a través de help se obtiene la sintaxis, descripción detallada de todas las utilidades y posibles opciones, ejemplos, referencias de los autores de los pro­ gramas (Backer & Ichino), dirección de internet donde se puede obtener mayor información sobre los algoritmos de cálculo y comandos relacionados. Entre las opciones posibles, epan permite elegir el kernel Epanechnicov en lugar del Gaussiano que se calcula por defecto, en cuyo caso a través de la opción bwidth se define el intervalo para aplicar la fórmula Epanechnicov, que si no se especifica STATA utiliza por defecto 0.06. También es posible calcular los errores por bootstrapping con este método y especificar el número de réplicas muestrales, establecidas por defecto en 50. Analogamente al caso de otros comandos, attk permite haber realizado previamante la estimación del valor del PS a través del comando ya descrito pscore, que debe ejecutarse con la opción comsup para obtener resultados para la zona de soporte común. — 26 — Instituto de Estudios Fiscales También existe la posiblidad de almacenar. en escalares los resultados: media de tratados, media de controles, número de tratados, número de controles, errores, valor del test de la t en el fichero de análisis etc, de forma similar al caso de otros comandos con otros algoritmos de matching. El ejemplo siguiente utiliza el fichero PSMDATOS para estimar el efecto medio del tratamiento en los tratados mediante kernel matching, repitiendo el ejercicio del apartado 12.1, lo que permitirá apreciar la sensibilidad de los resultados al cambio de algoritmo de matching. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attk psalud0 eval1, pscore (psclase) blockid (bkclase) boot producen los siguientes resultados: ATT estimation with the Kernel Matching method n. treat. n. contr. ATT Std. Err. t 1038 811 -0.042 . . Note: Analytical standard errors cannot be computed. Use the bootstrap option to get bootstrapped standard errors. Bootstrapping of standard errors command: statistic: (obs=1849) attk psalud0 eval1 r(attk) , pscore(psclase) bwidth(.06) El ATT estimado con este algoritmo, emparejamiento basado el el cálculo del PS previamente realizado con el comando pscore para la zona de soporte común da un resultado de -0.042, utilizando el método kernel Gaussiano. El cálculo de errores por bootstrapping, con 50 reposiciones de muestra y un intervalo por defecto establecido en 0.06 genera los resultados que aparecen a continuación: Bootstrap statistics Variable Reps Observed Bias bs1 50 -.0417316 .0046144 Std. Err. .0261087 [95% Conf. Interval] -.0941989 .0107357 (N) -.0845923 .0008328 (P) -.0976464 -.0021065 (BC) N = normal, P = percentile, BC = bias-corrected ATT estimation with the Kernel Matching method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t 1038 811 -0.042 0.026 -1.598 El error calculado es 0.026. Estos resultados comparados con los del ejercicio 12.2, son bastante parecidos (ATT= -0.034. Std. Error=0.024). Se mantiene el resultado negativo en términos de problemas de salud de magnitud parecida, con un error similar que mantiene el efecto negativo dentro del intervalo. Parece que está avalado por dos algoritmos de matching diferentes, que los participantes en proyectos de inserción laboral tienen menos problemas de salud que los que no participan. Con la sentencia: attk psalud0 eval1, pscore(psclase) boot epan bwidth(0.01) Se realizan las estimaciones de nuevo con el método de matching kernel Epanechnicov y un intervalo de 0.01 que produce resultados parecidos, tal como se indica a continuación: — 27 — ATT estimation with the Kernel Matching method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t 1038 811 -0.039 0.029 -1.349 11.4. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.4. Radius Matching En este caso el emparejamiento entre casos y controles se realiza con un algoritmo que, a partir del PS calculado, busca cada control en un radio establecido por el usuario. STATA mediante el coman­ do attr establece por defecto el radio en 0.1. — 28 — Instituto de Estudios Fiscales Por medio de la opción radius, el usuario puede cambiar este valor. El comando attr debe utilizarse una vez estimado correctamente el PS, lo que puede realizarse mediante pscore. También puede estimarse en el propio proceso del comando attr, especificando la lista de todas las variables utiliza­ das en la ecuación de participación, pero en este caso no se realiza el test de equilibrio. Se establecen opciones para calcular los errores por bootstrapping, además de las opciones asocia­ das habitualmente con este procedimiento de estimación. También se contemplan ejemplos y notas. Los autores (Becker & Ichino), facilitan su página y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando30. Se puede repetir el ejercicio del apartado anterior con este comando, para apreciar la sensibilidad de los resultados al cambio en el algoritmo de matching. Este proceso es muy lento, por lo que no es aconsejable hacerlo en clase En este caso las sentencias que deben utilizarse son las siguientes: use "C:\psmdatos", clear attr psalud0 eval1, pscore (psclase) boot 11.5. Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del 11.5. tratamiento Los comandos para implementar el análisis de sensibilidad son: sensatt que utiliza una simulación de variable binaria, mhbounds que utiliza los límites de Mantel-Haenszel. Puede consultarse su funcionamiento en la ayuda de STATA. 11.6. Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.6. el comando psmath2 (autores Edwin Leuven y Barbara Sianesi) Con el comando psmath2 se pueden implementar una variedad de métodos de propensity score matching vecino mas próximo, kernel (Gaussiano, Uniforma, Epanechnicov), caliper, radio, así como la métrica completa de Mahalanobis. El mismo comando puede utilizarse también para estimar unicamente el PS. 30 Véase Anexo 2. — 29 — Comando: psmatch2 Instalar el comando en el PC: ssc install psmatch2, replace Buscar información sobre el comando: help psmatch2 En el próximo ejemplo utilizando el fichero PSMDATOS , estimaremos el PS a partir de las variables observadas que incluiremos en el modelo de asignación al tratamiento eval1. El ejercicio es el mismo que el realizado con el comando pscore.en la página 17. La siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, common Produce los resultados que aparecen a continuación: Probit regression Number of obs LR chi2(7) Prob > chi2 Pseudo R2 Log likelihood = -953.23828 eval1 Coef. gtotal pesola sexo ed estu emplea problemas _cons -.040304 .1208904 .1056909 -.1959597 .0169852 .0648292 .0700118 .4796768 Std. Err. .076101 .1279056 .0719277 .0315764 .0357807 .0368797 .0397731 .3087687 z -0.53 0.95 1.47 -6.21 0.47 1.76 1.76 1.55 P>|z| 0.596 0.345 0.142 0.000 0.635 0.079 0.078 0.120 = = = = 1446 53.26 0.0000 0.0272 [95% Conf. Interval] -.1894592 -.1298001 -.0352847 -.2578484 -.0531437 -.0074536 -.007942 -.1254986 There are observations with identical propensity score values. The sort order of the data could affect your results. Make sure that the sort order is random before calling psmatch2. — 30 — .1088512 .3715808 .2466665 -.1340711 .0871141 .137112 .1479656 1.084852 Instituto de Estudios Fiscales Como puede comprobarse son idénticos a los obtenidos con los mismos datos y el comando pscore. Una vez calculado el PS con el comando psmatch2, se puede hacer un test de equilibrio de las variables que intervienen en el modelo mediante el comando pstest. También, con posterioridad al cálculo del PS, el comando psgraph presenta un gráfico del histograma del PS para casos y controles lo que permite visualizar el grado de cumplimiento de la hipótesis de soporte común. El comando graph, en este ejemplo, realiza el gráfico que aparece a continuación: .3 .4 .5 .6 Propensity Score .7 Untreated Treated: Off support .8 Treated: On support Este histograma representa que existe un cumplimiento aceptable de la hipótesis y permite además reflejar casos de tratados fuera del soporte común (color verde) a los que se aludía en el apartado 9 de este documento. Para estimar el efecto medio del tratamiento en los tratados con el método kernel normal con psmath2, puede utilizarse la siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, kernel k(normal) common ate out(psalud0). Que produce los siguientes resultados: Probit regression Number of obs LR chi2(7) Prob > chi2 Pseudo R2 Log likelihood = -940.82995 eval1 Coef. gtotal pesola sexo ed estu emplea problemas _cons -.0405308 .1462446 .1185782 -.1998551 .0162992 .0705424 .0860166 .4477802 Std. Err. .0763826 .1287075 .0724062 .0317371 .0359886 .0371416 .0403248 .309747 z -0.53 1.14 1.64 -6.30 0.45 1.90 2.13 1.45 P>|z| 0.596 0.256 0.101 0.000 0.651 0.058 0.033 0.148 = = = = 1432 56.04 0.0000 0.0289 [95% Conf. Interval] -.1902379 -.1060175 -.0233354 -.2620587 -.0542372 -.0022537 .0069815 -.1593127 .1091764 .3985067 .2604918 -.1376515 .0868356 .1433386 .1650516 1.054873 Variable Sample Treated Controls Difference S.E. T-stat psalud0 Unmatched ATT ATU ATE .360520095 .358669834 .41609589 .414675768 .402419743 .359784355 -.054155673 -.04374991 -.056311535 -.048894362 .026101272 .027281345 . . -2.07 -1.60 . . Note: S.E. does not take into account that the propensity score is estimated. psmatch2: Treatment assignment psmatch2: Common support Off suppo On suppor Total Untreated Treated 2 4 584 842 586 846 Total 6 1,426 1,432 — 31 — Resultados muy similares a los obtenidos en el ejemplo del apartado 11. Los participantes en proyectos de inserción laboral tienen menos problemas de salud que los no participantes. 12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS 12. RESULTADOS El objetivo del análisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la selección en variables no observables (Caliendo y Kopeinig, 2008). Tal y como se describía en el apartado 10, todos los algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas indicado en cada contexto. Las consideraciones en torno al tamaño del grupo de comparación a la hora de elegir uno en concreto no resultan suficientes para garantizar el resultado con ninguno de los métodos. Por ello, lo mas conveniente, es comprobar de forma empírica la robustez de los estimadores, lo cual es factible realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados debe medirse también en relación a la especificación del modelo de participación (Dehejia 2005). 12.1. Sensibilidad a los algoritmos de Matching — 32 — Instituto de Estudios Fiscales Los resultados que se presentan en esta tabla proceden del trabajo de Ayala, L. y Rodríguez, M. (2011). Muestran todas las variables resultado, para las que se han estimado los efectos medios del tratamiento, mediante cuatro algoritmos de matching diferentes. Se trata de evaluar si la participación en programas de reinserción laboral, produce mejores resultados en términos de salud y comporta­ mientos saludables medidos por los 6 indicadores presentados en la tabla, que participar en progra­ mas dirigidos a mejorar capacidades en la vida cotidiana. Los resultados en cuanto a salud física, son relativamente robustos, mantenimiento de efectos negativos en los problemas de salud física. No sucede lo mismo en términos de salud mental. El signo negativo del efecto y la magnitud aproximada que resulta con todos los algoritmos aplicados en hábitos como la adicción al juego y al alcohol, pone de manifiesto que los resultados son estables. 12.2. Sensibilidad a la especificación del modelo de participación En el trabajo de Rajeev Dehejia (2005) pueden encontrarse algunas sugerencias para la selección de variables del modelo de asignación, así como la recomendación de ampliar el análisis de sensibilidad de los resultados a pequeños cambios en la especificación de PS, incluyendo y excluyendo términos de orden más elevado en la ecuación y contemplando interacciones entre variables. Se presenta a continuación una tabla resumen del estudio de Ayala y Rodríguez citado en el apartado anterior a título de ejemplo. — 33 — 13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES Las estrategias orientadas a la reinserción rápida de los beneficiarios de programas de welfare en el mercado de trabajo combinan, con frecuencia, programas a mas largo plazo con objetivos de formación y capacitación de los beneficiarios31. Cuando se evalúan estos programas es habitual que existan difentes tratamientos simultáneos orientados a la reinserción laboral coexistiendo con tratamientos orientados al desarrollo de capital humano, es decir heterogeneidad de programas o tratamientos múltiples. En estos casos tiene interés evaluar la efectividad de un programa frente a otro contemplando medidas alternativas de éxito para estudiar el impacto de cada uno de ellos en función de indicadores diversos, o lo que es lo mismo diferentes variables resultado como pueden ser distintas formas de empleo más o menos estable, indicadores de bienestar material, bienestar subjetivo indicadores del estado de salud y muchas otras. La situación de partida para la evaluación, en estos casos, es de heterogeneidad de programas y medidas alternativas de resultados. Desde el punto de vista analítico, la estimación del PS, puede enfocarse como un modelo logit multinomial , en el que la variable explicada es una variable categórica que toma tantos valores como tratamientos excluyentes se trata de evaluar, pasando de 32 un modelo de dos estados a uno de múltiples estados .También es posible abordarlo estimando tantos modelos logit o probit como contrafactuales sean necesarios, para evaluar programas heterogéneos. La exigencia de que los tratamientos sean excluyentes, es decir que los beneficiarios que participan en uno no lo hacen simultaneamente en otro, está conticionada por el marco teórico, por lo que en la práctica puede ser necesario realizar una nueva definición de los tratamientos que cumpla con esta necesidad. Evaluation Treatment A Treatment B 1 Participation in a work-related scheme Non-participation in a work-related scheme 2 Participation in general work-related schemes Non-participation in a work-related scheme 3 Participation in intensive work-related schemes Non-participation in a work-related scheme 4 Participation in mixed work-related schemes Non-participation in a work-related scheme 5 Participation in intensive work-related schemes Participation in a general work-related scheme 6 Participation in mixed work-related schemes Participation in a general work-related scheme En el trabajo de Ayala, L. y Rodríguez, M. 2006b, relizado con datos del IMI, se agrega toda una casuística de diferentes tratamientos en cuatro mutuamente excluyentes: actividades intensivas de empleo (1), actividades generales orientadas al empleo(2), actividades orientadas a mejorar habitos de vida(3), actividades orientadas al empleo generales e intensivas(1+2). A partir de estas definiciones se realiazan varias evaluaciones (tratamientos múltiples) de unos tratamientos frente a otros para observar los resultados desde el punto de vista del empleo, pobreza subjetiva, situación económica comparada con 10 años antes, bienestar material y problemas de vivienda (medidas alternativas de éxito). En la tabla anterior se incluyen 6 de las evaluaciones realizadas. Cada grupo de tratados exige un grupo de comparación estimado mediante PSM. Las estimaciones de la función de densidad, median­ te una función kernel normal, para el PS de participantes y no participantes en cada evaluación permi­ ten apreciar el grado cumplimiento de la hipótesis de soporte común para cada evaluación. 31 Véase Cancian and Meyer (2004), Moffitt (2001). 32 Véase Imbens (2000), Lechner (2001, 2002), Sianesi (2008), Imbens and Wooldridge (2009). — 34 — Instituto de Estudios Fiscales Con el comando graph de STATA en combinación con el comando psmath2, se obtienen los histo­ gramas del PS para los 6 tratamientos tal como se indicaba en el apartado 11.6. A continuación se incluye una tabla resumen de los efectos de cada evaluación en términos del ATT para 7 variables resultado. — 35 — Los programas orientados al empleo tienen más éxito para independizar a las familias que dependen del IMI, aunque no parece suficiente para mejorar el bienestar material. De los subprogramas orienta­ dos al empleo, los programas intensivos dan mejor resultado que los generales tanto en términos de empleo como de bienestar material. 14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS Hay un interés creciente entre los investigadores y también en la sociedad en evaluar los efectos de la prevalencia de enfermedades físicas, mentales y problemas de comportamiento entre los perceptores de prestaciones de welfare. Interesantes trabajos publicados en EEUU33 lo muestran. Se han estudiado las interferencias de los problemas de salud física y mental para lograr los objetivos de estos programas y también hay evidencias de que estas situaciones de salud precaria pueden ser concurrentes con problemas de capital humano34. En los años 80 en Inglaterra se realizaron una gran cantidad de investigaciones sobre las consecuencias del desempleo sobre la salud35. La Organización Mundial de la Salud tiene en marcha Health Impact Assessment (HIA) una campaña para promover la salud en todas las políticas que enmarca con rotundidad esta línea de investigación: identificar los impactos indirectos sobre la salud de políticas, planes y proyectos en sectores y áreas que no son salud36. Desde un punto de vista de evaluación de programas, este planteamiento se corresponde con lo que podría definirse como efectos indirectos, dado que mejorar la salud no entra dentro de los objetivos que se persiguen con un programa de reinserción sociolaboral, o en un programa que trata de proporcionar rentas a ciudadanos necesitados. El enfoque analítico descrito en este documento, es totalmente válido en estos casos y varía unica­ mente en que en el momento de definir los indicadores de resultados para medir el éxito del progra­ ma, se incluyen además de las variables que representan los objetivos del mismo, otras que contemplan situaciones de salud de los beneficiarios de los programas sociales. El trabajo de Ayala y Rodríguez (2011), puede servir como ejemplo de evaluación de efectos indirectos con técnicas de propensiy score matching37. En concreto, en los ejemplos propuestos en los apartados anteriores, la variable resultado (Psalud0) es precisamente una de las que mide efectos indirectos de la participación de los beneficiarios del programa IMI en proyectos destinados a la reinserción laboral. A continuación se incluyen los principales resultados obtenidos en términos de salud física y mental, y problemas ligados a adicciones como alcoholismo y dependencias del juego y drogas, que aunque no son concluyentes presentan efectos positivos. De hecho la reducción de problemas de salud física, aumenta la empleabilidad y puede tener un efecto empleo positivo en el futuro. Además se reduciría el gasto de hacer frente a los problemas de salud. 33 Véase Bjorklund (1985), Kovess et al. (1999), Danziger et al. (2000), Coiro (2008), Cawley and Danziger (2005), Meara and Frank (2006). 34 Son interesantes los trabajos de Danziger, Kalil and Anderson ( 2000), Jayakody et al. (2000). 35 Una buena síntesis de estos trabajos se presenta en Fagin & Little (1984). 36 A estos efectos puede consultarse http://www.who.int/hia/en/. 37 Las tablas que se incluyen aquí proceden de una versión posterior del trabajo que está en evaluación. — 36 — Instituto de Estudios Fiscales Sirvan estas líneas para dar una idea de la gran cantidad de posibilidades que las técnicas cuasi experimentales proporcionan a los investigadores, si bien la disponibilidad de los datos necesarios no siempre se produce. En este caso, una encuesta realizada a beneficiarios del programa IMI, ha permitido recabar una gran cantidad de información que no suele ser fácil de obtener. 15. CONCLUSIONES El tema de la causalidad es la esencia de la evaluación de programas: ¿Hay alguna actuación delibe­ rada que causa un cambio en determinados resultados existiendo una vinculación teórica entre ellos? Desde una perspectiva de evaluación de programas públicos, los tratamientos están en gran parte compuestos de los programas de gobierno, políticas, legislación e innovaciones de la gestión pública. En cambio, en el campo de la medicina, pionero en este tema y del que se ha incorporado una gran — 37 — parte de la terminología, los tratamientos pueden incluir, entre otros, la utilización de nuevos sistemas de medicamentos, procedimientos quirúrgicos, y el uso de nuevos recursos médicos. Comparar sin más los resultados del grupo de tratados con el de no tratados para atribuir la causa al tratamiento implica resultados sesgados. El PSM es una de las técnicas más utilizadas para hacer frente a los sesgos asociados con factores observables al evaluar el impacto de un programa. El pro­ cedimiento se basa en la estimación de un contrafactual, y en la definición de grupos comparables de tratados y no tratados. El objetivo principal de este documento que es facilitar una guía para la aplica­ ción del estimador PSM, ha contado con ejemplos que ilustran los conceptos importantes en la eva­ luación de impacto y el PSM, ayudando a plantear las preguntas que con frecuencia son de interés en las evaluaciones y explicando por qué, a menudo, son necesarios los métodos no experimentales para abordar evaluaciones de impacto de forma complementaria. La utilización de STATA en los ejemplos prácticos, pretende aprovechar las enseñanzas impartidas en otros módulos del Curso, evitando la dispersión de la atención por desconocimiento del software utilizado. La inclusión de referencias de software libre y otras alternativas comerciales en el Anexo 1, pretende ampliar el campo de referencia de las herramientas analíticas que los alumnos puedan utili­ zar en el futuro, en consonancia con su situación laboral específica. Se ha tratado, por tanto, de proporcionar información sobre cuestiones de evaluación de programas con la idea de relacionar las técnicas, describiendo el contexto en el que el PSM es una metodología válida teniendo en cuenta los supuestos teóricos y las hipótesis que es necesario verificar para su aplicación, pero con un enfoque eminentemente práctico. Toda la formalización teórica necesaria está disponible en la bibliografía recomendada y materiales complementarios facilitados a los alumnos. Al tratarse de una metodología de evaluación cuantitativa, se ha abordado la necesidad de contar con fuentes de información adecuadas y la problemática que puede existir con los datos disponibles para que se respeten las condiciones que garanticen que el PSM sea una técnica apropiada para estimar el efecto del programa que se trata de evaluar. También se ha explicado la mecánica básica de esta técnica, los principales condicionantes y cues­ tiones a tener en cuenta en la implementación del estimador PSM. Con posterioridad a la estimación del PS, debe realizarse la elección de un algoritmo de emparejamiento, para estimar el efecto del tratamiento y por último algunos test para evaluar la validez de las hipótesis y la calidad del PSM. Se han contemplado cuestiones como el cálculo de errores estándar del estimador con técnicas de bo­ otstrapping, algunos problemas que pueden surgir en la aplicación de las técnicas de PSM y la con­ veniencia de realizar un análisis de sensibilidad que incluya tanto la especificación del modelo de participación como los algoritmos de matching. A modo de síntesis, tras haber descrito las principales cuestiones a considerar en la aplicación de esta metodología, se incluye a continuación la secuencia que debe respetarse al abordar una evalua­ ción de impacto mediante PSM. Lo que exige realizar, de forma ordenada, las siguientes tareas: Dado que se trata de una técnica cuantitativa, lo esencial para iniciarla es disponer de la información que permita abordarla, en concreto micro datos que se utilizaran para definir el modelo de participa­ ción a partir de características observables de las unidades en estudio, tanto participantes como no participantes. Esta información deberá utilizarse también para la definición de los indicadores de re­ sultados que se consideren convenientes y que servirán de medida del éxito del programa o política que se trate de evaluar y que en definitiva permiten medir el grado de cumplimiento de los objetivos que se persiguen con el programa, es decir los efectos directos. En determinados casos la informa­ ción disponible permite además detectar efectos indirectos, positivos o negativos, que pueden haber­ se producido sin que se hayan planteado inicialmente al poner en marcha la política o el programa. Debe tenerse presente que la calidad de la investigación depende en gran medida de la calidad de los datos utilizados. A partir de los datos disponibles, en primer lugar es necesario especificar el modelo de participación, es decir la ecuación de asignación al programa que se pretende evaluar, y es necesario predecir la probabilidad de participación a partir del modelo. Un objetivo clave de este momento es incluir todas las variables que puedan afectar tanto a la participación en el programa como al resultado de interés. Con ello se logra que, condicionado a estas variables observadas y medidas, no haya factores no — 38 — Instituto de Estudios Fiscales medidos que afecten tanto a la participación como a los resultados de la falta de participación. Estas variables observadas se utilizan para calcular el propensity score (probabilidad estimada de participa­ ción en el programa: PS) mediante un modelo probit o logit, que es una estimación paramétrica de un modelo con variable dependiente binaria que, calcula los parámetros por el método de máxima vero­ similitud, en el marco de los modelos lineales generalizados (P. McCullach and J.A. Nelder, 1983). En economía son los denominados modelos de elección discreta. A continuación, las unidades participantes en el programa (tratadas) se emparejan (matching) con unidades similares no participantes (sin tratamiento) basándose en la proximidad del valor de su PS. En este punto, se debe elegir un algoritmo de matching entre las diferentes alternativas posibles (ve­ cino más cercano, radio, kernel, etc) teniendo en cuenta las características y posibles problemas de los datos: tamaño de la muestra y trade-off entre el sesgo y la varianza de los estimadores. El softwa­ 38 re disponible y en concreto STATA, permite aplicar cualquiera de estos algoritmos, basados en la distancia de Mahalanobis. Una vez logrado que cada unidad de tratamiento haya sido emparejada con una o varias unidades no tratadas (matching), se puede evaluar el impacto del programa calculando sencillamente una diferen­ cia de medias del valor de la variable elegida para medir los resultados del programa entre tratados y no tratados. Debe tenerse en cuenta que después del matching, se dispone de un grupo de tratados y un grupo de no tratados que ya son comparables, porque la metodología PSM ha corregido el sesgo de selección. Estos resultados deben complementarse con un test de equilibrio de las variables utili­ zadas en el modelo de participación entre los grupos y con un test de robustez de los estimadores. Quizás la cuestión más importante en la aplicación de PSM es comprender en que contextos tiene mayor probabilidad de funcionar siempre que se disponga de datos que permitan aplicarlo. Como ya se ha mencionado, el PSM requiere de dos condiciones fundamentales para la correcta estimación del impacto de un programa. La primera, es el supuesto de independencia condicional (condición de selección en características observables), se mantiene cuando la asignación al trata­ miento es determinada únicamente por las características observables. Si es probable que la partici­ pación en el programa se derive de factores que no son observables para el investigador, el estimador de emparejamiento (matching) puede ser sesgado. Sin embargo, en presencia de informa­ ción pre-tratamiento, se puede aplicar una versión modificada, el estimador matching de doble dife­ rencia para corregir algunos de estos sesgos, siempre y cuando el efecto de factores no observados sea fijo en el tiempo. La segunda condición, conocida como supuesto de soporte común, requiere la existencia de un sola­ pamiento importante entre los valores del PS de los tratados y el de los no tratados. Si esta hipótesis no se sostiene, es imposible construir un contrafactual para estimar el impacto del programa. Es cru­ cial, por tanto, evaluar cuidadosamente si estas dos condiciones se cumplen antes de la aplicación del enfoque del PSM que se ha descrito en estas páginas. La comprensión sólida del programa que se trata de evaluar y una fuerte base teórica y conceptual son esenciales para definir si la metodología del PSM es una técnica apropiada para estimar el im­ pacto del programa. Por ello los equipos de evaluación deben contar con profesionales de las diferen­ tes disciplinas que integran el proceso, la evaluación es un trabajo de equipo que precisa personas bien formadas en técnicas cuantitativas que colaboren con los expertos del programa y contribuyan a generar evaluaciones de calidad, creíbles y respetadas. 38 Véase Anexo 1. — 39 — Instituto de Estudios Fiscales ANEXOS ANEXO 1. Software libre y alternativas comerciales a STATA para implementar métodos de ANMatching PSAgraphics Es una colección de funciones que realizan gráficos para el análisis propensity score. Desarrollado en R, es software libre. Descrito en profundidad en James E. Helmreich, Robert M. Pruzek (2009). PSAgraphics: An R Package to Support Propensity Score Analysis. Journal of Statistical Software 29(6), 1-23. http://cran.r-project.org/ cem Stefano Iacus, Gary King, and Giuseppe Porro son los autores de cem (Coarsened Exact Matching), progama desarrollado para R, y también para STATA y para SPSS para estimar efectos causales mediante métodos de matching. http://gking.harvard.edu/cem/ Matching Página web para la distribución de Matching, software desarrollado en R para estimar efectos causa­ les mediante propensity score matching. Contiene una gran cantidad de documentación de interés. http://sekhon.berkeley.edu/matching Matchit Daniel Ho, Kosuke Imai, Gary King, Elizabeth Stuart son los autores de MatchIt, procesos no paramé­ tricos previos a estimaciones paramétricas. http://gking.harvard.edu/matchit Zelig Kosuke Imai, Gary King, Olivia Lau son los autores de Zelig desarrollado en R. Matchit está integrado en R que incluye una colección de análisis estadístico mucho más completa que las técnicas de mat­ ching. También puede descargarse de esta página la documentación e instrucciones de instalación de Zelig y un documento con los avances más recientes del producto. http://gking.harvard.edu/zelig rbounds Diseñado por Luke J. Keele con el software Matching desarrollado en R, está orientado al análisis de sensibilidad con el método de Rosenbaum (2002). Puede descargarse de la página de CRAN. http://cran.r-project.org/ SAS Nota técnica. http://support.sas.com/kb/30/971.html Algoritmo Greedy matching Matching 1:1 vecino mas próximo (nearest neighbor). Documentado en el SUGI: Parsons, L. S. (2001). Reducing bias in a propensity score matched-pair sample using greedy match­ ing techniques.SAS SUGI 26, Paper 214-26 http://www2.sas.com/proceedings/sugi26/p214-26.pdf Parsons, L.S. (2005). Using SAS software to perform a case-control match on propensity score in an observational study.SAS SUGI 30, Paper 225-25. http://www2.sas.com/proceedings/sugi25/25/po/25p225.pdf — 41 — Macro Gmatch Emparejamiento de uno o más controles utilizando la macro GREEDY. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: http://mayoresearch.mayo.edu/mayo/research/biostat/upload/gmatch.sas Macro Vmatch Emparejamiento de casos con controles utilizando un algoritmo de matching óptimo. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: http://mayoresearch.mayo.edu/mayo/research/biostat/upload/vmatch.sas Macro Mahalanobis Emparejamiento uno a uno, basado en PS y distancia de Mahalanobis. Programada por Feng, W.W., Jun, Y., and Xu, R. (2005). A method/macro based on propensity score and Mahalanobis distance to reduce bias in treatment comparison in observational study. Disponible en: www.lexjansen.com/pharmasug/2006/publichealthresearch/pr05.pdf Modelo de selección ponderado en PS Descrito en Leslie, S. and Thiebaud, P. (2006).Using propensity scores to adjust for treatment selec­ tion bias. Disponible en: http://www.lexjansen.com/wuss/2006/Analytics/ANL-Leslie.pdf Procedimientos SAS PROC SURVEYSELECT Descrito en Robby Diseker (2004) SUGI 29 209-29 http://www2.sas.com/proceedings/sugi29/209-29.pdf PROC QLIM Descrito en R. Scott Leslie y Hassan Ghomrawi (2008) SAS Global FORUM 366-2008 http://www2.sas.com/proceedings/forum2008/366-2008.pdf PROC DISTANCE / PROC CANDISC / PROC DISCRIM http://support.sas.com/documentation/onlinedoc/91pdf/sasdoc_91/stat_ug_7313.pdf SPSS Matching 1:1 vecino mas próximo (nearest neighbor PS matching). Programado por Painter, John. (2004), desarrollado y probado en SPSS 11.5. Disponible en: http://www.unc.edu/~painter/SPSSsyntax/propen.txt EXCEL Aplicación de análisis de sensibilidad realizada por Thomas E. Love, Center for Health Care Research & Policy. http://www.chrp.org/propensity/ Documentado en Thomas E. Love (2008) “Simple” Sensitivity Analyses for Matched Samples. http://www.chrp.org/propensity/sensitivitydocumentation.pdf Disponible en. http://www.chrp.org/propensity/sensitivityspreadsheet.xls — 42 — Instituto de Estudios Fiscales ANEXO 2. Direcciones útiles en internet Página de Edwin Leuven http://leuven.economists.nl/ Tiene un documento muy interesante de Introducción a STATA. Además de toda la documentación sobre el comando psmath2 y muchas referencias de software libre para análisis econométrico. Página de Guido Imbens http://www.economics.harvard.edu/faculty/imbens Tiene software disponible para implementar estimadores matching y regresión en discontinuidad con STATA y MATLAB. — 43 — Página de Sascha O. Becker http://sobecker.de/ Contiene software disponible para implementar estimadores matching con STATA pscore y análisis de sensibilidad nhbounds. Página de Barbara Sianesi http://www.ifs.org.uk/people/profile/id/67/show/alll Contiene varios trabajos muy interesantes sobre evaluación de impacto aplicando propensity score matching y evaluación con múltiples tratamientos. Coautora del comando de STATA psmatch2. — 44 — Instituto de Estudios Fiscales Página de Andrea Ichino http://www2.dse.unibo.it/ichino/ Contiene software disponible para implementar estimadores matching con STATA pscore y análisis de sensibilidad nhbounds. Coautor de los comandos con Becker. Página de Jasjeet S. Sekhon http://sekhon.berkeley.edu/ Contiene la dirección de una página especial de software para matching multivariante y propensity score matching a través de la que se que distribuye Matching producto desarrollado en R que se in­ cluye en el apartado de software libre de este documento. Puede descargarse una gran cantidad de información sobre Linux y R y muy interesantes trabajos sobre métodos cuantitativos. — 45 — Página de Thomas Ezra Love http://www.chrp.org/love/ Contiene materiales muy interesantes sobre propensity score matching. También muchos enlaces. Página del Banco Mundial http://www.worldbank.org/ De donde se pueden descargar los mejores manuales de evaluación de impacto y muchos otros re­ cursos. Conviene consultarla a menudo. — 46 — Instituto de Estudios Fiscales Página de STATA http://www.stata.com/gsearch.php?q=propensity+score+matching&site=stata&client=stata&proxystyle sheet=stata&output=xml_no_dtd/ Resultado de la búsqueda de documentación para propensity score matching con STATA. Página de The Stata Journal http://www.stata-journal.com/ Publicación trimestral que incluye artículos sobre la utilización del software STATA y también sobre técnicas analíticas de datos. Se necesita suscripción para poder descargarlos. Trabajos de interés sobre propensity score matching Vol2 N4 y 8, Vol4 N3, Vol7 N1 3 y 4, Vol8 N3 y 4, Vol9 N4. — 47 — Página de R http://www.r-project.org/ Permite descargar el software R y toda la documentación necesaria. Entorno de software libre, dispo­ nible para Linux, Windows y MacOS X, orientado al análisis estadístico y gráfico, en el que están desarrolladas gran cantidad de aplicaciones para análisis propensity score Una de las más interesan­ tes es el paquete PSAgraphics, que puede descargarse desde la misma página. Página de CRAN http://www.cran.r-project.org/ Red mundial de ftp y servidores web, que contiene versiones idénticas de código y documentación de R totalmente actualizadas. — 48 — Instituto de Estudios Fiscales Página de SCILAB http://www.scilab.org/ Software libre para cálculo numérico. Muy parecido a Matlab. Puede descargarse el software y toda la documentación necesaria. Otras direcciones: psmatch2 http://ideas.repec.org/c/boc/bocode/s432001.html pscore http://www.lrz-muenchen.de/~sobecker/pscore.html cem http://gking.harvard.edu/cem/ — 49 — ANEXO 3. Glosario Análisis de sensibilidad El objetivo del análisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la selección en variables no observables (Caliendo y Kopeinig, 2008). Todos los algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas indicado en cada contexto. Las consideraciones en torno al tamaño del grupo de comparación a la hora de elegir un algoritmo no resultan suficientes para garantizar el resultado con ninguno de los métodos. Por ello, lo mas conveniente, es comprobar de forma empírica la robustez de los estimadores, los cual es factible realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados debe medirse también en relación a la especificación del modelo de participación (Dehejia 2005). Balancing Tests En el marco de la evaluación de impacto mediante PSM, la búsqueda de un equilibrio de todas las variables observables que intervienen en el cálculo del propensity score, entre participantes y grupo de comparación, exige realizar un test, en el momento de la estimación para garantizar el cumplimiento de la hipótesis de soporte común, que es una de las que sustenta la garantía de una aplicación rigu­ rosa de esta metodología. Bootstrapping Método propuesto por Bradley Efron en 1979, que permite aproximar la distribución de un estadístico en el muestreo mediante la generación de varias muestras por ordenador. Ponerlo en práctica exige gran capacidad de cálculo, y es por esta razón por la que los fuertes avances tecnólogicos en la potencia de los ordenadores actuales, facilita su uso. Debido a esta facilidad, actualmente es normal encontrar este método implementado en el software destinado a aplicar PSM. Contrafactual El principal reto de la evaluación de impacto, para que sea creíble, es la construcción de la hipótesis resultado, es decir, lo que habría sucedido a los participantes en ausencia de tratamiento. Este fenó­ meno es inobservable por su propia definición, es lo que se denomina resultado contrafactual. Tiene que ser estimado utilizando métodos estadísticos. Distancia de Mahalanobis Es una medida de distancia introducida por Mahalanobis que permite determinar la similitud entre dos variables aleatorias multidimensionales teniendo en cuenta la correlación que existe entre ellas. Este concepto de distancia está en la base de todas las métricas del matching. Kernel Matching Es un estimador de matching no paramétrico que compara el resultado de cada unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de comparación, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse que el grado de cumplimiento de la hipótesis de soporte común es elevado. Modelo de participación Un modelo logit o probit, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. Esta ecuación de — 50 — Instituto de Estudios Fiscales asignación al programa es el modelo de participación Debe tenerse en cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el método de máxima verosimilitud. Nearest-neighbor Matching (Vecino mas próximo). Es uno de los algoritmos de matching mas utilizados en la práctica y uno de los que produce mejores resultados. Consiste sencillamente en elegir del grupo de comparación el elemento con el PS mas proximo. El sistema puede utilizarse con o sin reemplazamiento. En el último caso hay un matching uno a uno, en el primero un elemento del grupo de control es utilizado mas de unoa vez, matching 1 a n. Problema de la dimensionalidad Con las técnicas de matching se pretende emparejar cada unidad participante en el programa (trata­ da) con una o varias unidades similares, en términos de variables observadas X, no participantes (sin tratamiento). Cuando X es una única variable, p. ej. La edad, el concepto similar es claro: la misma edad o la más próxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el con­ cepto ya no resulta tan obvio. Al comparar el Caso-1 (35 años, NE4) con el Caso-2 (36 años, NE1) y el Caso-3 (50 años, NE4) ¿Cuál de ellos es similar al Caso-1? El Caso-2 es más próximo al Caso-1 en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con múltiples variables X, no está definida con claridad la idea de proximidad. Rosembaum y Rubin (1983) resolvieron este problema proponiendo el cálculo de una medida única el propensity score (PS), probabilidad estimada de participación en el programa mediante un modelo probit o logit con variables explicativas X. Los resultados de Rosembaum y Rubin forman la base teórica del propensity score matching (PSM): la probabilidad de participación en un programa estima­ da a través del PS resume toda la información relevante contenida en las variables X. La idea de proximidad en PS se define con claridad proporcionando una solución excelente al problema de la dimensionalidad, cuya mayor ventaja consiste en la reducción de la dimensionalidad, que permite emparejar por una única variable (PS) en lugar de un conjunto completo de variables observadas X. Propensity Score (PS) En el contexto de la evaluación de impacto, el propensity score , introducido por Rosembaum y Rubin (1993) es un método alternativo para estimar efectos del tratamiento cuando la asignación al mismo no es aleatoria, siempre que se pueda asumir selección en observables o lo que es lo mismo independencia condicional . Un modelo logit o probit, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta esta ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. Propensity Score Matching (PSM) Método de estimación no paramétrica, en el ámbito de la evaluación de impacto es un algoritmo que empareja participantes y no participantes en un programa en base a la probabilidad condicional de participar (PS), dada una serie de características observables. Si los resultados son independientes de la participación, utilizar el grupo de comparación así obtenido, permite obtener un estimador no sesgado del impacto medio del programa. El PSM utiliza la información de un grupo de unidades que no participan en la intervención y tienen características observables similares a los que participan, para identificar lo que habría ocurrido a las unidades que participan en ausencia de la intervención. La clave es buscar y construir un grupo de comparación válido (contrafactual) para ver la diferencia de los resultados entre los participantes y los no participantes similares en las características observa­ bles. De esta forma es posible estimar los efectos de la intervención. Radius Matching Consiste en especificar una distancia máxima del PS, denominada caliper, dentro de cuyo radio buscar el enlace. La idea es que no solamente se utiliza el mas próximo dentro del radio sinó todos los que existan en el grupo de comparación que estén dentro del radio, sin limitación de número, con — 51 — lo que se asegura que son tan similares como se quiera establecer al definir el caliper El radius matchig debe emplearse cuando exixte riesgo de un matching muy pobre porque el cumplimiento de la hipótesis de soporte comun deja amplias zonas de la distribución del PS sin solapar, y también cuando el grupo de comparación es muy reducido. Región de soporte común En el contexto de la evaluación de impacto mediante PSM, para que el matching resulte factible se precisa que existan unidades en el grupo de comparación con los mismos valores de PS que los que participan en el programa de interés. Ello exige un solapamiento o intersección de las distribuciones del PS entre los dos grupos que se van a comparar. Selección en observables En el contexto de evaluación de impacto con la metodología PSM, supone una fuerte restricción de ortogonalidad entre los posibles resultados y el estado del tratamiento, dadas las variables observa­ das. Asumir esta hipótesis implica que la participación, condicionada a las características observa­ bles, es independiente de los posibles resultados. Selección en observables implica que las características inobservables no juegan ningún papel para determinar la participación. A partir de aquí, para obtener un grupo de comparación que permita evaluar los efectos cada participante puede ser comparado con un no participante que tenga las mismas características observables. También se denomina independencia condicional. Sesgo de selección Concepto introducido por James Heckman en la Econometría moderna. En el contexto de la evalua­ ción de impacto, las unidades participantes pueden diferir en características medibles y no medibles. Desde una perspectiva de evaluación, las diferencias medibles (por ejemplo, edad, peso, altura, número de hijos, ingresos, nivel de estudios) no son problemáticas, ya que pueden ser controladas en los análisis estadísticos. Sin embargo, las diferencias imposibles de medir (por ejemplo, la inteligen­ cia, la motivación, el altruismo) son mucho más problemáticas, porque cuando están relacionadas con las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de características pertinentes no medidas, normalmente sesga las esti­ maciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de selección. Sesgo de auto-selección Consecuencia de una selección no aleatoria, se denomina así al sesgo de selección en el caso parti­ cular de que los participantes se prestan voluntarios para el tratamiento. Sesgos ocultos (Hidden Bias Rosembaum 2002) En estudios de observación o experimentos aleatorios, los grupos de tratamiento y de control pueden diferir en sus resultados, incluso si el tratamiento no tiene ningún efecto, lo que puede ocurrir cuando los grupos no eran comparables antes del inicio del tratamiento. Los grupos pueden no ser compara­ bles de dos maneras diferentes: podrían variar con respecto a las características que se han medido, en cuyo caso existe un sesgo evidente, o pueden diferir respecto a características que no se han medido, en este caso habría un sesgo oculto. Los sesgos evidentes pueden ser controlados a través de ajustes, como las técnicas de matching. Los sesgos ocultos son más difíciles de tratar porque las medidas relevantes no están disponibles. Un análisis de sensibilidad pregunta acerca de cuánto ses­ go oculto tendría que estar presente para explicar los diferentes resultados en los grupos tratados y controles. Un análisis de sensibilidad proporciona un marco tangible y específico para la discusión de los sesgos ocultos, Rosenbaum (2002). Tratamiento En general, en el contexto de la evaluación de impacto, es una actuación deliberada también denomi­ nada variable independiente en la metodología PSM. Desde una perspectiva de evaluación de pro­ gramas públicos, los tratamientos incluyen programas y políticas de gobierno, legislación e — 52 — Instituto de Estudios Fiscales innovaciones de la gestión pública. En el campo de la medicina, pionero en este tema y del que se ha incorporado una gran parte de la terminología, los tratamientos pueden incluir, entre otros, la utiliza­ ción de nuevos sistemas de medicamentos, procedimientos quirúrgicos, y el uso de nuevos recursos médicos. ANEXO 4. Documentación adicional • Fichero de datos para ejemplos PSMDATOS. Contiene la información de microdatos en formato STATA para realizar todos los ejemplos en el aula. • Comandos de STATA: PSCORE, GRAPH, ATTS, ATTR, ATTK, ATTNW, ATTND,SENSATT, MHBOUNDS, PSMATCH2, PSGRAPH, PSTEST. Son los comandos que permiten realizar los ejercicios con STATA. — 53 — REFERENCIAS BIBLIOGRÁFICAS ABADIE, A.; DRUKKER, D.; HERR, J. L. and IMBENS, G. (2004): “Implementing Matching Estimators for Average Treatment effects in Stata”. The Stata Journal 4(3), pp. 290-311. ABADIE, A. and IMBENS, G. (2006): “Large Sample Properties of Matching Estimators for Average Treatment Effects”. Econometrica 74(1), pp. 235-267. – (2008): “On the Failure of the Bootstrap for Matching Estimators”. Econometrica 76(6), pp. 1537-1557. – (2011): “Bias-Corrected Matching Estimators for Average Treatment Effects” Journal of Business & Economic Statistic 29(1), pp. 1-11. AUSTIN, PETER C. (2008): “A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003” Statist. Med. 2008; 27, pp. 2037-2049. – (2008): REJOINDER. Discussion of “A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003” Statist. Med. 2008; 27, pp. 2066-2069. AYALA, L. and RODRÍGUEZ, M. (2006a): “The Latin Model of Welfare: Do ‘Insertion Contracts’ Reduce Long-Term Dependence?”, Labour Economics, 13, pp. 799-822. – (2006b): “Evaluating welfare reform under program heterogeneity and alternative outcomes”, Con­ ference Improving Work and Income for low-income households: drawing lessons from UE and U.S. reforms, Instituto de Estudios Fiscales, Madrid, 1-2 de junio de 2006. – (2007a): “La utilización de registros administrativos como base para la investigación de políticas sociales”. In Marcos, C. (dir.): El papel de los registros administrativos en el análisis social y económico y el desarrollo del sistema estadístico. Madrid: Instituto de Estudios Fiscales. – (2007b): “Barriers to employment and welfare duration”, Journal of Policy Modeling 29, pp. 237-257. – (2010): “Explaining welfare recidivism: what role do unemployment and initial spells have?” Jour­ nal of Population Economics, 23, 2010, pp. 373-392. – (2011): “Health-related Effects of Welfare-to-Work Policies: Evidence from Spain”. XVIII Encuentro de Economía Pública. Málaga 3-4 febrero de 2011. ALMUS, M. and CZARNITZKI, D. (2003): “The Effects of Public R&D Subsidies on Firms' Innovation Activi­ ties: The Case of Eastern Germany”. Journal of Business & Economic Statistics 21(2), pp. 226-236. BAKER JUDY L. (2000): “Evaluating the Impact of Development Projects on Poverty. A Handbook for Practitioners”. The World Bank. Washington D.C. BECKER, S. O. & CALIENDO, M. (2007): “Sensitivity Analysis for Average Treatment Effects”. The Stata Journal, 7 (1), pp. 71-83. BECKER, S. and ICHINO, A. (2002): “Estimation of Average Treatment Effects Based on Propensity Score”. The Stata Journal 2(4), pp. 358-377. BLACK, D. and SMITH, J. (2004): “How Robust is the Evidence on the Effects of the College Quality? Evidence from Matching”. Journal of Econometrics 121(1), pp. 99-124. BLACKWELL, M.; IACUS, S.; KING, G. and PORRO, G. (2009): “cem: Coarsened exact matching in Stata”. The Stata Journal 9(4), pp. 524-546. — 55 — BJORKLUND, A. (1985): “Unemployment and Mental Health: Some Evidence from Panel Data,” Journal of Human Resources 20, pp. 469-483. CALIENDO, M. and KOPEINIG, S. (2005): “Some Practical Guidance for the Implementation of Propensi­ ty-score matching”. Iza Discussion Paper 1588. Institute for the Study of Labor (IZA). CANCIAN, M. and MEYER, D. R. (2004): ” Alternative Measures of Economic Success among TANF Participants: Avoiding Poverty, Hardship, and Dependence on Public Assistance”. Journal of Poli­ cy Analysis and Management 23, pp. 531-548. CAWLEY, J. and DANZIGER, S. (2005): “Morbid Obesity and the Transition from Welfare to Work” Jour­ nal of Policy Analysis and Management 24, pp. 727-43. COIRO, M. J. (2008): “Depressive Symptoms Among Women Receiving Welfare,” Women & Health 32, pp. 1-23. DANZIGER, S.; KALIL, A. and ANDERSON, N. J. (2000): “Human Capital, Physical Health and Mental Health of Welfare Recipients: Co-occurrence and Correlates,” Journal of Social Issues 56, pp. 635-654. DEHEJIA, R. (2005): “Practical propensity score matching: a reply to Smith and Todd,” Journal of Eco­ nometrics 125, pp. 355-364. DEHEJIA, R. H. and WAHBA, S. (1999): “Causal Effects in Nonexperimental Studies: Reeevaluating the Evaluation of Training Programs”. Journal of the American Statistical Association 94, pp. 1053-1062. – (2002): "Propensity Score-Matching Methods For Nonexperimental Causal Studies". The Review of Economics and Statistics 84, pp. 151-161. EFRON, B. and TIBSHIRANI, R. J. (1993): “An Introduction to the Bootstrap”. London: Chapman & Hall. “Evaluación de la política de bonificaciones y reducciones de cuotas de la Seguridad Social destinada a las personas en situación de discapacidad”. FAGIN, LEONARD and LITTLE MARTIN (1984): ”The Forsaken Families: Effects of Unemployment on Family Life”, London, Pelican. FLORES-LAGUNES, A.; GONZALEZ, A. and NEUMANN, T. (2007): “Estimating the Effects of Length of Ex­ posure to a Training Program: The Case of Job Corps”. IZA Discussion Papers 2846, Institute for the Study of Labor (IZA). GALIANI, S.; GERTLER, P. and SCHARGRODSKY, E. (2005): “Water for Life: The Impact of the Privatiza­ tion of Water Services on Child Mortality”. Journal of Political Economy 113(1), pp. 83-120. GERTLER, P. J.; MARTINEZ, S.; PREMAND, P.; RAWLINGS, L.; CHRISTEL, M. and VERMEERSCH, J. (2011): “Impact Evaluation in Practice”. The International Bank for Reconstruction and Development / The World Bank. GLYMOUR, C. (1986): “Statistics and causal inference: comment: statistics and metaphysics” Journal of the American Statistical Association, Vol. 81, n.º 396, pp. 964-966. HANSEN, B. B. (2008): ”The esssential role of balance test in propensity-matched observational studies: Comments on ‘A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003’ by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2050-2054. HANSEN, B. B. and KLOPFER, S. O. (2006): “Optimal full matching and related designs via network flows”. JCGS 15, pp. 609-627. HECKMAN JAMES J. (2001): “Micro Data, Heterogeneity, and the Evaluation of Public Policy: Nobel Lec­ ture”. Journal of Political Economy Vol. 109, n.º 4, pp. 673-748. HECKMAN, J.; ICHIMURA, H. and TODD, P. (1998): “Matching as an Econometric Evaluation Estimator”. The Review of Economic Studies 65(2), pp. 261-294. HECKMAN, JAMES J.; ROBERT LALONDE, and JEFFREY SMITH. (1999): “The Economics and Econometrics of Active Labor Market Programs.” In Handbook of Labor Economics, vol. 3, ed. Orley Ashenfelter and David Card, 1865-2097. Amsterdam: North-Holland. — 56 — HEINRICH C.; MAFFIOLI, A. and VAZQUEZ, G. (2010): “A Primer for Applying Propensity-Score Matching. Impact-Evaluation Guidelines” Inter-American Development Bank. HILL, JENNIFER (2008): “Discussion of research using propensity-score matching: Comments on ‘A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003’ by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2055-2061. HIRANO, K. and IMBENS, G. (2004): “The Propensity Score with Continuous Treatments”. Mimeographic document. HOLLAND, P. (1986): “Statistics and Causal Inference”. Journal of the American Statistical Associa­ tion 81(396), pp. 945-960. ICHINO, A.; MEALLI, F. and NANNICINI, T. (2006): “From temporary help jobs to permanent employment: What can we learn from matching estimators and their sensitivity?” IZA DP n.º 2149. IMAI, K. and VAN DIJK, D. (2004): “Causal Inference with General Treatment Regimes: Generalizing the Propensity Score”. Journal of the American Statistical Association 99(467), pp. 854-866. IMBENS, G. W. (2000): “The Role of Propensity Score in Estimating Dose-Response Functions”. Bio­ metrika 87, 706—710. – (2004): “Nonparametric Estimation of Average Treatment Effects Under Exogeneity: A Review”. The Review of Economics and Statistics 86, pp. 4-29. – (2008): “Estimating Variances for Estimators of Average Treatment Effects”. Mimeographic document. IMBENS, G. W. and WOOLDRIDGE, J. M. (2009): “Recent Developments in the Econometrics of Program Evaluation”, Journal of Economic Literature 47, pp. 5-86. JALAN, J. and RAVALLION, M. (2003): “Estimating the Benefit Incidence of an Antipoverty Program by Propensity-Score Matching”. Journal of Business & Economic Statistics 21(1), pp. 19-30. JAYAKODY, R.; DANZIGER, S. and POLLACK, H. (2000): “Welfare Reform, Substance Use, and Mental Health,” Journal of Health Politics, Policy and Law 25, pp. 623-651. KING, G.; GAKIDOU, E.; RAVISHANKAR, N.; MOORE, R. T.; LAKIN, J.; VARGAS, M.; TÉLLEZ-ROJO, M. M.; ÁVI­ LA, J. E. H.; ÁVILA, M. H.; & LLAMAS H. H. (2007): A "politically robust" experimental design for pub­ lic policy evaluation with application to the Mexican universal health insurance program. Journal of Policy Analysis and Management, 26(3), pp. 479-506. KOVESS, V.; GYSENS, S.; POINSARD, R.; CHANOIT, P. F. and LABARTE, S. (1999): “Mental health and use of care in people receiving a French social benefit,” Social psychiatry and psychiatric epidemiology 34, pp. 588-594. KURTH, T.; WALKER, A. M.; GLYNN, R. J.; CHAN, K. A.; L GAZIANO, J. M.; BERGER, K. and ROBINS, J. M. (2005): “Results of Multivariable Logistic Regression, Propensity Matching, Propensity Adjust­ ment, and Propensity-based Weighting under Conditions of Nonuniform Effect” American Journal of Epidemiology Vol. 163, No.3. LAVY, V. (2002): “Evaluating the Effect of Teachers' Group Performance Incentives on Pupil Achieve­ ment”. The Journal of Political Economy 110(6), pp. 1286-1317. LECHNER, M. (1999): “The Effects of Enterprise-Related Training in East Germany on Individual Em­ ployment and Earnings”. Annales d'Économie et de Statistique 55/56, pp. 97-128. – (2001): “Some Practical Issues in the Evaluation of Heterogeneous Labor Market Programs by Matching Methods”. In Lechner, M., and F. Pfeiffer (eds.), Econometric Evaluations of Active La­ bor Market Policies in Europe. Heidelberg: Physica/Springer. – (2002): “Program Heterogeneity and Propensity-score matching: An Application to the Evaluation of Active Labor Market Policies”. The Review of Economics and Statistics 84(2), pp. 205-220. LEUVEN, E. and SIANESI, B. (2003): "PSMATCH2: Stata Module to Perform Full Mahalanobis and Pro­ pensity-Score Matching, Common Support Graphing, and Covariate Imbalance Testing”. Statis­ — 57 — tical Software Components S432001 (revised May 2009). Newton, MA, United States: Boston College Department of Economics. Disponible en http://ideas.repec.org/c/boc/bocode/s432001.html. MAFFIOLI, A.; VALDIVIA, M. and VÁZQUEZ, G. (2009): “Impact of a Technology Transfer Program on Small Farmers: The Case of Ecuador’s PROMSA”. Mimeographic document. MEARA, E. and FRANK, R. G. (2006): “Welfare Reform, Work Requirements, and Employment Barriers.” N.B.E.R. Working Paper 12480. MINISTERIO DE LA PRESIDENCIA. AGENCIA ESTATAL DE EVALUACIÓN DE LAS POLÍTICAS PÚBLICAS Y LA CALI­ DAD DE LOS SERVICIOS (2009): “Evaluación de la política de bonificaciones y reducciones de cuo­ tas de la Seguridad Social destinada a las personas en situación de discapacidad”. Disponible en http://www.aeval.es/es/difusion_y_comunicacion/Publicaciones_AEVAL/Informes/Evaluaciones_2009/ E19.html MCCULLAGH, P. and NELDER, J. A. (1983): “Generalized Linear Models”. Chapman & Hall/CRC Mono­ graphs on Statistics & Applied Probability. MOSER, P. (2005): “How Do Patent Laws Influence Innovation? Evidence from Nineteenth-Century World's Fairs”. The American Economic Review 95(4), pp. 1214-1236. MOFFITT, R. (2001): “From Welfare to Work: What the Evidence Shows?” The Brookings Institution, Policy Brief 13/2002. NANNICINI, T. (2007): “Simulation-based Sensitivity Analysis for Matching Estimators”. The Stata Jour­ nal, 7 (3), pp. 334-350. PEARL, J. (2009): Understanding propensity scores. In Causality: Models, Reasoning, and Inference, Cambridge University Press, Second Edition. – (2009b): Letter to the editor: Remarks on the method of propensity scores. Statistics in Medicine 28, pp. 1415-1416. PERSSON, T.; TABELLINI, G. and TREBBI, F. (2003): “Electoral Rules and Corruption”. Journal of the Eu­ ropean Economic Association 1(4), pp. 958-989. ROSENBAUM, P. R. (2002): “Observational Studies”, Second Edition. New York, NY: Springer. ROSENBAUM, P. and D. RUBIN. (1983): “The Central Role of the Propensity Score in Observational Stu­ dies for Causal Effects”. Biometrika 70(1), pp. 41-55. – (1985): “Constructing a Control Group Using Multivariate Matched Sampling Methods that Incor­ porate the Propensity Score”. The American Statistican 39, pp. 33-38. SIANESI, B. (2008): “Differential effects of active labor market programs for the unemployed”. Labor Economics 15, pp. 370-399. SMITH, J. and TODD, P. (2005): “Does matching overcome Lalonde’s critique of nonexperimental esti­ mators?”. Journal of Econometrics 125(1-2), pp. 305-353. SHAHIDUR R. KHANDKER; GAYATRI B. KOOLWAL; and HUSSAIN SAMAD (2009): “Handbook On Impact Evaluation: Quantitative Methods And Practices” World Bank Publications. “Social Experimentation, Program Evaluation, and Public Policy”(2009): Maureen Pirog (Editor). WileyBlackwell. STUART, E. A. (2008): “Developing practical recommendations for the use of propensity scores: Dis­ cussion of ‘A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003’ by Peter Austin”, Statistics in Medicine Statist. Med. 2008; 27, pp. 2062-2065. TRUJILLO, A.; PORTILLO, J. and VERNON, J. (2005): “The Impact of Subsidized Health Insurance for the Poor: Evaluating the Colombian Experience Using Propensity-score matching”. International Journal of Health Care Finance and Economics 5(3), pp. 211-239. — 58 —