Métodos Experimentales & No-experimentales I Alessandro Maffioli Taller de evaluación de impacto de programas de ciencia, tecnología e innovación 17-18 de Junio 2014, Ciudad de México Efectividad en el Desarrollo “Hacer las cosas correctas” Hasta qué punto se cumplieron o se espera que se cumplan los objetivos de las intervenciones para el desarrollo, tomando en cuenta su importancia relativa. Dar prioridad a las políticas en relación con las principales necesidades establecidas por el país “Hacer las cosas correctamente” ¿Qué tanto del valor previsto se entregó realmente? (Gestión, Monitoreo y Evaluación) Las evaluaciones de impacto (EI) son una herramienta fundamental en la valoración de si se están haciendo correctamente las cosas. 2 2 La lógica de diseño Problema/Retos del Desarrollo Causas y Determinantes Población Objetivo Diagnóstico: no sólo una descripción del problema, debe ser analítico y presentar causas solucionables Focalización Obj de Desarrollo Resultados esperados Productos Esperados Mecanismos de Ejecución 3 Actividades Supuestos y Riesgos Modelo de Intervención La lógica de evaluación Problema/Retos del Desarrollo Relevancia Causas y Determinantes Población Objetivo Heterogeneidad Evaluación de impacto Obj de Desarrollo Resultados esperados Productos Esperados Monitoreo y Evaluación de Procesos 4 Actividades Supuestos y Riesgos Objetivos del Monitoreo 5 • Monitoreo: está el programa avanzando de acuerdo con lo planeado? – Insumos – Actividades – Productos – Resultados – ¿Se están moviendo los indicadores en la dirección correcta? – No hay preocupación por la causalidad ni atribución • El monitoreo es el punto de partida un proceso de aprendizaje – Ilustra en qué ha consistido la intervención (fidelidad) – Genera datos Evaluación de impacto: Conceptos clave • Una EI busca determinar si un proyecto funciona, concentrándose en sus indicadores de resultados. • Atribución o causalidad es el concepto clave en EI ¿Hasta qué punto los cambios observados en el indicador de interés son atribuibles a la intervención o a otros factores? • La definición de causalidad está basada en el concepto del contrafactual. El impacto o efecto causal de un proyecto es la diferencia entre: - Los resultados que los beneficiarios alcanzan después de participar en el programa. - Los resultados que esos mismos beneficiarios hubieran alcanzado después del programa si no hubieran participado en éste. • Esta definición de causalidad introduce un problema empírico porque el resultado contrafactual, por definición, no se observa. Este es el problema fundamental de la inferencia causal (Holland 1986). 3 Contrafactual observable…. 7 Porque se necesita un contrafactual Y 8 tiemp o Cual es el verdadero impacto? 9 • Supongamos que después del programa observamos una diferencia en los indicadores de resultados entre el grupo de participantes y el grupo de control • Pregunta crucial: ¿Esta diferencia se debe al programa o a algo más? • Algo más puede ser: – Diferencias pre-existentes entre los dos grupos – Eventos que ocurrieron después de que el programa comenzó y que afectaron a los dos grupos de distinta forma o manera Contrafactuales y el problema de la atribución • Para estimar el efecto promedio de un proyecto, una EI construye un contrafactual artificial mediante la identificación de un grupo de control. • Este enfoque funciona si el grupo de control es una buena aproximación del contrafactual verdadero. De otro modo los resultados estarán sesgados: Lo que queremos medir (efecto promedio en los tratados): Y1 Y0 Lo que observamos (diferencia promedio entre los tratados y el grupo de control): Y1 C0 La diferencia potencial entre lo que observamos y lo Y1 Y0 Y1 C0 que queremos medir es el llamado “sesgo de C0 Y0 selección”. • La calidad (validez interna) de una EI depende de los supuestos necesarios para asegurar que no hay sesgo de selección ( C0 Y0 0). • La ausencia de sesgo de selección está garantizada en un diseño experimental. 5 Alternativas para construir el contrafactual 11 • “Contrafactuales” debiles 1 - Comparar la situación antes y después del programa Problema: muchos otros factores que afectan el resultado pueden haber cambiado 2- Comparar un grupo con programa y otro sin programa Problema: supone que los grupos eran iguales antes del programa y que estuvieron expuestos a los mismos factores • Para generar un grupo de comparación válido, hay dos opciones principales: – Métodos experimentales – Métodos no-experimentales Preguntas de evaluación e implicaciones de política ¿Qué preguntas puede contestar la EI y qué implicaciones de políticas produce? Preguntas de evaluación Implicaciones de política ¿El proyecto es eficaz en el alcance de sus objetivos de desarrollo (finales e intermedios)? Expansión, terminación o modificación de la política ¿Los efectos son distintos para distintas categorías de beneficiarios? Focalización de beneficiarios ¿Los efectos dependen de la intensidad del tratamiento? Dimensionamiento del tratamiento ¿En cuánto tiempo se pueden observar los efectos del proyecto y cómo varían en el tiempo? Definición de flujos de beneficios (ACB & ACE) ¿Los efectos son diferentes si se combinan con otras intervenciones? Coordinación de políticas públicas ¿El programa produce externalidades positivas (o negativas) y/o efectos de equilibrio general? Definición de los flujos de beneficios (ACB & ACE) 6 Pasos clave en la definición de una EI Comprender la teoría del cambio Comprender el mecanismo de ejecución Retroalimentación de lecciones en las políticas Definir las preguntas clave para la evaluación Comunicar los resultados Revisar qué dice la literatura Analizar Identificar (producir) datos 7 Métodos Experimentales 14 • Experimentos aleatorios: individuos, productores o empresas que aplican a un programa son asignados aleatoriamente a uno o más grupos de tratamiento y un grupo de control • Es también una manera transparente y justa de asignar beneficios cuando no hay presupuesto para todos, y la mejor manera de determinar si el programa funciona. • Como todo método, tienen limitaciones: solo efecto promedio, no hay placebo, hay desertores, externalidades… • Los métodos no-experimentales buscan replicar estos experimentos Experimentos: porque funcionan? • Resultado promedio para el grupo con tratamiento = promedio [yT(i)] = promedio [yC(i) + d(i)] = promedio[yC(i)] + promedio[d(i)] • Resultado para el grupo control = promedio[yC(i)] • Diferencia entre ambos grupos = promedio[d(i)] = Efecto promedio del Tratamiento Esto funciona por dos razones: 1. Aritmética: promedio (A + B) = promedio(A) + promedio(B) 2. Selección Aleatoria: promedio[yC(i)|i=tratados] = promedio[yC(i)|i=controles] 15 ¿Qué aprendemos de los experimentos? • Podemos medir el impacto promedio del programa porque: promedio[yC(i)|control] = promedio[yC(i)|tratamiento] 16 • La selección aleatoria garantiza que, en promedio, los valores de cualquier variable son iguales para ambos grupos • Sin embargo, tenemos una sola muestra para cada grupo, por lo cual los valores pueden diferir en las muestras. De cada veinte variables, es posible que una o dos sean “distintas”. Por ello se necesita hacer cálculos de potencia estadística y tener muestras lo suficientemente grandes Pasos claves en un experimento • • • • • • • • • • 17 Definir la teoría de cambio (diagnóstico, lógica, elegibilidad) Diseñar el mecanismo de ejecución Identificar las preguntas de evaluación mas relevantes Recolectar información de línea de base Asignar aleatoriamente a grupos de tratamiento y control Verificar asignación aleatoria Monitorear para asegurar la integridad del proceso completo Recolectar datos de indicadores para ambos grupos un tiempo después de la intervención Estimar el impacto de la intervención comparando los indicadores entre ambos grupos Determinar si el impacto de la intervención es estadística y substantivamente significativo Métodos no-experimentales • Como se mencionó, la asignación aleatoria no siempre es factible • Cuando los individuos no son asignados al tratamiento por un proceso aleatorio no se tiene un grupo de control experimental • Es esencial entender y modelar el proceso de asignación al tratamiento: • • • 18 Autoselección (decisión individual) Selección administrativa (individuos asignados según criterios específicos) Combinación de ambas El problema de la Evaluación de Impacto en diseños no- experimentales A = empresas que reciben el programa B = empresas que no reciben el programa Y = indicador = productividad No observable ATT = ( Y A| A participa) – ( Y A | A no participa) (Y B | B participa) – (Y B | B no participa) = ATT + (Diferencia A,B) No observable Sesgo de selección Se puede usar B como contrafactual solo si (Diferencia A,B) = 0 (en promedio) 19 Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento Educación 1 2 3 4 5 6 7 8 B B B B A A A A 2 3 5 12 5 3 4 2 Ingreso MATCH Ingreso A Ingreso Contrafactual 60 80 90 200 100 80 90 70 ATT 20 DIF Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento Educación 1 2 3 4 5 6 7 8 B B B B A A A A 2 3 5 12 5 3 4 2 Ingreso 60 80 90 200 100 80 90 70 MATCH Ingreso A Ingreso Contrafactual [3] [2] [2,3] [1] ATT 21 DIF Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento Educación 1 2 3 4 5 6 7 8 B B B B A A A A 2 3 5 12 5 3 4 2 Ingreso 60 80 90 200 100 80 90 70 MATCH [3] [2] [2,3] [1] Ingreso A Ingreso Contrafactual 100 80 90 70 90 80 (80+90)/2=85 60 ATT 22 DIF 10 0 5 10 6.25 Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento 1 2 3 4 5 6 7 8 B B B B A A A A Prob Ingreso (participar) 0.3 60 0.4 80 0.7 90 0.1 200 0.7 100 0.45 80 0.35 90 0.32 70 MATCH Ingreso A Ingreso Contrafactual ATT 23 DIF Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento 1 2 3 4 5 6 7 8 B B B B A A A A Prob Ingreso (participar) 0.3 60 0.4 80 0.7 90 0.1 200 0.7 100 0.45 80 0.35 90 0.32 70 MATCH Ingreso A Ingreso Contrafactual 3 2 1,2 1 ATT 24 DIF Emparejamiento estadístico (PSM) Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables. HH Tratamiento 1 2 3 4 5 6 7 8 B B B B A A A A Prob Ingreso (participar) 0.3 60 0.4 80 0.7 90 0.1 200 0.7 100 0.45 80 0.35 90 0.32 70 MATCH 3 2 1,2 1 Ingreso A Ingreso Contrafactual 100 80 90 70 90 80 70 60 ATT 25 DIF 10 0 20 10 10 PSM: supuestos básicos • Supuesto de Independencia Condicional (CIA): dado un conjunto de variables observables X, que no son afectadas por el tratamiento, los outcomes potenciales son independientes del status de tratamiento. • En la práctica, condicionando en características observables, matching remueve el sesgo asociado a diferencias pre-tratamiento entre los grupos tratado y no tratado. • Útil cuando la información de características observables pretratamiento es abundante • Limitación: si el status de tratamiento depende de características no observables, el estimador es sesgado ! 26 PSM: intuición • Propensity Score Matching: estimación de un “modelo de participación” que reduce el problema de matching a una sola dimensión (propensity score) • Los propensity scores (probabilidades predichas) son usados para juntar (matchear) a las unidades tratadas con las no tratadas Hay que tener individuos no tratados con características similares a los individuos tratados Condición de superposición en PSM 27 PSM: condición de superposición Densidad Densidad de participantes Región de soporte común 0 28 Propensity score Alta probabilidad de participar 1 dado X PSM: implementación Correr un modelo de elección discreta (por ej. Probit o Logit) • Variable dependiente: Y=1 si participa; Y = 0 si no • Elegir variables apropiadas para condicionar • Obtener el propensity score: probabilidad predicha Juntar a cada participante con uno o más no participantes según su propensity score • Identificar el soporte común • Elegir el algoritmo de matching • Evaluar la calidad del matching Estimar el impacto en base a la nueva muestra 29 PSM: identificación del soporte común Se pueden usar varias estrategias para identificar el soporte común: • Análisis visual: graficar las densidades de los propensity scores para ambos grupos y superponer los gráficos • Criterio del máximo y mínimo: eliminar las observaciones con propensity score menor al mínimo y mayor al máximo del grupo opuesto • “Recorte”: excluir las observaciones en áreas donde el propensity score de algún grupo es cero • Similitud estadística de las distribuciones de los p-scores: test de igualdad de distribuciones 30 Ej. Criterio de máximo y mínimo Densidad Densidad de los participantes Región de soporte común 0 31 Propensity score Alta probabilidad de participar 1 dado X PSM: elección del algoritmo de matching Modelo Descripción Alternativas Factor clave SES EFI Vecino más cercano Elegir el / los controles con menor distancia • Sin reposición • Con reposición • Oversampling • Orden del matching • Peores parejas • Peores parejas Calibre y Radio Elegir controles dentro de una cierta distancia • Calibre • Radio • Nivel de tolerancia • Definición del radio Estratificación Dividir el soporte común en estratos • No. de estratos • Elección del the No. de estratos Kernel Promedio ponderado de todas las observaciones en el SC • Función de • Definición del SC Kernel • Ancho de banda 32 PSM: Resumiendo Cuando un evaluador usa una metodología PSM, queremos chequear: Información disponible de características observables Qué variables se incluyen en el modelo de participación y por qué Identificación del soporte común Qué algoritmo de matching se usa y por qué (realizar chequeos de robustez) El balance entre características relevantes (y de las distribuciones del PS) 33 PSM • Carboni (2008) estudia el efecto de subsidios públicos en gasto privado en I&D de empresas manufactureras en Italia • Los autores encuentran grandes diferencias (ex-ante) entre empresas subsidiadas y no subsidiadas: los grupos no son comparables • Se recurre a PSM para seleccionar a empresas similares 34 PSM 35 PSM Modelo de Participación 36 PSM Resultados 37 PSM • Evaluación del balanceo de la muestra: distribución de los propensity scores entre grupos antes del matching 38 después del matching