Método de Emparejamiento Estadístico-Propensity

Anuncio
Métodos Experimentales &
No-experimentales I
Alessandro Maffioli
Taller de evaluación de impacto de programas de ciencia, tecnología e innovación
17-18 de Junio 2014, Ciudad de México
Efectividad en el Desarrollo
“Hacer las cosas correctas”
Hasta qué punto se
cumplieron o se
espera que se
cumplan los
objetivos de las
intervenciones para
el desarrollo,
tomando en cuenta
su importancia
relativa.
Dar prioridad a las políticas en relación
con las principales necesidades
establecidas por el país
“Hacer las cosas correctamente”
¿Qué tanto del valor previsto se
entregó realmente?
(Gestión, Monitoreo y Evaluación)
Las evaluaciones de impacto (EI) son una herramienta fundamental en la valoración
de si se están haciendo correctamente las cosas.
2
2
La lógica de diseño
Problema/Retos del
Desarrollo
Causas y
Determinantes
Población Objetivo
Diagnóstico: no sólo una descripción del
problema, debe ser analítico y presentar
causas solucionables
Focalización
Obj de Desarrollo
Resultados
esperados
Productos Esperados
Mecanismos
de Ejecución
3
Actividades
Supuestos
y
Riesgos
Modelo de
Intervención
La lógica de evaluación
Problema/Retos del
Desarrollo
Relevancia
Causas y
Determinantes
Población Objetivo
Heterogeneidad
Evaluación de
impacto
Obj de Desarrollo
Resultados
esperados
Productos Esperados
Monitoreo y
Evaluación de
Procesos
4
Actividades
Supuestos
y
Riesgos
Objetivos del Monitoreo
5
•
Monitoreo: está el programa avanzando de acuerdo con lo
planeado?
– Insumos – Actividades – Productos – Resultados
– ¿Se están moviendo los indicadores en la dirección
correcta?
– No hay preocupación por la causalidad ni atribución
•
El monitoreo es el punto de partida un proceso de
aprendizaje
– Ilustra en qué ha consistido la intervención (fidelidad)
– Genera datos
Evaluación de impacto: Conceptos clave
•
Una EI busca determinar si un proyecto funciona, concentrándose en sus
indicadores de resultados.
• Atribución o causalidad es el concepto clave en EI ¿Hasta qué punto los
cambios observados en el indicador de interés son atribuibles a la
intervención o a otros factores?
• La definición de causalidad está basada en el concepto del contrafactual.
El impacto o efecto causal de un proyecto es la diferencia entre:
- Los resultados que los beneficiarios alcanzan después de
participar en el programa.
- Los resultados que esos mismos beneficiarios hubieran alcanzado
después del programa si no hubieran participado en éste.
• Esta definición de causalidad introduce un problema empírico porque el
resultado contrafactual, por definición, no se observa. Este es el
problema fundamental de la inferencia causal (Holland 1986).
3
Contrafactual observable….
7
Porque se necesita un contrafactual
Y

8
tiemp
o
Cual es el verdadero impacto?
9
•
Supongamos que después del programa observamos una
diferencia en los indicadores de resultados entre el grupo
de participantes y el grupo de control
•
Pregunta crucial: ¿Esta diferencia se debe al programa o a
algo más?
•
Algo más puede ser:
– Diferencias pre-existentes entre los dos grupos
– Eventos que ocurrieron después de que el programa
comenzó y que afectaron a los dos grupos de distinta
forma o manera
Contrafactuales y el problema de la atribución
• Para estimar el efecto promedio de un proyecto, una EI construye un
contrafactual artificial mediante la identificación de un grupo de control.
• Este enfoque funciona si el grupo de control es una buena aproximación
del contrafactual verdadero. De otro modo los resultados estarán
sesgados:
Lo que queremos medir (efecto promedio en los
tratados):
Y1  Y0
Lo que observamos (diferencia promedio entre los
tratados y el grupo de control):
Y1  C0
La diferencia potencial entre lo que observamos y lo Y1  Y0   Y1  C0  
que queremos medir es el llamado “sesgo de
C0  Y0
selección”.
• La calidad (validez interna) de una EI depende de los supuestos necesarios
para asegurar que no hay sesgo de selección ( C0  Y0  0).
• La ausencia de sesgo de selección está garantizada en un diseño
experimental.
5
Alternativas para construir el contrafactual
11
•
“Contrafactuales” debiles
1 - Comparar la situación antes y después del programa
Problema: muchos otros factores que afectan el resultado
pueden haber cambiado
2- Comparar un grupo con programa y otro sin programa
Problema: supone que los grupos eran iguales antes del
programa y que estuvieron expuestos a los mismos
factores
•
Para generar un grupo de comparación válido, hay dos
opciones principales:
– Métodos experimentales
– Métodos no-experimentales
Preguntas de evaluación e implicaciones de
política
¿Qué preguntas puede contestar la EI y qué implicaciones de políticas
produce?
Preguntas de evaluación
Implicaciones de política
¿El proyecto es eficaz en el alcance de sus objetivos de
desarrollo (finales e intermedios)?
Expansión, terminación o
modificación de la política
¿Los efectos son distintos para distintas categorías de
beneficiarios?
Focalización de beneficiarios
¿Los efectos dependen de la intensidad del
tratamiento?
Dimensionamiento del
tratamiento
¿En cuánto tiempo se pueden observar los efectos del
proyecto y cómo varían en el tiempo?
Definición de flujos de
beneficios (ACB & ACE)
¿Los efectos son diferentes si se combinan con otras
intervenciones?
Coordinación de políticas
públicas
¿El programa produce externalidades positivas (o
negativas) y/o efectos de equilibrio general?
Definición de los flujos de
beneficios (ACB & ACE)
6
Pasos clave en la definición de una EI
Comprender la
teoría del cambio
Comprender el
mecanismo de
ejecución
Retroalimentación
de lecciones en las
políticas
Definir las
preguntas clave
para la evaluación
Comunicar los
resultados
Revisar qué dice la
literatura
Analizar
Identificar
(producir) datos
7
Métodos Experimentales
14
•
Experimentos aleatorios: individuos, productores o empresas
que aplican a un programa son asignados aleatoriamente a uno
o más grupos de tratamiento y un grupo de control
•
Es también una manera transparente y justa de asignar
beneficios cuando no hay presupuesto para todos, y la mejor
manera de determinar si el programa funciona.
•
Como todo método, tienen limitaciones: solo efecto promedio,
no hay placebo, hay desertores, externalidades…
•
Los métodos no-experimentales buscan replicar estos
experimentos
Experimentos: porque funcionan?
• Resultado promedio para el
grupo con tratamiento
= promedio [yT(i)]
= promedio [yC(i) + d(i)]
= promedio[yC(i)] + promedio[d(i)]
• Resultado para el grupo control = promedio[yC(i)]
• Diferencia entre ambos grupos = promedio[d(i)] = Efecto promedio del
Tratamiento
Esto funciona por dos razones:
1. Aritmética:
promedio (A + B) = promedio(A) + promedio(B)
2. Selección Aleatoria:
promedio[yC(i)|i=tratados] = promedio[yC(i)|i=controles]
15
¿Qué aprendemos de los experimentos?
•
Podemos medir el impacto promedio del programa
porque:
promedio[yC(i)|control] = promedio[yC(i)|tratamiento]
16
•
La selección aleatoria garantiza que, en promedio, los
valores de cualquier variable son iguales para ambos
grupos
•
Sin embargo, tenemos una sola muestra para cada grupo,
por lo cual los valores pueden diferir en las muestras. De
cada veinte variables, es posible que una o dos sean
“distintas”. Por ello se necesita hacer cálculos de potencia
estadística y tener muestras lo suficientemente grandes
Pasos claves en un experimento
•
•
•
•
•
•
•
•
•
•
17
Definir la teoría de cambio (diagnóstico, lógica, elegibilidad)
Diseñar el mecanismo de ejecución
Identificar las preguntas de evaluación mas relevantes
Recolectar información de línea de base
Asignar aleatoriamente a grupos de tratamiento y control
Verificar asignación aleatoria
Monitorear para asegurar la integridad del proceso completo
Recolectar datos de indicadores para ambos grupos un tiempo
después de la intervención
Estimar el impacto de la intervención comparando los
indicadores entre ambos grupos
Determinar si el impacto de la intervención es estadística y
substantivamente significativo
Métodos no-experimentales
•
Como se mencionó, la asignación aleatoria no
siempre es factible
•
Cuando los individuos no son asignados al
tratamiento por un proceso aleatorio  no se tiene
un grupo de control experimental
•
Es esencial entender y modelar el proceso de
asignación al tratamiento:
•
•
•
18
Autoselección (decisión individual)
Selección administrativa (individuos asignados
según criterios específicos)
Combinación de ambas
El problema de la Evaluación de Impacto
en diseños no- experimentales
A = empresas que reciben el programa
B = empresas que no reciben el programa
Y = indicador = productividad
No observable
ATT = ( Y A| A participa) – ( Y A | A no participa)
(Y B | B participa) – (Y B | B no participa) = ATT + (Diferencia A,B)
No observable
Sesgo de selección
Se puede usar B como contrafactual solo si (Diferencia A,B) = 0 (en
promedio)
19
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del
programa, es posible estimar la probabilidad de participación, y luego
usarla para comprar a cada beneficiario con un no beneficiario que
tenía la misma probabilidad de participar, eliminando así sesgos por
características observables.
HH
Tratamiento Educación
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
2
3
5
12
5
3
4
2
Ingreso
MATCH
Ingreso A
Ingreso
Contrafactual
60
80
90
200
100
80
90
70
ATT
20
DIF
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del
programa, es posible estimar la probabilidad de participación, y luego
usarla para comprar a cada beneficiario con un no beneficiario que
tenía la misma probabilidad de participar, eliminando así sesgos por
características observables.
HH
Tratamiento Educación
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
2
3
5
12
5
3
4
2
Ingreso
60
80
90
200
100
80
90
70
MATCH
Ingreso A
Ingreso
Contrafactual
[3]
[2]
[2,3]
[1]
ATT
21
DIF
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes
del programa, es posible estimar la probabilidad de
participación, y luego usarla para comprar a cada beneficiario
con un no beneficiario que tenía la misma probabilidad de
participar, eliminando así sesgos por características
observables.
HH
Tratamiento Educación
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
2
3
5
12
5
3
4
2
Ingreso
60
80
90
200
100
80
90
70
MATCH
[3]
[2]
[2,3]
[1]
Ingreso A
Ingreso
Contrafactual
100
80
90
70
90
80
(80+90)/2=85
60
ATT
22
DIF
10
0
5
10
6.25
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del
programa, es posible estimar la probabilidad de participación, y luego
usarla para comprar a cada beneficiario con un no beneficiario que
tenía la misma probabilidad de participar, eliminando así sesgos por
características observables.
HH
Tratamiento
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
Prob
Ingreso
(participar)
0.3
60
0.4
80
0.7
90
0.1
200
0.7
100
0.45
80
0.35
90
0.32
70
MATCH
Ingreso A
Ingreso
Contrafactual
ATT
23
DIF
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del
programa, es posible estimar la probabilidad de participación, y luego
usarla para comprar a cada beneficiario con un no beneficiario que
tenía la misma probabilidad de participar, eliminando así sesgos por
características observables.
HH
Tratamiento
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
Prob
Ingreso
(participar)
0.3
60
0.4
80
0.7
90
0.1
200
0.7
100
0.45
80
0.35
90
0.32
70
MATCH
Ingreso A
Ingreso
Contrafactual
3
2
1,2
1
ATT
24
DIF
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes
del programa, es posible estimar la probabilidad de
participación, y luego usarla para comprar a cada beneficiario
con un no beneficiario que tenía la misma probabilidad de
participar, eliminando así sesgos por características
observables.
HH
Tratamiento
1
2
3
4
5
6
7
8
B
B
B
B
A
A
A
A
Prob
Ingreso
(participar)
0.3
60
0.4
80
0.7
90
0.1
200
0.7
100
0.45
80
0.35
90
0.32
70
MATCH
3
2
1,2
1
Ingreso A
Ingreso
Contrafactual
100
80
90
70
90
80
70
60
ATT
25
DIF
10
0
20
10
10
PSM: supuestos básicos
•
Supuesto de Independencia Condicional (CIA): dado un conjunto de
variables observables X, que no son afectadas por el tratamiento, los
outcomes potenciales son independientes del status de tratamiento.
•
En la práctica, condicionando en características observables,
matching remueve el sesgo asociado a diferencias pre-tratamiento
entre los grupos tratado y no tratado.
•
Útil cuando la información de características observables pretratamiento es abundante
•
Limitación: si el status de tratamiento depende de características no
observables, el estimador es sesgado !
26
PSM: intuición
• Propensity Score Matching: estimación de un “modelo de
participación” que reduce el problema de matching a una sola
dimensión (propensity score)
• Los propensity scores (probabilidades predichas) son usados para
juntar (matchear) a las unidades tratadas con las no tratadas
Hay que tener individuos no tratados con características similares a los
individuos tratados
Condición de superposición en PSM
27
PSM: condición de superposición
Densidad
Densidad de
participantes
Región de
soporte
común
0
28
Propensity score
Alta probabilidad de participar
1
dado X
PSM: implementación
Correr un modelo de elección discreta (por ej. Probit o Logit)
• Variable dependiente: Y=1 si participa; Y = 0 si no
• Elegir variables apropiadas para condicionar
• Obtener el propensity score: probabilidad predicha
Juntar a cada participante con uno o más no participantes según su
propensity score
• Identificar el soporte común
• Elegir el algoritmo de matching
• Evaluar la calidad del matching
Estimar el impacto en base a la nueva muestra
29
PSM: identificación del soporte común
Se pueden usar varias estrategias para identificar el soporte común:
• Análisis visual: graficar las densidades de los propensity scores para ambos
grupos y superponer los gráficos
• Criterio del máximo y mínimo: eliminar las observaciones con propensity
score menor al mínimo y mayor al máximo del grupo opuesto
• “Recorte”: excluir las observaciones en áreas donde el propensity score de
algún grupo es cero
• Similitud estadística de las distribuciones de los p-scores: test de
igualdad de distribuciones
30
Ej. Criterio de máximo y mínimo
Densidad
Densidad de los
participantes
Región de
soporte
común
0
31
Propensity score
Alta probabilidad de participar
1
dado X
PSM: elección del algoritmo de matching
Modelo
Descripción
Alternativas
Factor clave
SES
EFI
Vecino más
cercano
Elegir el / los
controles con menor
distancia
• Sin reposición
• Con reposición
• Oversampling
• Orden del
matching
• Peores parejas
• Peores parejas






Calibre y
Radio
Elegir controles
dentro de una cierta
distancia
• Calibre
• Radio
• Nivel de tolerancia
• Definición del
radio




Estratificación
Dividir el soporte
común en estratos
• No. de estratos
• Elección del the
No. de estratos


Kernel
Promedio
ponderado de todas
las observaciones
en el SC
• Función de
• Definición del SC
Kernel
• Ancho de banda


32
PSM: Resumiendo
Cuando un evaluador usa una metodología PSM, queremos
chequear:
 Información disponible de características observables
 Qué variables se incluyen en el modelo de participación y por
qué
 Identificación del soporte común
 Qué algoritmo de matching se usa y por qué (realizar chequeos
de robustez)
 El balance entre características relevantes (y de las
distribuciones del PS)
33
PSM
•
Carboni (2008) estudia el efecto de subsidios públicos en gasto
privado en I&D de empresas manufactureras en Italia
•
Los autores encuentran grandes diferencias (ex-ante) entre
empresas subsidiadas y no subsidiadas: los grupos no son
comparables
•
Se recurre a PSM para seleccionar a empresas similares
34
PSM
35
PSM
Modelo de
Participación
36
PSM
Resultados
37
PSM
• Evaluación del balanceo de la muestra: distribución de los propensity
scores entre grupos
antes del
matching
38
después del
matching
Descargar