2- Sesion 1 Tecnica Inferencia causal

Anuncio
Sesión I
Inferencia Causal
Sebastian Galiani
Noviembre 2006
Justificación
Las preguntas de investigación que
motivan la mayoría de los estudios en
las ciencias de la salud son de
naturaleza causal. Por ejemplo:
p ¿Cuál
es
la
eficacia
de
un
medicamento en una población dada?
¿Qué fracción de muertes de una
enfermedad dada podrían haberse
evitado por un tratamiento o política
dada?
p
HDN LAC FPSI WBI
2
Justificación
p
Las preguntas empíricas más difíciles en
economía también involucran relaciones causaefecto:
p
¿La descentralizacion de las escuelas mejora la
calidad de las mismas?
HDN LAC FPSI WBI
3
Justificación
p
El interés en estas preguntas está motivado por:
n
Preocupaciones políticas
n
La privatización de los sistemas de agua
mejora la salud del niño?
n
Consideraciones teóricas
n
Problemas que enfrentan los tomadores de
decisiones.
HDN LAC FPSI WBI
4
Análisis Causal
p
p
El objetivo del análisis estadístico estándar,
típicamente probabilidad y otras técnicas de
estimación, es inferir parámetros de una
distribución, a partir de muestras obtenidas de
esa distribución.
Con la ayuda de tales parámetros, uno puede:
1.
Inferir asociación entre variables,
2.
Estimar la probabilidad de eventos pasados y futuros,
3.
Así como actualizar la probabilidad de eventos a la luz
de nueva evidencia o nuevas mediciones.
HDN LAC FPSI WBI
5
Análisis Causal
p
p
p
p
Estas
tareas
pueden
llevarse
a
cabo
adecuadamente por el análisis estadístico
estándar, si las condiciones experimentales se
mantienen.
El análisis causal va un paso adelante:
Su objetivo es inferir aspectos del proceso de
generación de datos.
Con la ayuda de tales aspectos, uno puede
deducir no solamente la probabilidad de eventos
bajo condiciones estáticas, sino también la
dinámica
de
eventos
bajo
condiciones
cambiantes.
HDN LAC FPSI WBI
6
Análisis Causal
p
p
Esta capacidad incluye:
1.
Predecir los efectos de intervenciones
2.
Predecir los efectos de cambios espontáneos
3.
Identificar las causas de eventos reportados
Esta distinción implica que los conceptos
causales y de asociación no se mezclan.
HDN LAC FPSI WBI
7
Análisis Causal
La palabra causa no está en el vocabulario de la
teoría de probabilidad estándar.
p
Toda teoría de probabilidad nos permite decir
que
dos
eventos
están
mutuamente
correlacionados, o son dependientes – lo que
significa que, si encontramos uno, podemos
esperar encontrar el otro.
p
Los científicos que buscan explicaciones causales
para fenómenos complejos o racionales para
decisiones políticas deben, por tanto, suplir el
término de probabilidad con un vocabulario para
causalidad.
HDN LAC FPSI WBI
8
Análisis Causal
p
Se han propuesto dos términos para
causalidad :
1.
Structural equation modeling (ESM)
(Haavelmo 1943).
2.
The Neyman-Rubin potential outcome
model (RCM) (Neyman, 1923; Rubin,
1974).
HDN LAC FPSI WBI
9
Modelo Causal de Rubin
p
Define a la población por la letra U. Cada
unidad en U es denotada por u.
p
Para cada u ∈ U, hay asociado un valor
Y(u) de la variable de interés Y, la cual
llamamos: variable de respuesta.
p
Sea A una segunda variable definida en U.
Llamamos a A un atributo de las unidades
en U.
HDN LAC FPSI WBI
10
p
La idea clave es el potencial para exponer o no
cada unidad a la acción de una causa:
p
Cada unidad tiene que ser potencialmente
expuesta a cualquiera de las causas.
p
Así, Rubin toma la posición de que las causas son
cosas
que
podrían
ser
tratamientos
en
experimentos hipotéticos.
p
Un atributo no puede ser una causa en un
experimento, porque la idea de exposición
potencial no aplica a éste.
HDN LAC FPSI WBI
11
p
p
Por simplicidad, asumimos que hay solo 2 causas o
nivel de tratamiento.
Sea D una variable que indica la causa a la cual
cada unidad en U es expuesta:
t si la unidad u es expuesta a tratamiento
D=
c si la unidad u es expuesta a control
En un estudio controlado, D es construido por el
experimentador. En un estudio sin control, éste es
determinado por factores que están más allá del
control del experimentador.
HDN LAC FPSI WBI
12
p
Los valores de Y son potencialmente afectados
por la causa particular, t o c, a la cual la unidad
es expuesta.
p
Así, necesitamos dos variables de respuesta:
Yt(u), Yc(u)
p
Yt es el valor de la respuesta que sería
observada si la unidad fuera expuesta a t y
p
Yc es el valor que sería observado en la misma
unidad si ésta fuera expuesta a c.
HDN LAC FPSI WBI
13
p
Expresando también a D como una
variable binaria:
D = 1 si D = t y D = 0 si D = c
p
Entonces, el resultado de cada indivuduo
puede ser escrito como:
Y(U) = D Y1 + (1 – D) Y0
HDN LAC FPSI WBI
14
p
Definición: Para cada unidad u de tratamiento {Du = 1 en vez
de Du = 0} causa el efecto
δu = Y1(u) – Y0(u)
p
Esta definición de un efecto causal asume que el estado de
tratamiento de un individuo no afecta los resultados potenciales
de otros individuos.
p
Problema Fundamental de Inferencia Causal: Es imposible
observar el valor de Y 1(u) y Y 0(u) en la misma unidad y, por lo
tanto, es imposible observar el efecto de t en u.
p
Otra forma de expresar este problema es decir que no podemos
inferir el efecto de tratamiento por que no tenemos la evidencia
contrafactual p. ejem. ¿qué hubiera sucedido en ausencia de
tratamiento?.
HDN LAC FPSI WBI
15
p
Dado que el efecto causal para una sola
unidad u no puede ser observada,
intentamos identificar el efecto causal
promedio para la población entera o para
las sub-poblaciones.
p
El efecto de tratamiento promedio –
(ATE) de t (relativo a c) sobre U (o
cualquier sub-población) está dado por:
ATE =E [Y1(u) – Y0(u)]
= E [Y1(u)] – E [Y0(u)]
HDN LAC FPSI WBI
= δ = Y1 − Y 0
(1)
16
p
La solución estadística reemplaza el efecto causal
imposible de observar de t en una unidad
específica con la posibilidad de estimar el efecto
causal promedio de t sobre una población de
unidades.
p
Aunque E(Y1) y E(Y0) no pueden ser calculados, sí
pueden ser estimados.
p
La mayoría de los métodos econométricos
intentan construir de datos observacionales
estimaciones consistentes de
Y1 y Y 0
HDN LAC FPSI WBI
17
p
Considere el siguiente estimador simple
de ATE:
ˆ
ˆ
ˆ
δ = [ Y1 | D = 1] - [ Y0 | D = 0] (2)
• Nótese que la ecuación (1) está definida
para la población completa, mientras que la
ecuación (2) representa un estimador a ser
evaluado en una muestra obtenida de esa
población.
HDN LAC FPSI WBI
18
p
Nótese que (2) es también el estimador
MCO en la siguiente regresión:
ˆ
Yi = αˆ + δ Di + ui
HDN LAC FPSI WBI
(3)
19
p
Sea π igual a la proporción de la población que
sería asignada al grupo de tratamiento.
δ = π δ{D =1} + (1 − π ) δ{D =0}
p
Descomponiendo ATE, tenemos:
δ = π [(Y1 − Y0 ) | D = 1] + (1 − π ) [(Y1 − Y0 ) | D = 0]
δ = [π [ Y1 | D = 1] + (1 − π ) [ Y1 | D = 0]] +
[π [Y
0
HDN LAC FPSI WBI
| D = 1] + (1 − π ) [ Y0 | D = 0]] = Y1 − Y0
20
p
Si suponemos que
[Y1 | D = 1] = [Y1 | D = 0] y [Y0 | D = 1] = [Y0 | D = 0]
δ = [π [ Y1 | D = 1] + (1 − π ) [ Y1 | D = 1]] +
[π [Y
0
| D = 0] + (1 − π ) [ Y0 | D = 0]]
δ = [ Y1 | D = 1] - [ Y0 | D = 0]
• El cual es consistentemente estimado por su
estimador muestral análogo:
ˆ
ˆ
ˆ
δ = [ Y1 | D = 1] - [ Y0 | D = 0]
HDN LAC FPSI WBI
21
p
Así, una condición suficiente para el estimador
estándar para estimar consistentemente el ATE
verdadero es que:
[Y1 | D = 1] = [Y1 | D = 0] and [Y0 | D = 1] = [Y0 | D = 0]
• En esta situación, el resultado promedio bajo el
tratamiento y el resultado promedio bajo control no difiere
entre los grupos de tratamiento y de control.
• A fin de satisfacer estas condiciones, es suficiente que la
asignación del tratamiento D no esté correlacionado con
las potenciales distribuciones resultantes de Y1 and Y2.
• La forma principal de conseguir esta no-correlación es a
través de la asignación aleatoria del tratamiento
HDN LAC FPSI WBI
22
p
En la mayoría de los casos, simplemente no hay
información disponible sobre cómo aquellos individuos
en el grupo control habrían reaccionado si hubieran
recibido el tratamiento.
p
Ésta es la base para comprender los potenciales
sesgos del estimador estándar (2).
p
Después de un poco de algebra, se puede mostrar
que:
ˆ
δ = δ + ([Y0 | D = 1] − [Y0 | D = 0]) + (1 − π )(δ {D=1} − δ {D=0} )
14444244443
144244
3
Baseline Difference
HDN LAC FPSI WBI
Treatment Heterogeneity
23
p
Esta ecuación especifica las dos fuentes de
sesgo que necesitan ser eliminadas de las
estimaciones de efectos causales de estudios
observacionales.
1.
Sesgo de Selección: diferencias basales.
Heterogeneidad del tratamiento
2.
p
La mayoría de los métodos disponibles
solamente se enfocan al sesgo de selección,
asumiendo que el efecto del tratamiento es
constante en la población o redefiniendo los
parámetros de interés en la población.
HDN LAC FPSI WBI
24
Tratamiento en los tratados
p
ATE no siempre es el parámetro de interés.
p
En una variedad de contextos de política, el
efecto de tratamiento promedio para la persona
bajo intervención es de sumo interés:
TOT =E [Y1(u) – Y0(u)| D = 1]
= E [Y1(u)| D = 1] – E [Y0(u)| D = 1]
HDN LAC FPSI WBI
25
Tratamiento en la persona tratada
p
El estimador estándar (2) estima
consistentemente TOT si:
[Y0 | D = 1] = [Y0 | D = 0]
HDN LAC FPSI WBI
26
Modelado de la Ecuación Estructural
p
El modelaje de la ecuación estructural fue
originalmente desarrollada por genetistas (Wright
1921) y economistas (Haavelmo 1943).
HDN LAC FPSI WBI
27
Ecuaciones Estructurales
p
Definición: Una ecuación
y=ßx+ e
p
(8)
se dice que es estructural si ésta se interpreta como sigue:
En un experimento ideal en donde controlamos X para x y
cualquier otro conjunto Z de variables (que no contengan X
o Y) para z, el valor y de Y está dado por ß x + e, donde e no
es un a función de los conjuntos x y z.
Esta definición Haavelmo (1943), quien explícitamente
interpretó cada ecuación estructural como una declaración
acerca de un experimento hipotéticamente controlado.
HDN LAC FPSI WBI
28
p
Así, para la pregunta frecuente “¿Bajo qué
condiciones podemos dar interpretaciones
causales a coeficientes estructurales?”
p
Haavelmo habría respondido : ¡ Siempre !
p
De acuerdo con el padre fundador de SEM, las
condiciones que vuelven la ecuación y = ß x +
e estructural son precisamente aquellas que
hacen que la conexión causal entre X y Y no
tengan otro valor que ß, y que aseguran que nada
acerca de la relación estadística entre x y e pueda
cambiar nunca esta interpretación de ß.
HDN LAC FPSI WBI
29
p
El efecto causal promedio: El efecto
causal promedio en Y del nivel de
tratamiento x es la diferencia en la
esperanza condicional:
E(Y|X = x) – E(Y|X = 0)
p
En
el
contexto
de
intervenciones
dicotómicas (x = 1), este efecto causal es
llamado el efecto de tratamiento
promedio (ATE).
HDN LAC FPSI WBI
30
Representación de Intervenciones
p
p
p
Considerando el modelo estructural M:
z = fz(w)
x = fx(z, ν)
y = fy(x, u)
Representamos una intervención en el modelo a
través de un operador matemático denotado por
d0(x).
d0(x) simula las intervenciones físicas eliminando
ciertas funciones del modelo, reemplazándolas por
una constante X=x, mientras el resto del modelo
se mantiene sin cambio.
HDN LAC FPSI WBI
31
p
Para emular una intervención d0(x0) que mantiene constante
X (en X = x0) en el modelo M, se reemplaza la ecuación por
x con x = x0, y se obtiene un nuevo modelo, Mx0
z = fz(w)
x = x0
y = fy(x, u)
p
La distribución conjunta asociada con el modelo modificado,
denotado por P(z, y| d0(x0)) describe la distribución de la
post-intervención (“experimental”).
p
De esta distribución, uno puede evaluar la eficacia del
tratamiento comparando aspectos de esta distribución a
diferentes niveles de x 0.
HDN LAC FPSI WBI
32
Parámetros Estructurales
p Definición:
La interpretación de una
ecuación estructural como una declaración
acerca del comportamiento de Y bajo una
intervención hipotética produce una sola
definición para los parámetros estructurales.
El significado de ß en la ecuación
+ e es simplemente:
∂
β = E[Y | d o (x)]
∂x
HDN LAC FPSI WBI
y= ßx
33
Análisis Contrafactuales en Modelos
Estructurales
p
Considerando otra vez el modelo M xo. Llamemos la
solución de Y la respuesta potencial de Y para x 0.
p
Denotamos a ésta como Y x0(u, ν, w).
p
A esta entidad puede dársele una interpretación
contrafactual, lo cual significa la manera en que
un individuo con características (u, ν, w) podría
responder, si el tratamiento realmente recibido
por el individuo hubiera sido x0 en lugar de x =
fx(z, ν).
HDN LAC FPSI WBI
34
p
En nuestro ejemplo,
Yx0(u, ν, w) = Yx0(u) = y = fy(x0, u)
•
Esta interpretación de contrafactuales, arroja
como soluciones a los sistemas modificados de
ecuaciones, provee el enlace conceptual y formal
entre el modelaje de la ecuación estructural y el
marco de resultado potencial de Rubin.
•
Esto nos asegura que los resultados finales de
las dos aproximaciones serán los mismos.
•
Así, la elección del modelo es estrictamente una
cuestión de conveniencia o perspicacia.
HDN LAC FPSI WBI
35
MCO y causalidad
yi = b + a Di + ei
Contrafactual
yi
Ec ynt
Et ynt
Et yt
Ec yt
C
HDN LAC FPSI WBI
T
-a
sesgo
yi
α
C
T
36
MCO y causalidad
b = Et ynt
a = Et yt -Et ynt
α = Et yt - Ec yt = Et yt - Et ynt - (Ec yt - Et ynt)
= a - (Ec yt - Ec ynt)
= a - Ec (yt - ynt)
por tanto
a = α + Ec (yt - ynt)
HDN LAC FPSI WBI
37
Referencias
p
p
p
p
p
Judea Pearl (2000): Causality: Models, Reasoning and
Inference, CUP. Chapters 1, 5 and 7.
Trygve Haavelmo (1944): “The probability approach in
econometrics”, Econometrica 12, pp. iii-vi+1-115.
Arthur Goldberger (1972): “Structural Equations Methods in
the Social Sciences”, Econometrica 40, pp. 979-1002.
Donald B. Rubin (1974): “Estimating causal effects of
treatments in randomized and nonrandomized
experiments”, Journal of Educational Psychology 66, pp.
688-701.
Paul W. Holland (1986): “Statistics and Causal Inference”,
Journal of the American Statistical Association 81, pp. 94570, with discussion.
HDN LAC FPSI WBI
38
Descargar