Sesión I Inferencia Causal Sebastian Galiani Noviembre 2006 Justificación Las preguntas de investigación que motivan la mayoría de los estudios en las ciencias de la salud son de naturaleza causal. Por ejemplo: p ¿Cuál es la eficacia de un medicamento en una población dada? ¿Qué fracción de muertes de una enfermedad dada podrían haberse evitado por un tratamiento o política dada? p HDN LAC FPSI WBI 2 Justificación p Las preguntas empíricas más difíciles en economía también involucran relaciones causaefecto: p ¿La descentralizacion de las escuelas mejora la calidad de las mismas? HDN LAC FPSI WBI 3 Justificación p El interés en estas preguntas está motivado por: n Preocupaciones políticas n La privatización de los sistemas de agua mejora la salud del niño? n Consideraciones teóricas n Problemas que enfrentan los tomadores de decisiones. HDN LAC FPSI WBI 4 Análisis Causal p p El objetivo del análisis estadístico estándar, típicamente probabilidad y otras técnicas de estimación, es inferir parámetros de una distribución, a partir de muestras obtenidas de esa distribución. Con la ayuda de tales parámetros, uno puede: 1. Inferir asociación entre variables, 2. Estimar la probabilidad de eventos pasados y futuros, 3. Así como actualizar la probabilidad de eventos a la luz de nueva evidencia o nuevas mediciones. HDN LAC FPSI WBI 5 Análisis Causal p p p p Estas tareas pueden llevarse a cabo adecuadamente por el análisis estadístico estándar, si las condiciones experimentales se mantienen. El análisis causal va un paso adelante: Su objetivo es inferir aspectos del proceso de generación de datos. Con la ayuda de tales aspectos, uno puede deducir no solamente la probabilidad de eventos bajo condiciones estáticas, sino también la dinámica de eventos bajo condiciones cambiantes. HDN LAC FPSI WBI 6 Análisis Causal p p Esta capacidad incluye: 1. Predecir los efectos de intervenciones 2. Predecir los efectos de cambios espontáneos 3. Identificar las causas de eventos reportados Esta distinción implica que los conceptos causales y de asociación no se mezclan. HDN LAC FPSI WBI 7 Análisis Causal La palabra causa no está en el vocabulario de la teoría de probabilidad estándar. p Toda teoría de probabilidad nos permite decir que dos eventos están mutuamente correlacionados, o son dependientes – lo que significa que, si encontramos uno, podemos esperar encontrar el otro. p Los científicos que buscan explicaciones causales para fenómenos complejos o racionales para decisiones políticas deben, por tanto, suplir el término de probabilidad con un vocabulario para causalidad. HDN LAC FPSI WBI 8 Análisis Causal p Se han propuesto dos términos para causalidad : 1. Structural equation modeling (ESM) (Haavelmo 1943). 2. The Neyman-Rubin potential outcome model (RCM) (Neyman, 1923; Rubin, 1974). HDN LAC FPSI WBI 9 Modelo Causal de Rubin p Define a la población por la letra U. Cada unidad en U es denotada por u. p Para cada u ∈ U, hay asociado un valor Y(u) de la variable de interés Y, la cual llamamos: variable de respuesta. p Sea A una segunda variable definida en U. Llamamos a A un atributo de las unidades en U. HDN LAC FPSI WBI 10 p La idea clave es el potencial para exponer o no cada unidad a la acción de una causa: p Cada unidad tiene que ser potencialmente expuesta a cualquiera de las causas. p Así, Rubin toma la posición de que las causas son cosas que podrían ser tratamientos en experimentos hipotéticos. p Un atributo no puede ser una causa en un experimento, porque la idea de exposición potencial no aplica a éste. HDN LAC FPSI WBI 11 p p Por simplicidad, asumimos que hay solo 2 causas o nivel de tratamiento. Sea D una variable que indica la causa a la cual cada unidad en U es expuesta: t si la unidad u es expuesta a tratamiento D= c si la unidad u es expuesta a control En un estudio controlado, D es construido por el experimentador. En un estudio sin control, éste es determinado por factores que están más allá del control del experimentador. HDN LAC FPSI WBI 12 p Los valores de Y son potencialmente afectados por la causa particular, t o c, a la cual la unidad es expuesta. p Así, necesitamos dos variables de respuesta: Yt(u), Yc(u) p Yt es el valor de la respuesta que sería observada si la unidad fuera expuesta a t y p Yc es el valor que sería observado en la misma unidad si ésta fuera expuesta a c. HDN LAC FPSI WBI 13 p Expresando también a D como una variable binaria: D = 1 si D = t y D = 0 si D = c p Entonces, el resultado de cada indivuduo puede ser escrito como: Y(U) = D Y1 + (1 – D) Y0 HDN LAC FPSI WBI 14 p Definición: Para cada unidad u de tratamiento {Du = 1 en vez de Du = 0} causa el efecto δu = Y1(u) – Y0(u) p Esta definición de un efecto causal asume que el estado de tratamiento de un individuo no afecta los resultados potenciales de otros individuos. p Problema Fundamental de Inferencia Causal: Es imposible observar el valor de Y 1(u) y Y 0(u) en la misma unidad y, por lo tanto, es imposible observar el efecto de t en u. p Otra forma de expresar este problema es decir que no podemos inferir el efecto de tratamiento por que no tenemos la evidencia contrafactual p. ejem. ¿qué hubiera sucedido en ausencia de tratamiento?. HDN LAC FPSI WBI 15 p Dado que el efecto causal para una sola unidad u no puede ser observada, intentamos identificar el efecto causal promedio para la población entera o para las sub-poblaciones. p El efecto de tratamiento promedio – (ATE) de t (relativo a c) sobre U (o cualquier sub-población) está dado por: ATE =E [Y1(u) – Y0(u)] = E [Y1(u)] – E [Y0(u)] HDN LAC FPSI WBI = δ = Y1 − Y 0 (1) 16 p La solución estadística reemplaza el efecto causal imposible de observar de t en una unidad específica con la posibilidad de estimar el efecto causal promedio de t sobre una población de unidades. p Aunque E(Y1) y E(Y0) no pueden ser calculados, sí pueden ser estimados. p La mayoría de los métodos econométricos intentan construir de datos observacionales estimaciones consistentes de Y1 y Y 0 HDN LAC FPSI WBI 17 p Considere el siguiente estimador simple de ATE: ˆ ˆ ˆ δ = [ Y1 | D = 1] - [ Y0 | D = 0] (2) • Nótese que la ecuación (1) está definida para la población completa, mientras que la ecuación (2) representa un estimador a ser evaluado en una muestra obtenida de esa población. HDN LAC FPSI WBI 18 p Nótese que (2) es también el estimador MCO en la siguiente regresión: ˆ Yi = αˆ + δ Di + ui HDN LAC FPSI WBI (3) 19 p Sea π igual a la proporción de la población que sería asignada al grupo de tratamiento. δ = π δ{D =1} + (1 − π ) δ{D =0} p Descomponiendo ATE, tenemos: δ = π [(Y1 − Y0 ) | D = 1] + (1 − π ) [(Y1 − Y0 ) | D = 0] δ = [π [ Y1 | D = 1] + (1 − π ) [ Y1 | D = 0]] + [π [Y 0 HDN LAC FPSI WBI | D = 1] + (1 − π ) [ Y0 | D = 0]] = Y1 − Y0 20 p Si suponemos que [Y1 | D = 1] = [Y1 | D = 0] y [Y0 | D = 1] = [Y0 | D = 0] δ = [π [ Y1 | D = 1] + (1 − π ) [ Y1 | D = 1]] + [π [Y 0 | D = 0] + (1 − π ) [ Y0 | D = 0]] δ = [ Y1 | D = 1] - [ Y0 | D = 0] • El cual es consistentemente estimado por su estimador muestral análogo: ˆ ˆ ˆ δ = [ Y1 | D = 1] - [ Y0 | D = 0] HDN LAC FPSI WBI 21 p Así, una condición suficiente para el estimador estándar para estimar consistentemente el ATE verdadero es que: [Y1 | D = 1] = [Y1 | D = 0] and [Y0 | D = 1] = [Y0 | D = 0] • En esta situación, el resultado promedio bajo el tratamiento y el resultado promedio bajo control no difiere entre los grupos de tratamiento y de control. • A fin de satisfacer estas condiciones, es suficiente que la asignación del tratamiento D no esté correlacionado con las potenciales distribuciones resultantes de Y1 and Y2. • La forma principal de conseguir esta no-correlación es a través de la asignación aleatoria del tratamiento HDN LAC FPSI WBI 22 p En la mayoría de los casos, simplemente no hay información disponible sobre cómo aquellos individuos en el grupo control habrían reaccionado si hubieran recibido el tratamiento. p Ésta es la base para comprender los potenciales sesgos del estimador estándar (2). p Después de un poco de algebra, se puede mostrar que: ˆ δ = δ + ([Y0 | D = 1] − [Y0 | D = 0]) + (1 − π )(δ {D=1} − δ {D=0} ) 14444244443 144244 3 Baseline Difference HDN LAC FPSI WBI Treatment Heterogeneity 23 p Esta ecuación especifica las dos fuentes de sesgo que necesitan ser eliminadas de las estimaciones de efectos causales de estudios observacionales. 1. Sesgo de Selección: diferencias basales. Heterogeneidad del tratamiento 2. p La mayoría de los métodos disponibles solamente se enfocan al sesgo de selección, asumiendo que el efecto del tratamiento es constante en la población o redefiniendo los parámetros de interés en la población. HDN LAC FPSI WBI 24 Tratamiento en los tratados p ATE no siempre es el parámetro de interés. p En una variedad de contextos de política, el efecto de tratamiento promedio para la persona bajo intervención es de sumo interés: TOT =E [Y1(u) – Y0(u)| D = 1] = E [Y1(u)| D = 1] – E [Y0(u)| D = 1] HDN LAC FPSI WBI 25 Tratamiento en la persona tratada p El estimador estándar (2) estima consistentemente TOT si: [Y0 | D = 1] = [Y0 | D = 0] HDN LAC FPSI WBI 26 Modelado de la Ecuación Estructural p El modelaje de la ecuación estructural fue originalmente desarrollada por genetistas (Wright 1921) y economistas (Haavelmo 1943). HDN LAC FPSI WBI 27 Ecuaciones Estructurales p Definición: Una ecuación y=ßx+ e p (8) se dice que es estructural si ésta se interpreta como sigue: En un experimento ideal en donde controlamos X para x y cualquier otro conjunto Z de variables (que no contengan X o Y) para z, el valor y de Y está dado por ß x + e, donde e no es un a función de los conjuntos x y z. Esta definición Haavelmo (1943), quien explícitamente interpretó cada ecuación estructural como una declaración acerca de un experimento hipotéticamente controlado. HDN LAC FPSI WBI 28 p Así, para la pregunta frecuente “¿Bajo qué condiciones podemos dar interpretaciones causales a coeficientes estructurales?” p Haavelmo habría respondido : ¡ Siempre ! p De acuerdo con el padre fundador de SEM, las condiciones que vuelven la ecuación y = ß x + e estructural son precisamente aquellas que hacen que la conexión causal entre X y Y no tengan otro valor que ß, y que aseguran que nada acerca de la relación estadística entre x y e pueda cambiar nunca esta interpretación de ß. HDN LAC FPSI WBI 29 p El efecto causal promedio: El efecto causal promedio en Y del nivel de tratamiento x es la diferencia en la esperanza condicional: E(Y|X = x) – E(Y|X = 0) p En el contexto de intervenciones dicotómicas (x = 1), este efecto causal es llamado el efecto de tratamiento promedio (ATE). HDN LAC FPSI WBI 30 Representación de Intervenciones p p p Considerando el modelo estructural M: z = fz(w) x = fx(z, ν) y = fy(x, u) Representamos una intervención en el modelo a través de un operador matemático denotado por d0(x). d0(x) simula las intervenciones físicas eliminando ciertas funciones del modelo, reemplazándolas por una constante X=x, mientras el resto del modelo se mantiene sin cambio. HDN LAC FPSI WBI 31 p Para emular una intervención d0(x0) que mantiene constante X (en X = x0) en el modelo M, se reemplaza la ecuación por x con x = x0, y se obtiene un nuevo modelo, Mx0 z = fz(w) x = x0 y = fy(x, u) p La distribución conjunta asociada con el modelo modificado, denotado por P(z, y| d0(x0)) describe la distribución de la post-intervención (“experimental”). p De esta distribución, uno puede evaluar la eficacia del tratamiento comparando aspectos de esta distribución a diferentes niveles de x 0. HDN LAC FPSI WBI 32 Parámetros Estructurales p Definición: La interpretación de una ecuación estructural como una declaración acerca del comportamiento de Y bajo una intervención hipotética produce una sola definición para los parámetros estructurales. El significado de ß en la ecuación + e es simplemente: ∂ β = E[Y | d o (x)] ∂x HDN LAC FPSI WBI y= ßx 33 Análisis Contrafactuales en Modelos Estructurales p Considerando otra vez el modelo M xo. Llamemos la solución de Y la respuesta potencial de Y para x 0. p Denotamos a ésta como Y x0(u, ν, w). p A esta entidad puede dársele una interpretación contrafactual, lo cual significa la manera en que un individuo con características (u, ν, w) podría responder, si el tratamiento realmente recibido por el individuo hubiera sido x0 en lugar de x = fx(z, ν). HDN LAC FPSI WBI 34 p En nuestro ejemplo, Yx0(u, ν, w) = Yx0(u) = y = fy(x0, u) • Esta interpretación de contrafactuales, arroja como soluciones a los sistemas modificados de ecuaciones, provee el enlace conceptual y formal entre el modelaje de la ecuación estructural y el marco de resultado potencial de Rubin. • Esto nos asegura que los resultados finales de las dos aproximaciones serán los mismos. • Así, la elección del modelo es estrictamente una cuestión de conveniencia o perspicacia. HDN LAC FPSI WBI 35 MCO y causalidad yi = b + a Di + ei Contrafactual yi Ec ynt Et ynt Et yt Ec yt C HDN LAC FPSI WBI T -a sesgo yi α C T 36 MCO y causalidad b = Et ynt a = Et yt -Et ynt α = Et yt - Ec yt = Et yt - Et ynt - (Ec yt - Et ynt) = a - (Ec yt - Ec ynt) = a - Ec (yt - ynt) por tanto a = α + Ec (yt - ynt) HDN LAC FPSI WBI 37 Referencias p p p p p Judea Pearl (2000): Causality: Models, Reasoning and Inference, CUP. Chapters 1, 5 and 7. Trygve Haavelmo (1944): “The probability approach in econometrics”, Econometrica 12, pp. iii-vi+1-115. Arthur Goldberger (1972): “Structural Equations Methods in the Social Sciences”, Econometrica 40, pp. 979-1002. Donald B. Rubin (1974): “Estimating causal effects of treatments in randomized and nonrandomized experiments”, Journal of Educational Psychology 66, pp. 688-701. Paul W. Holland (1986): “Statistics and Causal Inference”, Journal of the American Statistical Association 81, pp. 94570, with discussion. HDN LAC FPSI WBI 38