Universidad Mayor de San Simón Facultad de Ciencias Económicas y Financieras Carrera de Economía Econometría de Datos de Panel Agrupamiento de Datos de Sección Cruzada Julio Humérez Quiroz Cochabamba, enero de 2013 ¿Qué es Econometría? Métodos matemáticos Métodos estadísticos Análisis de datos Económicos TEORÍA ECONÓMICA Evolución de los dos principales enfoques de la Econometría TEORÍA ECONÓMICA E.T. (libro de texto) Estática AC como «patología» «particular-a-gral» Datos 70`s A.S.T. (Box y Jenkins) E.D. 80`s PGD: modelo Exogeneidad WE SE SuE Panel Data Calibración (Kydland y Prescott, 1982) Tests EC «Gral-a-Part.» (Hendry et al.) VAR (Sims et al.) Estadístico Económico Co-I «Part-a-Gral.» (Engle y Granger) Evolución de los dos principales enfoques de la Econometría Escuelas metodológicas actuales en Econometría Utiliza la teoría económica Utiliza el análisis estadístico clásico 1. MCO Si Si 2. VAR No Si 3. Bayesiana Si No Metodología Modelística General –a-Particular M1 Modelo general (dinámico) SPGM ¿OK? ⇒ OK. M2 Restricciones impuestas sobre M1 SPGM ¿OK? ⇒ OK M3 Restricciones sobre M2 SPGM ¿OK? ⇒ OK M4 Restricciones sobre M3 SPGM ¿OK? ⇒ NO!!! SPGM = Supuestos sobre la prueba de Gauss-Markov Tipos de datos Una base de datos en panel contiene información para varios individuos (hogares, personas, empresas, actividades económicas, sectores económicos, regiones, municipios, países, etc.) en el tiempo. (Muestra de individuos a lo largo del tiempo). Datos de Corte Transversal: j = 1, 2, …, N Datos de Series de Tiempo: t = 1, 2, …, T Datos de Panel: j = 1, 2, …, N t = 1, 2, …, T o Micropaneles (N > T) o Macropaneles (T > N) o El aspecto fundamental es esta bi-dimensionalidad de los datos. 5 Ventajas y desventajas Ventajas de usar datos de panel Con N individuos y T periodos podríamos estimar N modelos de series de tiempo y T modelos de corte transversal. Ejemplo: yit = xit β + uit Supone que el modelo lineal subyacente es el mismo para todos los individuos y periodos. Las ventajas de disponer de un panel tiene que ver con la posibilidad de agregar esta información de alguna manera, lo que resulta en las siguientes ventajas: 6 Ventajas y desventajas a) El incremento en el tamaño de la muestra permite obtener estimadores consistentes y estadísticos de prueba más confiables. b) Una mayor cantidad de datos implica más variabilidad entre ellos, menor colinealidad entre las variables, más grados de libertad y mayor eficiencia en las estimaciones (Hsiao, 2002). c) Permite responder a preguntas que no pueden ser respondidas con otros datos. d) Permite investigar si las relaciones entre las variables han cambiado con el tiempo, por medio de la prueba de Chow. e) Permite realizar evaluaciones de impacto de políticas económicas realizadas en un momento determinado. 7 Ventajas y desventajas f) Alivia el problema de variables omitidas (Control de «heterogeneidad no-observable»). Por ejemplo, si no varían en el tiempo se pueden eliminar tomando diferencias. Ejemplo: wit = β1×educit + β2 × experit + β3× exper2it + ui + εit g) Permite eliminar sesgos por agregación. h) Varias más (Baltagi, 2002) 8 Ventajas y desventajas Desventajas No siempre es posible agregar información temporal y de corte transversal (pueden ser más observaciones pero de poblaciones heterogéneas). Los paneles son costosos de implementar y administrar. Problemas de «attrition». selectividad: auto-selección, no respuesta, Dimensión temporal corta. Métodos econométricos algo más específicos y complejos; menos familiares e intuitivos. Heterogeneidad no tratada. Paneles incompletos. 9 Metodología Teoría Económica Yt=ΑΚtαLtβ Modelo Econométrico Yt=ΑΚtαLtβeε Datos Estimación Pruebas de Especificación y Examen de Diágnóstico No ¿El modelo es adecuado? Sí Prueba de algunas hipótesis Uso del modelo para pronóstico y diseño de políticas Agenda del Curso El curso se enfocará en las propiedades asintóticas de los estimadores más que en las propiedades de muestra finita. El análisis asintótico nos permitirá dar un tratamiento unificado a los distintos procedimientos de estimación y nos permitirá establecer todos los supuestos en términos de la población subyacente. La primera parte del curso comprenderá modelos con datos de sección cruzada combinadas en el tiempo, que son útiles cuando se desea evaluar el impacto de cambios de política. 11 Agenda del Curso La segunda parte del curso trata los modelos estáticos de datos de panel lineales en los que la teoría asintótica relevante se da cuando la dimensión de corte transversal se hace grande mientras que los datos de series de tiempo se mantienen fijos (N > T). La tercera parte abarca los modelos dinámicos de datos de panel. La cuarta parte del curso comprende modelos de datos de panel lineales en los que la teoría asintótica relevante supone la dimensión temporal haciéndose grande y la dimensión de corte transversal manteniéndose fija (T > N). 12 Agenda del Curso La evaluación del curso se realizará sobre la base de trabajos prácticos y un examen final. Ponderaciones: o Trabajos prácticos o Examen final o Asistencia 40% 50% 10% 13 El modelo básico El modelo básico de componentes de error El modelo básico es: yit = xit β + uit uit = µi + eit i = 1,..., N ; t = 1,...,T xit vector de K variables explicativas (incluye una constante) β es un vector de coeficiente El término de error incluye dos componentes, uno específico del individuo y otro de la observación. 14 Evaluación de impacto de políticas Modelos con datos de sección cruzada, sirven para muestras recolectadas en un mismo momento del tiempo, es decir, una “foto” a la realidad, por lo que las variables son estáticas. Modelos con series de tiempo, muestran el comportamiento de una variable en un periodo de tiempo, dejando a un lado las relaciones con otras variables. Este capítulo se enfocará en metodologías que combinan los dos tipos de muestras anteriores, pasando de una “foto” a un “video”, que muestra la dinámica de las variables en el tiempo, por medio de la agrupación de datos de corte transversal a través del tiempo. 15 Evaluación de impacto de políticas Unión de corte transversal y series de tiempo Este capítulo estudia la metodología econométrica que combina los procedimientos con datos de corte transversal y series de tiempo, para estudiar las características del tiempo sobre las relaciones entre las variables explicativas y explicadas. Entonces los datos tienen dos dimensiones, una que identifica a la unidad de corte transversal (i) y otra para el tiempo (t). Por tanto, se requerirán nuevos procedimientos para explotar las características particulares que ofrece este tipo de datos. 16 Evaluación de impacto de políticas Naturaleza de los datos de corte transversal agrupados en el tiempo. Existen dos tipos de agrupación: 1. Las muestras que agrupan datos en el tiempo, i.e., muestras aleatorias de corte transversal para la misma población en diferentes periodos del tiempo, pero no necesariamente consideran la misma muestra en cada uno de ellos. 2. Los paneles que agrupan las mismas unidades de corte transversal en diferentes periodos del tiempo, o sea, se agrupan datos de la misma muestra de corte transversal en distintos momentos del tiempo. 17 Evaluación de impacto de políticas Para entender este tipo de conformación de los datos, se debe contar con un nuevo modelo teórico, mediante el cual se explicarán las características particulares de este tipo de agrupación: Yit = β0 + β1 X it + β2 K it + uit (1) donde Yit es la variable dependiente, Xit y Kit son las variables independientes y uit es el término del error; i denota las unidades de corte transversal de la muestra; t el periodo en el que se encuentra expresado el conjunto de variables para cada unidad de corte transversal i y dentro de un rango finito (1 a T). 18 Evaluación de impacto de políticas Corte transversal a lo largo del tiempo Las muestras de corte transversal a lo largo del tiempo es la primera aproximación a las metodologías con paneles de datos. Esta permite estudiar relaciones entre las variables en distintos periodos del tiempo, facilitando la estimación de los efectos originados por choques exógenos sobre una o varias variables del modelo econométrico. Estos beneficios no están presentes en los modelos de corte transversal, ya que las muestras son tomadas en un determinado periodo de tiempo y las relaciones entre variables son estudiadas bajo ese contexto, sin permitir comparaciones temporales. 19 Mínimos cuadrados agrupados (MCA) La agrupación de datos permite establecer con mayor claridad los tipos de relación que se pueden generar entre las variables independientes y la explicada (Wooldridge, 2009). La estimación se realiza a través de mínimos cuadrados agrupados (MCA), que consiste en aplicar el método de MCO a un conjunto de variables evaluadas en distintos periodos del tiempo. Mínimos cuadrados agrupados (MCA) Mínimos cuadrados agrupados (pooled OLS, en inglés) sirve para investigar si las relaciones entre las variables (explicativas y explicadas) han cambiado con el paso del tiempo. 20 Mínimos cuadrados agrupados (MCA) Consiste en realizar estimaciones usando el conjunto de datos, sin hacer ninguna distinción entre grupos. Partiendo de (1) y utilizando el enfoque matricial se tiene: Yi = Z i β + εi donde Z i = [ X it K it ] (2) Donde Yi es el vector de la variable dependiente; Zi es una matriz de variables explicativas y εi es el vector de errores del modelo. Para obtener los estimadores, se debe estimar (2) través de MCO. Estos resultan consistentes y eficientes como consecuencia del incremento del tamaño de la muestra, respecto a muestras de corte transversal. Los estimadores están representados por la siguiente expresión: 21 Prueba de Cambio Estructural de Chow −1 ( ) ( ) βˆ MCA = Z i ′ Z i Z i ′Yi (3) De acuerdo a (3) se puede establecer con mayor precisión si las relaciones evaluadas en un modelo de interés varían como consecuencia del paso del tiempo. Para conseguir conclusiones al respecto, se deben llevar a cabo pruebas de cambio estructural de Chow. Prueba de Cambio Estructural de Chow Teniendo en cuenta (2) y asumiendo t = 1, 2, el modelo estructural puede desglosarse en dos grupos, correspondientes a dos momentos del tiempo. 22 Prueba de Cambio Estructural de Chow De esta forma se puede evaluar qué pasa en cada año con las variables de interés (ecuaciones 4 y 5). Grupo 1: Yi 1 = β0 + β1 X i 1 + β2 K i 1 + ui 1 (4) Grupo 2: Yi 2 = β0 + β1 X i 2 + β2 K i 2 + ui 2 (5) Al estimar (4) y (5) mediante en forma agrupada, y por separado, lo que se quiere ver es si existe algún efecto del tiempo sobre las variables. Esto se consigue comparando los estimadores de los grupos 1 y 2. Si se encuentra una diferencia estadística entre ellos, es porque existe cambio estructural. Si los estimadores son los mismos, se dice que las relaciones de las variables no han cambiado en el tiempo. 23 Prueba de Cambio Estructural de Chow En caso que se detecte cambio estructural, es importante evaluar la fuente de variación de las relaciones en el tiempo (cambio en el intercepto, en pendiente, o una combinación de las dos anteriores) mediante la prueba de Chow. Cambio en intercepto La primera causa de cambio estructural se debe a un cambio en el intercepto, i.e., que el paso del tiempo permitió que las variables se desplazaran de manera proporcional en los periodos. Para reconocer este efecto, se transforma el modelo (1) y se añade una variable dummy que separe la muestra en dos periodos. Esta variable se denomina D2 y toma el valor de 1 si t=2, y 0 si t=1. El modelo queda expresado como: 24 Prueba de Cambio Estructural de Chow Yit = β0 + β1 X it + β2 K it + δ1 D2 + ui 2 (6) Manteniendo las mismas variables iniciales, los valores esperados para Yit están determinados por los periodos en los que están agrupados los datos (ec. (6.1) y (6.2)). Estos definen el pronóstico de la variable dependiente dado el cambio en el tiempo y manteniendo constante las variables explicativas. (t=1) E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1 (6.1) (t=2) E [Y | X , K , D = 1] = (β + δ ) + β X + β K (6.2) i2 i2 i2 2 0 1 1 i2 2 i2 25 Prueba de Cambio Estructural de Chow A través de (6.1) y (6.2) se puede identificar la diferencia en los estimadores de cada ecuación. Por ej., la ecuación (6.1) muestra teóricamente tres estimadores (β0, β1, β2), mientras que la ecuación (6.2) solo dos (β1, β2) iguales a (6.1) y uno distinto (β0, δ1). La diferencia radica en el coeficiente que acompaña a la variable D2 y que se refiere al cambio de periodo en la muestra. Si δ1 resulta significativo estadísticamente, se dice que hay un cambio estructural debido al cambio en intercepto, i.e., un desplazamiento positivo (o negativo) de la curva referente al valor esperado de la variable dependiente Yit (ver gráfico). 26 Prueba de Cambio Estructural de Chow E (Yit ) (6.2) (6.1) β0 +δ1 β0 δ1 Variables explicativas 27 Prueba de Cambio Estructural de Chow Por lo tanto, se debe probar la significancia individual del estimador δ1 en la ecuación (6), por medio de la siguiente prueba de hipótesis: H0: δ1 = 0 (No existe cambio en intercepto) (7) H1: δ1 ≠ 0 (Existe cambio en intercepto) (8) Para encontrar respuesta a la hipótesis de la expresión (7), se utiliza un estadístico t que permite verificar la significancia individual del coeficiente que acompaña a la dummy de tiempo. Si se rechaza Ho, se concluye que hubo un cambio estructural en el modelo y que el paso del tiempo modificó los efectos de las variables del modelo pero no las relaciones entre ellas. 28 Prueba de Cambio Estructural de Chow Cambio en pendiente También pueden existir cambios de pendiente como consecuencia de la introducción de la interacción de D2 con una de las variables explicativas, p.e. Xit, como variable explicativa para el modelo de la ecuación (1). A través de la nueva variable se quiere verificar si la relación entre alguna variable explicativa y la dependiente cambia en el tiempo. Yit = β0 + β1 X it + β2 K it + δ2 ( D2 × X it ) + uit (9) 29 Prueba de Cambio Estructural de Chow De acuerdo al modelo (9), los valores esperados para Yit dado t=1,2 muestra cómo cambian las relaciones entre la variable explicativa (Xit) y la dependiente (Yit) a través de dos periodos. (t=1) E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1 (9.1) (t=2) E [Y | X , K , D = 1] = β + (β + δ ) X + β K (9.2) i2 i2 i2 2 0 1 2 i2 2 i2 Estas expresiones identifican si las relaciones entre las variables del sistema varían como consecuencia del tiempo. 30 Prueba de Cambio Estructural de Chow Esto se consigue comparando los estimadores correspondientes a cada año de la muestra. La ecuación (9.1) muestra teóricamente tres estimadores (β0, β1, β2), mientras que la ecuación (9.2) muestra dos estimadores (β0, β2) iguales y uno distinto ( β1+ δ2) respecto a (9.1). La diferencia está en la existencia del coeficiente que acompaña a la variable Xit·D2. Si δ2 resulta significativo, se dice que hay un cambio estructural debido al cambio en pendiente, i.e., genera un movimiento positivo (negativo) de la curva que hace referencia al valor esperado de la variable dependiente. 31 Prueba de Cambio Estructural de Chow E (Yit ) (9.2) β1 +δ2 (9.1) β1 β0 Variables explicativas 32 Prueba de Cambio Estructural de Chow Como en la prueba de cambio en intercepto, se requiere de una prueba de significancia individual que lleve a concluir la existencia de cambio estructural. H0: δ2 = 0 (No hay cambio en pendiente) (10) H1: δ2 ≠ 0 (Existe cambio en pendiente) (11) Si |tc| > |tα/2, n-k |, se rechaza H0, entonces existe un cambio estructural (la relación entre Yit y Xit cambia con el paso del tiempo). 33 Prueba de Cambio Estructural de Chow Cambio en intercepto y pendiente Esta prueba mezcla las dos pruebas descritas anteriormente. El nuevo modelo contiene la dummy de tiempo (D2) y la interacción de ésta con una variable explicativa (Xit·D2). Con esta especificación se quiere probar si la relación entre la variable explicada y una independiente cambia en el tiempo; asimismo si el cambio de periodo tiene algún efecto sobre el modelo a estimar. Por lo tanto, el nuevo modelo está dado por la siguiente ecuación: Yit = β0 + β1 X it + β2 K it + δ1 D2 + δ2 D2 × X it + uit (12) 34 Prueba de Cambio Estructural de Chow De la ecuación (12), los valores esperados para Yit dado t=1,2 son: (t=1) E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1 (12.1) (t=2) E [Yi 2 | X i 2 , K i 2 , D2 = 1] = (β0 + δ1 ) + (β1 + δ2 ) X i 2 + β2 K i 2 (12.2) Si conjuntamente δ1 y δ2 resultan conjuntamente significativos, se dice que existió un cambio estructural debido al cambio en intercepto y pendiente, i.e., genera un desplazamiento y movimiento positivo (negativo) de la curva de valor esperado de la variable dependiente Yit. 35 Prueba de Cambio Estructural de Chow (12.2) E (Yit ) β1 +δ2 β0 +δ1 β0 (12.1) β1 Variables explicativas 36 Prueba de Cambio Estructural de Chow De acuerdo al gráfico anterior los coeficientes de interés son δ1 y δ2, siendo necesario verificar si los dos, al mismo tiempo, son iguales a cero o no. Para ello se utiliza una estadístico de prueba F. Formalmente, H0: δ1 = δ2 = 0 (No hay cambio estructural) H1: δ1 ≠ 0, δ2 ≠ 0 (Existe cambio en intercepto y/o pend.) (13) (14) Si el estadístico de contraste: Fc = ( SCRR − SCRNR ) / J SCRNR / n − k ~ F( J ,n − k ) 37 Estimador diferencia en diferencia Si Fc > FJ,n-k, se dice que se rechaza H0, con lo que δ1 y δ2 son conjuntamente significativos. Entonces existe un cambio estructural en el modelo. Estimador diferencia en diferencia El estimador diferencia en diferencia (DD) es una alternativa para evaluar de forma directa los efectos de choques exógenos sobre las variables explicativas. Este procedimiento es útil para explicar el impacto de alguna política económica. A la vez, es utilizada comúnmente en áreas de estudio económico como la evaluación de proyectos. 38 Estimador diferencia en diferencia El estimador DD se basa en experimentos naturales (o cuasiexperimentos), que ocurren cuando un evento exógeno al modelo, cambia el contexto en que las unidades de corte transversal se comportan. Lo anterior puede determinar que las relaciones económicas entre las variables involucradas en un determinado estudio sean distintas con el paso del tiempo. Para evaluar dichas variaciones, se debe tener en cuenta (siempre) un grupo de control, que no es afectado por el choque exógeno, y un grupo de tratamiento, que si lo está. Los dos deben ser escogidos de forma aleatoria para evitar sesgos de selección. 39 Estimador diferencia en diferencia Para revisar las diferencias relativas entre grupos, es pertinente dividir la muestra que caracteriza los datos de corte transversal en distintos periodos de tiempo, teniendo en cuenta escenarios antes y después de ocurrido el evento exógeno. Por lo cual, se tienen en cuenta los grupos de control y tratamiento en cada periodo de tiempo. Yit = α0 + α1 D2 + α2 DT + α3 D2 ·DT + uit (13) donde DT toma el valor de 1 si la unidad de corte transversal está en el grupo de tratamiento y 0 si es del grupo de control. La variables D2 toma el valor de 1 si t=2 y 0 si t=1. De esta manera, si se estima (13) por MCA se obtienen los estimadores de diferencia en diferencia de la 40 forma: Estimador diferencia en diferencia αˆ DD = (YT 2 − YC 2 ) − (YT 1 − YC1 ) (14) αˆ DD = (αˆ 0 + αˆ1 + αˆ 2 + αˆ 3 ) − (αˆ 0 + αˆ1 ) − (αˆ 0 + αˆ 2 ) − (αˆ 0 ) αˆ DD = [αˆ 2 + αˆ 3 ]−[αˆ 2 ] αˆ DD = αˆ 3 (15) El estimador α3 de (13) captura la diferencia, primero, entre el grupo de control y el de tratamiento en cada uno de los periodos del experimento, segundo, se establece la diferencia entre los dos periodos de tiempo. A partir de estas dos diferencias, se concluye que el efecto de un choque exógeno en el modelo está determinado por el coeficiente de D2DT; ésta se refiere al grupo de tratamiento en el periodo después de ser afectadas las unidades de corte transversal; al mismo 41 tiempo es el efecto de un cambio estructural. Estimador diferencia en diferencia Si se quiere evaluar el efecto de un choque exógeno (cambio estructural o impacto) sobre una variable explicativa, simplemente se plantea un modelo igual al de la ecuación (12) teniendo en cuenta la interacción entre la variable explicativa y la dummy de tiempo. Yit = β0 + β1 X it + δ1 D2 + δ2 ( X it · D2 ) + uit (16) Los efectos de un cambio en la variable de interés Xit como consecuencia de una política se puede evidenciar mediante el estimador de δ2 . Este estimador mantiene las propiedades de MCO siempre y cuando se cumplan los supuestos MRC, en especial, que no exista sesgo de endogeneidad. 42 Estimador diferencia en diferencia El estimador diferencia en diferencia funciona bien cuando se cuenta con información de corte transversal agrupada en el tiempo, o lo que es lo mismo, cuando no se cuenta con información para la misma unidad de corte transversal para los periodos en los que están recogidos los datos. En caso que se tenga la misma muestra a lo largo del tiempo, se tendría un panel de datos y se utilizarían diferentes técnicas para llegar a las conclusiones esperadas. Estas metodologías se tratarán en el siguiente capítulo. 43 Caso práctico Objetivo: evaluar el impacto que tuvo el Programa de Educación Rural (PER) en las tasas de eficiencia y calidad de la educación en las escuelas rurales que accedieron a dicho programa en Colombia. El PER, originalmente, buscaba diseñar y ejecutar proyectos educativos en instituciones rurales para alcanzar 4 objetivos : 1. Aumentar la cobertura y calidad educativa. 2. Fortalecer la capacidad de gestión de los municipios e instituciones educativas en la identificación de necesidades, manejo de información, planeación y evaluación. 3. Mejorar las condiciones de convivencia en la institución educativa 4. Diseñar mecanismos que permitan una mejor comprensión de la 44 situación de la educación media técnica rural. Caso práctico Con esta finalidad, el proyecto tendría una duración de diez años y se implementaría en tres etapas, cada una de tres años y medio. Las primeras experiencias del PER comenzaron en el año 2002, y un año después se había implementado en más de 1,800 sedes en 12 departamentos del país. El ejercicio pretende comparar los resultados académicos que obtuvieron los estudiantes que fueron intervenidos por el PER respecto a los mismos que hubiesen alcanzado las personas si no participaban en el programa. 45 Caso práctico Partiendo de la metodología descrita en este capítulo, la mejor forma de estimar los efectos de una política de este tipo, es utilizando datos de corte transversal a lo largo del tiempo, ya que permiten analizar los efectos del PER sobre la eficiencia y la calidad de la educación en población rural. Bajo la metodología de diferencias en diferencias, los resultados de un grupo de escuelas no participantes en el PER se utilizan como control para los valores del grupo de tratamiento. El modelo es el siguiente: Yit = δ0 + δ1esc.PERit + δ2 A.2004 + δ3esc.PERit × A.2004 + X β + uit (17) Yit : variable de interés para la evaluación (crecimiento en matrícula escolar, cambio en la tasa de aprobación, cambio en la tasa de reprobación y 46 cambio en la tasa de deserción, en diferentes regiones) Caso práctico esc.PERit : escuelas intervenidas por el programa PER esc.PERit×A.2004 : escuelas intervenidas en el año 2004 X : matriz de controles de la regresión β : vector de coeficientes Hipótesis: el programa de educación rural (PER) tuvo un impacto positivo sobre el crecimiento en matricula escolar y la tasa de aprobación, y negativo sobre la tasa de reprobación y la tasa de deserción. 47 Caso práctico Variables del Modelo Variables en laa usar en el modelo Descripción Variables Base Yit C_total, C_taproba Crecimiento en la matrícula, cambio en la C_treproba, C_tdeser tasas de aprobación, reprobación y deserción Esc.PERit trata Variable dicótoma que toma un valor 1 si la escuela hace parte del programa PER y 0 e.o.c. A.2004 d_04 Dicótoma que hace referencia al año 2004. Xit log_gasto, familias, ataques, gini_av, nbi, tasa_urbanos, d_1 Gasto municipal en educación (por alumno, en log), porcentaje de familias en acción, actividad armada ilegal (por 100.000 habitantes, en log), GINI (avalúos de tierra), NBI, población urbana (en porcentaje) 48 Caso práctico Estimación del modelo diferencias en diferencias 49 Caso práctico Una vez se tiene las regresiones estimadas, se procede a establecer si las hipótesis planteadas son ciertas o no. Para la ecuación (17), el coeficiente de interés es δ3, dado que es el estimador del efecto que tuvo el programa PER sobre las escuelas rurales en el año 2004. Para ello se utiliza la prueba de Chow. La prueba de hipótesis a seguir es la siguiente: H0: δ3 = 0 (PER no tiene efectos sobre la tasa de deserción escolar) H1: δ3 ≠ 0 (PER tiene efectos sobre la tasa de deserción escolar ) (18) 50 Caso práctico La prueba arroja un Fc = 70.94,con un p-valor de 0.000, esto quiere decir que Fc > FJ,n-k. De esta manera, se valida la existencia de un efecto del PER sobre la tasa de deserción escolar y dado que el coeficiente de la iteración esc.PER×A.2004 es negativo, corrobora la hipótesis inicial de un impacto negativo del PER en 2004 sobre la tasa de deserción para el 2004. 51 Evaluación de Impacto Calcular el efecto CAUSAL (impacto) de la intervención P (programa o tratamiento) en el resultado Y (indicador, medida del éxito) Ejemplo: ¿cuál es el efecto de un programa de transferencia monetaria (P) en el consumo del hogar (Y)? 52 Evaluación de Impacto Inferencia causal ¿Cuál es el efecto de P en Y? Respuesta: a= (Y | P=1)-(Y | P=0) Problema de FALTA DE DATOS Para un beneficiario del programa: observamos (Y | P=1): El nivel de consumo (Y) con un programa de transferencia monetaria (P) 53 Evaluación de Impacto Pero no observamos (Y | P=0): El nivel de consumo (Y) sin un programa de transferencia monetaria (P) Solución Estimar lo que hubiera sucedido a Y en ausencia de P Esto se denomina… CONTRAFACTUAL La clave de una evaluación de impacto es tener un contrafactual válido. 54 Evaluación de Impacto Cálculo del impacto de P en Y a= (Y | P=1) - (Y | P=0) OBSERVAR (Y | P=1) Intención de Tratar (ITT) ‒ A quienes se ofreció tratamiento Tratamiento en Tratados (TOT) ‒ Quienes están recibiendo tratamiento CALCULAR contrafactual para (Y | P=0) ‒ Utilizar grupo de comparación o de control IMPACTO = resultado con tratamiento - contrafactual 55 Evaluación de Impacto El “clon” perfecto 56 Evaluación de Impacto En la realidad, hay que utilizar estadística 57 Evaluación de Impacto Obtención de un buen contrafactual Entender el proceso de GENERACIÓN DE DATOS Proceso conductual por el que se determina la participación en el programa (tratamiento) ¿Cómo se asignan los beneficios? ¿Cuáles son las reglas de elegibilidad? La observación tratada y el contrafactual: tienen características idénticas, con excepción de los beneficios de la intervención 58 Evaluación de Impacto 59 Evaluación de Impacto Estudio de caso ¿Cuál es el efecto de un programa de transferencia monetaria (P) en el consumo del hogar (Y)? Programa PROGRESA/OPORTUNIDADES Programa nacional contra la pobreza en México Comenzó en 1997 5 millones de beneficiarios hacia 2004 Elegibilidad: basada en índice de pobreza Transferencias monetarias Condicionadas a la asistencia escolar y visitas a centros de salud Evaluación de impacto rigurosa con gran cantidad de datos 506 comunidades, 24 mil hogares Datos iniciales, 1997; seguimiento, 2008 Muchos resultados de interés. Aquí consideramos: Estándar de vida: consumo per cápita 60 Evaluación de Impacto Elegibilidad e Inscripción 61 Evaluación de Impacto Medición de impacto 1) Inferencia causal Contrafactuales Contrafactuales falsos: Antes y después (previo-posterior) Inscrito - no inscrito (manzanas y naranjas) 2) Métodos de evaluación de impacto: Controles aleatorios Promoción aleatoria (IV) Diseño de discontinuidad (RDD) Diferencia en diferencias Pareamiento/matching 62 Evaluación de Impacto Contrafactuales falsos Dos contrafactuales comunes que deben evitarse: Antes y después (previo-posterior) ̶ Datos sobre los mismos individuos antes y después de la intervención Inscritos-no inscritos (manzanas y naranjas) ̶ Datos sobre un grupo de individuos inscrito en el programa, y otro grupo no inscrito • No conocemos la causa Ambos contrafactuales pueden llevar a resultados sesgados. 63 Evaluación de Impacto Caso 1: Antes y Después ¿Cuál es el efecto de un programa de transferencia monetaria (P) en el consumo del hogar (Y)? 2 Puntos en el Tiempo Se mide a beneficiarios en: • Consumo en T=0 • Consumo en T=1 Cálculo del contrafactual (Yi,t| P=0) = (Yi,t-1| P=0) “Impacto” = A-B = 35 64 Evaluación de Impacto Caso 1: Antes y Después 65 Evaluación de Impacto Caso 1: Antes y Después ¿Cuál es el problema? 2 Puntos en el Tiempo Sólo mide beneficiarios en: Consumo en T=0 Consumo en T=1 Cálculo del contrafactual (Yi,t| P=0) = (Yi,t-1| P=0) “Impacto” = A-B = 35 No controla por factores que varían en el tiempo: Boom: Impacto = A-C A-B = sobreestimación Recesión: Impacto = A-D A-B = subestimación 66 Evaluación de Impacto Contrafactual falso N° 2: Inscrito-no inscrito Datos posteriores al tratamiento en 2 grupos Inscrito: grupo de tratamiento No inscrito: grupo de “control” (contrafactual) ̶ Los no elegibles para participar ̶ Los que optan por NO participar Sesgo de selección El motivo de la no inscripción puede estar correlacionado con el resultado (Y) ̶ Es posible controlar las características observables ̶ ¡Pero no es posible controlar las no observables! El impacto estimado se confunde con otros factores 67 Evaluación de Impacto Contrafactual falso N° 2: Inscrito-no inscrito Resultados en período posterior al tratamiento(1998) ¿En qué pueden diferenciarse el grupo inscrito y el no inscrito, fuera de su 68 participación en el programa? Evaluación de Impacto Contrafactual falso N° 2: Inscrito-no inscrito 69 Evaluación de Impacto Considere los resultados…… ¿Cuál resultado es el más cierto? Problema con Antes-Después: No se consideran otros factores que varían en el tiempo Problema con Inscrito- No Inscrito: No sabemos si otros factores, aparte de la intervención, inciden en el resultado 70 Evaluación de Impacto Síntesis de resultados 71 Universidad Mayor de San Simón Facultad de Ciencias Económicas y Financieras Carrera de Economía Econometría de Datos de Panel Agrupamiento de Datos de Sección Cruzada Julio Humérez Quiroz Cochabamba, enero de 2013 Teoría Asintótica Básica: Convergencia en Probabilidad 1) Una secuencia de v.a. {xN: N = 1, 2, …} converge en probabilidad a la constante a si para todo ε > 0, P[ |xN – a| > ε] → 0 cuando N → ∞ p → a y decimos que a es el En general, escribimos x N plim de xN. 2) En el caso especial en que a = 0, también decimos que {xN} es op(1) (o minúscula p 1). En este caso escribimos xN = p op(1) ó x N → 0. 73 Teoría Asintótica Básica 3) Una secuencia de v.a. {xN} está limitada en probabilidad (bounded in probability) ssí para cada ε > 0, existe un bε < ∞ y un entero Nε, tal que P[ |xN| ≥ bε] < ε para todo N ≥ Nε En este caso escribimos xN = Op(1) ({xN} es o mayúscula p 1). p Lema 1: si x N → a , entonces xN = Op(1) 74 Teoría Asintótica Básica 4) Una secuencia aleatoria {xN: N = 1, 2, …} es op(Nδ) para δ ∈ ℜ, si N-δ xN = op(1). Lema 2: si wN = op(1), xN = op(1), yN = Op(1), y zN = Op(1), entonces (i) wN + xN = op(1) (ii) yN + zN = Op(1) (iii) yN · zN = Op(1) (iv) xN ·zN = op(1) Todas las definiciones anteriores se aplican elemento por elemento a secuencias de vectores y matrices. 75 Teoría Asintótica Básica Lema 3: Sea {ZN: N = 1, 2, ...} una secuencia de matrices J×K tal que ZN = op(1), y sea {xN} una secuencia de vectores aleatorios J×1 tal que xN = Op(1). Entonces Z’N xN = op(1). Lema 4 (Teorema de Slutsky): Sea g: ℜK → ℜJ una función continua en algún punto c ∈ ℜK. Sea {xN: N = 1, 2, ...} una p secuencia de vectores aleatorios K×1 tal que x N → c. p → g (c) cuando N → ∞. En otras Entonces g ( x N ) palabras: plim g(xN) = g(plim xN) si g(·) es continua en plim xN . 76 Teoría Asintótica Básica Definición 1: Sea (Ω,ℑ,P) un espacio de probabilidad. Una secuencia de eventos {ΩN: N = 1, 2, ...} ⊂ ℑ se dice que ocurre con probabilidad aproximándose a uno (w.p.a 1) ssí P(ΩN) → 1 cuando N → ∞. Corolario 1: Sea {ZN: N = 1, 2, ...} una secuencia de matrices aleatorias K×K, y sea A una matriz invertible p Z → A , entonces: no aleatoria K×K. Si N (1) (2) Z N−1 existe w.p.a 1; Z −1 N →A p −1 o plim Z −1 N = A −1 77 Teoría Asintótica Básica: Convergencia en Distribución Definición 2: Una secuencia de v.a. {xN: N = 1, 2, …} converge en distribución a la v.a.c. x ssí FN(ξ) → F(ξ) cuando N → ∞ para todo ξ∈ℜ Donde FN es la función de distribución acumulada de xN y F es la función de distribución acumulada de x. En este caso d escribimos: x N → x. 78 Teoría Asintótica Básica Definición 3: Una secuencia de vectores aleatorios {xN: N = 1, 2, ...} K×1 converge en distribución al vector aleatorio continuo x ssí para cualquier vector no d aleatorio K×1, c tal que c’c = 1, c' x → c ' x, y N d escribimos x → x N d Lema 5: Si x N → x. , donde x es cualquier vector aleatorio K×1, entonces xN = Op(1) 79 Teoría Asintótica Básica Lema 6 (Continuous mapping theorem): Sea {xN} una secuencia de vectores aleatorios de dimensión K×1, tal d que x N → x Si g: ℜK → ℜJ es una función continua, entonces d g ( xN ) → g ( x) 80 Teoría Asintótica Básica Corolario 2: Si {zN} es una secuencia de vectores aleatorios de dimensión K×1, tal que d z N → Normal(0, V) Entonces: 1) Para cualquier matriz no aleatoria K×M, A, d A' z N → Normal(0, A' VA) 2) zN ' V -1 2 z N → χ K d 81 Teoría Asintótica Básica Lema 7: Sean {xN} y {zN} secuencias de vectores aleatorios de dimensión K×1. Si d p d z N → z, y xN − z N → 0, entonces xN → z Teorema 1: Sea {wj: j = 1, 2, …} una secuencia de vectores aleatorios G×1, iid tal que E(|wjg|) < ∞, g = 1, 2, …, G. Entonces la secuencia satisface la ley débil de los grandes números (LDGN): donde µw = E(wj). N −1 N ∑ w j → µ w p j =1 82 Teoría Asintótica Básica Teorema 2 (Lindeberg-Levy): Sea {wj: j = 1, 2, …} una secuencia de vectores aleatorios G×1, iid tal que E(w2jg) < ∞, g = 1, 2, …, G y E(wj)=0. Entonces la secuencia satisface el teorema central del límite (TCL): N −1 / 2 N d ∑ w j → Normal(0, B) j =1 donde B = Var(wj) = E(wj wj’). 83