Corte transversal agrupado

Anuncio
Universidad Mayor de San Simón
Facultad de Ciencias Económicas y Financieras
Carrera de Economía
Econometría de Datos de Panel
Agrupamiento de Datos de Sección
Cruzada
Julio Humérez Quiroz
Cochabamba, enero de 2013
¿Qué es Econometría?
Métodos
matemáticos
Métodos
estadísticos
Análisis de datos Económicos
TEORÍA ECONÓMICA
Evolución de los dos principales enfoques de la
Econometría
TEORÍA ECONÓMICA
E.T.
(libro de texto)
Estática
AC como «patología»
«particular-a-gral»
Datos
70`s
A.S.T.
(Box y Jenkins)
E.D.
80`s
PGD: modelo
Exogeneidad
WE
SE
SuE
Panel Data
Calibración
(Kydland y
Prescott, 1982)
Tests
EC
«Gral-a-Part.»
(Hendry et al.)
VAR
(Sims et al.)
Estadístico
Económico
Co-I «Part-a-Gral.»
(Engle y Granger)
Evolución de los dos principales enfoques de la
Econometría
Escuelas metodológicas actuales en Econometría
Utiliza la teoría
económica
Utiliza el análisis
estadístico clásico
1. MCO
Si
Si
2. VAR
No
Si
3. Bayesiana
Si
No
Metodología
Modelística General –a-Particular
M1 Modelo general (dinámico) SPGM ¿OK? ⇒ OK.
M2 Restricciones impuestas sobre M1 SPGM ¿OK? ⇒ OK
M3 Restricciones sobre M2 SPGM ¿OK? ⇒ OK
M4 Restricciones sobre M3 SPGM ¿OK? ⇒ NO!!!
SPGM = Supuestos sobre la prueba de Gauss-Markov
Tipos de datos
Una base de datos en panel contiene información para varios
individuos (hogares, personas, empresas, actividades económicas,
sectores económicos, regiones, municipios, países, etc.) en el
tiempo. (Muestra de individuos a lo largo del tiempo).
Datos de Corte Transversal:
j = 1, 2, …, N
Datos de Series de Tiempo:
t = 1, 2, …, T
Datos de Panel:
j = 1, 2, …, N
t = 1, 2, …, T
o
Micropaneles (N > T)
o
Macropaneles (T > N)
o
El aspecto fundamental es esta bi-dimensionalidad de los
datos.
5
Ventajas y desventajas
Ventajas de usar datos de panel
Con N individuos y T periodos podríamos estimar N modelos de
series de tiempo y T modelos de corte transversal.
Ejemplo:
yit = xit β + uit
Supone que el modelo lineal subyacente es el mismo para todos los individuos y
periodos.
Las ventajas de disponer de un panel tiene que ver con la
posibilidad de agregar esta información de alguna manera, lo que
resulta en las siguientes ventajas:
6
Ventajas y desventajas
a) El incremento en el tamaño de la muestra permite obtener
estimadores consistentes y estadísticos de prueba más
confiables.
b) Una mayor cantidad de datos implica más variabilidad entre
ellos, menor colinealidad entre las variables, más grados de
libertad y mayor eficiencia en las estimaciones (Hsiao, 2002).
c) Permite responder a preguntas que no pueden ser respondidas
con otros datos.
d) Permite investigar si las relaciones entre las variables han
cambiado con el tiempo, por medio de la prueba de Chow.
e) Permite
realizar evaluaciones de impacto de políticas
económicas realizadas en un momento determinado.
7
Ventajas y desventajas
f)
Alivia el problema de variables omitidas (Control de
«heterogeneidad no-observable»). Por ejemplo, si no varían en
el tiempo se pueden eliminar tomando diferencias.
Ejemplo:
wit = β1×educit + β2 × experit + β3× exper2it + ui + εit
g)
Permite eliminar sesgos por agregación.
h)
Varias más (Baltagi, 2002)
8
Ventajas y desventajas
Desventajas
No siempre es posible agregar información temporal y de corte
transversal (pueden ser más observaciones pero de poblaciones
heterogéneas).
Los paneles son costosos de implementar y administrar.
Problemas de
«attrition».
selectividad:
auto-selección,
no
respuesta,
Dimensión temporal corta.
Métodos econométricos algo más específicos y complejos; menos
familiares e intuitivos.
Heterogeneidad no tratada.
Paneles incompletos.
9
Metodología
Teoría Económica
Yt=ΑΚtαLtβ
Modelo Econométrico
Yt=ΑΚtαLtβeε
Datos
Estimación
Pruebas de Especificación y
Examen de Diágnóstico
No
¿El modelo es adecuado?
Sí
Prueba de algunas hipótesis
Uso del modelo
para pronóstico y
diseño de políticas
Agenda del Curso
El curso se enfocará en las propiedades asintóticas de los
estimadores más que en las propiedades de muestra
finita.
El análisis asintótico nos permitirá dar un tratamiento
unificado a los distintos procedimientos de estimación y
nos permitirá establecer todos los supuestos en términos
de la población subyacente.
La primera parte del curso comprenderá modelos con
datos de sección cruzada combinadas en el tiempo, que
son útiles cuando se desea evaluar el impacto de cambios
de política.
11
Agenda del Curso
La segunda parte del curso trata los modelos estáticos de
datos de panel lineales en los que la teoría asintótica
relevante se da cuando la dimensión de corte transversal se
hace grande mientras que los datos de series de tiempo se
mantienen fijos (N > T).
La tercera parte abarca los modelos dinámicos de datos de
panel.
La cuarta parte del curso comprende modelos de datos de
panel lineales en los que la teoría asintótica relevante
supone la dimensión temporal haciéndose grande y la
dimensión de corte transversal manteniéndose fija (T > N).
12
Agenda del Curso
La evaluación del curso se realizará sobre la base de
trabajos prácticos y un examen final.
Ponderaciones:
o Trabajos prácticos
o Examen final
o Asistencia
40%
50%
10%
13
El modelo básico
El modelo básico de componentes de error
El modelo básico es:
yit = xit β + uit
uit = µi + eit
i = 1,..., N ; t = 1,...,T
xit vector de K variables explicativas (incluye una constante)
β es un vector de coeficiente
El término de error incluye dos componentes, uno específico
del individuo y otro de la observación.
14
Evaluación de impacto de políticas
Modelos con datos de sección cruzada, sirven para muestras
recolectadas en un mismo momento del tiempo, es decir, una “foto” a
la realidad, por lo que las variables son estáticas.
Modelos con series de tiempo, muestran el comportamiento de
una variable en un periodo de tiempo, dejando a un lado las
relaciones con otras variables.
Este capítulo se enfocará en metodologías que combinan los dos
tipos de muestras anteriores, pasando de una “foto” a un “video”,
que muestra la dinámica de las variables en el tiempo, por medio
de la agrupación de datos de corte transversal a través del tiempo.
15
Evaluación de impacto de políticas
Unión de corte transversal y series de tiempo
Este capítulo estudia la metodología econométrica que combina los
procedimientos con datos de corte transversal y series de
tiempo, para estudiar las características del tiempo sobre las
relaciones entre las variables explicativas y explicadas.
Entonces los datos tienen dos dimensiones, una que identifica a la
unidad de corte transversal (i) y otra para el tiempo (t). Por tanto,
se requerirán nuevos procedimientos para explotar las
características particulares que ofrece este tipo de datos.
16
Evaluación de impacto de políticas
Naturaleza de los datos de corte transversal agrupados en el tiempo.
Existen dos tipos de agrupación:
1.
Las muestras que agrupan datos en el tiempo, i.e., muestras
aleatorias de corte transversal para la misma población en
diferentes periodos del tiempo, pero no necesariamente
consideran la misma muestra en cada uno de ellos.
2.
Los paneles que agrupan las mismas unidades de corte
transversal en diferentes periodos del tiempo, o sea, se agrupan
datos de la misma muestra de corte transversal en distintos
momentos del tiempo.
17
Evaluación de impacto de políticas
Para entender este tipo de conformación de los datos, se debe
contar con un nuevo modelo teórico, mediante el cual se
explicarán las características particulares de este tipo de
agrupación:
Yit = β0 + β1 X it + β2 K it + uit
(1)
donde Yit es la variable dependiente, Xit y Kit son las variables
independientes y uit es el término del error; i denota las unidades
de corte transversal de la muestra; t el periodo en el que se
encuentra expresado el conjunto de variables para cada unidad de
corte transversal i y dentro de un rango finito (1 a T).
18
Evaluación de impacto de políticas
Corte transversal a lo largo del tiempo
Las muestras de corte transversal a lo largo del tiempo es la primera
aproximación a las metodologías con paneles de datos. Esta permite
estudiar relaciones entre las variables en distintos periodos del
tiempo, facilitando la estimación de los efectos originados por
choques exógenos sobre una o varias variables del modelo
econométrico.
Estos beneficios no están presentes en los modelos de corte
transversal, ya que las muestras son tomadas en un determinado
periodo de tiempo y las relaciones entre variables son estudiadas
bajo ese contexto, sin permitir comparaciones temporales.
19
Mínimos cuadrados agrupados (MCA)
La agrupación de datos permite establecer con mayor claridad los
tipos de relación que se pueden generar entre las variables
independientes y la explicada (Wooldridge, 2009).
La estimación se realiza a través de mínimos cuadrados
agrupados (MCA), que consiste en aplicar el método de MCO a un
conjunto de variables evaluadas en distintos periodos del tiempo.
Mínimos cuadrados agrupados (MCA)
Mínimos cuadrados agrupados (pooled OLS, en inglés) sirve para
investigar si las relaciones entre las variables (explicativas y
explicadas) han cambiado con el paso del tiempo.
20
Mínimos cuadrados agrupados (MCA)
Consiste en realizar estimaciones usando el conjunto de datos,
sin hacer ninguna distinción entre grupos. Partiendo de (1) y
utilizando el enfoque matricial se tiene:
Yi = Z i β + εi donde Z i = [ X it
K it ]
(2)
Donde Yi es el vector de la variable dependiente; Zi es una matriz de
variables explicativas y εi es el vector de errores del modelo.
Para obtener los estimadores, se debe estimar (2) través de MCO.
Estos resultan consistentes y eficientes como consecuencia del
incremento del tamaño de la muestra, respecto a muestras de corte
transversal.
Los estimadores están representados por la siguiente expresión:
21
Prueba de Cambio Estructural de Chow
−1
( ) ( )
βˆ MCA = Z i ′ Z i
Z i ′Yi
(3)
De acuerdo a (3) se puede establecer con mayor precisión si las
relaciones evaluadas en un modelo de interés varían como
consecuencia del paso del tiempo. Para conseguir conclusiones al
respecto, se deben llevar a cabo pruebas de cambio estructural de
Chow.
Prueba de Cambio Estructural de Chow
Teniendo en cuenta (2) y asumiendo t = 1, 2, el modelo estructural
puede desglosarse en dos grupos, correspondientes a dos momentos
del tiempo.
22
Prueba de Cambio Estructural de Chow
De esta forma se puede evaluar qué pasa en cada año con las
variables de interés (ecuaciones 4 y 5).
Grupo 1:
Yi 1 = β0 + β1 X i 1 + β2 K i 1 + ui 1
(4)
Grupo 2:
Yi 2 = β0 + β1 X i 2 + β2 K i 2 + ui 2
(5)
Al estimar (4) y (5) mediante en forma agrupada, y por separado,
lo que se quiere ver es si existe algún efecto del tiempo sobre
las variables. Esto se consigue comparando los estimadores de los
grupos 1 y 2. Si se encuentra una diferencia estadística entre
ellos, es porque existe cambio estructural. Si los estimadores son
los mismos, se dice que las relaciones de las variables no han
cambiado en el tiempo.
23
Prueba de Cambio Estructural de Chow
En caso que se detecte cambio estructural, es importante evaluar la
fuente de variación de las relaciones en el tiempo (cambio en el
intercepto, en pendiente, o una combinación de las dos anteriores)
mediante la prueba de Chow.
Cambio en intercepto
La primera causa de cambio estructural se debe a un cambio en el
intercepto, i.e., que el paso del tiempo permitió que las variables
se desplazaran de manera proporcional en los periodos. Para
reconocer este efecto, se transforma el modelo (1) y se añade una
variable dummy que separe la muestra en dos periodos. Esta
variable se denomina D2 y toma el valor de 1 si t=2, y 0 si t=1. El
modelo queda expresado como:
24
Prueba de Cambio Estructural de Chow
Yit = β0 + β1 X it + β2 K it + δ1 D2 + ui 2
(6)
Manteniendo las mismas variables iniciales, los valores esperados
para Yit están determinados por los periodos en los que están
agrupados los datos (ec. (6.1) y (6.2)). Estos definen el pronóstico
de la variable dependiente dado el cambio en el tiempo y
manteniendo constante las variables explicativas.
(t=1)
E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1
(6.1)
(t=2) E [Y | X , K , D = 1] = (β + δ ) + β X + β K (6.2)
i2
i2
i2
2
0
1
1 i2
2 i2
25
Prueba de Cambio Estructural de Chow
A través de (6.1) y (6.2) se puede identificar la diferencia en los
estimadores de cada ecuación. Por ej., la ecuación (6.1) muestra
teóricamente tres estimadores (β0, β1, β2), mientras que la ecuación
(6.2) solo dos (β1, β2) iguales a (6.1) y uno distinto (β0, δ1).
La diferencia radica en el coeficiente que acompaña a la variable D2
y que se refiere al cambio de periodo en la muestra. Si δ1 resulta
significativo estadísticamente, se dice que hay un cambio
estructural debido al cambio en intercepto, i.e., un desplazamiento
positivo (o negativo) de la curva referente al valor esperado de la
variable dependiente Yit (ver gráfico).
26
Prueba de Cambio Estructural de Chow
E (Yit )
(6.2)
(6.1)
β0 +δ1
β0
δ1
Variables explicativas
27
Prueba de Cambio Estructural de Chow
Por lo tanto, se debe probar la significancia individual del
estimador δ1 en la ecuación (6), por medio de la siguiente prueba de
hipótesis:
H0: δ1 = 0 (No existe cambio en intercepto)
(7)
H1: δ1 ≠ 0 (Existe cambio en intercepto)
(8)
Para encontrar respuesta a la hipótesis de la expresión (7), se utiliza
un estadístico t que permite verificar la significancia individual del
coeficiente que acompaña a la dummy de tiempo.
Si se rechaza Ho, se concluye que hubo un cambio estructural en el
modelo y que el paso del tiempo modificó los efectos de las variables
del modelo pero no las relaciones entre ellas.
28
Prueba de Cambio Estructural de Chow
Cambio en pendiente
También pueden existir cambios de pendiente como consecuencia de
la introducción de la interacción de D2 con una de las variables
explicativas, p.e. Xit, como variable explicativa para el modelo de la
ecuación (1). A través de la nueva variable se quiere verificar si la
relación entre alguna variable explicativa y la dependiente
cambia en el tiempo.
Yit = β0 + β1 X it + β2 K it + δ2 ( D2 × X it ) + uit (9)
29
Prueba de Cambio Estructural de Chow
De acuerdo al modelo (9), los valores esperados para Yit dado
t=1,2 muestra cómo cambian las relaciones entre la variable
explicativa (Xit) y la dependiente (Yit) a través de dos periodos.
(t=1)
E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1
(9.1)
(t=2) E [Y | X , K , D = 1] = β + (β + δ ) X + β K (9.2)
i2
i2
i2
2
0
1
2
i2
2 i2
Estas expresiones identifican si las relaciones entre las variables
del sistema varían como consecuencia del tiempo.
30
Prueba de Cambio Estructural de Chow
Esto se consigue comparando los estimadores correspondientes a
cada año de la muestra. La ecuación (9.1) muestra teóricamente tres
estimadores (β0, β1, β2), mientras que la ecuación (9.2) muestra dos
estimadores (β0, β2) iguales y uno distinto ( β1+ δ2) respecto a
(9.1).
La diferencia está en la existencia del coeficiente que acompaña a
la variable Xit·D2. Si δ2 resulta significativo, se dice que hay un
cambio estructural debido al cambio en pendiente, i.e., genera un
movimiento positivo (negativo) de la curva que hace referencia al
valor esperado de la variable dependiente.
31
Prueba de Cambio Estructural de Chow
E (Yit )
(9.2)
β1 +δ2
(9.1)
β1
β0
Variables explicativas
32
Prueba de Cambio Estructural de Chow
Como en la prueba de cambio en intercepto, se requiere de una
prueba de significancia individual que lleve a concluir la existencia
de cambio estructural.
H0: δ2 = 0 (No hay cambio en pendiente)
(10)
H1: δ2 ≠ 0 (Existe cambio en pendiente)
(11)
Si |tc| > |tα/2, n-k |, se rechaza H0, entonces existe un cambio estructural
(la relación entre Yit y Xit cambia con el paso del tiempo).
33
Prueba de Cambio Estructural de Chow
Cambio en intercepto y pendiente
Esta prueba mezcla las dos pruebas descritas anteriormente. El
nuevo modelo contiene la dummy de tiempo (D2) y la interacción
de ésta con una variable explicativa (Xit·D2). Con esta especificación
se quiere probar si la relación entre la variable explicada y una
independiente cambia en el tiempo; asimismo si el cambio de periodo
tiene algún efecto sobre el modelo a estimar. Por lo tanto, el nuevo
modelo está dado por la siguiente ecuación:
Yit = β0 + β1 X it + β2 K it + δ1 D2 + δ2 D2 × X it + uit
(12)
34
Prueba de Cambio Estructural de Chow
De la ecuación (12), los valores esperados para Yit dado t=1,2 son:
(t=1) E [Yi1 | X i1 , K i1 , D2 = 0] = β0 + β1 X i1 + β2 K i1
(12.1)
(t=2) E [Yi 2 | X i 2 , K i 2 , D2 = 1] = (β0 + δ1 ) + (β1 + δ2 ) X i 2 + β2 K i 2 (12.2)
Si conjuntamente δ1 y δ2 resultan conjuntamente significativos, se
dice que existió un cambio estructural debido al cambio en intercepto
y pendiente, i.e., genera un desplazamiento y movimiento positivo
(negativo) de la curva de valor esperado de la variable dependiente
Yit.
35
Prueba de Cambio Estructural de Chow
(12.2)
E (Yit )
β1 +δ2
β0 +δ1
β0
(12.1)
β1
Variables explicativas
36
Prueba de Cambio Estructural de Chow
De acuerdo al gráfico anterior los coeficientes de interés son δ1 y δ2,
siendo necesario verificar si los dos, al mismo tiempo, son iguales a
cero o no. Para ello se utiliza una estadístico de prueba F.
Formalmente,
H0: δ1 = δ2 = 0 (No hay cambio estructural)
H1: δ1 ≠ 0, δ2 ≠ 0 (Existe cambio en intercepto y/o pend.)
(13)
(14)
Si el estadístico de contraste:
Fc =
( SCRR − SCRNR ) / J
SCRNR / n − k
~ F( J ,n − k )
37
Estimador diferencia en diferencia
Si Fc > FJ,n-k, se dice que se rechaza H0, con lo que δ1 y δ2 son
conjuntamente significativos. Entonces existe un cambio estructural
en el modelo.
Estimador diferencia en diferencia
El estimador diferencia en diferencia (DD) es una alternativa para
evaluar de forma directa los efectos de choques exógenos sobre las
variables explicativas.
Este procedimiento es útil para explicar el impacto de alguna política
económica. A la vez, es utilizada comúnmente en áreas de estudio
económico como la evaluación de proyectos.
38
Estimador diferencia en diferencia
El estimador DD se basa en experimentos naturales (o cuasiexperimentos), que ocurren cuando un evento exógeno al modelo,
cambia el contexto en que las unidades de corte transversal se
comportan. Lo anterior puede determinar que las relaciones
económicas entre las variables involucradas en un determinado
estudio sean distintas con el paso del tiempo.
Para evaluar dichas variaciones, se debe tener en cuenta (siempre)
un grupo de control, que no es afectado por el choque exógeno, y
un grupo de tratamiento, que si lo está. Los dos deben ser
escogidos de forma aleatoria para evitar sesgos de selección.
39
Estimador diferencia en diferencia
Para revisar las diferencias relativas entre grupos, es pertinente
dividir la muestra que caracteriza los datos de corte transversal en
distintos periodos de tiempo, teniendo en cuenta escenarios antes
y después de ocurrido el evento exógeno. Por lo cual, se tienen
en cuenta los grupos de control y tratamiento en cada periodo de
tiempo.
Yit = α0 + α1 D2 + α2 DT + α3 D2 ·DT + uit
(13)
donde DT toma el valor de 1 si la unidad de corte transversal está en
el grupo de tratamiento y 0 si es del grupo de control. La variables D2
toma el valor de 1 si t=2 y 0 si t=1. De esta manera, si se estima (13)
por MCA se obtienen los estimadores de diferencia en diferencia de la
40
forma:
Estimador diferencia en diferencia
αˆ DD = (YT 2 − YC 2 ) − (YT 1 − YC1 )
(14)
αˆ DD = (αˆ 0 + αˆ1 + αˆ 2 + αˆ 3 ) − (αˆ 0 + αˆ1 ) − (αˆ 0 + αˆ 2 ) − (αˆ 0 )
αˆ DD = [αˆ 2 + αˆ 3 ]−[αˆ 2 ]
αˆ DD = αˆ 3
(15)
El estimador α3 de (13) captura la diferencia, primero, entre el
grupo de control y el de tratamiento en cada uno de los periodos
del experimento, segundo, se establece la diferencia entre los dos
periodos de tiempo.
A partir de estas dos diferencias, se concluye que el efecto de un
choque exógeno en el modelo está determinado por el coeficiente
de D2DT; ésta se refiere al grupo de tratamiento en el periodo
después de ser afectadas las unidades de corte transversal; al mismo
41
tiempo es el efecto de un cambio estructural.
Estimador diferencia en diferencia
Si se quiere evaluar el efecto de un choque exógeno (cambio
estructural o impacto) sobre una variable explicativa, simplemente
se plantea un modelo igual al de la ecuación (12) teniendo en
cuenta la interacción entre la variable explicativa y la dummy de
tiempo.
Yit = β0 + β1 X it + δ1 D2 + δ2 ( X it · D2 ) + uit
(16)
Los efectos de un cambio en la variable de interés Xit como
consecuencia de una política se puede evidenciar mediante el
estimador de δ2 . Este estimador mantiene las propiedades de MCO
siempre y cuando se cumplan los supuestos MRC, en especial, que no
exista sesgo de endogeneidad.
42
Estimador diferencia en diferencia
El estimador diferencia en diferencia funciona bien cuando se cuenta
con información de corte transversal agrupada en el tiempo, o lo que
es lo mismo, cuando no se cuenta con información para la misma
unidad de corte transversal para los periodos en los que están
recogidos los datos.
En caso que se tenga la misma muestra a lo largo del tiempo, se
tendría un panel de datos y se utilizarían diferentes técnicas para
llegar a las conclusiones esperadas. Estas metodologías se tratarán en
el siguiente capítulo.
43
Caso práctico
Objetivo: evaluar el impacto que tuvo el Programa de Educación
Rural (PER) en las tasas de eficiencia y calidad de la educación
en las escuelas rurales que accedieron a dicho programa en
Colombia.
El PER, originalmente, buscaba diseñar y ejecutar proyectos
educativos en instituciones rurales para alcanzar 4 objetivos :
1.
Aumentar la cobertura y calidad educativa.
2.
Fortalecer la capacidad de gestión de los municipios e
instituciones educativas en la identificación de necesidades,
manejo de información, planeación y evaluación.
3.
Mejorar las condiciones de convivencia en la institución educativa
4.
Diseñar mecanismos que permitan una mejor comprensión de la
44
situación de la educación media técnica rural.
Caso práctico
Con esta finalidad, el proyecto tendría una duración de diez años y se
implementaría en tres etapas, cada una de tres años y medio.
Las primeras experiencias del PER comenzaron en el año 2002, y un
año después se había implementado en más de 1,800 sedes en 12
departamentos del país.
El ejercicio pretende comparar los resultados académicos que
obtuvieron los estudiantes que fueron intervenidos por el PER
respecto a los mismos que hubiesen alcanzado las personas si no
participaban en el programa.
45
Caso práctico
Partiendo de la metodología descrita en este capítulo, la mejor forma
de estimar los efectos de una política de este tipo, es utilizando datos
de corte transversal a lo largo del tiempo, ya que permiten analizar
los efectos del PER sobre la eficiencia y la calidad de la educación en
población rural.
Bajo la metodología de diferencias en diferencias, los resultados
de un grupo de escuelas no participantes en el PER se utilizan como
control para los valores del grupo de tratamiento. El modelo es el
siguiente:
Yit = δ0 + δ1esc.PERit + δ2 A.2004 + δ3esc.PERit × A.2004 + X β + uit (17)
Yit
: variable de interés para la evaluación (crecimiento en matrícula escolar,
cambio en la tasa de aprobación, cambio en la tasa de reprobación y
46
cambio en la tasa de deserción, en diferentes regiones)
Caso práctico
esc.PERit
: escuelas intervenidas por el programa PER
esc.PERit×A.2004
: escuelas intervenidas en el año 2004
X
: matriz de controles de la regresión
β
: vector de coeficientes
Hipótesis: el programa de educación rural (PER) tuvo un impacto
positivo sobre el crecimiento en matricula escolar y la tasa de
aprobación, y negativo sobre la tasa de reprobación y la tasa de
deserción.
47
Caso práctico
Variables del
Modelo
Variables
en laa usar en el modelo
Descripción
Variables
Base
Yit
C_total, C_taproba
Crecimiento en la matrícula, cambio en la
C_treproba, C_tdeser tasas de aprobación, reprobación y
deserción
Esc.PERit
trata
Variable dicótoma que toma un valor 1 si la
escuela hace parte del programa PER y 0
e.o.c.
A.2004
d_04
Dicótoma que hace referencia al año 2004.
Xit
log_gasto, familias,
ataques, gini_av, nbi,
tasa_urbanos, d_1
Gasto municipal en educación (por alumno,
en log), porcentaje de familias en acción,
actividad armada ilegal (por 100.000
habitantes, en log), GINI (avalúos de tierra),
NBI, población urbana (en porcentaje)
48
Caso práctico
Estimación del modelo diferencias en diferencias
49
Caso práctico
Una vez se tiene las regresiones estimadas, se procede a establecer si
las hipótesis planteadas son ciertas o no. Para la ecuación (17), el
coeficiente de interés es δ3, dado que es el estimador del efecto que
tuvo el programa PER sobre las escuelas rurales en el año 2004.
Para ello se utiliza la prueba de Chow. La prueba de hipótesis a
seguir es la siguiente:
H0: δ3 = 0 (PER no tiene efectos sobre la tasa de deserción escolar)
H1: δ3 ≠ 0 (PER tiene efectos sobre la tasa de deserción escolar )
(18)
50
Caso práctico
La prueba arroja un Fc = 70.94,con un p-valor de 0.000, esto quiere
decir que Fc > FJ,n-k. De esta manera, se valida la existencia de un
efecto del PER sobre la tasa de deserción escolar y dado que el
coeficiente de la iteración esc.PER×A.2004 es negativo, corrobora la
hipótesis inicial de un impacto negativo del PER en 2004 sobre la
tasa de deserción para el 2004.
51
Evaluación de Impacto
Calcular el efecto CAUSAL (impacto) de
la intervención P (programa o tratamiento) en
el resultado Y (indicador, medida del éxito)
Ejemplo: ¿cuál es el efecto de un
programa de transferencia monetaria (P) en
el consumo del hogar (Y)?
52
Evaluación de Impacto
Inferencia causal
¿Cuál es el efecto de P en Y?
Respuesta:
a= (Y | P=1)-(Y | P=0)
Problema de FALTA DE DATOS
Para un beneficiario del programa:
observamos (Y | P=1):
El nivel de consumo (Y) con un programa de transferencia
monetaria (P)
53
Evaluación de Impacto
Pero no observamos (Y | P=0):
El nivel de consumo (Y) sin un programa de transferencia
monetaria (P)
Solución
Estimar lo que hubiera sucedido a Y en ausencia de P
Esto se denomina… CONTRAFACTUAL
La clave de una evaluación de impacto es tener un contrafactual
válido.
54
Evaluación de Impacto
Cálculo del impacto de P en Y
a= (Y | P=1) - (Y | P=0)
OBSERVAR (Y | P=1)
Intención de Tratar (ITT)
‒ A quienes se ofreció
tratamiento
Tratamiento en Tratados
(TOT)
‒ Quienes están recibiendo
tratamiento
CALCULAR contrafactual
para (Y | P=0)
‒ Utilizar grupo de
comparación o de
control
IMPACTO = resultado con tratamiento - contrafactual
55
Evaluación de Impacto
El “clon” perfecto
56
Evaluación de Impacto
En la realidad, hay que utilizar estadística
57
Evaluación de Impacto
Obtención de un buen contrafactual
Entender el proceso de GENERACIÓN DE DATOS
Proceso conductual por el que se determina la participación en el
programa (tratamiento)
¿Cómo se asignan los beneficios?
¿Cuáles son las reglas de elegibilidad?
La observación tratada y el contrafactual:
tienen características idénticas, con excepción de los
beneficios de la intervención
58
Evaluación de Impacto
59
Evaluación de Impacto
Estudio de caso
¿Cuál es el efecto de un programa de transferencia monetaria (P) en
el consumo del hogar (Y)?
Programa PROGRESA/OPORTUNIDADES
Programa nacional contra la pobreza en México
Comenzó en 1997
5 millones de beneficiarios hacia 2004
Elegibilidad: basada en índice de pobreza
Transferencias monetarias
Condicionadas a la asistencia escolar y visitas a centros de salud
Evaluación de impacto rigurosa con gran cantidad de datos
506 comunidades, 24 mil hogares
Datos iniciales, 1997; seguimiento, 2008
Muchos resultados de interés. Aquí consideramos:
Estándar de vida: consumo per cápita
60
Evaluación de Impacto
Elegibilidad e Inscripción
61
Evaluación de Impacto
Medición de impacto
1) Inferencia causal
Contrafactuales
Contrafactuales falsos:
Antes y después (previo-posterior)
Inscrito - no inscrito (manzanas y naranjas)
2) Métodos de evaluación de impacto:
Controles aleatorios
Promoción aleatoria (IV)
Diseño de discontinuidad (RDD)
Diferencia en diferencias
Pareamiento/matching
62
Evaluación de Impacto
Contrafactuales falsos
Dos contrafactuales comunes que deben evitarse:
Antes y después (previo-posterior)
̶ Datos sobre los mismos individuos antes y después
de la intervención
Inscritos-no inscritos (manzanas y naranjas)
̶ Datos sobre un grupo de individuos inscrito en el
programa, y otro grupo no inscrito
• No conocemos la causa
Ambos contrafactuales pueden llevar a resultados
sesgados.
63
Evaluación de Impacto
Caso 1: Antes y Después
¿Cuál es el efecto de un programa de transferencia
monetaria (P) en el consumo del hogar (Y)?
2 Puntos en el Tiempo
Se mide a beneficiarios en:
• Consumo en T=0
• Consumo en T=1
Cálculo del contrafactual
(Yi,t| P=0) = (Yi,t-1| P=0)
“Impacto” = A-B = 35
64
Evaluación de Impacto
Caso 1: Antes y Después
65
Evaluación de Impacto
Caso 1: Antes y Después
¿Cuál es el problema?
2 Puntos en el Tiempo
Sólo mide beneficiarios en:
Consumo en T=0
Consumo en T=1
Cálculo del contrafactual
(Yi,t| P=0) = (Yi,t-1| P=0)
“Impacto” = A-B = 35
No controla por factores que varían
en el tiempo:
Boom: Impacto = A-C
A-B = sobreestimación
Recesión: Impacto = A-D
A-B = subestimación
66
Evaluación de Impacto
Contrafactual falso N° 2: Inscrito-no inscrito
Datos posteriores al tratamiento en 2 grupos
Inscrito: grupo de tratamiento
No inscrito: grupo de “control” (contrafactual)
̶ Los no elegibles para participar
̶ Los que optan por NO participar
Sesgo de selección
El motivo de la no inscripción puede estar correlacionado
con el resultado (Y)
̶ Es posible controlar las características observables
̶ ¡Pero no es posible controlar las no observables!
El impacto estimado se confunde con otros factores
67
Evaluación de Impacto
Contrafactual falso N° 2: Inscrito-no inscrito
Resultados en período posterior al
tratamiento(1998)
¿En qué pueden diferenciarse el grupo inscrito y el no inscrito, fuera de su
68
participación en el programa?
Evaluación de Impacto
Contrafactual falso N° 2: Inscrito-no inscrito
69
Evaluación de Impacto
Considere los resultados……
¿Cuál resultado es el más cierto?
Problema con Antes-Después:
No se consideran otros factores que varían en el tiempo
Problema con Inscrito- No Inscrito:
No sabemos si otros factores, aparte de la intervención, inciden
en el resultado
70
Evaluación de Impacto
Síntesis de resultados
71
Universidad Mayor de San Simón
Facultad de Ciencias Económicas y Financieras
Carrera de Economía
Econometría de Datos de Panel
Agrupamiento de Datos de Sección
Cruzada
Julio Humérez Quiroz
Cochabamba, enero de 2013
Teoría Asintótica Básica: Convergencia
en Probabilidad
1) Una secuencia de v.a. {xN: N = 1, 2, …} converge en
probabilidad a la constante a si para todo ε > 0,
P[ |xN – a| > ε] → 0 cuando N → ∞
p
→
a y decimos que a es el
En general, escribimos x N 
plim de xN.
2) En el caso especial en que a = 0, también decimos que {xN}
es op(1) (o minúscula p 1). En este caso escribimos xN =
p
op(1) ó x N 
→
0.
73
Teoría Asintótica Básica
3) Una secuencia de v.a. {xN} está limitada en probabilidad
(bounded in probability) ssí para cada ε > 0, existe un bε < ∞
y un entero Nε, tal que
P[ |xN| ≥ bε] < ε para todo N ≥ Nε
En este caso escribimos xN = Op(1) ({xN} es o mayúscula p 1).
p
Lema 1: si x N 
→
a , entonces xN = Op(1)
74
Teoría Asintótica Básica
4) Una secuencia aleatoria {xN: N = 1, 2, …} es op(Nδ) para δ ∈ ℜ, si
N-δ xN = op(1).
Lema 2: si wN = op(1), xN = op(1), yN = Op(1), y zN = Op(1), entonces
(i)
wN + xN = op(1)
(ii)
yN + zN = Op(1)
(iii)
yN · zN = Op(1)
(iv)
xN ·zN = op(1)
Todas las definiciones anteriores se aplican elemento por
elemento a secuencias de vectores y matrices.
75
Teoría Asintótica Básica
Lema 3: Sea {ZN: N = 1, 2, ...} una secuencia de matrices J×K
tal que ZN = op(1), y sea {xN} una secuencia de vectores
aleatorios J×1 tal que xN = Op(1). Entonces Z’N xN = op(1).
Lema 4 (Teorema de Slutsky): Sea g: ℜK → ℜJ una función
continua en algún punto c ∈ ℜK. Sea {xN: N = 1, 2, ...} una
p
secuencia de vectores aleatorios K×1 tal que x N 
→
c.
p
→
g (c) cuando N → ∞. En otras
Entonces g ( x N ) 
palabras: plim g(xN) = g(plim xN) si g(·) es continua en plim
xN .
76
Teoría Asintótica Básica
Definición 1: Sea (Ω,ℑ,P) un espacio de probabilidad.
Una secuencia de eventos {ΩN: N = 1, 2, ...} ⊂ ℑ se dice
que ocurre con probabilidad aproximándose a uno
(w.p.a 1) ssí P(ΩN) → 1 cuando N → ∞.
Corolario 1: Sea {ZN: N = 1, 2, ...} una secuencia de
matrices aleatorias K×K, y sea A una matriz invertible
p
Z

→
A , entonces:
no aleatoria K×K. Si N
(1)
(2)
Z N−1 existe w.p.a 1;
Z
−1
N

→A
p
−1
o plim Z
−1
N
= A
−1
77
Teoría Asintótica Básica: Convergencia
en Distribución
Definición 2: Una secuencia de v.a. {xN: N = 1, 2, …}
converge en distribución a la v.a.c. x ssí
FN(ξ) → F(ξ) cuando N → ∞ para todo ξ∈ℜ
Donde FN es la función de distribución acumulada de xN y F
es la función de distribución acumulada de x. En este caso
d
escribimos: x 
N → x.
78
Teoría Asintótica Básica
Definición 3: Una secuencia de vectores aleatorios {xN:
N = 1, 2, ...} K×1 converge en distribución al vector
aleatorio continuo x ssí para cualquier vector no
d
aleatorio K×1, c tal que c’c = 1, c' x 
→
c ' x, y
N
d
escribimos x 
→
x
N
d
Lema 5: Si x N 
→ x. , donde x es cualquier vector
aleatorio K×1, entonces xN = Op(1)
79
Teoría Asintótica Básica
Lema 6 (Continuous mapping theorem): Sea {xN} una
secuencia de vectores aleatorios de dimensión K×1, tal
d
que x N 
→ x
Si g: ℜK → ℜJ es una función continua, entonces
d
g ( xN ) → g ( x)
80
Teoría Asintótica Básica
Corolario 2: Si {zN} es una secuencia de vectores
aleatorios de dimensión K×1, tal que
d
z N → Normal(0, V)
Entonces:
1) Para cualquier matriz no aleatoria K×M, A,
d
A' z N → Normal(0, A' VA)
2)
zN ' V
-1
2
z N → χ K
d
81
Teoría Asintótica Básica
Lema 7: Sean {xN} y {zN} secuencias de vectores
aleatorios de dimensión K×1. Si
d
p
d
z N → z, y xN − z N → 0, entonces xN → z
Teorema 1: Sea {wj: j = 1, 2, …} una secuencia de
vectores aleatorios G×1, iid tal que E(|wjg|) < ∞, g = 1, 2,
…, G. Entonces la secuencia satisface la ley débil de los
grandes números (LDGN):
donde µw = E(wj).
N
−1
N
∑ w j → µ w
p
j =1
82
Teoría Asintótica Básica
Teorema 2 (Lindeberg-Levy): Sea {wj: j = 1, 2, …} una
secuencia de vectores aleatorios G×1, iid tal que E(w2jg)
< ∞, g = 1, 2, …, G y E(wj)=0. Entonces la secuencia
satisface el teorema central del límite (TCL):
N
−1 / 2
N
d
∑ w j → Normal(0, B)
j =1
donde B = Var(wj) = E(wj wj’).
83
Descargar