modelos econométricos de duración, el análisis de supervivencia y

Anuncio
MODELOS ECONOMÉTRICOS DE DURACIÓN,
EL ANÁLISIS DE SUPERVIVENCIA Y SU APLICACIÓN AL ESTUDIO
DEL DESEMPLEO EN EL ÁREA METROPOLITANA DE CALI1
JOSÉ IGNACIO URIBE G.2
Introducción.
Los objetivos de este trabajo son: en primer lugar, explicar los fundamentos teóricos de
los modelos econométricos de duración del desempleo y de los modelos de
supervivencia. En segundo lugar, utilizar el procedimiento estándar en el análisis de la
duración utilizando las funciones de probabilidad no paramétricas, semi paramétricas y
paramétricas. En tercer lugar, ver el posible efecto de las variables explicadoras
(covariables) sobre las tasas de riesgo y supervivencia, en el área metropolitana da
Cali, con información de la ENH, correspondiente a diciembre de 1992.
Los modelos que se utilizan corrientemente para medir la supervivencia o duración,
suelen agruparse en:
a. No paramétricos: tablas de vida provenientes de métodos actuariales. Su
característica es que no hacen ningún supuesto sobre la distribución de las
probabilidades de los tiempos. Acá estarían las tablas de vida, entre otras, las de
Cutler y Ederer y las de Kaplan y Meier. Además, estas tablas constituyen un
instrumento muy adecuado para describir las características de un conjunto de
datos de supervivencia. Pero, tienen el problema que en ellas no es fácil la
inclusión de covariables. Pues esta inclusión implica dividir la muestra y este
análisis solo es riguroso cuando las submuestras son estadísticamente idénticas en
todas las características relevantes a excepción de la que ha servido para dividir la
muestra3. En la cuarta sección de este capítulo se incluyen las estimaciones de la
tabla de vida de Cutler y Ederer para Cali.
1
Éste es un capítulo de la tesis doctoral titulada “Duración del desempleo: un modelo de determinantes y
su aplicación al área metropolitana de Cali”, presentada en el Departamento de Economía Aplicada III
(Política Económica) de la Universidad Complutense de Madrid, en junio de 1998.
2
Profesor Titular Departamento de Economía.
3
Blanco (1985), página 136.
241
b. Semi-paramétricos: estos modelos hacen supuestos mínimos acerca de la
distribución subyacente. Entre ellos están el modelo de riesgos proporcionales de
Cox y el modelo Logit Ordenado de Han y Hausman4. En la tercera sección de este
capítulo se estima el modelo de Cox.
c. Paramétricos: requieren la especificación de la función de riesgo y, a través de
ella, de la función de supervivencia (permanencia). Se trata de especificar la
dependencia que existe entre la probabilidad de abandonar el desempleo (función
de riesgo) y una serie de variables explicativas (covariables) que caracterizan a
cada individuo. Esta relación se establece por medio de unos parámetros que se
estiman utilizando el método de máxima verosimilitud. Los parámetros estimados
reflejan el efecto de cada variable sobre la probabilidad de abandonar el desempleo
y, por tanto, sobre la duración del mismo. Así, incluyendo todas las variables
relevantes, es posible separar el efecto que ejerce una variable del que ejerce otra
evitando, al menos en cierta medida, los problemas que se presentan en las
estimaciones no paramétricas. Entre las funciones que se han utilizado están: la
Weibull, la Exponencial, la Normal, la Logística y la Gamma. Son todas loglineales. En caso de incluir “covariables” o “regresores”, sería lo más cercano al
análisis de regresión. En la segunda sección de este capítulo se hacen los cálculos
paramétricos para Cali.
Las ventajas de utilizar el análisis de supervivencia en lugar de los mínimos cuadrados
del análisis de regresión utilizado en el capítulo anterior son varias. La primera es que
es posible conocer la dependencia de la duración5. La segunda es que pueden utilizarse
las observaciones que están censuradas ya que sirven para calcular la función de
supervivencia S(t): pues se sabe que la duración del desempleo de esas personas será
superior (o como mínimo igual) al número de semanas o meses que llevan parados en
el momento de responder la encuesta. En tercer lugar, al ser las funciones de riesgo h(t)
y supervivencia S(t) funciones del tiempo, sería posible introducir variables cambiantes
en el tiempo, esta posibilidad no se puede utilizar en el caso de un corte transversal
como el que se hace en este estudio.
Un problema del análisis de supervivencia es la heterogeneidad6. Otro problema
consiste en que las personas a la hora de contestar el tiempo que han permanecido
4
“La característica fundamental (de los modelos semiparamétricos) consiste en que el efecto de cada
variable sobre el logaritmo de la probabilidad de salir del desempleo es precisamente su parámetro
estimado con signo negativo (- i). Este es el motivo por el que estos modelos se denominan
proporcionales: cada variable afecta siempre en la misma proporción a la función de riesgo”. Blanco
(1995), pag 137.
5
“El concepto de dependencia positiva (nula o negativa) de la duración consiste en que la probabilidad
de que un individuo se emplee crece (decrece o permanece constante) según se va alargando la duración
del paro”. Blanco (1995), pag 131.
6
“Hay heterogeneidad cuando distintos individuos o grupos de individuos tienen distribuciones distintas
de la variable dependiente: en el presente caso se ha observado, por ejemplo, que la distribución de
duraciones de los hombres era distinta de la correspondiente a las mujeres. La heterogeneidad puede
corregirse al introducir variables explicativas que recojan las diferentes características individuales que
242
sin trabajar, experimentan cierta tendencia a aproximar las cifras concentrándolas en
26 semanas (6 meses) y 52 semanas (1 año). Esto lleva a que no sea relevante la forma
de dividir los tramos para calcular las tasas de riesgo y de supervivencia. Este
fenómeno que se conoce como “efecto aglomeración” (heaping) es tratado
comúnmente como un caso particular de heterogeneidad. Sin embargo, en la práctica,
los métodos que se proponen para corregir este efecto no logran mejores resultados que
las estimaciones que no utilizan corrector alguno7.
El capítulo está organizado de la siguiente manera, en la primera sección se hace una
exposición general de los fundamentos teóricos de los modelos econométricos de
duración del desempleo. En la segunda se hace una breve exposición de los modelos
paramétricos, seguida de la estimación de estos modelos para Cali. En la tercera se
hace una sucinta exposición del modelo semi paramétricas de Cox, seguidas de los
respectivos cálculos para Cali, sin y con covariables. En la cuarta, se hace una
exposición general de los modelos de supervivencia, seguidas de los cálculos de la
tabla de vida de Cutler y Ederer para Cali.
Finalmente, es esencial aclarar que, dadas la características de los datos que se están
trabajando, y del programa Limdep, que es el que se está utilizando para hacer las
estimaciones de supervivencia8. Es decir, debido a la censura pues no se conoce lo que
ocurrió con estos desempleados después de diciembre de 1992, esta fecha es
equivalente a su salida del desempleo, pues se considera que su duración llega sólo
hasta allí9. Esto equivale a decir que la función de riesgo es equivalente a la tasa de
salida del desempleo. Igualmente, la tasa de supervivencia en el desempleo, se mide
sólo con base en la duración anterior a la fecha de la encuesta.
Fundamentos Teóricos de los Modelos
Econométricos de Duración del Desempleo
Uno de los principales aportes teóricos, que permitió hacer el puente entre los estudios
de duración típicos de otras disciplinas (en ingeniería el control de calidad, en
demografía la mortalidad, en epidemiología la supervivencia a una enfermedad, etc) y
la duración del desempleo, se encuentra en el artículo seminal de Lancaster (1979) y su
integrador y, a la vez, más amplio libro [Lancaster (1990)]. La síntesis que se presenta
a continuación se basa en este par de trabajos.
afectan a la distribución de la variable dependiente. ..Esta dificultad, que podría compararse en el
modelo lineal general al problema de la omisión de variables relevantes, tiene en los modelos de
duración una gravedad añadida por su severo efecto sobre la dependencia temporal que se observa en la
función de riesgo”. Blanco (1995), página 142.
7
García Brosa (1996), página 87. Blanco (1995), página 142.
8
Los datos que usamos en este trabajo para medir la duración del desempleo están censurados a la
derecha. Esto es, el tiempo que se ha registrado en la encuesta representa solo la última observación de
un individuo que puede no haber salido todavía del proceso que está siendo estudiado. Ver Greene
(1995 y 1997).
9
Al respecto ver, entre otros, Kiefer (1988), pag 646 y ss. Blanco (1985). También el capítulo 2 de este
trabajo.
243
Los elementos más importantes para modelizar el comportamiento racional de un
desempleado son:
a. En un instante dado existe diversidad en los salarios que a un desempleado le
pueden ser ofrecidos, es decir, existe una distribución de salarios F[w(t)].
b. El individuo tiene un grado de incertidumbre acerca del salario que le será ofrecido
en la siguiente oportunidad.
c. Las ofertas de empleo siguen una secuencia temporal y aparecen a una tasa (t ) .
d. El desempleado, al recibir una oferta, elige entre dos opciones: aceptarla o seguir
buscando un nuevo empleo.
e. El criterio de elección que utiliza el desempleado es la maximización de una
función de utilidad de la corriente de ingresos desde el instante de la hipotética
aceptación de la oferta hasta un horizonte temporal dado.
f. La política óptima del desempleado es la de elegir un conjunto de salarios de
reserva, w(t ) , y solo aceptar aquellas ofertas que superen dichos salarios.
g. La forma usual de hacer inferencia acerca del proceso de búsqueda es estudiando la
secuencia de salarios de reserva.
h. La escogencia de una secuencia de salarios de reserva implica una sucesión de
probabilidades (condicionales) de que un individuo acepte una oferta, dado que no
había aceptado ninguna anterior.
Así las cosas la probabilidad de que surja una oferta en un intervalo infinitesimal t,
t+dt viene dada por (t) dt Entonces la probabilidad de aceptar un empleo en este
intervalo será:
1 F ( w(t )) (t ) dt
(t ) (t ) h(t ) ,
(1),
h(t) es la función de riesgo
donde (t ) 1 F ( w(t ))
(2)
Una manera intuitiva de llegar a este resultado es definir los eventos:
B= surge una oferta
A= se acepta la oferta
Sabido es, de la teoría de las probabilidades condicionales, que:
P( A  B) P( A / B) P( B)
(3)
P(A/B)= P (aceptar/surgió) implica que w(t ) w(t ) . Puesto que las ofertas anteriores
fueron rechazadas:
P( A / B) 1 F ( w(t ))
(t )
(4)
Recordando que P(B) la probabilidad de que surja una oferta, es (t ) .
P(surja y acepte)= 1 F ( w(t ) (t )
(t ) (t ) .
244
(5)
Esta probabilidad conjunta se ha deducido del comportamiento del individuo
desempleado en el mercado de trabajo, mirando lo que sucede con los salarios. Pero
este comportamiento tiene una contraparte biunívoca en la duración del desempleo ya
que:
P(recibir oferta/rechazó la anterior)= P(salir del desempleo/ está desempleado)
En el lado izquierdo de esta ecuación, las variables de interés son el salario ofrecido y
el salario de reserva, en tanto que en el lado derecho lo es el tiempo de duración del
desempleo.
Visto desde el lado de la duración del desempleo a h(t) se puede llegar definiéndola
como una probabilidad condicional. Es decir, que h(t) es la probabilidad de salir del
desempleo dado que hasta ese instante t no se había salido.
Sea g(t) la función de densidad de la duración del desempleo. Definimos también G(t)
como su correspondiente función de distribución. Como lo que interesa, en este caso,
es la supervivencia, se define 1-G(t), que es la correspondiente función de
supervivencia.
También se define h(t) como la “hazard rate” o tasa de escape que es la probabilidad de
salir del desempleo dado que se es superviviente, y de ahí que su definición sea:
g (t )
(6)
h(t )
1 G (t )
Esta forma de ver las cosas permite establecer la conexión entre el comportamiento
frente al salario y la duración del desempleo. Porque si se colocan diferenciales a
ambos lados de la ecuación (6) tendremos la probabilidad de aceptar un empleo o de
salir del desempleo en un pequeño intervalo dt. Seguidamente integramos para t>0:
t
h(t )dt
ln(1 G (t ))
(7)
0
t
exp
h(t )dt
1 G (t )
(8)
0
La probabilidad de aceptar una oferta en t es idéntica a la probabilidad de que la sobre
vivencia como desempleado culmine en t.
Esta relación es fundamental pues permite desplazar el objeto de estudio desde el
salario de reserva hacia la duración del desempleo. Esto es crucial puesto que si el
salario de reserva, como una variable latente, no se puede observar, este está conectado
a una variable observable que es la duración del desempleo. Esta opción analítica de
estudiar la duración tiene incluso ventajas comparativas, entre las que esta que el
derrotero de la tasa de escape no sólo está afectado por la decisión frente al salario
ofrecido sino que también lo es por la tasa a la que aparecen las ofertas.
245
(t ) varía entre los individuos por diversas razones, ya sea por sus características
personales (educación, experiencia, etc), ya sea por la percepción que tengan los
empleadores de la eventual productividad del trabajador o por las variables
relacionadas con el sector o la región donde se busca, como por ejemplo, la
disponibilidad de vacantes.
La conexión entre la distribución de salarios y la duración, y las ventajas de esta última
expuestas arriba, explican la evolución natural que la econometría hizo hacia los
modelos de duración, cuyo eje central gira alrededor del análisis de la tasa de escape.
Las opciones metodológicas que abre el análisis del comportamiento de la tasa de
escape pueden ilustrarse si se observa la función de verosimilitud L que se construye a
partir de las N observaciones de los tiempos de búsqueda,
N
L
 g (t i )
i 1
N
t
 hi (t i ) exp
i 1
hi (t )dt
(9)
0
Un estudio centrado exclusivamente en la observación muestral de g(ti) (como
distribución de frecuencias), de 1-G(ti) y de h(ti) es lo que se denomina un análisis no
paramétrico de la duración o análisis de supervivencia. Es decir, las denominadas
tablas de vida, las más conocidas son la de Kaplan y Meier y la de Cutler y Ederer.
Esta última se calcula más adelante.
Cuando se hacen supuestos acerca de h(ti) aparecen dos tipos de modelizaciones. La
primera consiste en suponer la existencia de un riesgo base h(t,0), e incluir los posibles
determinantes de la tasa de escape en un vector x y no hacer supuestos sobre el
comportamiento de la función de densidad en ti.
'
(10)
h(t , x) h(t ,0) exp
x
Este se conoce como el modelo de riesgos proporcionales de Cox. En este modelo no
es necesario especificar h(t,0) pues desaparecerá de los cálculos. Estos son los
llamados modelos semiparamétricos. Más adelante se calcula el modelo de Cox.
Cuando se hacen supuestos acerca del comportamiento de ti surge la segunda opción de
modelización: los llamados modelos paramétricos de duración. En estos modelos se
supone una función de densidad para la duración que puede ser exponencial, weibull,
logística, normal o gamma, para citar las más usadas. En la siguiente sección se
estiman estas funciones.
La más simple asunción sobre el comportamiento de la tasa de escape es suponerla
constante a lo largo del tiempo, para cada individuo. Si se incluyen covariables estas
son las que pueden explicar las diferencias entre los individuos.
(11)
h(t , x)
e 'x
En este caso el valor esperado de la duración es:
E(T / x) e x
246
(12)
De lo expuesto se deduce que la modelización de la tasa de escape en una exponencial
es equivalente a una regresión del tipo:
ln T
'x U
(13)
Donde U es una variable aleatoria. Por esta razón los coeficientes que inicialmente
indican la variación porcentual en la tasa de escape ante un cambio unitario de la
respectiva covariable, podrían interpretarse como la correspondiente variación
porcentual en el tiempo de búsqueda medio, de igual forma a lo que sucede en el
modelo de regresión que pone el logaritmo del tiempo en función del vector de
regresores x.
La función exponencial ha sido criticada por implicar que la probabilidad de salida no
depende del tiempo que se lleve desempleado. Una función que se ha popularizado en
el análisis de duración es la Weibull:
(14)
h(t , x)
p( t ) p 1
'x
e
Nuevamente cuando se incluyen covariables
. Obsérvese que cuando p=1 la
Weibull coincide con la exponencial. El valor esperado de la duración viene dado por:
(15)
E(T ) exp x ' / p
Para dar una interpretación en términos de duración a los coeficientes, es preciso
dividirlos entre p y entender este cociente como la variación porcentual de la duración
ante cambios de las covariables.
Análisis paramétrico de la duración del desempleo
y sus estimaciones para el área metropolitana de Cali.
Estos modelos, como ya se planteó en la sección anterior, describen la duración del
desempleo en función de unos pocos parámetros. Entonces, la evolución de la
distribución de periodos de desempleo puede resumirse en la evolución de los
parámetros asociados con el modelo teórico. En el cuadro # 1 siguiente se exponen la
funciones de riesgo y supervivencia de los modelos paramétricos utilizados en el
presente trabajo.
Cuadro #1
Modelos Paramétricos de Duración del Desempleo
Modelo
Weibull
Función de supervivencia S(t)
exp( t) p
Logístico
1
1 ( t) p
Exponencial
Gamma
Normal
1
( , e w ), w (log t
)/
( p log( t ))
247
e
Función de riesgo h(t,x)
p( t ) p 1
p( t ) p 1
1 ( t) p
exp( t )
Muy complicada, ver
Greene (1995), pag 732.
En cuanto a estos modelos hay que tener en cuenta, lo siguiente:
La función de Weibull tiene dos parámetros, uno de escala y uno de forma
En cuanto a la función logística, el logaritmo natural de t se supone que tiene una
distribución logística con media
ln
y varianza
3p2
.
La función exponencial, como ya se mencionó, supone una tasa de salida constante,
razón por la que suele decirse que no tiene memoria. Esto quiere decir que no hay
efecto de desgaste cuando se utiliza este modelo. Este supuesto parece muy fuerte para
el caso de la duración del desempleo en el que la dependencia negativa de la duración
es una característica esencial.
La función gamma está emparentada con la exponencial, porque la distribución
exponencial es un caso especial de la distribución gamma10. Además, esta distribución
tiene una función de densidad:
f (t )
( p )( t ) p 1 e (
( )
t) p
(16)
En el caso de la distribución normal, aplicada al estudio de la duración, debemos tener
en cuenta que la variable considerada siempre debe ser mayor o igual a cero. Por tanto,
para que esta función sea aplicable se debe insistir en que P(T<0) está cercana a cero.
Como la forma de la distribución normal lo indica, una ley normal de salida implica
que la mayoría de los desempleados salen alrededor del tiempo promedio de salida,
E(T)= y el número de salidas disminuye cuando T
aumenta. Una ley normal de
riesgo significa que alrededor del 95,72% de las salidas tiene lugar para los valores de t
que satisfacen t T
2 11.
Los resultados de las estimaciones con estos cinco modelos paramétricos, se exponen
en la siguiente tabla:
10
Meyer, Paul L(1986); Probabilidad y aplicaciones estadísticas. Addison-Wesley Iberoamericana.
USA. Página 255.
11
Meyer (1986), página 302.
248
Cuadro #2
Estimaciones para Cali con Modelos Paramétricos de Duración del Desempleo
Variable
EDUCAT
Error estándar
NSC12
EXPER
Error estándar
NSC
EXPER2
Error estándar
NSC
DJHOG
Error estándar
NSC
VACALISE
Error estándar
NSC
Constante
Error estándar
NSC.
P
Error estándar
Mediana
Error estándar
L*13
Exponencial
0,0679
(0,0158)
[0,000]**
0,0605
(0,0155)
[0,000]**
-0,0066
(0,003243)
[0,02019]*
-0,4477
(0,2103)
[0,017]*
-0,0058
(0,0036)
[0,0526]
2,0139
(0,1982)
[0,000]**
0,04122
(0,00214)
1
(000)
16,81734
(0,87182)
-619,3027
Weibull
0,0688
(0,017)
[0,000]**
0,0609
(0,016)
[0,000]**
-0,00668
(0,003834)
[0,0277]*
-0,4527
(0,225)
[0,022]*
-0,0058
(0,0038)
[0,0648]
1,9839
(0,228)
[0,000]**
0,04196
(0,00239)
0,9615
(0,04918)
16,2779
(0,92)
-618,8077
Gamma
0,0794
(0,0199)
[0,000]**
0,0649
(0,0175)
[0,000]**
-0,00069
(0,00036
[0,026]*
-0,5103
(0,2353
[0,015]*
-0,0061
(0,0041)
[0,069]
0,9836
(2,1412)
[0,96]
0,29549
(0,614)
0,552
(0,35134)
15,07471
(0)
-616,6974
Logístico
0,1027
(0,0206)
[0,000]**
0,0738
(0,0169)
[0,000]**
0,007633
(0,00359)
[0,016]*
-0,6531
(0,2393)
[0,003]**
-0,0063
(0,0042)
[0,065]
1,0409
(0,2583)
[0,000]**
0,0716
(0,00451)
1,39594
(0,07836)
13,96678
(0,87894)
-633,9463
Normal
0,09023
(0,02126)
[0,000]**
0,06868
(0,01808)
[0,000]**
-0,007
(0,004)
[0,038]*
-0,5712
(0,2559)
[0,0128]*
-0,0061
(0,0043)
[0,0808]
1,3383
(0,2687)
[0,000]**
0,07543
(0,00494)
0,8218
(0,0397)
13,2568
(0,8689)
-623,4736
EDUCAT= Nivel educativo, EXPER= Experiencia, DJHOG= Dummy para jefatura de hogar,
VACALISE= Evolución de las vacantes.
Sobre estos resultados se quiere resaltar:
En primer lugar, igual a lo sucedido con las estimaciones del capítulo anterior, se dan
todos los signos propuestos en el modelo teórico, tanto por el lado del salario de
reserva, como del salario ofrecido.
12
13
Número de significación crítico.
Log de verosimilitud.
249
En segundo lugar, todas las variables, con la única excepción de las vacantes, salen
significativas en todos los modelos. Las variables asociadas con el capital humano
salen significativas al 1%, la jefatura del hogar oscila entre el 1 y el 5%. La experiencia
al cuadrado lo es al 5%. En el caso de las vacantes, que no salen significativas en
ningún modelo, el problema puede estar relacionado con el “proxy” utilizado. Además
los NSC de esta variable están muy cerca del 5%. Si aceptáramos niveles de
significación del 10%, esta variable saldría significativa.
En tercer lugar, de acuerdo con la función exponencial, un año más de educación
incrementa el tiempo de búsqueda de esas personas un 6,79%, en relación con los que
tienen las mismas características, excepto la variable considerada. Ceteris paribus las
demás variables. Si tomamos como referencia la duración media del desempleo, que es
de 26 semanas, lo dicho se traduce en 1,8 semanas más de búsqueda.
De igual manera, un año más de experiencia se traduce en un 6% más de búsqueda en
comparación con personas que comparten las demás características. Si repetimos el
procedimiento anterior, esto se traduce en 1,6 semanas más de búsqueda.
Los jefes de hogar buscan un 45% menos que los que no lo son, es decir, más o menos
11 semanas y media menos.
Un incremento del 100% en las vacantes de determinado sector, se traduce en un
tiempo de búsqueda menor en el 0,6% para aquellas personas que buscan trabajo en el
sector considerado.
En cuarto lugar, los resultados de la Weibull son muy similares a los de la exponencial,
lo que se debe a que P es muy cercana a uno (0,9615), (ver ecuación 15) razón por la
que las dos funciones coincidirían en lo fundamental.
En quinto lugar, lo mismo puede decirse de la Gamma, cuyo P es 0,55 en un intervalo
de confianza que incluye a 1 (ver el anexo estadístico), por lo que las tres funciones
coinciden en lo esencial.
En sexto lugar; y en lo que tiene que ver con la función logística, un año más de
educación se traduce en un 10% de incremento en la probabilidad de continuar
desempleado. O, lo que es lo mismo, un 10% de disminución en sus probabilidades de
salida (hazard rate).
De igual manera, un año más de experiencia, reduce la probabilidad de salida del
desempleo en un 7%.
Los jefes de hogar tienen un 65% más de probabilidad de salida del desempleo que los
que no lo son y comparten las demás características.
Un incremento del 100% en las vacantes en determinado sector, incrementa la
probabilidad de salida del desempleo en 0,63%.
En séptimo lugar, en lo que tiene que ver con la normal, los resultados son similares a
la logística. El incremento de un año en la educación, reduce la probabilidad de salida
un 9%. Un incremento en la experiencia la reduce un 6,8%. Los jefes de hogar tienen
probabilidad de salida del desempleo 57% mayor que los que no lo son. Y, un
incremento en las vacantes, del 100%, aumenta la probabilidad de salida, en el sector,
en el 0,6%.
250
Los percentiles de las distribuciones subyacentes, se exponen en la tabla siguiente:
Tabla #3
Percentiles de las Distribuciones de Supervivencia
Distribución
Exponencial
Weibull
Gamma
Logística
Normal
0,95
1,24
1,09
1,43
1,46
1,79
0,75
6,98
6,52
6,38
5,97
5,84
0,5
18,82
16,28
15,07
13,81
13,26
0,25
33,63
33,47
31,77
31,94
30,11
De acuerdo con estos percentiles el 95% de los desempleados permanecen entre 1,09 y
1,79 semanas desempleados, el 75% de los desempleados sobreviven como tales entre
5,84 y 6,98 semanas, la mitad de los desempleados sobreviven entre 13 y casi 19
semanas, de acuerdo con la distribución que se utilice. Más o menos a las 30 semanas
de temporada de desempleo quedan el 25% de los desempleados.
Con base en estos percentiles se grafican las distribuciones de supervivencia. Como las
gráficas son similares, incluimos, a manera de ilustración, la función Weibull de
supervivencia. En el anexo estadístico pueden consultarse todas las estimaciones, con y
sin covariables, y las gráficas de las funciones de supervivencia estimadas.
Análisis semiparamétrico de la duración
del desempleo y estimaciones para Cali
En este caso, se ha estimado el modelo semiparamétrico más conocido, que es el de
Cox14.
Características generales del modelo de Cox.
h(t , x
0
)
0
(t ) exp
(17)
x'
14
Cox, D (1972); “Regression Models and Life Tables”, Journal of the Royal Statistical Society, Mayo,
Agosto. Pp 187-220. Cox, D (1975); “Partial Likelihood”, Biométrica, Mayo, Agosto. Pp 269-276.
También Kalbfleisch y Prentice (1973); “Marginal likelihoods based on Cox’s regression and life
model”, Biometrika, 60, 2, p 267-278.
251
La ecuación (17) es un desarrollo de la (10) siendo h la función de riesgo, t el momento
del tiempo considerado, x las variables explicativas que afectan a la función de riesgo,
es un vector de parámetros y 0 una función de riesgo base que también puede
especificarse. La característica fundamental consiste en que el efecto de cada variable
sobre el logaritmo de la probabilidad de salir del desempleo es precisamente su
parámetro estimado con signo negativo (- i) Este es el motivo por el que estos
modelos se denominan proporcionales: cada variable afecta siempre en la misma
proporción a la función de riesgo. La ventaja de este modelo consiste en que no
requiere establecer una forma concreta para 0.
Resultados de la aplicación del modelo de Cox al análisis
de la duración del desempleo en Cali.
La distribución de supervivencia estimada sin covariables, con el modelo de Cox, se
expone en la tabla que sigue:
Tabla #4
Distribución de Supervivencia con el Modelo de Cox
Tiempo de
Probabilidad
Tasa de
Supervivencia
(t<T)
supervivencia
10 semanas
0,41629
0,58371
20 semanas
0,56948
0,43052
30 semanas
0,68592
0,31408
40 semanas
0,71537
0,28463
50
“
0,79528
0,20472
60
“
0,87125
0,12875
70
“
0,87327
0,12673
80
“
0,87535
0,12465
90
“
0,87915
0,12085
98
“
1
0
Entre los resultados del cuedro de supervivencia #4 cabe resaltar que parece darse el
“efecto aglomeración” (heaping), porque las tasas de salida tienen saltos alrededor de
las 26 semanas (6 meses) y 52 semanas (un año). Es también perceptible el
estancamiento de las tasas de salida después de las 52 semanas. A las 98 semanas se
considera que todos los desempleados han dejado de serlo, por la forma como se
obtuvieron los datos.
Al incluir las covariables, los resultados, por máxima verosimilitud, son:
t=-0,05608EDUCAT-0,02769EXPER+0,042DJHOG+0,04324VACALISE15
(0,015938)
(0,0061915)
(0,19252)
(0,0031)
[0,00043]**
[0,000]**
[0,142]*
[0,08417]
15
El error estándar se ha puesto entre () y el número de significación crítico entre []. Este número se ha
dividido entre dos, porque se trata de análisis de una sola cola, ya que el signo de las variables se ha
postulado de antemano. Las variables significativas al 1%, tienen dos ** y las significativas al 5%, un *.
252
De acuerdo con estos resultados la educación incide positivamente- tiene dependencia
de la duración positiva- en la duración del desempleo, es decir, que las personas con un
año más de educación, tendrían que buscar 5,6% más, en relación con otras de las
mismas características. Si tomamos como indicativo la duración media (26 semanas),
estas personas tendrían que buscar 1,59 semanas más. Igual ocurre con la experiencia,
los que tienen un año más de experiencia, deben buscar 2,77% más, es decir, 0,76
semanas más. Por el contrario, los jefes de hogar buscan 4,2% semanas menos que los
que no son jefes y tienen iguales las demás características. Las vacantes no salen
significativas en este modelo.
Modelos no paramétricos de duración: el análisis de supervivencia
y su aplicación al área metropolitana de Cali.
Una visión general de los modelos de supervivencia.
El análisis de supervivencia tiene por objeto conocer el efecto de una variable
independiente cuando la variable dependiente puede expresarse como tiempo hasta que
ocurre un suceso. Se utiliza cuando la variable dependiente representa el intervalo de
tiempo entre un evento inicial y un evento terminal.
Para poder realizar un análisis de supervivencia, se requiere que: a) se de un evento
inicial (origen, entrada en el desempleo, por ejemplo), b) el posible evento final
(“fallecimiento”, es decir, salida del desempleo, por ejemplo) debe ocurrir, como es
apenas lógico, después del evento inicial, c) el evento final solo puede ocurrir una vez.
El análisis de supervivencia originariamente se aplicó en medicina con tablas de
mortalidad (tiempo hasta que el paciente fallece), de ahí proviene la terminología.
Posteriormente se aplicó al estudio de la resistencia de materiales, después al estudio
de la duración (confiabilidad) de los componentes electrónicos en los estudios de
control de calidad, y a la ingeniería militar. Otros ejemplos de aplicación pueden ser el
estudio del tiempo que se permanece empleado en la misma empresa, el tiempo de
permanencia en la universidad, el tiempo desde la boda hasta la llegada del primer hijo,
la durabilidad de un producto, la duración de la temporada de desempleo, la duración
de una huelga, etc.
En el análisis de la duración y de la supervivencia se presentan varias dificultades,
algunas de estas están expuestas en la introducción a este capítulo y otras en el capítulo
2 de este trabajo. Una de las principales es que el origen en el tiempo no sea el mismo
para todos los individuos. Como consecuencia de lo que antecede, al final del periodo
de observación tendremos información completa de algunos individuos (tiempo total
de supervivencia), mientras que de otros tan solo se podrá saber que seguían vivos al
cabo de cierto tiempo (censura). Esta información parcial será, además, diferente para
cada uno de los individuos sobre los cuáles no se tenga información
completa. El análisis de supervivencia soluciona este problema
253
al permitir la inclusión de datos incompletos, utilizando las tasas de supervivencia y las
funciones de riesgo, que son variables aleatorias que dependen del tiempo, en lugar de
la duración del desempleo (Blanco 1985).
Un modelo de supervivencia es una distribución de probabilidades para una clase
especial de variable aleatoria.
Consideramos, t= tiempo de supervivencia, S(t) es la probabilidad de supervivencia, T
es una variable aleatoria que mide el tiempo de supervivencia o fallo de un ente
conocido que existe en t=0. T es, por lo tanto, la variable que mide el tiempo de fallo o
fracaso (esta es la terminología que se utiliza en los campos médico, actuarial,
ingenieril, etc. En el caso del desempleo se habla de supervivencia en calidad de
desempleado pues parece claro que no constituye un fallo o fracaso salir de tal
situación). Después de esta aclaración se continuará utilizando como intercambiables
los términos fallo, fracaso y tasa de riesgo.
Si T es el tiempo de fracaso, la probabilidad de supervivencia en el tiempo t es igual a
la probabilidad que el tiempo de fallo se retarde (matemáticamente mayor) que el valor
de t16.
S(t)=Pr(T>t)
(18)
Es claro que T 0, por lo que S(0)=1, y S(t) es una función no creciente. Suponemos
que lim S(t)=0 cuando t
.
Si T es el tiempo de supervivencia, fracaso o fallo, de un ente que existe en t=0,
entonces T es también el tiempo de vida futuro de este ente medido desde t=0. Como
se había mencionado atrás, los escritos sobre este tema intercambian algunas veces,
como definiciones equivalentes de T “tiempo de fracaso” o “duración de la vida
futura”.
La función de distribución de supervivencia (SDF) sería, entonces: S(t)=Pr(T>t). Esta
función da la probabilidad de supervivencia que ocurrirá después del tiempo t, que
equivale a que el ente conocido en el momento t=0, sobreviva al menos al momento t.
Se recuerda que S(0)=1 y S( )=0.
La función de distribución acumulativa (CDF) de T es F(T) y da la probabilidad que la
variable aleatoria tome un valor menor o igual que t, esto es,
F(T)=Pr(T t)
(19)
F(T)=1-S(t)
(20)
Esta ecuación (20) se explica porque la supervivencia total, es decir, la pasada más la
futura, debe ser igual al conjunto de probabilidades, es decir, uno. F(0)=0 y F( )=1.
La función de densidad de probabilidad (PDF) es f(t) que se define como la derivada
de F(t).
dF (t )
dS (t )
f (t )
,t 0
(21)
dt
dt
16
Al respecto ver, entre otros, Kiefer (1988), Greene (1993, 1995), London (1988).
254
Es fácil ver que:
F ( y)
f ( y )dy
(22)
0
S (t )
f ( y )dy
(23)
0
Debe ser verdad que:
f ( y )dy 1
(24)
0
Mientras que F(t) y S(t) son probabilidades que relacionan cierto intervalo de tiempo,
f(t) relaciona un punto en el tiempo y no es una probabilidad per se. Adicionalmente,
f(t) es una medición instantánea de la probabilidad de supervivencia no de intervalo.
También es importante reconocer que f(t) es una densidad incondicional de la
supervivencia en el tiempo t, dado solamente que el ente existió en t=0.
Se ha establecido que la PDF de T, f(t), es la densidad incondicional de falla o salida al
momento t. Ahora se define una densidad condicional de falla sobre el tiempo de
supervivencia t. Esta medición instantánea condicional de fallo al tiempo t, da la
supervivencia al tiempo t, y será llamada tasa de riesgo (hazard rate) al tiempo t, a la
función de la tasa de riesgo (HRF), la llamamos h(t). Es condicional porque supone
que se ha sobrevivido hasta el tramo anterior de supervivencia. Kiefer (1988, página
648) pone el ejemplo de un torneo deportivo por eliminatorias, en el que se puede
sobrevivir sólo si se ha superado la ronda anterior. Por lo que la probabilidad de
supervivencia es una probabilidad condicional a haber superado la eliminatoria
anterior.
En general se puede afirmar que, si una medición condicional es multiplicada por la
probabilidad de obtener la condición, el resultado será una medición incondicional.
Específicamente, (Densidad condicional de fallo al tiempo t, dada la supervivencia al
tiempo t) por la probabilidad de supervivencia al tiempo t= (Densidad incondicional de
fallo al tiempo t). Simbólicamente esto sería así:
h t .S t f t
(25)
ft
St
o, h t
(26)
La ecuación (26) define la tasa de riesgo (HRF), que es condicional al tiempo de
supervivencia.
Es importante tener claro el significado definitivo de h t y f(t). Ambas son mediciones
instantáneas de la densidad del tiempo de fallo al momento t; difieren una de otra en
que h t es condicional a la supervivencia en el tiempo t, mientras que f(t) es
incondicional (dada solamente su existencia en el momento t=0). De la fórmula (26) se
sacan algunas consecuencias matemáticas:
Como f t
dS t
, de ahí que:
dt
255
dS (t ) / dt
d ln S (t )
S (t )
dt
Integrando tenemos:
h(t )
(27)
t
h(t )dt
ln S (t )
(28)
0
t
S (t )
exp
h(t )dt )
(29)
0
La función acumulativa de riesgo (CHF) está definida por:
t
A(t )
h(t )dt
ln S (t )
(30)
0
Así que:
S (t ) e
A(t )
(31)
Esta es la forma más común, exponencial, de las funciones de supervivencia con datos
de duración.
A continuación y como un ejemplo de modelos de supervivencia no paramétricos se
expone la función de supervivencia de Cutler y Ederer.
Análisis no paramétrico de la duración del desempleo:
la tabla de vida de Cutler y Ederer y su cálculo para Cali.
Introducción.
Los métodos no paramétricos consisten en la estimación de las tasas de riesgo y de
supervivencia sin definir a priori ninguna forma funcional para estas relaciones. Si
solamente disponemos de los tiempos de duración (no hay covariables), entonces, las
tablas de vida y las curvas de supervivencia pueden ser derivadas por métodos
actuariales.
Características generales de la tabla de vida de Cutler y Ederer.
La tasa de supervivencia de Cutler y Ederer17 se define como la probabilidad de un
individuo de permanecer desempleado al menos t meses. Para estimar la tasa de
supervivencia primero se calcula la tasa de riesgo muestral para cada periodo de
tiempo, h t , como la proporción de la muestra que finaliza su periodo de desempleo
en el periodo t entre aquellos que no han terminado su periodo de
desempleo antes del periodo t. La tasa de riesgo puede interpretarse como una
17
Cutler, S y Ederer, F (1958); “Maximum Utilization of the Life Table in Analyzing Survival”, Journal
of Chronic Disorders, pp 699-712.
256
tasa de abandono del desempleo o una probabilidad condicional de abandonar el
desempleo18.
2qj
hj
(32)
a ( 2 qj )
Donde a es la amplitud del intervalo19, q es la proporción de observaciones del
conjunto de riesgo que han salido, y surge de dividir el número de observaciones que
han salido (mj), entre el tamaño del conjunto de riesgo rj. A su vez, rj=nj-Cj/2. nj es el
número de observaciones y Cj es el número de observaciones censuradas20.
La proporción de supervivientes (función de supervivencia) es la proporción
acumulativa de observaciones de supervivientes para el momento del comienzo del
intervalo.
Pj (1 qj 1) Pj 1 donde P1=1
(33)
Se puede usar uno menos la tasa de supervivencia para calcular la probabilidad de
abandonar el desempleo para una duración específica.
Tabla de vida de Cutler y Ederer para los desempleados de Cali.
Estas tablas constituyen un instrumento descriptivo muy adecuado para analizar
características generales de datos de supervivencia, pero tienen la limitación que
cuando se les integran covariables es necesario dividir la muestra y se generan graves
problemas estadísticos21. Estas covariables, como se hizo en las dos secciones
anteriores, si pueden ser incluidas, sin estos problemas, en los modelos paramétricos y
semiparamétricos.
Cuadro #5
Tabla de vida de Cutler y Ederer
Semanas
4
8
13
26
52
78
92
98
Tasa de riesgo
0,1433
0,1619
0,1888
0,2185
0,71
0,0345
0,0357
1
Tasa de supervivencia
0,841
0,7128
0,5974
0,3872
0,2564
0,0744
0,0718
0,0692
Fuente: ver anexo estadístico.
18
En lo que sigue se ha utilizado la notación de Greene (1995).
Greene utiliza la h que también denomina la función de riesgo, para evitar confusiones hemos utilizado
la a.
20
Greene (1995), página 696.
21
Esta integración solo es rigurosa, cuando los sujetos de las submuestras fuesen estadísticamente
idénticos en todas las características relevantes, excepto en la que ha servido para dividir la muestra. Ver
Blanco (1985), página 136.
19
257
De acuerdo con estas tasas de salida, a los tres meses de duración del desempleo (13
semanas), la tasa de supervivencia22 es 0,5974, es decir, que el 59,74% de los
desempleados continúan siéndolo; a los 6 meses (26 semanas) 38,72%; al año (52
semanas) el 25,64% y a los 78 semanas el 7,44%/23.
En cuanto a la tasa de riesgo (salida del desempleo), al mes es 0,1433, a los tres meses,
es 0,1888, a los 6 meses 0,2185, al año 0,71, y a las 98 semanas se considera que todos
los desempleados han salido de tal situación, por la forma como se han obtenido los
datos.
Como una conclusión general a resaltar, puede afirmarse que el método de Cutler y
Ederer proporciona útiles estimaciones que pueden ayudar a identificar las
características descriptivas generales de la duración del desempleo, pero no
proporcionan estimaciones analíticamente significativas debido a la falta de control de
otras variables correlacionadas24.
22
Es la probabilidad de seguir desempleado.
López, analizando las cuatro áreas metropolitanas de Colombia y utilizando la Weibull, encontró que
al final del primer mes, esta probabilidad era del 0,822, a los tres meses 0,615, a los 6 meses 0,422, y al
año 0,217. López (1994a), página 33.
24
Para controlar por las variables correlacionadas usando el método de Cutler y Ederer, se necesita
estimar el modelo separadamente para cada subgrupo formado teniendo en cuenta todas las variables
relevantes. El tamaño de cada subgrupo se hace demasiado pequeño fácilmente para conseguir
estimadores robustos.
23
258
Descargar