MODELOS ECONOMÉTRICOS DE DURACIÓN, EL ANÁLISIS DE SUPERVIVENCIA Y SU APLICACIÓN AL ESTUDIO DEL DESEMPLEO EN EL ÁREA METROPOLITANA DE CALI1 JOSÉ IGNACIO URIBE G.2 Introducción. Los objetivos de este trabajo son: en primer lugar, explicar los fundamentos teóricos de los modelos econométricos de duración del desempleo y de los modelos de supervivencia. En segundo lugar, utilizar el procedimiento estándar en el análisis de la duración utilizando las funciones de probabilidad no paramétricas, semi paramétricas y paramétricas. En tercer lugar, ver el posible efecto de las variables explicadoras (covariables) sobre las tasas de riesgo y supervivencia, en el área metropolitana da Cali, con información de la ENH, correspondiente a diciembre de 1992. Los modelos que se utilizan corrientemente para medir la supervivencia o duración, suelen agruparse en: a. No paramétricos: tablas de vida provenientes de métodos actuariales. Su característica es que no hacen ningún supuesto sobre la distribución de las probabilidades de los tiempos. Acá estarían las tablas de vida, entre otras, las de Cutler y Ederer y las de Kaplan y Meier. Además, estas tablas constituyen un instrumento muy adecuado para describir las características de un conjunto de datos de supervivencia. Pero, tienen el problema que en ellas no es fácil la inclusión de covariables. Pues esta inclusión implica dividir la muestra y este análisis solo es riguroso cuando las submuestras son estadísticamente idénticas en todas las características relevantes a excepción de la que ha servido para dividir la muestra3. En la cuarta sección de este capítulo se incluyen las estimaciones de la tabla de vida de Cutler y Ederer para Cali. 1 Éste es un capítulo de la tesis doctoral titulada “Duración del desempleo: un modelo de determinantes y su aplicación al área metropolitana de Cali”, presentada en el Departamento de Economía Aplicada III (Política Económica) de la Universidad Complutense de Madrid, en junio de 1998. 2 Profesor Titular Departamento de Economía. 3 Blanco (1985), página 136. 241 b. Semi-paramétricos: estos modelos hacen supuestos mínimos acerca de la distribución subyacente. Entre ellos están el modelo de riesgos proporcionales de Cox y el modelo Logit Ordenado de Han y Hausman4. En la tercera sección de este capítulo se estima el modelo de Cox. c. Paramétricos: requieren la especificación de la función de riesgo y, a través de ella, de la función de supervivencia (permanencia). Se trata de especificar la dependencia que existe entre la probabilidad de abandonar el desempleo (función de riesgo) y una serie de variables explicativas (covariables) que caracterizan a cada individuo. Esta relación se establece por medio de unos parámetros que se estiman utilizando el método de máxima verosimilitud. Los parámetros estimados reflejan el efecto de cada variable sobre la probabilidad de abandonar el desempleo y, por tanto, sobre la duración del mismo. Así, incluyendo todas las variables relevantes, es posible separar el efecto que ejerce una variable del que ejerce otra evitando, al menos en cierta medida, los problemas que se presentan en las estimaciones no paramétricas. Entre las funciones que se han utilizado están: la Weibull, la Exponencial, la Normal, la Logística y la Gamma. Son todas loglineales. En caso de incluir “covariables” o “regresores”, sería lo más cercano al análisis de regresión. En la segunda sección de este capítulo se hacen los cálculos paramétricos para Cali. Las ventajas de utilizar el análisis de supervivencia en lugar de los mínimos cuadrados del análisis de regresión utilizado en el capítulo anterior son varias. La primera es que es posible conocer la dependencia de la duración5. La segunda es que pueden utilizarse las observaciones que están censuradas ya que sirven para calcular la función de supervivencia S(t): pues se sabe que la duración del desempleo de esas personas será superior (o como mínimo igual) al número de semanas o meses que llevan parados en el momento de responder la encuesta. En tercer lugar, al ser las funciones de riesgo h(t) y supervivencia S(t) funciones del tiempo, sería posible introducir variables cambiantes en el tiempo, esta posibilidad no se puede utilizar en el caso de un corte transversal como el que se hace en este estudio. Un problema del análisis de supervivencia es la heterogeneidad6. Otro problema consiste en que las personas a la hora de contestar el tiempo que han permanecido 4 “La característica fundamental (de los modelos semiparamétricos) consiste en que el efecto de cada variable sobre el logaritmo de la probabilidad de salir del desempleo es precisamente su parámetro estimado con signo negativo (- i). Este es el motivo por el que estos modelos se denominan proporcionales: cada variable afecta siempre en la misma proporción a la función de riesgo”. Blanco (1995), pag 137. 5 “El concepto de dependencia positiva (nula o negativa) de la duración consiste en que la probabilidad de que un individuo se emplee crece (decrece o permanece constante) según se va alargando la duración del paro”. Blanco (1995), pag 131. 6 “Hay heterogeneidad cuando distintos individuos o grupos de individuos tienen distribuciones distintas de la variable dependiente: en el presente caso se ha observado, por ejemplo, que la distribución de duraciones de los hombres era distinta de la correspondiente a las mujeres. La heterogeneidad puede corregirse al introducir variables explicativas que recojan las diferentes características individuales que 242 sin trabajar, experimentan cierta tendencia a aproximar las cifras concentrándolas en 26 semanas (6 meses) y 52 semanas (1 año). Esto lleva a que no sea relevante la forma de dividir los tramos para calcular las tasas de riesgo y de supervivencia. Este fenómeno que se conoce como “efecto aglomeración” (heaping) es tratado comúnmente como un caso particular de heterogeneidad. Sin embargo, en la práctica, los métodos que se proponen para corregir este efecto no logran mejores resultados que las estimaciones que no utilizan corrector alguno7. El capítulo está organizado de la siguiente manera, en la primera sección se hace una exposición general de los fundamentos teóricos de los modelos econométricos de duración del desempleo. En la segunda se hace una breve exposición de los modelos paramétricos, seguida de la estimación de estos modelos para Cali. En la tercera se hace una sucinta exposición del modelo semi paramétricas de Cox, seguidas de los respectivos cálculos para Cali, sin y con covariables. En la cuarta, se hace una exposición general de los modelos de supervivencia, seguidas de los cálculos de la tabla de vida de Cutler y Ederer para Cali. Finalmente, es esencial aclarar que, dadas la características de los datos que se están trabajando, y del programa Limdep, que es el que se está utilizando para hacer las estimaciones de supervivencia8. Es decir, debido a la censura pues no se conoce lo que ocurrió con estos desempleados después de diciembre de 1992, esta fecha es equivalente a su salida del desempleo, pues se considera que su duración llega sólo hasta allí9. Esto equivale a decir que la función de riesgo es equivalente a la tasa de salida del desempleo. Igualmente, la tasa de supervivencia en el desempleo, se mide sólo con base en la duración anterior a la fecha de la encuesta. Fundamentos Teóricos de los Modelos Econométricos de Duración del Desempleo Uno de los principales aportes teóricos, que permitió hacer el puente entre los estudios de duración típicos de otras disciplinas (en ingeniería el control de calidad, en demografía la mortalidad, en epidemiología la supervivencia a una enfermedad, etc) y la duración del desempleo, se encuentra en el artículo seminal de Lancaster (1979) y su integrador y, a la vez, más amplio libro [Lancaster (1990)]. La síntesis que se presenta a continuación se basa en este par de trabajos. afectan a la distribución de la variable dependiente. ..Esta dificultad, que podría compararse en el modelo lineal general al problema de la omisión de variables relevantes, tiene en los modelos de duración una gravedad añadida por su severo efecto sobre la dependencia temporal que se observa en la función de riesgo”. Blanco (1995), página 142. 7 García Brosa (1996), página 87. Blanco (1995), página 142. 8 Los datos que usamos en este trabajo para medir la duración del desempleo están censurados a la derecha. Esto es, el tiempo que se ha registrado en la encuesta representa solo la última observación de un individuo que puede no haber salido todavía del proceso que está siendo estudiado. Ver Greene (1995 y 1997). 9 Al respecto ver, entre otros, Kiefer (1988), pag 646 y ss. Blanco (1985). También el capítulo 2 de este trabajo. 243 Los elementos más importantes para modelizar el comportamiento racional de un desempleado son: a. En un instante dado existe diversidad en los salarios que a un desempleado le pueden ser ofrecidos, es decir, existe una distribución de salarios F[w(t)]. b. El individuo tiene un grado de incertidumbre acerca del salario que le será ofrecido en la siguiente oportunidad. c. Las ofertas de empleo siguen una secuencia temporal y aparecen a una tasa (t ) . d. El desempleado, al recibir una oferta, elige entre dos opciones: aceptarla o seguir buscando un nuevo empleo. e. El criterio de elección que utiliza el desempleado es la maximización de una función de utilidad de la corriente de ingresos desde el instante de la hipotética aceptación de la oferta hasta un horizonte temporal dado. f. La política óptima del desempleado es la de elegir un conjunto de salarios de reserva, w(t ) , y solo aceptar aquellas ofertas que superen dichos salarios. g. La forma usual de hacer inferencia acerca del proceso de búsqueda es estudiando la secuencia de salarios de reserva. h. La escogencia de una secuencia de salarios de reserva implica una sucesión de probabilidades (condicionales) de que un individuo acepte una oferta, dado que no había aceptado ninguna anterior. Así las cosas la probabilidad de que surja una oferta en un intervalo infinitesimal t, t+dt viene dada por (t) dt Entonces la probabilidad de aceptar un empleo en este intervalo será: 1 F ( w(t )) (t ) dt (t ) (t ) h(t ) , (1), h(t) es la función de riesgo donde (t ) 1 F ( w(t )) (2) Una manera intuitiva de llegar a este resultado es definir los eventos: B= surge una oferta A= se acepta la oferta Sabido es, de la teoría de las probabilidades condicionales, que: P( A B) P( A / B) P( B) (3) P(A/B)= P (aceptar/surgió) implica que w(t ) w(t ) . Puesto que las ofertas anteriores fueron rechazadas: P( A / B) 1 F ( w(t )) (t ) (4) Recordando que P(B) la probabilidad de que surja una oferta, es (t ) . P(surja y acepte)= 1 F ( w(t ) (t ) (t ) (t ) . 244 (5) Esta probabilidad conjunta se ha deducido del comportamiento del individuo desempleado en el mercado de trabajo, mirando lo que sucede con los salarios. Pero este comportamiento tiene una contraparte biunívoca en la duración del desempleo ya que: P(recibir oferta/rechazó la anterior)= P(salir del desempleo/ está desempleado) En el lado izquierdo de esta ecuación, las variables de interés son el salario ofrecido y el salario de reserva, en tanto que en el lado derecho lo es el tiempo de duración del desempleo. Visto desde el lado de la duración del desempleo a h(t) se puede llegar definiéndola como una probabilidad condicional. Es decir, que h(t) es la probabilidad de salir del desempleo dado que hasta ese instante t no se había salido. Sea g(t) la función de densidad de la duración del desempleo. Definimos también G(t) como su correspondiente función de distribución. Como lo que interesa, en este caso, es la supervivencia, se define 1-G(t), que es la correspondiente función de supervivencia. También se define h(t) como la “hazard rate” o tasa de escape que es la probabilidad de salir del desempleo dado que se es superviviente, y de ahí que su definición sea: g (t ) (6) h(t ) 1 G (t ) Esta forma de ver las cosas permite establecer la conexión entre el comportamiento frente al salario y la duración del desempleo. Porque si se colocan diferenciales a ambos lados de la ecuación (6) tendremos la probabilidad de aceptar un empleo o de salir del desempleo en un pequeño intervalo dt. Seguidamente integramos para t>0: t h(t )dt ln(1 G (t )) (7) 0 t exp h(t )dt 1 G (t ) (8) 0 La probabilidad de aceptar una oferta en t es idéntica a la probabilidad de que la sobre vivencia como desempleado culmine en t. Esta relación es fundamental pues permite desplazar el objeto de estudio desde el salario de reserva hacia la duración del desempleo. Esto es crucial puesto que si el salario de reserva, como una variable latente, no se puede observar, este está conectado a una variable observable que es la duración del desempleo. Esta opción analítica de estudiar la duración tiene incluso ventajas comparativas, entre las que esta que el derrotero de la tasa de escape no sólo está afectado por la decisión frente al salario ofrecido sino que también lo es por la tasa a la que aparecen las ofertas. 245 (t ) varía entre los individuos por diversas razones, ya sea por sus características personales (educación, experiencia, etc), ya sea por la percepción que tengan los empleadores de la eventual productividad del trabajador o por las variables relacionadas con el sector o la región donde se busca, como por ejemplo, la disponibilidad de vacantes. La conexión entre la distribución de salarios y la duración, y las ventajas de esta última expuestas arriba, explican la evolución natural que la econometría hizo hacia los modelos de duración, cuyo eje central gira alrededor del análisis de la tasa de escape. Las opciones metodológicas que abre el análisis del comportamiento de la tasa de escape pueden ilustrarse si se observa la función de verosimilitud L que se construye a partir de las N observaciones de los tiempos de búsqueda, N L g (t i ) i 1 N t hi (t i ) exp i 1 hi (t )dt (9) 0 Un estudio centrado exclusivamente en la observación muestral de g(ti) (como distribución de frecuencias), de 1-G(ti) y de h(ti) es lo que se denomina un análisis no paramétrico de la duración o análisis de supervivencia. Es decir, las denominadas tablas de vida, las más conocidas son la de Kaplan y Meier y la de Cutler y Ederer. Esta última se calcula más adelante. Cuando se hacen supuestos acerca de h(ti) aparecen dos tipos de modelizaciones. La primera consiste en suponer la existencia de un riesgo base h(t,0), e incluir los posibles determinantes de la tasa de escape en un vector x y no hacer supuestos sobre el comportamiento de la función de densidad en ti. ' (10) h(t , x) h(t ,0) exp x Este se conoce como el modelo de riesgos proporcionales de Cox. En este modelo no es necesario especificar h(t,0) pues desaparecerá de los cálculos. Estos son los llamados modelos semiparamétricos. Más adelante se calcula el modelo de Cox. Cuando se hacen supuestos acerca del comportamiento de ti surge la segunda opción de modelización: los llamados modelos paramétricos de duración. En estos modelos se supone una función de densidad para la duración que puede ser exponencial, weibull, logística, normal o gamma, para citar las más usadas. En la siguiente sección se estiman estas funciones. La más simple asunción sobre el comportamiento de la tasa de escape es suponerla constante a lo largo del tiempo, para cada individuo. Si se incluyen covariables estas son las que pueden explicar las diferencias entre los individuos. (11) h(t , x) e 'x En este caso el valor esperado de la duración es: E(T / x) e x 246 (12) De lo expuesto se deduce que la modelización de la tasa de escape en una exponencial es equivalente a una regresión del tipo: ln T 'x U (13) Donde U es una variable aleatoria. Por esta razón los coeficientes que inicialmente indican la variación porcentual en la tasa de escape ante un cambio unitario de la respectiva covariable, podrían interpretarse como la correspondiente variación porcentual en el tiempo de búsqueda medio, de igual forma a lo que sucede en el modelo de regresión que pone el logaritmo del tiempo en función del vector de regresores x. La función exponencial ha sido criticada por implicar que la probabilidad de salida no depende del tiempo que se lleve desempleado. Una función que se ha popularizado en el análisis de duración es la Weibull: (14) h(t , x) p( t ) p 1 'x e Nuevamente cuando se incluyen covariables . Obsérvese que cuando p=1 la Weibull coincide con la exponencial. El valor esperado de la duración viene dado por: (15) E(T ) exp x ' / p Para dar una interpretación en términos de duración a los coeficientes, es preciso dividirlos entre p y entender este cociente como la variación porcentual de la duración ante cambios de las covariables. Análisis paramétrico de la duración del desempleo y sus estimaciones para el área metropolitana de Cali. Estos modelos, como ya se planteó en la sección anterior, describen la duración del desempleo en función de unos pocos parámetros. Entonces, la evolución de la distribución de periodos de desempleo puede resumirse en la evolución de los parámetros asociados con el modelo teórico. En el cuadro # 1 siguiente se exponen la funciones de riesgo y supervivencia de los modelos paramétricos utilizados en el presente trabajo. Cuadro #1 Modelos Paramétricos de Duración del Desempleo Modelo Weibull Función de supervivencia S(t) exp( t) p Logístico 1 1 ( t) p Exponencial Gamma Normal 1 ( , e w ), w (log t )/ ( p log( t )) 247 e Función de riesgo h(t,x) p( t ) p 1 p( t ) p 1 1 ( t) p exp( t ) Muy complicada, ver Greene (1995), pag 732. En cuanto a estos modelos hay que tener en cuenta, lo siguiente: La función de Weibull tiene dos parámetros, uno de escala y uno de forma En cuanto a la función logística, el logaritmo natural de t se supone que tiene una distribución logística con media ln y varianza 3p2 . La función exponencial, como ya se mencionó, supone una tasa de salida constante, razón por la que suele decirse que no tiene memoria. Esto quiere decir que no hay efecto de desgaste cuando se utiliza este modelo. Este supuesto parece muy fuerte para el caso de la duración del desempleo en el que la dependencia negativa de la duración es una característica esencial. La función gamma está emparentada con la exponencial, porque la distribución exponencial es un caso especial de la distribución gamma10. Además, esta distribución tiene una función de densidad: f (t ) ( p )( t ) p 1 e ( ( ) t) p (16) En el caso de la distribución normal, aplicada al estudio de la duración, debemos tener en cuenta que la variable considerada siempre debe ser mayor o igual a cero. Por tanto, para que esta función sea aplicable se debe insistir en que P(T<0) está cercana a cero. Como la forma de la distribución normal lo indica, una ley normal de salida implica que la mayoría de los desempleados salen alrededor del tiempo promedio de salida, E(T)= y el número de salidas disminuye cuando T aumenta. Una ley normal de riesgo significa que alrededor del 95,72% de las salidas tiene lugar para los valores de t que satisfacen t T 2 11. Los resultados de las estimaciones con estos cinco modelos paramétricos, se exponen en la siguiente tabla: 10 Meyer, Paul L(1986); Probabilidad y aplicaciones estadísticas. Addison-Wesley Iberoamericana. USA. Página 255. 11 Meyer (1986), página 302. 248 Cuadro #2 Estimaciones para Cali con Modelos Paramétricos de Duración del Desempleo Variable EDUCAT Error estándar NSC12 EXPER Error estándar NSC EXPER2 Error estándar NSC DJHOG Error estándar NSC VACALISE Error estándar NSC Constante Error estándar NSC. P Error estándar Mediana Error estándar L*13 Exponencial 0,0679 (0,0158) [0,000]** 0,0605 (0,0155) [0,000]** -0,0066 (0,003243) [0,02019]* -0,4477 (0,2103) [0,017]* -0,0058 (0,0036) [0,0526] 2,0139 (0,1982) [0,000]** 0,04122 (0,00214) 1 (000) 16,81734 (0,87182) -619,3027 Weibull 0,0688 (0,017) [0,000]** 0,0609 (0,016) [0,000]** -0,00668 (0,003834) [0,0277]* -0,4527 (0,225) [0,022]* -0,0058 (0,0038) [0,0648] 1,9839 (0,228) [0,000]** 0,04196 (0,00239) 0,9615 (0,04918) 16,2779 (0,92) -618,8077 Gamma 0,0794 (0,0199) [0,000]** 0,0649 (0,0175) [0,000]** -0,00069 (0,00036 [0,026]* -0,5103 (0,2353 [0,015]* -0,0061 (0,0041) [0,069] 0,9836 (2,1412) [0,96] 0,29549 (0,614) 0,552 (0,35134) 15,07471 (0) -616,6974 Logístico 0,1027 (0,0206) [0,000]** 0,0738 (0,0169) [0,000]** 0,007633 (0,00359) [0,016]* -0,6531 (0,2393) [0,003]** -0,0063 (0,0042) [0,065] 1,0409 (0,2583) [0,000]** 0,0716 (0,00451) 1,39594 (0,07836) 13,96678 (0,87894) -633,9463 Normal 0,09023 (0,02126) [0,000]** 0,06868 (0,01808) [0,000]** -0,007 (0,004) [0,038]* -0,5712 (0,2559) [0,0128]* -0,0061 (0,0043) [0,0808] 1,3383 (0,2687) [0,000]** 0,07543 (0,00494) 0,8218 (0,0397) 13,2568 (0,8689) -623,4736 EDUCAT= Nivel educativo, EXPER= Experiencia, DJHOG= Dummy para jefatura de hogar, VACALISE= Evolución de las vacantes. Sobre estos resultados se quiere resaltar: En primer lugar, igual a lo sucedido con las estimaciones del capítulo anterior, se dan todos los signos propuestos en el modelo teórico, tanto por el lado del salario de reserva, como del salario ofrecido. 12 13 Número de significación crítico. Log de verosimilitud. 249 En segundo lugar, todas las variables, con la única excepción de las vacantes, salen significativas en todos los modelos. Las variables asociadas con el capital humano salen significativas al 1%, la jefatura del hogar oscila entre el 1 y el 5%. La experiencia al cuadrado lo es al 5%. En el caso de las vacantes, que no salen significativas en ningún modelo, el problema puede estar relacionado con el “proxy” utilizado. Además los NSC de esta variable están muy cerca del 5%. Si aceptáramos niveles de significación del 10%, esta variable saldría significativa. En tercer lugar, de acuerdo con la función exponencial, un año más de educación incrementa el tiempo de búsqueda de esas personas un 6,79%, en relación con los que tienen las mismas características, excepto la variable considerada. Ceteris paribus las demás variables. Si tomamos como referencia la duración media del desempleo, que es de 26 semanas, lo dicho se traduce en 1,8 semanas más de búsqueda. De igual manera, un año más de experiencia se traduce en un 6% más de búsqueda en comparación con personas que comparten las demás características. Si repetimos el procedimiento anterior, esto se traduce en 1,6 semanas más de búsqueda. Los jefes de hogar buscan un 45% menos que los que no lo son, es decir, más o menos 11 semanas y media menos. Un incremento del 100% en las vacantes de determinado sector, se traduce en un tiempo de búsqueda menor en el 0,6% para aquellas personas que buscan trabajo en el sector considerado. En cuarto lugar, los resultados de la Weibull son muy similares a los de la exponencial, lo que se debe a que P es muy cercana a uno (0,9615), (ver ecuación 15) razón por la que las dos funciones coincidirían en lo fundamental. En quinto lugar, lo mismo puede decirse de la Gamma, cuyo P es 0,55 en un intervalo de confianza que incluye a 1 (ver el anexo estadístico), por lo que las tres funciones coinciden en lo esencial. En sexto lugar; y en lo que tiene que ver con la función logística, un año más de educación se traduce en un 10% de incremento en la probabilidad de continuar desempleado. O, lo que es lo mismo, un 10% de disminución en sus probabilidades de salida (hazard rate). De igual manera, un año más de experiencia, reduce la probabilidad de salida del desempleo en un 7%. Los jefes de hogar tienen un 65% más de probabilidad de salida del desempleo que los que no lo son y comparten las demás características. Un incremento del 100% en las vacantes en determinado sector, incrementa la probabilidad de salida del desempleo en 0,63%. En séptimo lugar, en lo que tiene que ver con la normal, los resultados son similares a la logística. El incremento de un año en la educación, reduce la probabilidad de salida un 9%. Un incremento en la experiencia la reduce un 6,8%. Los jefes de hogar tienen probabilidad de salida del desempleo 57% mayor que los que no lo son. Y, un incremento en las vacantes, del 100%, aumenta la probabilidad de salida, en el sector, en el 0,6%. 250 Los percentiles de las distribuciones subyacentes, se exponen en la tabla siguiente: Tabla #3 Percentiles de las Distribuciones de Supervivencia Distribución Exponencial Weibull Gamma Logística Normal 0,95 1,24 1,09 1,43 1,46 1,79 0,75 6,98 6,52 6,38 5,97 5,84 0,5 18,82 16,28 15,07 13,81 13,26 0,25 33,63 33,47 31,77 31,94 30,11 De acuerdo con estos percentiles el 95% de los desempleados permanecen entre 1,09 y 1,79 semanas desempleados, el 75% de los desempleados sobreviven como tales entre 5,84 y 6,98 semanas, la mitad de los desempleados sobreviven entre 13 y casi 19 semanas, de acuerdo con la distribución que se utilice. Más o menos a las 30 semanas de temporada de desempleo quedan el 25% de los desempleados. Con base en estos percentiles se grafican las distribuciones de supervivencia. Como las gráficas son similares, incluimos, a manera de ilustración, la función Weibull de supervivencia. En el anexo estadístico pueden consultarse todas las estimaciones, con y sin covariables, y las gráficas de las funciones de supervivencia estimadas. Análisis semiparamétrico de la duración del desempleo y estimaciones para Cali En este caso, se ha estimado el modelo semiparamétrico más conocido, que es el de Cox14. Características generales del modelo de Cox. h(t , x 0 ) 0 (t ) exp (17) x' 14 Cox, D (1972); “Regression Models and Life Tables”, Journal of the Royal Statistical Society, Mayo, Agosto. Pp 187-220. Cox, D (1975); “Partial Likelihood”, Biométrica, Mayo, Agosto. Pp 269-276. También Kalbfleisch y Prentice (1973); “Marginal likelihoods based on Cox’s regression and life model”, Biometrika, 60, 2, p 267-278. 251 La ecuación (17) es un desarrollo de la (10) siendo h la función de riesgo, t el momento del tiempo considerado, x las variables explicativas que afectan a la función de riesgo, es un vector de parámetros y 0 una función de riesgo base que también puede especificarse. La característica fundamental consiste en que el efecto de cada variable sobre el logaritmo de la probabilidad de salir del desempleo es precisamente su parámetro estimado con signo negativo (- i) Este es el motivo por el que estos modelos se denominan proporcionales: cada variable afecta siempre en la misma proporción a la función de riesgo. La ventaja de este modelo consiste en que no requiere establecer una forma concreta para 0. Resultados de la aplicación del modelo de Cox al análisis de la duración del desempleo en Cali. La distribución de supervivencia estimada sin covariables, con el modelo de Cox, se expone en la tabla que sigue: Tabla #4 Distribución de Supervivencia con el Modelo de Cox Tiempo de Probabilidad Tasa de Supervivencia (t<T) supervivencia 10 semanas 0,41629 0,58371 20 semanas 0,56948 0,43052 30 semanas 0,68592 0,31408 40 semanas 0,71537 0,28463 50 “ 0,79528 0,20472 60 “ 0,87125 0,12875 70 “ 0,87327 0,12673 80 “ 0,87535 0,12465 90 “ 0,87915 0,12085 98 “ 1 0 Entre los resultados del cuedro de supervivencia #4 cabe resaltar que parece darse el “efecto aglomeración” (heaping), porque las tasas de salida tienen saltos alrededor de las 26 semanas (6 meses) y 52 semanas (un año). Es también perceptible el estancamiento de las tasas de salida después de las 52 semanas. A las 98 semanas se considera que todos los desempleados han dejado de serlo, por la forma como se obtuvieron los datos. Al incluir las covariables, los resultados, por máxima verosimilitud, son: t=-0,05608EDUCAT-0,02769EXPER+0,042DJHOG+0,04324VACALISE15 (0,015938) (0,0061915) (0,19252) (0,0031) [0,00043]** [0,000]** [0,142]* [0,08417] 15 El error estándar se ha puesto entre () y el número de significación crítico entre []. Este número se ha dividido entre dos, porque se trata de análisis de una sola cola, ya que el signo de las variables se ha postulado de antemano. Las variables significativas al 1%, tienen dos ** y las significativas al 5%, un *. 252 De acuerdo con estos resultados la educación incide positivamente- tiene dependencia de la duración positiva- en la duración del desempleo, es decir, que las personas con un año más de educación, tendrían que buscar 5,6% más, en relación con otras de las mismas características. Si tomamos como indicativo la duración media (26 semanas), estas personas tendrían que buscar 1,59 semanas más. Igual ocurre con la experiencia, los que tienen un año más de experiencia, deben buscar 2,77% más, es decir, 0,76 semanas más. Por el contrario, los jefes de hogar buscan 4,2% semanas menos que los que no son jefes y tienen iguales las demás características. Las vacantes no salen significativas en este modelo. Modelos no paramétricos de duración: el análisis de supervivencia y su aplicación al área metropolitana de Cali. Una visión general de los modelos de supervivencia. El análisis de supervivencia tiene por objeto conocer el efecto de una variable independiente cuando la variable dependiente puede expresarse como tiempo hasta que ocurre un suceso. Se utiliza cuando la variable dependiente representa el intervalo de tiempo entre un evento inicial y un evento terminal. Para poder realizar un análisis de supervivencia, se requiere que: a) se de un evento inicial (origen, entrada en el desempleo, por ejemplo), b) el posible evento final (“fallecimiento”, es decir, salida del desempleo, por ejemplo) debe ocurrir, como es apenas lógico, después del evento inicial, c) el evento final solo puede ocurrir una vez. El análisis de supervivencia originariamente se aplicó en medicina con tablas de mortalidad (tiempo hasta que el paciente fallece), de ahí proviene la terminología. Posteriormente se aplicó al estudio de la resistencia de materiales, después al estudio de la duración (confiabilidad) de los componentes electrónicos en los estudios de control de calidad, y a la ingeniería militar. Otros ejemplos de aplicación pueden ser el estudio del tiempo que se permanece empleado en la misma empresa, el tiempo de permanencia en la universidad, el tiempo desde la boda hasta la llegada del primer hijo, la durabilidad de un producto, la duración de la temporada de desempleo, la duración de una huelga, etc. En el análisis de la duración y de la supervivencia se presentan varias dificultades, algunas de estas están expuestas en la introducción a este capítulo y otras en el capítulo 2 de este trabajo. Una de las principales es que el origen en el tiempo no sea el mismo para todos los individuos. Como consecuencia de lo que antecede, al final del periodo de observación tendremos información completa de algunos individuos (tiempo total de supervivencia), mientras que de otros tan solo se podrá saber que seguían vivos al cabo de cierto tiempo (censura). Esta información parcial será, además, diferente para cada uno de los individuos sobre los cuáles no se tenga información completa. El análisis de supervivencia soluciona este problema 253 al permitir la inclusión de datos incompletos, utilizando las tasas de supervivencia y las funciones de riesgo, que son variables aleatorias que dependen del tiempo, en lugar de la duración del desempleo (Blanco 1985). Un modelo de supervivencia es una distribución de probabilidades para una clase especial de variable aleatoria. Consideramos, t= tiempo de supervivencia, S(t) es la probabilidad de supervivencia, T es una variable aleatoria que mide el tiempo de supervivencia o fallo de un ente conocido que existe en t=0. T es, por lo tanto, la variable que mide el tiempo de fallo o fracaso (esta es la terminología que se utiliza en los campos médico, actuarial, ingenieril, etc. En el caso del desempleo se habla de supervivencia en calidad de desempleado pues parece claro que no constituye un fallo o fracaso salir de tal situación). Después de esta aclaración se continuará utilizando como intercambiables los términos fallo, fracaso y tasa de riesgo. Si T es el tiempo de fracaso, la probabilidad de supervivencia en el tiempo t es igual a la probabilidad que el tiempo de fallo se retarde (matemáticamente mayor) que el valor de t16. S(t)=Pr(T>t) (18) Es claro que T 0, por lo que S(0)=1, y S(t) es una función no creciente. Suponemos que lim S(t)=0 cuando t . Si T es el tiempo de supervivencia, fracaso o fallo, de un ente que existe en t=0, entonces T es también el tiempo de vida futuro de este ente medido desde t=0. Como se había mencionado atrás, los escritos sobre este tema intercambian algunas veces, como definiciones equivalentes de T “tiempo de fracaso” o “duración de la vida futura”. La función de distribución de supervivencia (SDF) sería, entonces: S(t)=Pr(T>t). Esta función da la probabilidad de supervivencia que ocurrirá después del tiempo t, que equivale a que el ente conocido en el momento t=0, sobreviva al menos al momento t. Se recuerda que S(0)=1 y S( )=0. La función de distribución acumulativa (CDF) de T es F(T) y da la probabilidad que la variable aleatoria tome un valor menor o igual que t, esto es, F(T)=Pr(T t) (19) F(T)=1-S(t) (20) Esta ecuación (20) se explica porque la supervivencia total, es decir, la pasada más la futura, debe ser igual al conjunto de probabilidades, es decir, uno. F(0)=0 y F( )=1. La función de densidad de probabilidad (PDF) es f(t) que se define como la derivada de F(t). dF (t ) dS (t ) f (t ) ,t 0 (21) dt dt 16 Al respecto ver, entre otros, Kiefer (1988), Greene (1993, 1995), London (1988). 254 Es fácil ver que: F ( y) f ( y )dy (22) 0 S (t ) f ( y )dy (23) 0 Debe ser verdad que: f ( y )dy 1 (24) 0 Mientras que F(t) y S(t) son probabilidades que relacionan cierto intervalo de tiempo, f(t) relaciona un punto en el tiempo y no es una probabilidad per se. Adicionalmente, f(t) es una medición instantánea de la probabilidad de supervivencia no de intervalo. También es importante reconocer que f(t) es una densidad incondicional de la supervivencia en el tiempo t, dado solamente que el ente existió en t=0. Se ha establecido que la PDF de T, f(t), es la densidad incondicional de falla o salida al momento t. Ahora se define una densidad condicional de falla sobre el tiempo de supervivencia t. Esta medición instantánea condicional de fallo al tiempo t, da la supervivencia al tiempo t, y será llamada tasa de riesgo (hazard rate) al tiempo t, a la función de la tasa de riesgo (HRF), la llamamos h(t). Es condicional porque supone que se ha sobrevivido hasta el tramo anterior de supervivencia. Kiefer (1988, página 648) pone el ejemplo de un torneo deportivo por eliminatorias, en el que se puede sobrevivir sólo si se ha superado la ronda anterior. Por lo que la probabilidad de supervivencia es una probabilidad condicional a haber superado la eliminatoria anterior. En general se puede afirmar que, si una medición condicional es multiplicada por la probabilidad de obtener la condición, el resultado será una medición incondicional. Específicamente, (Densidad condicional de fallo al tiempo t, dada la supervivencia al tiempo t) por la probabilidad de supervivencia al tiempo t= (Densidad incondicional de fallo al tiempo t). Simbólicamente esto sería así: h t .S t f t (25) ft St o, h t (26) La ecuación (26) define la tasa de riesgo (HRF), que es condicional al tiempo de supervivencia. Es importante tener claro el significado definitivo de h t y f(t). Ambas son mediciones instantáneas de la densidad del tiempo de fallo al momento t; difieren una de otra en que h t es condicional a la supervivencia en el tiempo t, mientras que f(t) es incondicional (dada solamente su existencia en el momento t=0). De la fórmula (26) se sacan algunas consecuencias matemáticas: Como f t dS t , de ahí que: dt 255 dS (t ) / dt d ln S (t ) S (t ) dt Integrando tenemos: h(t ) (27) t h(t )dt ln S (t ) (28) 0 t S (t ) exp h(t )dt ) (29) 0 La función acumulativa de riesgo (CHF) está definida por: t A(t ) h(t )dt ln S (t ) (30) 0 Así que: S (t ) e A(t ) (31) Esta es la forma más común, exponencial, de las funciones de supervivencia con datos de duración. A continuación y como un ejemplo de modelos de supervivencia no paramétricos se expone la función de supervivencia de Cutler y Ederer. Análisis no paramétrico de la duración del desempleo: la tabla de vida de Cutler y Ederer y su cálculo para Cali. Introducción. Los métodos no paramétricos consisten en la estimación de las tasas de riesgo y de supervivencia sin definir a priori ninguna forma funcional para estas relaciones. Si solamente disponemos de los tiempos de duración (no hay covariables), entonces, las tablas de vida y las curvas de supervivencia pueden ser derivadas por métodos actuariales. Características generales de la tabla de vida de Cutler y Ederer. La tasa de supervivencia de Cutler y Ederer17 se define como la probabilidad de un individuo de permanecer desempleado al menos t meses. Para estimar la tasa de supervivencia primero se calcula la tasa de riesgo muestral para cada periodo de tiempo, h t , como la proporción de la muestra que finaliza su periodo de desempleo en el periodo t entre aquellos que no han terminado su periodo de desempleo antes del periodo t. La tasa de riesgo puede interpretarse como una 17 Cutler, S y Ederer, F (1958); “Maximum Utilization of the Life Table in Analyzing Survival”, Journal of Chronic Disorders, pp 699-712. 256 tasa de abandono del desempleo o una probabilidad condicional de abandonar el desempleo18. 2qj hj (32) a ( 2 qj ) Donde a es la amplitud del intervalo19, q es la proporción de observaciones del conjunto de riesgo que han salido, y surge de dividir el número de observaciones que han salido (mj), entre el tamaño del conjunto de riesgo rj. A su vez, rj=nj-Cj/2. nj es el número de observaciones y Cj es el número de observaciones censuradas20. La proporción de supervivientes (función de supervivencia) es la proporción acumulativa de observaciones de supervivientes para el momento del comienzo del intervalo. Pj (1 qj 1) Pj 1 donde P1=1 (33) Se puede usar uno menos la tasa de supervivencia para calcular la probabilidad de abandonar el desempleo para una duración específica. Tabla de vida de Cutler y Ederer para los desempleados de Cali. Estas tablas constituyen un instrumento descriptivo muy adecuado para analizar características generales de datos de supervivencia, pero tienen la limitación que cuando se les integran covariables es necesario dividir la muestra y se generan graves problemas estadísticos21. Estas covariables, como se hizo en las dos secciones anteriores, si pueden ser incluidas, sin estos problemas, en los modelos paramétricos y semiparamétricos. Cuadro #5 Tabla de vida de Cutler y Ederer Semanas 4 8 13 26 52 78 92 98 Tasa de riesgo 0,1433 0,1619 0,1888 0,2185 0,71 0,0345 0,0357 1 Tasa de supervivencia 0,841 0,7128 0,5974 0,3872 0,2564 0,0744 0,0718 0,0692 Fuente: ver anexo estadístico. 18 En lo que sigue se ha utilizado la notación de Greene (1995). Greene utiliza la h que también denomina la función de riesgo, para evitar confusiones hemos utilizado la a. 20 Greene (1995), página 696. 21 Esta integración solo es rigurosa, cuando los sujetos de las submuestras fuesen estadísticamente idénticos en todas las características relevantes, excepto en la que ha servido para dividir la muestra. Ver Blanco (1985), página 136. 19 257 De acuerdo con estas tasas de salida, a los tres meses de duración del desempleo (13 semanas), la tasa de supervivencia22 es 0,5974, es decir, que el 59,74% de los desempleados continúan siéndolo; a los 6 meses (26 semanas) 38,72%; al año (52 semanas) el 25,64% y a los 78 semanas el 7,44%/23. En cuanto a la tasa de riesgo (salida del desempleo), al mes es 0,1433, a los tres meses, es 0,1888, a los 6 meses 0,2185, al año 0,71, y a las 98 semanas se considera que todos los desempleados han salido de tal situación, por la forma como se han obtenido los datos. Como una conclusión general a resaltar, puede afirmarse que el método de Cutler y Ederer proporciona útiles estimaciones que pueden ayudar a identificar las características descriptivas generales de la duración del desempleo, pero no proporcionan estimaciones analíticamente significativas debido a la falta de control de otras variables correlacionadas24. 22 Es la probabilidad de seguir desempleado. López, analizando las cuatro áreas metropolitanas de Colombia y utilizando la Weibull, encontró que al final del primer mes, esta probabilidad era del 0,822, a los tres meses 0,615, a los 6 meses 0,422, y al año 0,217. López (1994a), página 33. 24 Para controlar por las variables correlacionadas usando el método de Cutler y Ederer, se necesita estimar el modelo separadamente para cada subgrupo formado teniendo en cuenta todas las variables relevantes. El tamaño de cada subgrupo se hace demasiado pequeño fácilmente para conseguir estimadores robustos. 23 258