ESTUDIO DE RACHAS DE DESEMPLEO EN EL MERCADO LABORAL ESPAÑOL. UNA APROXIMACIÓN SEMIPARAMÉTRICA.1 Andrés Esteban, Eva María (eandres@unizar.es) Olave Rubio, Pilar (polave@unizar.es) Alcalá Nalvaiz, José Tomás (jtalcala@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza. Resumen: Esta investigación pretende describir la duración de múltiples rachas de desempleo y plantear modelos semiparamétricos que incorporen sesgos usuales en datos de panel. La muestra de datos utilizada en el estudio son individuos entre 16 y 65 años que han participado en los siete ciclos de la base de datos PHOGUE (1994-2000). Un análisis inicial de los datos pone de manifiesto la existencia de un fuerte efecto de concentración de frecuencias en meses y duraciones muy concretas. Además, se observa una dependencia entre las duraciones de rachas consecutivas, no siempre lineal. Debido a ello, se plantean modelos de duración que nos permiten decidir los factores determinantes en el tiempo de desempleo; que además sean flexibles frente a las limitaciones de los modelos habituales en estos estudios. Para este objetivo se incorporan técnicas basadas en estimadores no-paramétricos tales como verosimilitud empírica y similares. Palabras clave: Rachas de desempleo, modelos de duración, métodos semiparamétricos Clasificación JEL: J23, J64. 1 Trabajo financiado por la Diputación General de Aragón como grupo consolidado de investigación (2004-2007) “Métodos Estadísticos no paramétricos sobre datos sesgados en el mercado laboral” INTRODUCCIÓN Uno de los problemas que preocupan a las instituciones es el análisis de los episodios de desempleo según sectores de actividad y variables influyentes. Es indudable, que determinados periodos de desempleo son los que afectan de forma especial a la vida laboral de los individuos, y por consiguiente son los episodios que más atención han recibido por parte de los investigadores (Dolado et al. (2000)). Concretamente, el primer periodo de desempleo que se produce nada más abandonar el sistema educativo, ha sido recientemente estudiado, utilizando datos autonómicos, por González-Betancor et al. (2004), y en el ámbito de España por Corrales y Rodríguez (2003), entre otros. La duración del desempleo, en episodios concretos de la vida laboral de los individuos ha sido poco estudiado, aunque es destacable el trabajo de Alba-Ramírez y Alvarez-Llorente (2004) que lo analizan en el entorno del instante de nacimiento de un hijo y el trabajo de Olave y Salvador (2005) que estudia la inserción laboral de universitarios tras realizar programas de formación. Sin embargo, el estudio de las diferentes rachas de desempleo en la vida laboral de un individuo, ha recibido poca atención por parte de los investigadores y este trabajo aporta nuevas ilustraciones en este contexto, ya que pretendemos analizar la situación del desempleo, según su ubicación en la historia laboral de un individuo, su longitud en el tiempo y las posibles interacciones con el perfil de los individuos. La muestra utilizada será el panel de hogares de la Unión Europea (PHOGUE) , versión nacional elaborada por el INE, en todos sus ciclos (1994-2000), y más concretamente las 8533 personas, mayores de 16 años , que cumplimentaron la encuesta en todas las olas consideradas. En el estudio de este panel, las preguntas se realizan una vez al año (entre los meses de Octubre y Diciembre) y la mayor parte de la información que recoge la encuesta es retrospectiva; es decir, hace referencia al año anterior. Debido a ello, se ha observado una concentración de cambios de situación en el desempleo que, fundamentalmente afectan a los meses de Enero y cuya duración es cíclica. Las explicaciones a este tipo de concentraciones (denominadas efecto de concentración o efecto preferencia) han sido varias en la literatura (Han y Hausman (1990), Poterba y Summers (1986), Magnac y Visser (1999), Arranz y Muro (2000)). Para todos ellos, la concentración se produce, o bien debido a comportamientos estacionales, o errores en las respuestas de los individuos. Por lo tanto, las transiciones de estados en el mercado laboral pueden ser erróneas y el comportamiento de dicho mercado, tener una dinámica diferente a la que se pudiera pensar a priori. Todo ello nos lleva a pensar los inconvenientes que tienen la mayoría de estudios basados en paneles de datos, que añaden a las características de las encuestas por muestreo, todos los inconvenientes de los estudios longitudinales. Teniendo en cuenta todo lo anterior, la versión preliminar de este trabajo se ha estructurado de la siguiente forma, en el apartado 2 se realiza el estudio descriptivo de la duración de las primeras rachas, así como un primer análisis de supervivencia para la duración y variables influyentes. En el apartado siguiente se estudian diferentes estimaciones de los parámetros de mayor interés en los modelos para la duración de las rachas que recogerán los posibles sesgos debidos a “efectos de concentración” detectados en el apartado previo. Finalmente introduciremos el concepto de verosimilitud empírica y presentaremos el estudio de las primeras rachas de desempleo para este panel mediante este método, analizando sus ventajas e inconvenientes. El objetivo último que se desarrollará en la fase final de este trabajo será presentar modelos semiparamétricos similares a los propuestos por Torelli y Trivellato (1993) y Ryu et al (2000) que incorporen las censuras que presentan los datos y así desarrollar nuevas funciones de verosimilitud que puedan hacer estimaciones de parámetros de interés más consistentes que las realizadas sobre una verosimilitud muestral que no hayan tenido en cuenta las inconsistencias de los datos. ANÁLISIS EMPÍRICO DE LAS PRIMERAS RACHAS DE DESEMPLEO. Una primera aproximación al problema de estudio lo realizamos con un análisis descriptivo de las duraciones de la primera y segunda racha de desempleo entre los individuos que al menos han estado desempleados en algún momento del periodo registrado. Es decir, en este apartado se van a estudiar las consecutivas duraciones desde el inicio del desempleo de un individuo hasta la finalización de dicho estado (rachas de desempleo). Hay que tener en cuenta que el análisis de la duración del suceso inactividad (o de cualquier otro suceso) es dinámico, de lo que se deriva la existencia de pocos datos en los cuales la duración del suceso coincida exactamente con el inicio/final de los periodos de los sucesos de interés en la encuesta. Por lo tanto, en el estudio de estas variables (rachas) habría que tener presente que los datos pueden presentar censura y en muchos casos, también truncamiento. Además de los sesgos habituales, comentados anteriormente, existe otro tipo de sesgo en el estudio de datos de panel llamado “efecto de concentración”. Así pues, como se puede observar, los gráficos 1 y 2, presentan el “efecto de concentración”, aunque es mucho más acusado en el primer gráfico, el cual corresponde a la primera racha de desempleo registrada. Además de causas debidas a la memoria de los encuestados, estos efectos pueden ser explicado de diferentes formas. Téngase en cuenta, que la primera racha de desempleo afecta de forma especial a licenciados y graduados al acabar sus estudios universitarios (para más detalles, Olave y Salvador (2005)), y consecuentemente la distorsión en el tiempo de ese primer estado de desempleo puede ser mayor. Gráfico 1 Gráfico 2 200 600 500 400 300 100 Frecuencia Frecuencia 200 100 0 1 9 5 17 13 25 21 33 29 41 37 49 45 58 53 72 65 80 duración de la primera racha de desempleo 0 1 10 19 28 37 46 55 64 73 82 duración de la segunda racha de desempleo En este gráfico se observa la densidad de la duración de la primera y segunda racha de desempleo para las oleadas 1994-2000 del PHOGUE. Lo que destaca en esta densidad es su comportamiento estacional en las duraciones 12, 24, 36, 48... Al analizar los histogramas de la primera racha según sexo (gráficos 3 y 4), se puede ver un diferente comportamiento en las duraciones del desempleo y sobre todo un “efecto concentración” aún más acusado en las mujeres, lo que conduce a investigar dos cuestiones: ¿el por qué del efecto? y ¿podría haber estimaciones no paramétricas que solventaran el problema de acumulación de sesgos en las respuestas?. Gráfico 3 Gráfico 4 (varones). (mujeres). 200 400 300 200 Frecuencia Frecuencia 100 0 1 9 5 17 13 25 21 33 29 42 38 50 46 60 54 100 0 80 1 72 7 4 duración de la primera racha de desempleo 13 10 19 16 25 22 31 28 37 34 44 40 53 47 66 57 78 duración de la primera racha de desempleo En este contexto descriptivo, una primera aproximación a la duración del desempleo nos la dan los modelos de azar proporcional, ya que nuestra finalidad será evaluar la duración de la racha teniendo en cuenta determinadas características del individuo y/o duración de rachas anteriores. Estos modelos son muy utilizados en el análisis de supervivencia empírico, a la hora de estudiar la influencia que un conjunto de variables ejerce sobre el tiempo de supervivencia de un determinado individuo. En nuestro caso, será de interés modelizar el tiempo de permanencia en la racha para cada individuo. Consideremos h(t ) la función de azar de la variable que recoge la duración de la racha de desempleo. El modelo considerado para el análisis de supervivencia es el propuesto por Cox en 1972 donde [ ] h(t x ) = h0 (t ) exp β ' x donde h0 (t ) es la función de azar vaselina que, al igual que suele ser usual en la literatura (Gray, 1994 y ( Muñoz et al., 2002), es constante a trozos, x = x1 ,..., x p ' β ' = (β 1 ,..., β p ) el vector de parámetros. ) es el vector que recoge las p covariables y Los datos serán las historias de cada individuo con al menos dos rachas de desempleo. Así pues, los casos analizados son 1500 individuos con una proporción de datos censurados pequeña. En la tabla 1 se puede ver las frecuencias absolutas de los individuos con al menos una racha de desempleo para las respectivas categorías codificadas en el panel. Dado que se estudia el panel completo, las categorías presentan una cuantificación notable y puede entenderse como una buena representación de la población española en la década de los 90 con al menos una racha de desempleo en su historia laboral. Ello nos va a permitir analizar las rachas desde un punto de vista dinámico para valorar si la situación de la racha, en la vida laboral del individuo, tiene un efecto significativo en la salida del desempleo. Tabla 1 Variable Sexo (1=Varón, 2=Mujer) Frecuencia Personas con al menos una racha de desempleo 1342/1253 Edad1=Hasta 20 años (0=No, 1=Si) 424 Edad2=Entre 21 y 25 años (0=No, 1=Si) 494 Edad3=Entre 26 y 30 años (0=No, 1=Si) 418 Edad4=Entre 31 y 40 años (0=No, 1=Si) 559 Edad5=Entre 41 y 55 años (0=No, 1=Si) 494 Edad6= Mayor de 55 años (0=No, 1=Si) 206 Nivelest1= Analfabeto sin estudios (0=No, 1=Si) 275 Nivelest2= Estudios primarios (0=No, 1=Si) 593 Nivelest3= Primer nivel de enseñanza secundaria (0=No, 1=Si) 702 Nivelest4= Formación profesional de primer grado (0=No, 1=Si) 213 Nivelest5= Formación profesional de segundo grado (0=No, 1=Si) 255 Nivelest6= Bachillerato (0=No, 1=Si) 201 Nivelest7= Diplomatura (0=No, 1=Si) 158 Nivelest8=Licenciatura (0=No, 1=Si) 198 Realizado el ajuste del modelo de Cox para la duración de la segunda racha en los individuos con al menos dos rachas de desempleo, se obtienen las estimaciones dadas en la tabla 2. Así pues, cabe señalar que la duración de la primera racha de desempleo registrada tienen una influencia significativa en la siguiente racha con respecto a la edad del individuo, nivel de estudios y género. Todo ello induce a sospechar la necesidad de modelos que incorporen efectos lineales/ no lineales entre duraciones de rachas consecutivas para finalmente evaluar de forma precisa la duración de una racha conocido sus duraciones precedentes, así como el perfil del individuo. Tabla 2 Regresión de Cox para la duración de la segunda racha de desempleo. VARIABLES SEXO NIVELEST NIVELEST2 NIVELEST3 NIVELEST4 NIVELEST5 NIVELEST6 NIVELEST7 NIVELEST8 EDAD*SEXO EDAD2*SEXO EDAD3*SEXO EDAD4*SEXO EDAD5*SEXO EDAD6*SEXO EDAD*DURACION(racha1) EDAD2*DURACION(racha1) EDAD3*DURACION(racha1) EDAD4*DURACION(racha1) EDAD5*DURACION(racha1) EDAD6*DURACION(racha1) DURACION(racha1)*NIVELEST DURACION(racha1)*NIVELEST2 DURACION(racha1)*NIVELEST3 DURACION(racha1)*NIVELEST4 DURACION(racha1)*NIVELEST5 DURACION(racha1)*NIVELEST6 DURACION(racha1)*NIVELEST7 DURACION(racha1)*NIVELEST8 beta p-valor Riesgo -0,480 0,265 -0,451 0,456 0,454 0,311 0,456 0,888 -0,022 -0,024 -0,025 -0,018 0,000 0,003 0,050 0,929 0,425 0,755 0,020 0,051 0,643 0,002 0,490 0,004 0,040 0,005 0,002 0,003 0,572 0,176 0,709 0,001 0,023 0,001 0,001 0,003 0,765 0,698 0,283 0,087 0,765 0,619 1,304 0,637 1,577 1,574 1,365 1,578 2,430 0,979 0,976 0,975 0,982 ANÁLISIS SEMIPARAMÉTRICO DE LAS RACHAS. Las técnicas no paramétricas de suavizado representan una metodología estadística especialmente atractiva en las fases de exploración de datos y están adquiriendo una importancia creciente en el ámbito de los contrastes de especificación y de bondad de ajuste en modelos complejos. En términos generales, la estimación no paramétrica de la densidad es importante a la hora de capturar y reflejar los aspectos más relevantes de las variables bajo estudio, y que deberían ser imitados por los modelos paramétricos que se adopten para un posterior análisis. También extiende el resumen estadístico dado por los primeros momentos de la distribución o por un contraste de normalidad. Finalmente, la varianza u otros momentos de ciertos estadísticos necesitan evaluar la función de densidad en algún valor concreto, p.ej. en f (0) . Estas razones, entre otras, hacen conveniente el uso de estimadores de la densidad con un mayor grado de suavidad que el clásico histograma, especialmente en el caso multivariante. El estimador no paramétrico de la densidad más popular es el estimador kernel o núcleo; sus propiedades asintóticas y sus diversas alternativas pueden consultarse en Pagan y Ullah (1999) y Wand and Jones (1995). Sea X_1,...,X_n una muestra aleatoria simple de una variable d-dimensional con función de densidad f (x ) , el estimador núcleo en x viene definido por fˆ ( x) = ( n 1 K H −1 ( X i − x) ∑ n det( H ) i =1 ) donde K (.) es la denominada función núcleo, generalmente una función de densidad simétrica de soporte compacto y H es una matriz regular de parámetros de suavizado o ventana, generalmente proporcional a la matriz identidad. Intuitivamente, se estima la densidad en un punto x como la frecuencia relativa, ponderada por el núcleo K, de los puntos de la muestra que caen en un entorno del punto x determinado por el parámetro ventana. En el gráfico 5, podemos ver la distribución conjunta de la duración de la primera y segunda racha. Los estimadores no paramétricos de tipo núcleo nos permiten ver las curvas de nivel de la función de densidad conjunta y poder sugerir posibles hipótesis de trabajo sin depender de suposiciones paramétricas sobre la distribución de las duraciones, siempre cuestionables; particularmente, en aquellos conjuntos de datos en los que puede haber errores agrupados, bien debidos al proceso de muestreo o a una mala especificación del modelo. El gráfico de la densidad que vemos está calculado tomando como función núcleo la densidad normal estándar bivariante y como parámetro de suavizado común a las dos componentes el seleccionado por validación cruzada (ver Wand and Jones 1995, capítulo 3). Gráfico 5 De forma análoga, la estimación no paramétrica de la función de regresión (Fan y Gijbels (1996), Härdle (1991)) nos permite obtener estimadores consistentes de la duración media de la segunda racha de desempleo condicionado a la duración de la primera racha. Téngase en cuenta que éste es el punto en el que este trabajo pretende ser un valor añadido sobre otras investigaciones en este entorno, en los que, o bien se estudiaba el desempleo de forma global, o bien alguna de las rachas sin tener en cuenta la situación del desempleo en periodos precedentes. La regresión no paramétrica relaja las usuales hipótesis de linealidad y permite explorar los datos de una forma más flexible descubriendo estructuras en los datos que, de otra forma, no podrían observarse. En un modelo no paramétrico, la relación entre una variable dependiente {Yi }i =1 y su predictor {X i }i =1 , podría n especificarse de la siguiente forma, Yi = m( X i ) + ε i i=1,..,n n donde m ( x ) es la función regresora que se obtiene mediante la estimación de la esperanza condicionada. En estas técnicas, la estimación de una media condicional se obtiene mediante un promedio local de las observaciones más próximas al valor donde se quiere estimar. Es decir, dado un punto x, aplicamos una regresión lineal a un conjunto de puntos alrededor del fijado. El modelo de regresión en cada subconjunto vendría dado por Yi = a( x) + b( x )( X i − x) + εrrori para X i ∈ x ± h donde h es el parámetro ventana que determina el grado de suavidad que se quiere dar a la curva estimada. Además, podemos introducir unos pesos de forma que, sean “más/menos importantes” los puntos conforme su proximidad al punto x donde estimamos. De esta forma, si K (.) es una función no negativa unimodal (función núcleo/Kernel), podemos escribir el problema de mínimos cuadrados locales ponderados de la siguiente forma, n ∑ {Y i =1 i 2 X − x − a( x) − b( x )( X i − x)} K i h En el gráfico 6, podemos ver la función de regresión obtenida para la duración media de la segunda racha en función de la primera mediante regresión local lineal, así como los intervalos de confianza correspondientes. Analizado con detalle, la duración de la segunda racha se incrementa de forma lineal con la duración de la primera hasta un determinado umbral. Es decir, la longitud de la primera racha sólo es significativa en términos de salir/entrar en el desempleo cuando dicha racha registrada no es excesivamente elevada. En el estudio de regresión de rachas, no necesariamente consecutivas, podrían ser considerablemente diferentes bien por género o por sectores de actividad. Todos estos análisis pueden ser llevados a cabo posteriormente utilizando estas técnicas. Gráfico 6 El gráfico 7, pretende intensificar los avances anteriores, añadiendo una zona coloreada que corresponde a la banda de confianza para una duración media de la segunda racha no relacionada con la primera, de forma que si la función de regresión estimada está dentro de la zona coloreada podemos aceptar que la primera duración no afecta a la duración media de la segunda. En el gráfico se aprecia que para valores pequeños de la primera duración sí existe un efecto, además este efecto es creciente hasta una cierta duración para luego pasar a ser estable y finalmente dejar de ser significativo. Esto quiere decir, que rachas largas en el primer desempleo no son determinantes en la duración de la segunda racha. Gráfico 7 En el gráfico se puede ver en azul, la banda de confianza para la media. Como la frecuencia de observaciones en valores pequeños de la primera racha de desempleo es muy grande, los intervalos de confianza obtenidos, son mucho más pequeños que en valores grandes. Concluyendo, este apartado muestra el interés añadido que puede tener en el estudio de la vida laboral de un individuo, la duración de esa primera racha como proxy en otras posibles rachas. Las cuestiones que quedan por responder se centran en determinar la duración del primer desempleo que fuese influyente en disminuir/aumentar posteriores desempleos en su vida laboral. Así pues, nuestra investigación pretende confirmar si la duración media del primer desempleo (muy diferente según sectores de actividad y situación geográfica) está infra/sobre-valorando la importancia de dicha duración con respecto al impacto en futuros desempleos. En esta primera aproximación no paramétrica, no hemos tenido en cuenta el “efecto de concentración” que nos ha aparecido en el análisis empírico de los datos. Esto nos lleva a plantearnos las correcciones en los modelos para introducir los efectos de los sesgos y, como se verá a continuación, a introducir nuevas técnicas no paramétricas. En la tabla 3, se muestran los resultados de la estimación realizada para diferentes parámetros intentando corregir el “efecto de concentración” mediante modelos habituales propuestos en la literatura (Torrelli y Trivelato (1993), Ryu y Slottje (2000)). En el apéndice se detallan los modelos. En la construcción del modelo propuesto por Torelli y Trivellato, hemos seguido dos planteamientos diferentes. En la distribución de los datos, suponemos, en ambos casos, un efecto de concentración Exponencial, y para el resto, en un primer modelo utilizaremos la misma distribución y un segundo modelo usaremos una distribución Weibull. Observando los resultados de la tabla 3, se infiere que obtenemos resultados muy similares en ambos casos. Esto es debido, principalmente, porque al estimar los parámetros de las distribuciones mediante la maximización del modelo de verosimilitud propuesto, el primer parámetro obtenido para la distribución Weibull es prácticamente la unidad, lo que nos indica que no difiere significativamente de la distribución Exponencial. Esto nos hace pensar que no obtendremos mejores resultados ampliando la familia paramétrica de distribuciones a considerar. Otra conclusión que se puede deducir del análisis de la tabla es la similitud entre los resultados de aplicar los diversos métodos de estimación “corregida” previamente introducidos. Sin embargo, aunque esto era un resultado previsible (Wolf y Augustin (2000)), creemos que el “efecto de concentración” en el caso de utilizar los datos para modelos de regresión o de duración causaría sesgos más importantes tanto en la estimación puntual de los parámetros como en la precisión de las estimaciones, tal y como también sugieren estos autores. Tabla 3 media mediana S.D Q10 Q90 Datos sin tratamiento de concentración 13,7156 11,0000 13,8103 2,0000 31,0000 Torelli: f(x) y G(x) exponenciales 13,3372 9,2446 13,3372 1,4052 30,7100 Torelli: f(x) Weibull y G(x) exponencial 13,0000 9,0109 13,0000 1,3696 29,9336 Ryu 15,2418 12,7826 Resumiendo, una posibilidad para obtener estimaciones de los parámetros de interés puede ser considerar otra familia de distribuciones, o bien plantear estimaciones en las cuales el efecto de la distribución planteada no sea tan influyente. ¿Es la VEROSIMILITUD EMPÍRICA una alternativa cuando el efecto de concentración es muy elevado? La metodología de verosimilitud empírica ha sido introducida por Owen (1988, 1990 y 2001). Se ha revelado como una alternativa muy interesante frente a otros métodos de estimación y de construcción de intervalos de confianza. Presenta ventajas frente al método de los momentos en muestras finitas obteniendo resultados asintóticos de un mayor orden de eficiencia. Básicamente se trata de calcular el perfil de verosimilitud de una distribución general multinomial cuyos átomos de probabilidad se dan en los datos muestrales. Las ventajas principales frente a otros métodos de inferencia son: i) La forma de la región de confianza mediante verosimilitud empírica (VE) refleja automáticamente la densidad del conjunto de datos observados. ii) La regiones de confianza por VE admiten corrección de Bartlett, reduciendo usualmente el orden del error de cobertura de n-1 a n-2, siendo n el tamaño de la muestra. iii) Las regiones de confianza por VE no requieren un cálculo explícito de los parámetros de escala o de asimetría de los estimadores. iv) Las regiones de confianza por VE preservan rango y respetan transformaciones, de forma análoga a las regiones de confianza de MV paramétrica. Si X1,X2,…,Xn denotan los datos observados, p=(p1,p2,…,pn) un conjunto de pesos positivos y tal que suman 1. Supongamos que estamos interesados en hacer inferencia respecto a una parámetro θ de la distribución, por ejemplo la media. Observemos que podemos expresar θ en función de los parámetros del problema: n θ = ∑ pi xi i =1 La verosimilitud empírica para el valor θ se define de la siguiente forma, n n n L(θ ) = max p ∏ pi pi ≥ 0, ∑ pi = 1,∑ p i X i = θ , i =1 i =1 i =1 La función de distribución empírica es la distribución de probabilidad sobre los datos que maximiza el anterior producto de probabilidades en ausencia de restricciones sobre el parámetro. Esto nos permite plantear el cociente de verosimilitud empírica R (θ ) ,como el cociente de la VE para (estimador de θ θ y para θˆ haciendo pi = 1 ). Este cociente, bajo ciertas hipótesis de regularidad, verifica que n − 2 log(R(θ )) asintóticamente sigue una distribución χ d2,1−α con d grados de libertad (d=dim( θ )). Este resultado bastante general permite la construcción de regiones de confianza para el parámetro de interés, θ : { } RC = θ − 2 log(R(θ )) ≤ χ 12−α . Podemos ilustrar esta metodología con la construcción de la región de confianza para el vector de medias de la duración de la primera y segunda racha simultáneamente. En el gráfico 8, podemos ver el cociente de verosimilitud empírica R (θ ) , para la duración media de la primera racha y de la segunda racha por separado. Se ha superpuesto un segmento en el valor máximo verosímil de cada una de las duraciones medias, así como un trazo horizontal a la altura del valor que determinaría la región de confianza al 95% de cada una de las duraciones medias. Gráfico 8 En el gráfico 9, podemos apreciar la región de confianza conjunta al 95% de ambas duraciones medias, para un subconjunto aleatorio de los datos observados. Gráfico 9 En el gráfico 10, podemos apreciar simultáneamente la región de confianza al 95% y al 99% para ambas duraciones medias por máxima verosimilitud empírica, se ha señalado con un punto el estimador máximo verosímil. Gráfico 10 De todos estos gráficos podemos deducir que en términos generales, la dependencia entre la duración de la primera y segunda racha no es muy acusada, lo que conduce inevitablemente a plantear un estudio similar según subgrupos (p.ej. sectores de actividad, zona geográfica, nivel de formación, género, duración específica de la primera racha, etc...) APÉNDICE: Modelos de duración con corrección del efecto de concentración. Al analizar los efectos debido a las inconsistencias en las respuestas, nos hemos planteado posibles alternativas a los modelos clásicos de duración. El primer modelo considerado para solventar estos problemas fue propuesto por Torrelli y Trivellato. En este trabajo se desarrollo una función de verosimilitud dividida en dos partes: la primera parte hacía referencia a los parámetros del modelo de duración y la segunda hacía referencia únicamente al modelo que afecta al proceso de concentración de respuestas. Supongamos que f es la función de densidad de la duración para los individuos que no corresponden al periodo donde aparece el efecto concentración y que G es la función de distribución para la duración de los individuos con dicho efecto, entonces la verosimilitud del modelo de duración en este caso tendría la forma J I ut j ∏ [ f (t ,ϑ )(1 − G(t , γ ))]∏ ∫ f ( z,ϑ )G ( z, γ )dz i i i =1 j =1 l t j donde I es el número de observaciones que no corresponden al periodo de concentración y J es el número de observaciones que pertenecen a un periodo de concentración, de forma que I+J=N. Si definimos h(m) como los valores de la duración en donde se produce el efecto de concentración, los límites de la integral fueron definidos como puntos medios entre valores de concentración; es decir, l t j = 0 para la primera integral y l t j = h( m ) + h( m −1) / 2 para el resto. Para los límites superiores, [ ] [ ] tenemos u t j = h(m ) + h(m +1) / 2 para todas las integrales, a excepción de la última, cuyo límite superior de integración se define como u t j = ∞ . En el trabajo de Ryu, se obtiene una pseudo función de densidad basado en maximizar la entropía que descompone cada una de las observaciones que tenemos en dos partes, el valor verdadero de la duración y el valor distorsionado por el “efecto de concentración”. Concretamente, partiendo de una serie exponencial polinómica, consigue demostrar que, asumiendo que conocemos los momentos con respecto al origen de orden m, se puede estimar los parámetros que maximizan la entropía resolviendo la siguiente ecuación, cˆ = Bˆ −1 dˆ donde la matriz B̂ (JxJ) y el vector d̂ (Jx1) son definidos de la siguiente forma. Para un dominio compacto x ∈[0,1], Bˆ mn = − mn[µˆ m + n − µˆ m + n −1 ] para m, n = 1,...,J [ dˆ m = m(m + 1) µˆ m − m 2 µˆ m −1 donde µ̂ m = 1 n m ∑ xi n i =1 ] para m=1,...,J BIBLIOGRAFÍA.1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. Alba-Ramírez, A. y Alvarez-Llorente, G. (2001) “La actividad laboral de la mujer en el entorno del nacimiento de un hijo”. Documento de Trabajo de la Universidad Carlos III de Madrid nº 0104. Arranz, J. y Muro, J. (preliminar-2000), “¿Qué se puede hacer con una información que se obtiene de encuestas para analizar la duración de un suceso?”. Corrales, H. y Rodriguez, B. (2003) “Factores determinantes de la duración del primer desempleo tras la salido del sistema educativo”. V Jornadas de Economía Laboral, Reus. Dolado, J.J., Felgueroso, F. Y Jimeno, J.F. (2000) “Youth labour markets in Spain: Eduaction, training and crowding-out”. European Economic Review, 44, 943-956 Fan, J. and Gijbels, I. (1996) “Local polynomial modelling and its applications”. Chapman and Hall, London. Gonzalez-Betancor et al. (2004) “El primer periodo de desempleo de técnicos y técnicos superiores”. Revista de Economía Laboral 1, 1-37. Gray, R.J (1994) “A bayesian analysis of institutional effects in multicenter cancer clinical trial”. Biometrics, 50, 244-253 . Han, A. and Hausman, J.A. (1990) “Flexible parametric estimation of duration and competing risk models”. Journal of Applied Econometrics, 5, 1-28. Härdle, W. (1991) “Smoothing Techniques, with implementations in S”. Springer, New York. Magnac, T. y Visser, M. (1999) “Transition models with measurement errors”. The Review Economic and Statistics Vol. 81, nº 3 (pag. 466-474) Muñoz, L., Olave, P. y Salvador, M. (2002) “Selección de variables en el modelo de azar proporcional. Una aplicación al mercado laboral”. Estadística Española Vol 44, nº 150 (pag. 175-200). Olave, P. y Salvador, M. (2005) “Measuring the effect of training programmes on graduate unemployment in Aragon (Spain)”. Pre-print Owen, B. (1988) “Empirical Likelihood ratio confidence intervals for a single functional”. Biometrika, 75, 237-249. Owen, B. (1990) “Empirical Likelihood ratio confidence regions”. The Annals of Statistics 18, 90-120. Owen, B. (2001) “Empirical Likelihood”. Chapman & Hall. Pagan, A. and Ullah, A. (1999) “Nonparametric Econometrics”. Cambridge University Press, Cambridge, U.K. Poterba, J.M. y Summers, L.H. (1986) “Reporting errors and labor market dynamics”. Econometrica, 54 (6), 1319-1338. Ryu, H. and Slottje, D. (2000) “Estimating the density of unemployment duration based on contaminated samples or small samples”. Journal of Econometrics, 95, 131-156. Torelli, N., Trivellato, U. (1993) “Modelling inaccuracies in job-search duration data”. Journal of Econometric, 59, 187-211. Wand, M.P. and Jones, M.C. (1995) “Kernel Smoothing”, Chapman and Hall, Londres. Wolf, J. and Augustin, T. (2000) “Heaping and its consequences for duration analysis”. Preprint