ESTADÍSTICA ESPAÑOLA Vol. 53 Núm. 176, 2011, págs. 49 a 65 Una distribución útil para modelar el número de reclamaciones: la distribución Poisson-Lindley sobrevalorada en cero(*) por E. GÓMEZ-DÉNIZ Departamento Métodos Cuantitativos para la Economía y la Empresa, Universidad de Las Palmas de Gran Canarias. España A. HERNÁNDEZ-BASTIDA Departamento Métodos Cuantitativos para la Economía y la Empresa, Universidad de Granada. España y M.P. FERNÁNDEZ-SÁNCHEZ Departamento Métodos Cuantitativos para la Economía y la Empresa, Universidad de Granada. España (*) EGD y AHB agradecen al Ministerio de Educación y Ciencia (proyecto ECO-200914152) por la financiación parcial de este trabajo. Los autores agradecen las sugerencias de los evaluadores que han contribuido a mejorar el trabajo. 50 ESTADÍSTICA ESPAÑOLA RESUMEN En este trabajo se estudia la distribución Poisson-Lindley sobrevalorada en cero como una distribución adecuada para modelar la variable número de reclamaciones, obteniendo sus principales características. Además, se obtienen los estimadores por el método de los momentos y por el método de la máxima verosimilitud y se construye un test score para contrastar el ajuste a la distribución Poisson-Lindley versus la distribución Poisson-Lindley sobrevalorada en cero. Por último, se aplican los resultados obtenidos a datos reales sobre números de siniestros declarados. Palabras clave: distribución Poisson-Lindley sobrevalorada en cero; estimador de la máxima verosimilitud; estimador de momentos; test score. Clasificación AMS: 60E05 1. INTRODUCCIÓN En el modelado de la variable aleatoria número de reclamaciones una distribución históricamente considerada ha sido la distribución de Poisson (de aquí en adelante distribución P), ver por ejemplo Goovaerts y Kass (1991). No obstante, la presencia en los conjuntos de datos observados en la práctica del fenómeno conocido como sobredispersión, es decir, valor de la varianza superior al valor de la media, ha llevado a utilizar diversas distribuciones alternativas a la distribución de Poisson, como por ejemplo, las distribuciones mezcladas de Poisson, obtenidas combinando la distribución de Poisson con otras distribuciones. Para una revisión de estos modelos puede consultarse, entre otros, Cohen (1966), Willmot (1986), Grandell (1997), y más recientemente Karlis y Xekalaki (2005), Nadarajah y Kotz (2006a; 2006b) o Nikololoupoulos and Karlis (2008), entre otros. La distribución de Poisson-Lindley (de aquí en adelante distribución PL) es una de esas alternativas. La distribución PL es una distribución obtenida por una mixtura de la distribución de Poisson de parámetro λ, considerando que λ sigue una distribución de Lindley (de aquí en adelante distribución L), ver Lindley (1958), dada por UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 51 Fue introducida y estudiada por Sankaran (1970) y se define por la siguiente función de probabilidad Los valores de la media y de la varianza vienen dados, respectivamente, por siendo su función generatriz de momentos En Ghitany et al (2009) se desarrolla la estimación por el método de los momentos y por la máxima verosimilitud para el parámetro . La distribución PL truncada en cero dada por se analiza en Ghitany et al (2008). La distribución PL, reparametrizada para que el parámetro varíe entre 0 y 1, ha sido utilizada como distribución primaria en un Modelo Colectivo de Riesgo para determinar el valor de las Primas en Estadística actuarial (ver Hernández-Bastida et al (2011)). Una generalización biparamétrica de la distribución PL (que no consideramos en este trabajo) se desarrolla en Mahmoudi y Zakerzadeh (2010) a partir de la distribución de Lindley, generalizada también con dos parámetros, introducida por Zakerzadeh y Dolati (2010). En este trabajo se considera la distribución PL sobrevalorada en cero (de aquí en adelante distribución ZIPL) como una alternativa muy conveniente para el modelado del número de reclamaciones. El trabajo está organizado de la siguiente manera: en la sección 2 se desarrolla la distribución ZIPL y sus principales características. En la sección 3 se obtiene la estimación de los parámetros por el método de los momentos y por la máxima verosimilitud, y un test score para contrastar el ajuste a la distribución PL versus la distribución ZIPL. En la sección 4 se lleva a cabo una aplicación práctica de la distribución ZIPL para modelar el número de reclamaciones. La sección 5 recoge las principales conclusiones. 52 ESTADÍSTICA ESPAÑOLA 2. LA DISTRIBUCIÓN DE POISSON-LINDLEY SOBREVALORADA EN CERO (ZIPL) En las poblaciones de número de reclamaciones observadas en la práctica actuarial, además del fenómeno de la sobredispersión antes mencionado, se ponen de manifiesto otras peculiaridades como la denominada “sobrevaloración en cero” (si se observa una frecuencia del valor cero apreciablemente superior a la frecuencia teórica determinada con la distribución de Poisson) o la denominada “infravaloración en uno” (cuando se observa la desigualdad contraria para el valor uno). Puede consultarse el excelente catálogo de poblaciones de Álvaraz-Jareño y Muñiz-Rodríguez (2010), para estas afirmaciones. A continuación, se pone de manifiesto que la distribución PL presenta estas dos peculiaridades antes indicadas. La distribución PL asigna mayor probabilidad al valor 0 que la distribución P, y por tanto es más adecuada para recoger el fenómeno de la sobrevaloración en cero. Esto se comprueba sin más que considerar la función, que recoge la diferencia entre las probabilidades indicadas para una PL y una P de igual media. Dicha función es siempre no negativa, es monótona creciente hasta en donde alcanza un máximo que vale 0,165913, y a aproximadamente partir de ahí es monótona decreciente presentando una asíntota en el eje de abscisas. Para valores de la media no demasiado grandes, la distribución PL asigna menor probabilidad al valor 1 que la distribución P, resultando más idónea para recoger el fenómeno de la infravaloración en uno que la distribución de Poisson. Para justificar esta afirmación consideramos la siguiente función que compara, como antes, una PL y una P con la misma media, Esta función es monótona decreciente hasta =0,3327, en donde alcanza un mínimo que vale -0,0896357; a continuación es monótona creciente hasta =1,443, en donde alcanza un máximo que vale 0,108052, y a partir de ahí es monótona decreciente presentando una asíntota en el eje de abscisas. A partir de =0,64785, o lo que es lo mismo, para valores de la media común menores o iguales a 2,4803, lo que supone prácticamente todos los casos con datos reales, la función es positiva. UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 53 El gráfico siguiente ilustra los dos comentarios anteriores, Gráfico 1 0.15 0.10 0.10 0.05 0.05 2 4 6 8 10 0.05 2 4 6 8 10 De lo expuesto anteriormente se deduce que la distribución PL es una alternativa válida para el modelado que nos ocupa. A continuación se desarrolla la distribución ZIPL, que en muchos casos puede ser una alternativa más conveniente que la distribución PL para modelar el número de reclamaciones. La distribución ZIPL, como cualquier distribución sobrevalorada en cero, puede escribirse de diversas formas que son equivalentes. En concreto, una variable aleatoria X que toma valores en los números enteros no negativos se dice que sigue una distribución ZIPL si su función de probabilidad es, donde Si en la función anterior se hace el cambio Cohen (1966), se obtiene la siguiente expresión, donde - - , propuesto por 54 ESTADÍSTICA ESPAÑOLA Finalmente si en la función anterior se hace el cambio v= ; propuesto por Gupta et al (2004), se obtiene la siguiente expresión, donde Cada una de las tres expresiones anteriores presenta ventajas e inconvenientes. porque el estimador En este trabajo consideraremos la primera de ellas de la máxima verosimilitud de φ adopta una expresión cerrada y más sencilla que en las otras formulaciones. Se puede comprobar que no tiene asíntotas verticales y presenta una asíntota horizontal en el eje de abscisas. Los gráficos siguientes recogen 4 situaciones caracterizadas por un valor de . En cada una de ellas se recogen varios casos del parámetro φ en los que es . Las diversas curvas de cada situación siempre estrictamente mayor que están ordenadas y son fácilmente identificables observando su valor en 0. El más pequeño corresponde a y a continuación aparecen en orden decreciente . en φ las funciones Gráfico 2 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 55 Gráfico 3 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 Diversas características de la distribución ZIPL se obtienen directamente de las correspondientes características de la distribución PL. Así, la función generatriz de momentos es igual a, El valor de la esperanza viene dado por, y el valor de la varianza es, 56 ESTADÍSTICA ESPAÑOLA 3. ESTIMACIÓN DE LOS PARÁMETROS DE LA DISTRIBUCIÓN ZIPL Y CONSTRUCCIÓN DE UN TEST SCORE 3.1 Estimación de los parámetros y tos y por la máxima verosimilitud por el método de los momen- Notamos con , a las magnitudes muestrales media, varianza y momento no central de orden dos, respectivamente. Del sistema, se obtiene, despejando en la primera ecuación, que y, sustituyen- do en la segunda ecuación, se llega a . El discrimi- nante de la ecuación es , y siempre es positivo porque ; por tanto, la ecuación tiene dos soluciones, una de las cuales es fácil comprobar que es negativa y por eso la descartamos. En definitiva, los estimadores por el método de los momentos vienen dados por, Para obtener los estimadores de la máxima verosimilitud se considera una muescon frecuencias donde tra aleatoria La función de verosimilitud viene dada por, UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 57 El logaritmo de la función de verosimilitud es, Las derivadas parciales del logaritmo de la verosimilitud son, De la ecuación se deduce que el estimador de la máxima verosimilitud de , que claramente es único, viene dado por, El estimador de la máxima verosimilitud de , que notaremos , será la única raíz positiva de la ecuación . Para comprobar que es único, consideramos por una parte la función y por otra, la función Con un poco de álgebra se puede comprobar que las dos funciones anteriores, para , existen; son positivas; continuas; monótonas decrecientes; no presentan tiende a máximos ni mínimos porque las derivadas no se anulan nunca; cuando cero divergen a infinito, y cuando diverge a infinito las funciones convergen a cero. Por tanto, las funciones se cruzan en a lo sumo un punto. Que se cruzan en al suficientemente pequeños menos un punto se deduce de que para valores de y para valores de suficientemente grandes se da la desigualdad contraria, es decir, . 58 ESTADÍSTICA ESPAÑOLA 3.2 Test score para contrastar el ajuste a la distribución PL versus distribución ZIPL La metodología para el desarrollo de un test score para el contraste indicado es conocida (ver Gupta et al (2004)) y brevemente la describimos a continuación para el logaritmo de la función de verosimilitud un parámetro k-dimensional. Sea basada en una muestra de tamaño n de una distribución con función de densidad donde ' es un vector de parámetros desconocidos que toma valores en . Se denomina vector score al vector de componentes , , que son las siguientes derivadas parciales Notamos por a la matriz de información de Fisher que tienes de componentes Bajo amplias condiciones, tiene una distribución asintóticamente normal con vector de medias y matriz de covarianzas I(θ). Entonces, el estadístico tiene asintóticamente una distribución chi-cuadrado con k grados de libertad, y puede usarse para contrastar la hipótesis . Como estamos interesados en un contraste sobre un subconjunto de los , el vector donde es un vector de dimenpuede dividirse de la siguiente forma sión y es un vector de dimensión . A continuación, se dividen de la siguiente forma: ; Para dado, sea obtenido maximizado ; - el estimador de la máxima verosimilitud de . Entonces, con el estadístico tiene asintóticamente una distribución chi-cuadrado con p grados de libertad, que puede . usarse para contrastar la hipótesis A continuación se determinan las magnitudes pertinentes para el caso que nos ocupa. Para determinar la matriz de información de Fisher se calculan las derivadas de segundo orden del logaritmo de la verosimilitud que son, UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... ; En definitiva, si notamos a la matriz de Fisher con y a su inversa con donde es el cofactor de , se obtiene, ; Para determinar se tiene por una parte que, y por otra, operando, 59 60 ESTADÍSTICA ESPAÑOLA Como este último sumatorio es igual a la función Hurwitz Lerch trascendente (de aquí en adelante función HLP) (ver http://functions.wolfram.com/10.06.02.001.01), se obtiene, Además, esta función HLP puede escribirse en términos de la función hipergeométrica de Gauss (ver http://functions.wolfram.com/07.23.02.0001.01), con lo que el término es igual a, Finalmente, el siguiente estadístico sigue una distribución UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 61 Este estadístico permite realizar el siguiente contraste: - 4. APLICACIÓN DE LA DISTRIBUCIÓN ZIPL AL MODELADO DEL NÚMERO DE RECLAMACIONES En este apartado se lleva a cabo una aplicación práctica de la distribución ZIPL para modelar el número de siniestros de 15 carteras de responsabilidad civil de automóviles. Las carteras han sido extraídas, íntegramente, del trabajo de ÁlvarezJareño y Muñiz-Rodríguez (2010), en el que presentan y analizan una serie de anomalías muestrales de estas carteras, fijándose en la sobredispersión y redefiniendo los parámetros de las distribuciones más usuales de probabilidad para estudiar el número de reclamaciones en función de dicha característica. Las carteras se nombran de la misma forma que en el artículo citado, con C1 a C15. Todas ellas presentan datos sobre el número de pólizas en los que se han declarado desde 0 hasta un máximo de 8 siniestros o más. El análisis se centra, no en comparar el ajuste de todas las posibles distribuciones que se pueden aplicar a este tipo de datos (lo cual haría inviable el estudio), sino en comprobar si, tal y como se ha argumentado desde el principio, dadas las características muestrales de los datos observados, la distribución ZIPL es una distribución adecuada, y más idónea que la distribución PL para el modelar dichos datos, utilizando el test score construido para esta finalidad. Así la siguiente tabla recoge, para todas las carteras: − La media y varianzas muestrales. − La estimación por el método de los momentos de los parámetros del modelo. − La estimación por el método de la máxima verosimilitud, de los parámetros del modelo. − La media y varianza de la distribución ZIPL ajustada utilizando los estimadores de la máxima verosimilitud . − El valor del estadístico T, que permite contrastar la distribución PL versus la distribución ZIPL. 62 ESTADÍSTICA ESPAÑOLA Tabla 1 Datos muestrales Estimación por el método de los momentos Estimación por la máxima verosimilitud Características de la ZIPL ajustada con E.M.V. Estadístico Media Varianza T 0,1713 4,6108 0,1672 4,1376 0,2142 0,2753 72,005 0,1768 0,1276 7,2893 0,1251 6,3991 0,1470 0,1700 7,2037 0,1551 0,1793 0,1347 7,3248 0,1342 7,1357 0,1551 0,1780 3,7932 C4 0,1317 0,1385 0,1207 11,7113 0,1207 11,6956 0,1317 0,1385 5133,42 C5 0,1011 0,1074 0,0934 13,0031 0,0934 13,052 0,1011 0,1074 388,633 C6 0,1782 0,1974 0,1559 7,7137 0,1558 7,6956 0,1782 0,1975 6688,58 C7 0,1057 0,1149 0,0964 11,178 0,0967 11,5391 0,1057 0,1142 89,10 C8 0,1036 0,1115 0,0951 11,493 0,0951 12,0301 0,1036 0,1113 255,69 C9 0,1255 0,1300 0,1161 13,2129 0,1161 13,193 0,1255 0,1300 10319,80 C10 0,2308 0,3378 0,1711 3,4136 0,1795 4,1073 0,2306 0,3081 2217,49 C11 0,0789 0,0847 0,0732 13,8743 0,0733 14,1327 0,0789 0,0844 353,05 C12 0,0692 0,0762 0,0638 12,5093 0,0638 12,509 0,0692 0,0762 1991,75 C13 0,1034 0,1175 0,0923 9,1057 0,0927 9,4133 0,1034 0,1166 775,37 C14 0,0890 0,0983 0,0810 11,0730 0,0812 11,205 0,0890 0,0981 264,46 C15 0,0790 0,0867 0,0725 12,1081 0,0726 12,273 0,0790 0,0865 375,19 Media muestral Varianza muestral C1 0,2143 0,2889 C2 0,1470 C3 Tal y como se observa en la tabla, todas las carteras consideradas muestran sobredispersión, al ser mayores los valores obtenidos para la varianza que para la media. En todas las carteras consideradas el valor del estadístico muestral es superior al valor teórico de la distribución 2 con un grado de libertad, y por tanto, se rechaza la hipótesis nula de que los datos procedan de una distribución PL, aceptando la hipótesis alternativa, es decir, que los datos proceden de una distribución ZIPL. Además, esto ocurre sea cual sea el nivel de significación considerado. UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... 63 5. CONCLUSIONES En las poblaciones de número de reclamaciones observadas en la práctica actuarial, es usual encontrar que los valores de la varianza son mayores que la media, fenómeno conocido como sobredispersión, así como otras peculiaridades tales como la sobrevaloración en cero o la infravaloración en uno (ver Álvarez-Jareño y Muñiz-Rodríguez (2010)). Todas estas características muestrales han llevado a buscar otras alternativas a la distribución de Poisson, que es la que históricamente se ha utilizado para modelar la variable número de reclamaciones. Una de esas alternativas son las distribuciones mezcladas de Poisson, entre las que se encuentra la distribución Poisson-Lindley (distribución PL). En este trabajo se presenta la distribución Poisson-Lindley sobrevalorada en cero (distribución ZIPL) como una distribución útil para modelar este tipo de variables y se desarrollan sus principales características. Además, para un conjunto de 15 carteras de datos de siniestros de automóviles, se obtienen los estimadores de los parámetros del modelo por el método de los momentos y por el de la máxima verosimilitud, y se construye un test score para contrastar el ajuste a la distribución PL versus distribución ZIPL. Los resultados ponen de manifiesto que, en todas las carteras, la distribución ZIPL es más adecuada para modelar este tipo de datos que la distribución PL. REFERENCIAS ÁLVAREZ-JAREÑO, J.A. Y MUÑIZ-RODRÍGUEZ, P. (2010), «Reparametrización de las principales distribuciones de probabilidad en el estudio del número de siniestros debido a las anomalías muestrales en las carteras del seguro de responsabilidad civil de automóviles. Determinación del índice de dispersión», Anales de Instituto de Actuarios Españoles, 16, 1-24. COHEN, A.C. (1966),«A note on certain discrete mixed distributions», Biometrics, 22, 2, 566-572. GHITANY, M.E. ; AL-MUTAIRI, D.K. AND NADARAJAH, S. (2008), «Zero-truncated Poisson-Lindley distribution and its applications», Mathematics and Computers in Simulation, 79, 279-287. GHITANY, M.E. ; AL-MUTAIRI, D.K. (2009), «Estimation methods for the discrete Poisson-Lindley distribution», Journal of Statistical Computation and Simulation, 79, 1-9. GOOVAERTS, M.J. Y KASS, R. (1991), «Evaluating compound generalized Poisson distributions recursively», Astin Bulletin,, 21, 193-197. 64 ESTADÍSTICA ESPAÑOLA GRANDELL, J. (1997), «Mixed Poisson Processes», New York, Chapman and Hall. GUPTA, P. L.; GUPTA, R.C. Y TRIPATHI, R.C. (2004), «Score Test for Zero Inflated Generalized Poisson Regression Model», Communications in Statistics: Theory and Methods, 33, 1, 47-64. HERNÁNDEZ-BASTIDA, A.; FERNÁNDEZ-SÁNCHEZ, M.P. Y GÓMEZ-DÉNIZ, E. (2011) «Collective Risk model: Poisson-Lindley and exponential distributions for Bayes premiums and operational risk», Journal of Statistical Computation and Simulation, 81, 6, 759-778. KARLIS, D. Y XEKALAKI, E. (2005), «Mixed Poisson distributions», International Statistical Review, 73, 35-58. LINDLEY, D.V. (1958), «Fiducial Distributions and Bayes’s Theorem». Journal of the Royal Stat. Soc. Series B, 1; 102-107. MAHMOUDI, E. Y ZAKERZADEH, H. (2010), «Generalized Poisson-Lindley distribution», Communications in Statistics: Theory and Methods, 39, 1785-1798. NADARAJAH, S. Y KOTZ, S. (2006A), «Compound mixed Poisson distributions I», SCANdinavian Actuarial Journal, 3, 41-162. NADARAJAH, S. Y KOTZ, S. (2006B), «Compound mixed Poisson distributions I», Scandinavian Actuarial Journal, 3, 163-181. NIKOLOULOPOULOS, A.K. Y KARLIS, D. (2008), «On modeling count data: a comparison of some well known discrete distributions», Journal of Statistical Computation and Simulation, 78, 3, 437-457. SANKARAN, M. (1970), «The Discrete Poisson-Lindley Distribution». Biometrics, 26, 1, 145-149. WILLMOT, G. (1986), «Mixed compound Poisson distributions», Astin Bulletin, 16, 59-79. ZAKERZADEH, H. Y DOLATI, A. (2010), «Generalized Lindley distribution», Journal of Mathematical Extension, in press. UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES... A USEFUL DISTRIBUTION FOR MODELING THE NUMBER OF CLAIMS: THE ZERO INFLATED POISSON-LINDLEY DISTRIBUTION ABSTRACT This paper studies the zero inflated Poisson-Lindley distribution as an adequate distribution for modeling the variable number of claims, obtaining its main characteristics. Furthermore, the method of moments and maximum likekihood estimators are obtained and a test score is developed to compare between the Poisson-Lindley and the zero inflated Poisson-Lindley distribution. Finally, the results obtained are applied to real data about declared automobile claims. Keywords: zero inflated Poisson-Linley distribution; maximum likelihood estimator; moments estimator; test score. AMS Classification: 60E05 65