Un Modelo Bayesiano para el Cálculo de Reservas de Siniestros

Anuncio
Un Modelo Bayesiano para el Cálculo de
Reservas de Siniestros Ocurridos y No
Reportados
Trabajo presentado para el III Premio de Investigación sobre
Seguros y Fianzas, 1996.
Lic. Miguel A. Juárez Hermosillo
III
Premio de Investigación sobre
Seguros y Fianzas 1996
Tercer Lugar
ÍNDICE
Página
Reseña .................................................................................................................
1
Introducción.........................................................................................................
2
Capitulo 1: Antecedentes.
I.1: Siniestros Ocurridos Pero No Reportados....................................................... 5
I.2: Métodos No - Estocásticos .......................................................................... 6
I.2.1: Método Chain Ladder..................................................................... 6
I.2.1.1: Variantes del Método Chain Ladder .................................... 9
I.2.2: Método de Crecimiento .................................................................. 10
I.2.3: Método de la Razón ....................................................................... 11
I.2.4: Método de Separación ................................................................... 11
I.2.4.1: Separación Aritmética ...................................................... 12
I.2.4.2: Separación Geométrica .................................................... 13
I.2.5: Método de Mínimos Cuadrados de de Vylder ..................................... 13
I.3: Métodos Estocásticos ................................................................................. 14
I.3.1: El Modelo de Regresión .................................................................. 14
I.3.2: Método de Credibilidad de de Vylder.- .............................................. 16
I.3.3: Método de Mack............................................................................ 18
Capitulo II: El Modelo Bayesiano
II.1: Inferencia Bayesiana ................................................................................ 20
II.2: Modelo Bayesiano para SOPNR ................................................................... 25
II.2.1: El Proceso Discreto ...................................................................... 25
II.2.2: El Proceso Continuo .................................................................... 27
Capitulo III: Aplicaciones
III.1: Ejemplo del Seguro de Automóvil .............................................................. 31
III.2: Ejemplo del Seguro de Gastos Médicos Mayores .......................................... 35
III.3: Relajamiento de Supuestos....................................................................... 41
Conclusiones ......................................................................................................... 45
Bibliografía............................................................................................................ 47
Reseña
Por lo general las compañías de seguros en nuestro país, como instituciones financieras, cierran un
periodo contable cada año por lo que, al término de este periodo, tendrán que presentar sus
informes contables a sus inversionistas y a las autoridades correspondientes. En uno de tales
informes, el estado de resultados técnico, uno de los rubros que constituyen el renglón de
pasivos es el de la reserva. Esto quiere decir que para cada periodo contable la compañía de
seguros tendrá que tener una estimación precisa de las reservas para no incurrir en errores en su
resultado técnico y tener una clara idea de la magnitud de sus pasivos, de lo contrario podría
incurrir en la sobreestimación o subestimación de su resultado que pudiera tener impacto en la
tarificación y eventualmente acarrear problemas de solvencia.
Las reservas técnicas de una compañía de seguros pueden ser catalogadas en seis rubros, a saber:
Reserva de Primas no Devengadas, Reserva de Riesgos en Curso, Reserva de Obligaciones
Pendiente de Cumplir por Siniestros Ocurridos, Reserva de Siniestros Ocurridos y No
Reportados, Reserva Catastrófica y Reserva de Previsión. Cada una de éstas cumple un papel
distinto dentro de los pasivos de la compañía.
Existen ocasiones en que, o bien los siniestros no son reportados en el mismo periodo de su
ocurrencia, o al término del periodo no han sido totalmente cubiertos. Estos siniestros son
conocidos como Siniestros Ocurridos Pero No Reportados (SOPNR). Estas demoras pueden ser
causadas tanto por la naturaleza del siniestro, procesos legales, así como por cuestiones
administrativas.
Este tipo de siniestros se pueden a su vez subdividir en Siniestros Ocurridos Pero Aún No Reportados
(SOPANR), que son tos siniestros que ya han ocurrido pero que la compañía todavía desconoce y
los Siniestros Ocurridos Pero No Totalmente Reportados (SOPNTR), que son de los que la
compañía ya tiene conocimiento pero que no se han cubierto totalmente. Un ejemplo del primero
puede ser el fallecimiento de un asegurado que por alguna causa no se ha reclamado, el segundo
tipo lo podríamos ejemplificar con una cobertura de gastos médicos mayores, en la que se tiene
conocimiento del evento pero no de cuándo se terminará de cubrir.
Para tratar con el problema de crear provisiones para este tipo de siniestros se han
desarrollado una gran cantidad de métodos, algunos con buen fundamento teórico. La
desventaja que estos métodos conllevan es la necesidad de una cantidad importante de
información histórica, no siempre disponible.
El presente trabajo presenta un modelo bayesiano para estimar reservas tanto para SOPANR
como para SOPNTR; el cual necesita de poca información pasada y es capaz de producir la
distribución completa del pronóstico, dando mayores herramientas para la estimación de la
reserva.
1
Introducción
El Seguro es un contrato mediante el cual el poseedor de algún bien, capaz de ser valuado en
términos económicos, transfiere el riesgo que éste pudiera tener, mediante el pago de una
prima, a una institución -compañía de seguros-. Esta asume la responsabilidad de resarcir el
daño o una parte de él, con un pago monetario, dada la ocurrencia de algún evento determinado
dentro de un plazo especificado en el contrato.
Dado que la prima está basada en un principio de mutualidad, es decir que varias personas que
poseen bienes semejantes participan en el pago de ésta de modo que el riesgo que tuviera cada uno
de estos bienes se "reparta" entre todos los participantes, es necesario que su determinación
sea lo más exacta posible.
Entre los factores principales en la determinación de una prima se encuentran la posibilidad de que
el siniestro ocurra y el impacto económico que éste acarrearía. Estos dos factores juntos es lo que
se conoce en el medio asegurador como siniestralidad. Así, la compañía de seguros reserva una
parte de la prima para hacer frente a los probables siniestros basada en la siniestralidad que pueda
tener un grupo de bienes en particular. De este modo la tarificación de primas esta directamente
ligada tanto a la siniestralidad como a la correcta estimación de las reservas correspondientes. Este
punto, la correcta tarificación de las primas, es por demás importante para una compañía de
seguros puesto que de ella depende tanto la salud financiera de la institución como el puntual
cumplimiento de las obligaciones contraídas con los asegurados.
Por lo general las compañías de seguros en nuestro país, cierran un periodo contable cada ano
por lo que, al término de este periodo, tendrán que presentar sus informes contables a sus
inversionistas y a las autoridades correspondientes. En uno de tales informes, el estado de
resultados técnico, uno de los rubros que constituyen el renglón de pasivos es el del incremento
en la reserva. Esto quiere decir que para cada periodo contable la compañía de seguros tendrá
que tener una estimación precisa de las reservas para no incurrir en errores en su resultado
técnico y tener una clara idea de la magnitud de sus pasivos, de lo contrario podría incurrir en
la sobreestimación o subestimación de su resultado que pudiera tener impacto en la tarificación
y eventualmente acarrear problemas de solvencia.
Las reservas técnicas de una compañía de seguros pueden ser catalogadas en seis rubros, a
saber: Reserva de Primas no Devengadas, Reserva de Riesgos en Curso, Reserva de
Obligaciones Pendiente de Cumplir por Siniestros Ocurridos, Reserva de Siniestros Ocurridos y
No Reportados, Reserva Catastrófica y Reserva de Previsión. Cada una de estas cumple un
papel distinto dentro de los pasivos de la compañía. A lo largo de esta tesis, cada vez que
hablemos de reservas, nos estaremos refiriendo a la de Sinistros Ocurridos y No Reportados.
Existen ocasiones en que, o bien los siniestros no son reportados en el mismo periodo
de su ocurrencia, o al termino del periodo no han sido totalmente cubiertos. Estos
siniestros son conocidos como siniestros Ocurridos Pero No Reportados (SOPNR). Estas
demoras pueden ser causadas tanto por la naturaleza del siniestro, procesos legales,
así como por cuestiones administrativas.
Reportados (SOPNR). Estas demoras pueden ser causadas tanto por la naturaleza del
siniestro, procesos legales, así corno por cuestiones administrativas.
2
Este tipo de siniestros se pueden a su vez subdividir en Siniestros Ocurridos Pero Aún No
Reportados (SOPANR), que son los siniestros que ya han ocurrido pero que la compañía todavía
desconoce y los Siniestros Ocurridos Pero No Totalmente Reportados (SOPNTR), que son de los
que la compañía ya tiene conocimiento pero que no se han cubierto totalmente. Un ejemplo del
primero puede ser el fallecimiento de un asegurado que por alguna causa no se ha reclamado el
segundo tipo lo podríamos ejemplificar con una cobertura de gastos médicos mayores, en la que
se tiene conocimiento del evento pero no de cuando se terminará de cubrir.
Los pasivos para este tipo de eventos deben de ser constituidos con las primas de ese
periodo en particular pero si estos eventos no han sido tomados en cuenta para la
constitución de reservas en su periodo de ocurrencia, es probable que la compañía
tenga que hacer uso de otro tipo de reservas con el fin de pagarlos y tal vez enfrente
problemas de solvencia.
Como resultado de la incertidumbre acerca del momento en que una compañía de
seguros deberá hacer frente a estas responsabilidades se han creado varios tipos de
reserva, entre ellas la de Obligaciones Pendientes de Cumplir, dentro de la cual se
encuentra la de Siniestros Ocurridos Pero No Reportados. No obstante que desde 1981 la
ley en materia de seguros tenía contemplada la constitución de esta reserva, hasta hace
poco no existía un reglamento para su constitución, dado que comúnmente se pensaba
que su función estaba cubierta por la Reserva de Previsión, sin embargo es conveniente
señalar que el fin de esta reserva es el de cubrir posibles desviaciones en la
siniestralidad y al estar usándola para pagar siniestros ocurridos y no reportados,
precisamente se esta incurriendo en una sub-estimación de la siniestralidad, que puede,
como ya se menciono arriba, desembocar en una tarificación incorrecta y por ende en
una falta de solvencia.
No obstante que la Comisión Nacional de Seguros y Fianzas ha creado, para algunos
ramos, un formato en el cual las compañías de seguros reportan trimestralmente el
desarrollo de los siniestros, tomando en cuenta el año y trimestre en el que ocurrió el
siniestro y el desarrollo de los pagos efectuados a causa de este, con el fin de reunir
estadísticas suficientes para la implementación de metodologías capaces de estimar las
reservas necesarias, algunas de estas necesitan de una cantidad considerable de
información pasada. Así, es conveniente la construcción de una herramienta capaz de
cumplir esta función que, utilizando un mínimo de información, estime la reserva
necesaria lo más exactamente posible.
Aunque existe una variada gama de métodos para calcular los SOPNR, las técnicas
descritas en este documento son relativamente nuevas y han sido desarrollados bajo
distintos enfoques. La manera en que el presente documento visualiza el problema de
estimar los SOPNR tiene que ver con la forma en que se presenta comúnmente, el
triangulo de desarrollo, que veremos mas adelante. Esta representación sugiere que,
para cada periodo en que se originan los siniestros, tenemos información acerca de los
reportes parciales que de estos se han hecho en los distintos periodos de desarrollo; así
podemos pensar que el problema se puede parafrasear diciendo que hay que pronosticar la
demanda total para un periodo de ocurrencia teniendo como información las demandas parciales
en los distintos periodos de desarrollo.
Lo anterior es el motivo principal por el cual la presente tesis propone un modelo de pronóstico con
el fin de estimar finalmente la reserva. El enfoque bayesiano del modelo que estudiaremos aquí
3
permite, a diferencia de muchos de los métodos desarrollados hasta ahora, obtener la distribución
completa de la variable involucrada en el pronóstico y de esta manera ser capaces de dar tanto
estimaciones puntuales corno por intervalo.
Bajo este esquema, la presente tesis se dividirá en cuatro capítulos. En el primero se presentará una
breve sinopsis de los métodos desarrollados hasta ahora, en el segundo se presentará el modelo
propuesto y los supuestos que involucra. El tercer capitulo contiene la aplicación del modelo
propuesto y la comparación de los resultados arrojados por él con los obtenidos con otros
modelos. Las conclusiones que se obtengan después de este análisis se recopilaran en el último
capitulo.
4
CAPÍTULO I
1.1
Siniestros Ocurridos y No Reportados.
La metodología para tratar estos siniestros es relativamente nueva, de hecho la primera idea de la
representación más común de ellos (el triangulo de desarrollo) y el primer método fueron
desarrollados por Verbeek (1972). pero a pesar de esta “novedad” se han producido una gran
cantidad de métodos para enfrentar el problema.
Para el análisis de los SOPNR la información disponible generalmente se presenta en el llamado
triangulo de desarrollo (Tabla 1.1) que representa el desarrollo del reporte de los siniestros para los
distintos años de ocurrencia, así utilizaremos para representar los siniestros acumulados ocurridos en
el periodo i y reportados j periodos después y a Yij para los siniestros no acumulados, es decir que:
Por lo general la literatura al respecto toma estos periodos anuales, pero no existe ninguna diferencia
esencial si estos son meses, trimestres o semestres, etc. y no necesariamente tiene que coincidir la
periodicidad en los renglones y en las columnas.
A pesar de la relativa novedad en el tratamiento de los Siniestros Ocurridos Pero No Reportados
se han desarrollado una buena cantidad de métodos, unos más sofisticados que otros, para
tratar de estimar la reserva correspondiente. Para presentarlos en esta tesis utilizaremos la
división mas conocida, propuesta originalmente por Taylor (1986), que separa estos métodos
en Estocásticos y No- Estocásticos. El primer grupo engloba aquellos métodos que utilizan algún
supuesto probabilístico en el transcurso de la estimación de la reserva, el otro grupo,
obviamente, engloba a los métodos que no lo hacen. Aún a pesar de esta diferenciación existen
algunos métodos no-estocásticos que se les puede dar una interpretación estadística. La gran
mayoría de los métodos desarrollados hasta ahora toman en cuenta variables explicativas tales
como: volumen de expuestos por año de origen, tiempo de desarrollo, alguna medida de riesgo
como el tamaño promedio de las reclamaciones, tiempo en que se finiquitan los siniestros y el
crecimiento en el monto de los siniestros, causado probablemente por la inflación, la cual se
puede tomar ya sea como variable exógena o endógena.
Es importante hacer notar que la gran mayoría de estos métodos están enfocados a estimar el
total de siniestros acumulados para algún o algunos años de ocurrencia dado que, a partir de la
determinación de este monto, solo es necesario restarle el total de siniestros reportados hasta
ese momento para obtener la reserva de siniestros ocurridos y no reportados.
La gran diferencia en los resultados que se obtienen a partir de métodos para los dos grupos es
la de obtener, por un lado, solo una estimación puntual, sin que se nos ofrezca alguna idea del
posible error cometido al hacerlo; en cambio, la introducción de técnicas estadísticas en el
calculo de la reserva necesaria nos permite estimar el error cometido y en algunos casos de
hecho conocer la distribución entera de nuestro estimador.
Es importante hacer notar que aún a pesar de esta información adicional que nos ofrecen algunos
métodos estocásticos, en nuestro país todavía su uso no es una práctica generalizada, tal vez por la
complejidad en el tratamiento de los datos que los métodos con un grado mayor de sofisticación
presentan o por la necesidad de una cantidad considerable de información que dichos métodos
5
necesitan. Asi, la presente tesis trata de introducir un método que ofrezca la mayor cantidad de
información posible con respecto a la estimación de la reserva y a la vez su cálculo sea sencillo, rápido
y requiera la menor cantidad de información.
A continuación se presenta una breve recopilación de los métodos, tanto estocásticos como noestocásticos, con mayor difusión en el cálculo de las reservas para Siniestros Ocurridos Pero No
Reportados.
1.2
Métodos No-Estocásticos
Como se mencionó anteriormente, estos métodos no utilizan explícitamente ningún supuesto
probabilístico para el cálculo de la reserva, sin embargo, por la relativa, facilidad en su aplicación,
son bastante utilizados por las compañías de seguros y reaseguradoras tanto en nuestro país
como en el extranjero.
1.2.1 Método Chain-Ladder
En general el método Chain-Ladder utiliza un factor para "suavizar" los datos y con base en estos
datos suavizados realizar interpolaciones para estimar los siniestros agregados para cada año
de ocurrencia y posteriormente la reserva correspondiente.
El supuesto básico de este método es que las columnas en el triángulo de desarrollo son
proporcionales, es decir que, independientemente del año de origen, cada periodo de desarrollo." se
6
reporta una proporción constante de siniestros con respecto al total, que depende únicamente de j.
La sustentación del supuesto depende en buena medida, tanto del tipo de negocio que se trate,
Como de la homogeneidad y tamaño de la cartera. En particular, en negocios como vida
individual, gastos médicos, responsabilidad civil, etc., la evolución del reporte de los siniestros
es estacional.
El factor de proporcionalidad entre la columna s y la s+1 esta dado por:
También se define
como la proporción de los reclamos realizados durante los primeros t
años con respecto al total e independiente del año de origen. De esta manera el triangulo de
desarrollo puede ser completado a un rectángulo haciendo:
donde se supone que
, m, el monto total acumulado de siniestros reportados para el
año 1, es de alguna manera conocido o que t es lo suficientemente grande come, para que
o,
en
última
instancia,
se
da
un
margen
de
seguridad,
por
ejemplo
, con el cual se ajustan por este factor los siniestros del triangulo, con el fin
de representar el desarrollo completo del proceso. Este margen, aunque aquí es arbitrario,
debe de ser cuidadosamente determinado para que el método sea confiable.
Finalmente el método completa el rectángulo de desarrollo con los valores extrapolados.
Varios refinamientos a este método han sido propuestos pero la técnica permanece
esencialmente igual, o sea, el supuesto principal sigue siendo el mismo y habrá que constatar
su validez para cada caso.
En seguida se presentan algunas de las variaciones propuestas, que son calculadas a partir de
un nuevo triángulo de desarrollo, que se obtiene al calcular
Donde
el año de ocurrencia
se obtiene de la suma de los siniestros promedio
para
para
y los periodos de desarrollo
(Tabla 1.2), con e=número de expuestos en ese periodo. De hecho, estos valores pueden ser
considerados como la siniestralidad acumulada para cada año de ocurrencia
y periodo de
7
desarrollo
1
Como se hizo en el método original aquí también se supone que los cocientes
se mantienen constantes para cada periodo de desarrollo
Aunque este supuesto fuera teóricamente real teóricamente real, los datos muy probablemente
no producirían esta mima proporción para cada año de desarrollo. Así, el problema de estimar las
D's, X's , ó Y's puede ser tratado por una variedad de métodos; en particular Van Eeghen (1981)
describe los siguientes:
1
Algunos autores dividen los siniestros acumulados por las primas de los contratos expuestos en el periodo
correspondiente para obtener las
. En el primer caso obtendremos un monto promedio de siniestros en el
segundo la siniestralidad. También es conveniente notar que, como la sima se realice sobre los periodos de
.
desarrollo, estas cantidades se anulan al hacer la división para obtener las
8
I.2.1.1 Variantes del Método Chain Ladder
I.- Se supone que existe una tendencia lineal dentro de las columnas del triangulo modificado
(Tabla 1.2), así que se ajusta una línea de mínimos cuadrados en cada columna, excepto para
las últimas dos, donde se toman los promedios de los valores correspondientes. Es decir
que serán las estimaciones de los factores de crecimiento para
estos dos periodos de desarrollo, para las otras columnas el resultado es idéntico al método
original dado que el modelo es
y al ajustar la línea de mínimos cuadrados
obtenemos que
II.-Esta variación considera un promedio ponderado de las
, digamos
donde las w’s son ponderaciones que sirven para dar mayor peso a algunos
años de origen y/o periodos de desarrollo en particular, concretamente, si hacemos
replicamos exactamente el método original de Chain-Ladder. La solución de
esta variante es análoga a la de Chain-Ladder original, expuesta anteriormente.
III.- Esta vez se ajusta una curva exponencial a cada columna del triángulo original de la
donde Kβ y δβ , son
siguiente forma
constantes a ser determinadas para cada periodo de desarrollo. Lo que este modelo sugiere es
la introducción de un factor de inflación, δβ, para cada año de desarrollo. Esto se pude resolver
como un modelo lineal tomando logaritmos en cada una de las columnas, excepto la última
donde solo se toma
con el fin de obtener un modelo lineal. Una vez que las
ajustan los siniestros a costos actuales haciendo
modificación anterior
son obtenidas se
y transformando los valores
para posteriormente tomar los promedios ponderados, como en la
que se suponen otra vez constantes para cada columna. De esta
manera se es capaz de resolver el problema igual que en el método original y calcular la
reserva correspondiente.
9
IV.- Esta variante torna en cuenta que en el método anterior, después de haber calculado las
con
= 1; sea possible dar un peso distinto a cada año de origen, haciendo los factores
haciendo los factores
donde es posible dar pesos distintos al crecimiento -1. e. inflación- de algunos periodos en
particular; resolviéndolo finalmente como el anterior, va que se tienen las
V.- Es la misma idea que el método IV pero ahora se ajusta una curva exponencial a las
columnas del triángulo de desarrollo d- I, que es el triángulo-d menos uno de cada entrada2.
con
y como podemos ver, si se utilizan
El modelo es
los métodos III y IV encontraremos las estimaciones necesarias para calcular los factores de
siniestralidad que multiplicaremos por los siniestros acumulados para encontrar la reserva
correspondiente, es decir
VI.- De nuevo se repite el método IV pero los valores son calculados a partir de las cifras en el
triángulo que contiene los siniestros originales, es decir
y la estimación del total de siniestros será
I.2.2 Método de Crecimiento
En este método se utiliza el triángulo de desarrollo de los siniestros acumulados, obteniendo la
proporción acumulada de siniestros para cada periodo de desarrollo con respecto al total
reportado, para cada año de origen. Así se genera un nuevo triángulo con el valor
con
.
A continuación se incluye el supuesto que de alguna manera se conoce la proporción y de
siniestros que se han reportado hasta el momento, así se multiplica el primer renglón del
triángulo por este factor de ajuste
es decir que
Para los siguientes años se
ajustan los porcentajes calculados con el promedio obtenido en la columna correspondiente al
2
Este método reduce la dimensión del triángulo de desarrollo en una unidad, tanto para el año de ocurrencia como
para el periodo de desarrollo.
10
periodo de desarrollo, es decir
. Para encontrar la estimación final de los
siniestros se dividen los valores la diagonal inferior del triángulo original por los factores
resultantes
con.
Por último se restan estos montos a los reportados
acumulados para cada año de origen con el fin de obtener la estimación de la reserva
correspondiente.
I.2.3 Método de la razón
Este método parte igualmente del triangulo de siniestros acumulados y obtiene los porcentajes
de crecimiento, de un periodo de desarrollo a otro, para un año de origen dado* , es decir
calcula
En seguida se calculan los promedios para estas tasas de
para β=0,...,t-1. Al
crecimiento para cada periodo de desarrollo
igual que el método anterior este hace el supuesto que de algún modo se conoce o se puede
estimar la porción y de siniestros que faltan por reportar, así se ajusta el ultimo promedio con
Posteriormente se acumulan estos
el factor correspondiente haciendo
promedios multiplicándolos ya con el factor de ajuste,
manera los factores estimados con los cuales
se
calculan
obteniéndose de esta
los siniestros totales
y en consecuencia la reserva.
I.2.4 Método de Separación3
Este método considera que los siniestros representados en el triangulo de desarrollo están
formados por dos vectores de parámetros r y λ, que juntos definen el desarrollo de los
siniestros (Tabla 1.3), es decir que Xi,j=rjλi+j-1.
Donde rj puede interpretarse como la proporción de siniestros que se han reportado hasta el
periodo j con respecto al total y λk describe la evolución de los siniestros -e.g. inflación-.
3
Este método reduce la dimensión del triángulo de desarrollo en unit unidad, tanto para el año de ocurrencia como
para el periodo de desarrollo.
11
Entonces, se tiene que resolver el sistema para los dos vectores
para lo cual se emplea
Si se usa la primera
una restricción; definida por el modelo; ya sea
restricción el método es llamado Método de Separación Aritmética, la segunda opción produce
el llamado Método de Separación Geométrica. A continuación se presenta la solución para
ambos métodos,
I.2.4.1 Método de Separación Aritmética
Del supuesto mencionado
obtener el primer valor
valores
de
los
parámetros
obtendremos que
de donde
podemos
. Si seguimos este procedimiento obtendremos lo siguientes
ahora
haciendo
para
obtener
y de esta manera calcular los parámetros necesarios.
12
I.2.4.2 Método de Separación Geométrica
Al igual que en el método de separación aritmética, utilizamos la restricción que introdujimos
calculando
. El esquema se completa utilizando
estos valores ya calculados para obtener, cada vez los siguientes parámetros necesarios
.
Para ambos métodos, estimaciones de los valores
para
tendrán que ser
calculados, ya sea extrapolando la serie de éstos o introduciendo estimaciones exógenas. Una
vez estimados los parámetros del modelo, se calculan los montos finales haciendo
I.2.5. Método de Mínimos Cuadrados de de Vylder.
Este método supone que la fracción de siniestros reportados hasta el periodo
es
como varios de los métodos anteriores, de esta
independiente del año de ocurrencia
manera se puede usar un modelo multiplicativo para la representación de las reclamaciones.
Así se supone que
donde
es la proporción de siniestros reportados
hasta el periodo de desarrollo β con respecto al total del año correspondiente, Yαβ, es el
monto reportado correspondiente al año de ocurrencia α y periodo de desarrollo β y Xα es el
monto de siniestros reportados acumulado correspondiente al año de ocurrencia α, es decir que
como se ha definido anteriormente. Adicionalmente se supone t lo suficientemente
grande como para que
sea
Ahora se sigue el determinar los valores de los parámetros x y v tales que
mínima, donde la suma se realiza sobre el conjunto de subíndices en el que se tenga
información. Al realizar esta operación se obtiene el siguiente sistema de ecuaciones
El sistema se resuelve iterativamente partiendo de algún valor arbitrario. e.g. v1 = v2=… = vt = 1/t.
13
Una vez que la convergencia ocurre, los valores del vector v son reescalados de manera que su
suma sea uno; entonces, los valores del vector x son calculados.
La estimación final de los siniestros tiene la forma
I.3
Métodos Estocásticos
Como se mencionó arriba, la desventaja principal de los métodos no-estocásticos es la de no
dar limites de confianza para la estimación de la reserva correspondiente. A raíz de esto se
introducen técnicas estadísticas en el desarrollo de los métodos con el fin de obtener este tipo
de estimación por intervalos y eventualmente la distribución completa de nuestro estimador.
De nuevo presentaremos una breve recopilación de estos métodos, tratándolos de la manera.
más general posible.
I.3.1 El Modelo de Regresión
Tomemos en cuenta la conceptualización de los siniestros presentada en el método
de
separación
Si
tomamos
logaritmos
en
ambos
lados
para
modelo lineal se denota de la siguiente manera:
Donde
contiene los algoritmos de los valores
de
la
expresión
obtendremos
que
el cual es lineal en los parámetros. El
observados agrupados por año de
accidente
es el vector de errores. La matriz de diseño v de tamaño
la siguiente forma:
tiene
14
Con este modelo, dado que la matriz es singular, hay que hacer la misma consideración que en
método de separación e introducir la restricción
y de esta manera definir
omitiendo la primera columna en la matriz de diseño y el primer elemento de
obteniendo el
sistema lineal
con el cual claramente
podemos utilizar las técnicas de regresión ya sea bayesiana mínimos cuadrados, etc. y obtener
. Para calcular los pronósticos de la parte
propiedades estadísticas del vector de parámetros
inferior del triángulo_ se tiene que invertir la transformación logaritmo; entonces, si se supone
que los errores en el modelo lineal tienen una distribución normal, las
distribución lognormal por lo que el estimador del pronóstico
donde
regresión y
tienen 'lna la
tiene la forma
es el vector de valores ajustados por la
es la matriz de varianza-covarianza de la regresión.
Otra forma de visualizar el problema es expuesta por Elizondo y Guerrero (1994) en donde se
propone estimar la siniestralidad total para cada ano de ocurrencia por medio de una regresión
lineal simple, la formula general de pronóstico es, en este caso
donde
Caso
donde,
es el pronóstico de la siniestralidad total para
el año de ocurrencia t con la información de k periodos de desarrollo, ,St,k es la siniestralidad
acumulada para el año de ocurrencia t hasta periodo de desarrollo k y βi,j ,i=0,1 son los
parámetros involucrados en la regresión. Ahora, haciendo uso de los supuestos clásicos de
regresión, se utiliza la técnica de mínimos cuadrados ordinarios para estimar los parámetros
necesarios para cada ano de ocurrencia. Finalmente se resta la siniestralidad acumulada hasta
el momento al pronóstico y se multiplica esta diferencia por el monto de primas para ese ano
para obtener la reserva correspondiente.
Para la implementación de ambos métodos es evidente que los supuestos involucrados deberán
ser validados con los datos observados. En principio el supuesto de independencia entre las
observaciones parece consistente en el sentido de que el desarrollo en el reporte de un
siniestro en particular no tiene relación directa con algún otro. El supuesto de
homoscedasticidad tal vez no sea tan sencillo de validar estructuralmente como el anterior,
pero con una cartera formada por riesgos homogéneos la validación de este supuesto será
menos difícil.
15
I.3.2 Método de Credibilidad de de Vylder.
El método parte de que el vector de siniestros Xα depende únicamente del parámetro θα, para
los años de ocurrencia α = 1,...,t que se interpreta como la realización de una variable
estructural
fuera de esta diferencia, todos los años son iguales.
Este método necesita de cuatro supuestos principales, a saber:
i). Los vectores
ocurrencia, son independientes.
son independientes, es decir que los años de
una
donde
ii).
la variable
iii).
es un vector aleatorio desconocido
función escalar de
ambas independientes entre sí.
es tal que
es independiente de j; resultando entonces que en
donde
promedio, el patrón de desarrollo es el mismo. Más aun
escalar desconocido independiente de j,
ocurrencia de j e
es un
es un peso desconocido para el año de
es la matriz identidad de I x I.
iv). Las variables estructurales
son independientes e idénticamente distribuidas.
denota el
Para el análisis se utiliza únicamente el conjunto de variables observadas. Así, si
conjunto de periodos de desarrollo para los cuales existen observaciones pertenecientes al año
de ocurrencia J, se define a
esperados
con índices en
como el vector que tiene como componentes a los valores
. De esta definición
se desprende que
difiere de
únicamente por el conjunto de elementos que son observados de
Como podemos ver a partir del supuesto ii) el modelo detrás del método es el de una regresión
lineal, con la consideración de utilizar un estimador de credibilidad
se obtiene, utilizando los supuestos anteriores, de la siguiente manera:
para
que
16
adicionalmente
los
parámetros
estructurales
están
dados
por
. Luego entonces se tiene aun el problema de estimar éstos.
es decir que
Así si suponemos que
insesgado de
es
un estimador
este supuesto nos dice que en promedio estamos viendo el
desarrollo de los siniestros y que éstos no están siendo escalados por
bastante lógico. Además si se define a
entonces
lo que parece
como el número de elementos en Tj y m=Σ(tj-1),
son
estimadores insesgados S2. Finalmente un estimulador insesgado para α está dado por
el cual tiene que ser calculado iterativamente, ya que Zj, contiene a α.
17
I.3.3 Método de Mack.
Este método pretende generalizar el Método de Credibilidad de de Vylder reemplazando el
, donde, para α=2 se
supuesto referente a la varianza haciendo
obtiene el modelo de de Vylder y para α=0,1, el de Mack. Esto nos da los siguientes supuestos:
i)
son independientes, es decir que los años de
Los vectores
ocurrencia son independientes y las variables
independientes e idénticamente distribuidas.
estructurales
son
y definimos a
ii)
donde
iii)
es una matriz diagonal con elementos
para i=1,…,t.
y
,
Con estos supuestos y los parámetros estructurales
es posible obtener los siguientes estimadores de credibilidad:
Además, estimador insesgado para y está dado por
es
finalmente
un
estimador
para el parámetro estructural
insesgado
donde
y
es un estimador insesgado de a
18
donde
Estos dos modelos, una vez que se han estimado los parámetros involucrados, cumplen con las
condiciones necesarias para aplicar un modelo de regresión a los datos, en particular
Hachemeister (1975) ha desarrollado un modelo de regresión útil bajo estas condiciones.
Estos métodos, aunque representan un enfoque estadístico hacia la solución del problema,
tienen la desventaja de necesitar una cantidad importante de información para producir
estimaciones relativamente confiables, lo cual, actualmente, no es factible en la mayor parte de
las aseguradoras de nuestro país. Aunado a esta desventaja está el hecho de que estos
métodos (plug-in-methods) no toman siempre en cuenta la variabilidad en que se incurre al
estimar los parámetros involucrados y la del modelo propuesto. Esto es, estiman los
parámetros y al hacer el pronóstico, simplemente los "enchufan" en el modelo seleccionado
como si éstos fueran sus verdaderos valores.
Como podemos observar, aunque aquí solamente se haya presentado una breve descripción,
existen una gran variedad de métodos estadísticos aplicables a este problema, aunque la gran
mayoría utilizan la técnica de regresión para darle solución, listo implica la necesidad de contar
con una cantidad importante de datos, que no siempre están disponibles.
Con esta idea, en el siguiente capitulo presentaremos un modelo bayesiano que sea capaz de
dar una estimación adecuada y a la vez utilice una cantidad de información pequeña al mismo
tiempo que reconozca toda la variabilidad implícita en el resultado Final.
19
Capítulo II
II.1 Inferencia Bayesiana
La teoría de decisión, como su nombre lo indica, sc relaciona con el problema de tomar
decisiones. La teoría de decisión estadística se refiere entonces a la torna de decisiones en
presencia de conocimiento estadístico_ que ayude en el problema de decisión bajo condiciones
de incertidumbre. Esta incertidumbre supondremos que la podernos pensar en términos de
cantidades desconocidas, que usualmente llamaremos parámetros y denotaremos
generalmente como
y que podrá tomar valores en el espacio
La estadística clásica se dirige directamente al uso de datos muestrales para hacer inferencia
acerca de
, sin tomar en cuenta que generalmente se tiene otras dos fuentes de información
relevante en la mayoría de los problemas.
La primera es el conocimiento de las posibles consecuencias de nuestras decisiones, que puede
ser cuantificado determinando la pérdida en que se incurrirá para
cada decisión posible
Una motivación importante
junto con los posibles valores de
acerca del uso de este
tipo de información es el hecho de que_ en muchos problemas inferenciales, la sobreestimación
del parámetro nos puede llevar a incurrir en decisiones más costosas que la subestimación de
éste o viceversa. En general, podemos pensar en la pérdida incurrida como una función de la
distancia, digamos
que existe entre la estimación
que utilicemos y el verdadero valor
del parámetro
La segunda fuente es lo que llamamos información previa. Esta información acerca del
parámetro es típicamente obtenida por métodos no estadísticos, generalmente por experiencia
pasada de fenómenos similares involucrando a
información previa acerca de
Una manera muy útil de pensar la
es en términos de una distribución de probabilidad
sobre
el conjunto de los posibles valores del parámetro; dado que generalmente ésta no es muy
precisa y resulta. muy natural expresar el grado de posibilidad que creemos tenga un valor
particular del parámetro en términos de probabilidad. Aquí es importante recalcar que no existe
nada aleatorio acerca del verdadero valor de
si no que estamos expresando nuestra
percepción acerca del conocimiento que poseemos del parámetro con
La aproximación que trata de utilizar formalmente estos tres aspectos en el proceso inferencial
estadístico es llamada estadística bayesiana, en honor a Thomas Bayes.
Como hemos visto, en estadística bayesiana el proceso inferencial es visto como un problema
de decisión. Como consecuencia de esto se calcula una función que modele la pérdida (utilidad)
en la que el tomador de decisiones (investigador) incurre al seleccionar una estimación para el
parámetro de estudio, en relación principalmente con la lejanía o cercanía a su valor real. Dado
20
este enfoque resulta coherente seleccionar una estimación
óptima en el sentido que
en que se incurre. Como se mencionó anteriormente, estamos
minimice la pérdida
frente al problema de toma de decisiones en un ambiente de incertidumbre, así que el
verdadero valor de la perdida no lo podremos conocer con certeza al momento de tomar la
decisión -i.e. seleccionar una estimación-. Una manera natural de proceder bajo incertidumbre
es la de tomar la perdida esperada y podríamos entonces tomar una decisión optima acerca de
este promedio, como función del estimador. También resulta muy directo pensar que como θ
es desconocida al momento de tomar la decisión y ya que hemos mencionado que es posible
tratar a como una cantidad aleatoria definiremos la perdida esperada bayesiana al estimar a θ
con
^
θ como la esperanza de
con respecto a la distribución
es decir
Este criterio de estimación, maximizar la utilidad esperada, es óptimo en el sentido del cuerpo
axiomático de coherencia que fundamenta la teoría de decisión, de hecho existen varios
sistemas aunque el espíritu de ellos es el mismo: una recopilación de estos puede ser vista en
De Groot (1970).
Resulta lógico pensar que nuestro grado de conocimiento acerca de θ cambie si sucede algún
evento relevante que involucre al parámetro, en investigación estadística estos sucesos se
presentan típicamente como muestras de la forma X=(x,...,s.f.). Entonces necesitamos una
manera de procesar esta información adicional e incorporarla al estudio. Con este fin es
conveniente presentar el siguiente:
Teorema de Bayes
Para cualquier partición finita
del espacio de posibles eventos
y para un evento
Una interpretación posible de este teorema es pensar que nosotros actualizamos nuestro nivel
actual de incertidumbre acerca del evento
descrito por
información de la realización de algún otro suceso, digamos
involucrado y que ahora es descrito por
información adicional
momento de recibir
en donde este se ve
nuestro nivel de incertidumbre posterior a la
Por otro lado, si no tenemos observaciones disponibles,
actuaremos acorde a nuestra información previa,
únicamente; si, en cambio, contamos
con información adicional, actualizaremos nuestras creencias híncales con la distribución
21
posterior
. Desde otro punto de vista se puede argüir que el teorema de Bayes es un
procesador de información óptimo.
Una forma muy útil de escribir el teorema de Bayes es
donde el factor de proporcionalidad es obviamente
Si ahora utilizamos una notación más apropiada para e] problema podemos ver que
En estadística bayesiana
la distribución a-priori, representa la información previa que
tenemos acerca del parámetro
en nuestro modelo. Esta información previa puede consistir,
como se mencionó arriba, de información pasada acerca de la característica que estudiamos o
simplemente de conocimiento experto de algún especialista en la materia. Es importante hacer
notar que la selección de esta distribución a-priori es responsabilidad del investigador y que
selecciones distintas
en la distribución conducirán a resultado distintos,
distribución conjunta de la muestra condicionada
verosimilitud; y
es la distribución posterior de
es la
que comúnmente coincide con la
una vez que se ha incluido información adicional.
Es conveniente recordar que la inferencia científica es y ha sido en buena parte subjetiva ya
que, cuando un investigador realiza algún experimento es evidente que ha concebido ideas
previas acerca del resultado que posiblemente obtenga; a la formulación de estas ideas previas
acerca del resultado, en el método científico se le llama formulación de hipótesis, al
experimento se le denomina confirmatorio en el sentido de que el investigador está tratando de
corroborar o negar alguna de estas hipótesis en particular. Eventualmente, una vez que el
experimento se ha llevado a cabo, el investigador dejará fuera del análisis algunos datos por
razones puramente subjetivas -e.g. pensará que ocurrió un error o que no son de interés para
el análisis-, siendo tal vez que esos datos deberían de incluirse aun a pesar de que esto
signifique que el modelo en cuestión sea más complejo. En el caso de que alguna hipótesis
deba ser probada, el investigador elegirá, de nuevo subjetivamente, el nivel de significancia de
la prueba, por ejemplo si decide utilizar un nivel de 5% tal vez rechazará la hipótesis, mientras
que si utiliza un nivel de 1% no tendrá evidencia para hacerlo. De hecho, si el observador tiene
una fuerte inclinación a priori hacia alguna hipótesis en particular, estará tal vez inclinado a
utilizar un nivel que la confirme.
22
Esto significa que, en inferencia bayesiana, el hecho de que el observador realmente influya en
las hipótesis y el modelo seleccionado se hace explícito y que esta información previa con la
que cuenta el investigador se incluye formalmente en el transcurso de la solución del problema.
En un análisis final, esto se puede reducir a un problema de tamaño de muestra ya que, si la
muestra es grande. el papel de la información previa (distribución inicial) es pequeño en
comparación con los datos; de este modo, es en problemas con tamaños de muestra pequeños
donde el papel del experto juega un papel determinante y así debe ser, ya que por lo general
es él quien posee una mayor y mejor información acerca del fenómeno y casi siempre
estaremos dispuestos a aceptar sus puntos de vista como los más acertados.
Una, vez seleccionada la distribución que describa nuestro conocimiento previo del Parámetro y
dadas las observaciones
obviamente el teorema de Bayes
obtendremos la densidad posterior
utilizando,
de variables está dado, entonces
es una constante, por lo que una,
y como el vector
vez seleccionada la distribución que describa nuestro conocimiento previo del Parámetro y
dadas las observaciones
obviamente, el teorema de Bayes
Y como el vector
obtendremos la densidad posterior
de variables está dado, entonces
utilizando
es una constante, por lo que
Ose a que,
donde
es la función de verosimilitud de θ dada la muestra.
Esta densidad final contiene toda la información que disponemos acerca del parámetro, ya que
23
contiene la información muestral y
nuestra información previa. De este modo
actualizamos, como nos muestra el teorema de Bayes, nuestro conocimiento previo acerca del
parámetro con la información muestral, provista por los datos.
En el caso de no poseer ningún tipo de información previa, o cuando la información con la que
contamos no fuera confiable, o simplemente no estamos dispuestos a decir nada acerca del
parámetro, se utiliza comúnmente lo que llamamos una distribución previa difusa o mínimo
informativa, que refleja precisamente esta situación. Existen tres métodos bastante difundidos
para calcular estas funciones, a saber: método de Jeffreys, previas como limite de conjugadas y
análisis de referencia. Este tema ha sido ampliamente tratado por varios autores, en particular
en Bernardo y Smith (1994) podemos encontrar una extensa discusión del tema.
Describiremos rápidamente la regla de Jeffreys (1961) para el calculo de previas mínimo
informativas que dice que esta debe ser proporcional a la raíz cuadrada de la información de
Fisher, es decir que
Una propiedad importante de este método es su invarianza ante transformaciones del
parámetro, es decir que si es una función uno-a-uno del parámetro,
entonces
Entonces, el siguiente paso crucial es utilizar una función de pérdida
donde
es la
dado el vector de observaciones, que mide la ‘pérdida’ que tenemos al
estimación puntual de
utilizar ese estimador en particular. Lo que evidentemente deseamos es hacer esta pérdida lo
mas pequeña posible, de esta manera lo consecuente es minimizar la pérdida esperada bajo
esta función, es decir, queremos encontrar
En
particular
si
tomamos
una
función
de
pérdida
cuadrática,
de
la
forma
donde C es una matriz positiva definida, obtendremos que el valor
que minimiza la pérdida esperada es la esperanza de la distribución posterior para
. Esto es
Otra
fácil de ver si recordamos que el valor que minimiza la expresión
función de pérdida bastante difundida en inferencia bayesiana es la función de pérdida lineal,
que se define como:
24
en donde el valor que minimiza la pérdida esperada
Es el percentil correspondiente
También es posible calcular la densidad predictiva, es decir la densidad de una futura
observación, digamos dada la información provista por la muestra original de tamaño n. Ésta se
calcula si observamos que
osea que
Como podemos ver, la función de densidad predictiva depende únicamente de las observaciones, es
decir, no contiene parámetros desconocidos. La idea relevante involucrada es que, generalmente al
momento de realizar las estimaciones, no tendremos la oportunidad de observar el valor verdadero
del parámetro. De hecho 'filosóficamente esto significa que en el campo de a estadística
deberíamos enfocar nuestra atención en las observaciones y por esto, usar distribuciones
predictivas tan frecuentemente como sea posible."*
II.2 Modelo Bayesiano para SOPNR
A continuación presentaremos el modelo propuesto para la estimación de los siniestros OPNR,
el cual será dividido en dos, uno para el proceso discreto i.e. número de siniestros, y el segundo
para el proceso continuo, i.e. el momo de los siniestros.
Los supuestos principales que involucra el modelo se refieren al desarrollo de los siniestros a
través del tiempo, que se supone estacional y estable, y la independencia del proceso
para distintos años de origen. Como se menciono en el Capitulo I, estos supuestos son consistentes
con el problema en prácticamente todos los negocios de una compañía de seguros.
II.2.1 El Proceso Discreto
Como se describió anteriormente, tenemos un conjunto de observaciones
con i = 1,…,k y,
j =1. …,,s, además sea in = número de periodos de origen para los cuales tenemos la
información completa; por lo general los métodos mencionados utilizan in = 1 y s = k, pero con
nuestro procedimiento es posible incorporar la información disponible al respecto.
25
Sea
total de siniestros para el año de origen 1, esto es
y supongamos
que el número de siniestros del k-ésimo año de desarrollo tiene una distribución
Ahora,
condicionando
en
y
suponiendo
independencia
entre
ellos,
el
vector
se distribuye
con
Karlin
(1969). Ahora estamos interesados en estimar N,…,Nt , los totales para cada año de origen,
utilizando la información que tenemos disponible.
De las propiedades de la distribución multinomial se sigue que para a < s
para ejemplificar tomemos i = 2, de esta maicera tendríamos la densidad conjunta para
•
Dados
Press 1 Bayesian Statistics Principles, Models, and Applications, 1989 pp. 57-58
que llamaremos
función de verosimilitud para
nuestra información disponible, ésta es la
Si suponemos independencia entre estos dos
podremos calcular la previa de Jeffreys para
y tomando en cuenta que N2 > 0, de Alba y Mendoza (1995), usamos la previa difusa mínimo
informativa
Es importante tener en cuenta que el parámetro de interés es n2 y es en este sentido que p*a
es un parámetro de ruido; es por esta razón que se intenta calcular una distribución
26
∏(n2, p*a ,), tal que sea mínimo informativa para n2 combinando la verosimilitud con las previas
podemos obtener las marginales posteriores tanto para p*a como para N2:
En el primer caso tenemos una Beta (α,β) con
La marginal
posterior de N2 es una Beta-Pascal (α,n,x*2), Raiffa y Schlaiter (1961) con n = α+β, así la
media y varianza posterior están dados
por
Si tomamos nuestra función de perdida de la forma cuadrática, sabemos que este es nuestro
estimador para el total de siniestros ocurridos en el año 2. Para obtener la estimación de la
reserva simplemente le restamos el número de siniestros reportados hasta el momento a
nuestro pronostico. La generalización a más de dos años de origen es sencilla si suponemos,
como lo hemos hecho, independencia entre los distintos anos de origen.
II.2.2 El Proceso Continuo
Esta variante del modelo toma en cuenta variables continuas, en particular para esta aplicación
nos referiremos a los montos reclamados. Sea Xij ≥ 0 el monto de siniestros reclamados
acumulados hasta el periodo de desarrollo j=1,…,s para el año de origen i=1,…,t y sea Yij el
monto de siniestros ocurridos en el año i=1,…,t y reclamados en el periodo de desarrollo
j = 1,...,s.
donde Yαβ son variables i.i.d. e
De esta manera pensemos que
independientes de Nt. Supongamos que el número de reclamos en cada año de desarrollo se
distribuye Po(λt), por lo que el proceso de siniestros acumulados sigue una distribución
Poisson compuesta,
para el año de origen i y
Entonces
es el total de siniestros ocurridos
es el total acumulado para el ano de origen i hasta el
27
10
periodo de desarrollo α. Es posible demostrar que
y que
que la función generadora de momentos (f.g.m.) para
supone independencia; la f.g.m. de ésta es
el
es
producto
con
dado
de
las
y como se
individuales
que corresponde a la f.g.m.
de una distribución Poisson compuesta con parámetro
Al igual que en el proceso discreto estamos interesados en estimar el monto total de siniestros
el
para el año de ocurrencia i, dada la información disponible. Sea
g
parte
del
año,
para
monto
de
siniestros
de
la
se unda
i = 2,…, k y a = k - r' + 1, el total de los siniestros acumulados que se desean estimar para el
año de ocurrencia i. Para hacer evidente los supuestos de estabilidad y estacionalidad
utilizaremos una aproximación gama al proceso, basado en los dos primeros momentos.
sabemos que
Entonces, si
donde
resolviendo para
obtenemos que
. Así el
supuesto mencionado puede verse de la suficiente manera, si tomamos el cociente
sabemos que
por lo tanto
el
cual claramente no depende del año de origen sino solamente del periodo de desarrollo en que
se encuentre el proceso. Además podemos notar que la proporción de siniestros reportados
hasta el periodo de desarrollo a. Si llamamos Xi- al total del proceso pare el año de origen i y
obtenemos que
una
gama
generalizada
con
xi
≥
xia.
Los
dos
primeros
momentos
son
. De la independencia entre Wia y Xi- tenemos que
Entonces,
donde
representa
28
el cociente de momios de los últimos k-a años de desarrollo con respecto a los primeros a. Así
puede aproximarse suponiendo que
tal que
.
Esta expresión de la distribución condicional de xi- tiene la ventaja de contener como
parámetros sólo cantidades conocidas, por lo que el modelo que usaremos es la forma, de Alba
y Juárez (1995)
,
El patrón estacional estable se puede ver dado que
el valor esperado de la razón de los siniestros agregados en los últimos k-a arios de desarrollo
con respecto a los primeros, depende únicamente de a. De esta manera tenemos; para
que
que coincide con la función de verosimilitud para
distribución previa no-informativa
y usando la
obtenemos la distribución posterior de la
forma
Por lo tanto si
representa el total del proceso para el año de origen 2 y hasta el
periodo de desarrollo a y
1 represente la información disponible, la densidad predictiva
para el total del proceso para el año de ocurrencia 2 es
una densidad Beta-2-inversa en
Raiffa y Schlaifer (1961). Una vez
identificada esta distribución podemos encontrar su media
función de pérdida cuadrática será nuestro estimador
puntual
y
que bajo una
su varianza
29
Si en vez de utilizar una previa difusa, utilizamos la conjugada
la esperanza de la predicativa es
si x1 y x* son grandes.
que claramente no difiere de la anterior
Estas formulas son de fácil aplicación para el i-ésimo año de ocurrencia si hacemos a=k-(i-1),
.Así el estimador correspondiente del total de siniestros para el año de
ocurrencia j es
con varianza
. Por lo tanto el
estimador del total de siniestros para todos los años de ocurrencia es
, al que solo
tenemos que restar el monto total de siniestros reportados hasta el momento para obtener la
reserva necesaria estimada, y utilizando el supuesto de independencia entre los años de
ocurrencia, la varianza estimada para la reserva será
30
CAPITULO III
En este capítulo se presentan algunos ejemplos del cálculo de la reserva de SOPNR con el
modelo propuesto, comparándolo con los métodos expuestos en el primero.
III.1 Ejemplo de Seguros de Automóvil
En este punto trataremos un ejemplo presentado en Goovaerts M. J., et. al. (1990). donde
podremos comparar los resultados obtenidos por varios métodos compra el aquí propuesto. Los
datos que se presentan (Tabla 3.1) corresponden a as reclamaciones hechas a diez compañías
Belgas acerca de la cobertura de responsabilidad civil en seguros de automóviles. Este tipo de
coberturas tienen un periodo de espera largo entre el reporte del siniestro y el pago final de
este. Adicionalmente el grupo de asegurados en este ejemplo es relativamente grande, por lo
que la evolución de los siniestros es suficientemente estable.
Tabla 3,1 Triángulo de desarrollo, cobertura de responsabilidad civil.
En primera instancia, reduciremos el triángulo omitiendo la diagonal inferior (en itálicas), es
decir los siniestros reportados en el año 87, con el fin de verificar a calidad de ajuste de los
distintos modelos, al comparar posteriormente los datos reales contra los estimados. Para
pronosticar esta última diagonal con el modelo Bayesiano, suponemos que el proceso termina
en el año 864 y entonces, para cada año de ocurrencia posterior, tendremos un año completo
más de información con un periodo de desarrollo menos. Así, estimaremos el total acumulado
correspondiente de la siguiente manera:
4
Obviamente el monto de siniestros que ocurrieron en 1987 y se reportaron en ese año no es posible pronosticarlo.
31
Tabla 3.1.1. parámetros de las distribuciones predicativas.
Donde las tres primeras columnas fueron calculadas con las fórmulas expuestas al final del
capitulo anterior y las columnas Acumulado y Varianza corresponden a la media y varianza
de la densidad predictíva para ese año de ocurrencia.
Los resultados de este ejercicio, comparados con los modelos listados a continuación, se
presentan en la Tabla 3.1.2, donde la columna %DEV se obtiene al dividir la diferencia entre la
columna TOTAL y el valor verdadero entre 4033, que es la suma de la diagonal inferior, excepto
el correspondiente al de origen 87 y periodo de desarrollo O.
Los métodos presentados para este ejemplo son los siguientes5:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
I5
5
Modelo Bayesiano
Chain-Ladder
Chain-Ladder variante I
Chain-Ladder variante II
Chain-Ladder variante III
Chain-Ladder variante IV
Chain-Ladder variante V
Chain-Ladder variante VI
Método de separación aritmética, extrapolación lineal
Método de separación aritmética, extrapolación exponencial
Método de separación geométrica, extrapolación lineal
Método de separación geométrica, extrapolación exponencial
Método de mínimos cuadrados de De Vylder
Método de Mack, proceso iterativo, 3 iteraciones
Método de credibilidad de De Vylder, proceso iterativo. 2 iteraciones
El método propuesto por Elizondo y Guerrero no se incluye por no contar con datos suficientes.
32
Como podemos ver, el modelo Bayesiano ajusta tan bien los datos como el mejor de los
modelos presentados, con la ventaja de conocer completamente la distribución predictiva y de
esta manera poder hacer, por ejemplo, pronósticos por intervalos, con intervalos de
probabilidad.
33
Ahora estimaremos los totales para cada año de ocurrencia y compararemos los resultados de
los métodos enumerados anteriormente, estos resultados son presentados en la Tabla 3.1.3.
Asimismo, como tenemos la distribución predictiva completa, es posible calcular la varianza y
por lo tanto la desviación estándar de ésta, ya sea para cada año de ocurrencia como para el
total (Tabla 3.1.4).
En este caso, como sólo tenemos realmente un año completo de información, únicamente
utilizaremos éste para calcular la densidad predictiva de cada ano de ocurrencia, como se
muestra en la Tabla 3.1.4.
34
III.2 Ejemplo de Seguro de Gastos Médicos Mayores
Este ejemplo considera el desarrollo de los SOPNR para la cobertura de gastos médicos
mayores de una compañía Mexicana de seguros, de hecho también se incluirá el triángulo de
desarrollo correspondiente al número de siniestros. Este segundo triángulo nos servirá, tanto
para ejemplificar la aplicación del modelo con datos discretos, como para señalar la diferencia
entre los SOPANR y los SOPNTR, es decir, mientras que el triángulo de desarrollo que contiene
los montos describe el desarrollo del siniestro que ya ha sido reportado y que aún no se ha
terminado de pagar -i.e. SOPNTR-. el que contiene el número de siniestros representa los
siniestros que han ocurrido y que han tenido un retraso en su reporte -i.e. SOPANR-. El monto
de los siniestros se encuentra en la Tabla 3.2.1 y el desarrollo del número de siniestros en la
Tabla 3.2.2.
En este caso compararemos los resultados obtenidos para los montos con método ChainLadder, que fue el que realmente utilizó la aseguradora para estimar la reserva, y el modelo
Bayesiano.
Podemos observar en la. Tabla 3.2.3 cómo se completa el triángulo utilizando el método ChainLadder, las cifras en itálicas, debajo de la diagonal principal, son los montos acumulados
estimados, que se obtienen multiplicando la columna correspondiente al trimestre de desarrollo
k-I por la cifra que se encuentra en el renglón Factores, correspondiente al periodo de
desarrollo k.
35
36
Las tres primeras columnas de la Tabla 3.2.4 corresponden a los parámetros de la densidad
predictíva para cada trimestre de ocurrencia utilizando el modelo Bayesiano. La cuarta
corresponde a la media de la densidad, que es la estimación del total utilizando función de
pérdida cuadrática; la reserva es únicamente a resta del total reportado hasta el momento y el
pronóstico; además se presenta tanto la varianza como la desviación estándar de la densidad
predictiva, que nos habla acerca de la dispersión del pronóstico. La última columna es el
coeficiente de variación de la distribución.
37
38
39
Por último en la Taba 3.2.56 se encuentra una comparación de los resultados obtenidos por
cada método, por año de ocurrencia. Como sabemos, con el método Chain-Ladder original
solamente se es capaz de dar estimaciones puntuales de la reserva, en cambio, con el método
Bayesiano se conoce de hecho la distribución predictiva completa y de esta forma se pueden
obtener medidas de localización distintas a la media como la mediana, la moda, cuantiles, etc.
En particular, para este ejemplo, podemos ver que la estimación por Chain-Ladder de la reserva
total. dista aproximadamente en tres desviaciones estándar de la media de a distribución
predictiva que, por utilizar función de pérdida cuadrática es nuestra estimación puntual de la
reserva. Como se explicó en el capítulo anterior, la varianza de la distribución predíctiva para la
reserva coincide con la de la predictiva para el total del proceso, así las últimas tres columnas
contienen a varianza, desviación estándar y coeficiente de variación de la distribución predictíva
de la reserva.
Ahora Utilizaremos el desarrollo del número de siniestros reportados de la Tabla 3.2.2 para
ejemplificar el uso del modelo para datos discretos. En primera instancia podemos notar que los
siniestros están reportados mensualmente y que en realidad no es un triángulo sino un trapecio, esto no
es relevante en la estructura del modelo y de hecho podemos utilizar los meses completos de
información que tenemos para la estimación del total, como se describió al final del capítulo II. De
igual modo podemos ver que el proceso de reporte del número de siniestros es mucho más
acelerado que el de reporte de montos, es por este hecho que el desarrollo del número de
siniestros abarca apenas un arco.
De esta manera tenemos entonces nueve meses completos de información que servirán de
base para la estimación. Los parámetros de la distribución posterior marginal del total de
siniestros para cada mes de origen se presentan en la Tabla 3.2.6. De nuevo, si asumimos una
función de pérdida cuadrática, la estimación del total de siniestros corresponde con la columna
que contiene la media de la distribución, entonces la estimación del número de siniestros que
faltan por reportarse es la diferencia entre la estimación del total y los reportados hasta la
fecha, que aparece en la columna Por reportar.
6
Es conveniente notar que el pronóstico para 1995 sólo cubre el primer semestre del año
40
III.3 Relajamiento de los Supuestos
En esta sección trataremos un ejemplo que aparece en Mack. T. (1994), donde los montos que
aparecen en el triángulo de desarrollo (Tabla 3.3. l) corresponden a datos históricos, publicados
por la Reinsurance Association of America, del seguro de responsabilidad civil en Estados
Unidos.
Lo primero que notamos es que estos montos no son necesariamente positivos, sino que,
debido a la recuperación de siniestros por medio del reaseguro, es posible que aparezcan,
eventualmente, cantidades negativas. Asimismo, podemos ver que el desarrollo de los
siniestros no es estacional, es decir que a proporción de siniestros reportados en un periodo de
desarrollo dado no es el mismo para dos años de ocurrencia distintos.
41
En el caso de querer utilizar algún modelo que transforme los datos con logaritmos, como el
método de regresión presentado en el capitulo II, deberemos imponer algún cambio artificial o
simplemente dejarlo fuera del análisis con el fin de evitar este monto negativo. Con esta idea
Mack propone cinco opciones7 que son:
Con estas restricciones se utiliza un modelo de regresión corno el del capitulo anterior, donde
los montos acumulados tienen una distribución lognormal y por lo tanto usaremos mínimos
cuadrados para estimar los parámetros. Asimismo, en la Tabla 3.3.2 se compararán los
resultados obtenidos con este modelo Loglineal contra los obtenidos con Chain-Ladder y el
modelo Bayesiano.
Como podemos observar, el modelo Loglineal es bastante inestable ante este relajamiento en
los supuestos, incluso con las modificaciones introducidas; en cambio el modelo Chain-Ladder
parece estable ante este hecho, y el Bayesiano presenta variaciones mínimas, con la ventaja de
conocer la distribución completa con éste. Otra observación importante es la distancia entre
ambas estimaciones, que en los ejemplos anteriores es muy pequeña y que en este parece
acrecentarse; con el fin de cerciorarnos de la forma de la distribución predictiva para el total del
proceso, simulamos ésta y la comparamos con los resultados obtenidos en el ejemplo.
7
También podemos notar que este tipo de restricciones no son necesarias. por ejemplo, en los métodos Bayesiano y ChainLadder dado que estos trabajan con los montos acumulados y estos necesariamente son positivos.
42
Como se puede ver, la simulación sugiere una gran concentración de los datos alrededor de la
media, que prácticamente coincide con el pronóstico calculado utilizando función de pérdida
cuadrática, y el valor de la varianza es también prácticamente el mismo. De hecho se
presentan en la Tabla 3.3.3 las estadísticas descriptivas de dos simulaciones distintas, una
hecha con 2000 y la otra con 5000 datos y en la Tabla 3.3.4 los diagramas de frecuencia para
cada una de ellas.
Para llevar a cabo esta simulación tomamos en cuenta la relación que existe entre las
densidades Beta-2-inversa y Beta, Raiffa y Schlaífer (1961).
Utilizando el supuesto de independencia entre los distintos años de origen, se generaron
números aleatorios
, para cada año de ocurrencia i con distribución
posteriormente se transformaron para obtener la distribución deseada haciendo
y
,
donde b es el total del primer año
y
enseguida se sumaron estos valores
para generar generar una observación de la distribución predictiva. Este procedimiento se
repitió el número de veces mencionado arriba para cada simulación para así obtener el perfil de
la distribución posterior presentada.
Es posible obtener la distribución predictiva para el total de la reserva, calculando la
distribución de la suma de las predictivas para todos los años de ocurrencia, este
procedimiento aunque es exacto puede resultar complejo en los cálculos, es por esto que el
proceso de simulación nos sirve para obtener el perfil de la distribución y constatar en primera
instancia nuestros resultados.
SIMULACIÓN 1
Media
Error Estándar
Mediana.
Desviación Estándar
Varianza
Kurtosis
Asimetría
Rango
Mínimo
Máximo
Suma
N
41,620,50
5.77
41,6I7,28
257.99
66,557.60
0.13
0.02
1,737.89
40,745,39
42,483.27
83,240,998
2
SIMULACIÓN 2
Media
Error Estándar
Mediana
Desyiación Estándar
Varianza
Kurtosis
Asimetría
Rango
Mínimo
Máximo
Suma
N
41,617.15
3.65
41,618 10
258.33
66,734_53
(0,03)
0.01
1,979_89
40,62 3,58
42,603 47
208,085,753
5,000
Tabla 3.3.3, Estadísticas descriptivas para la simulación del total.
43
44
45
Conclusiones
Como liemos visto existe una amplia gama de aproximaciones para tratar de estimar los
SOPNR. Aun a pesar de la cantidad de métodos desarrollados, en varios países del mundo,
algunos con una gran tradición aseguradora, todavía se utilizan métodos de los que hemos
denominado no-estocásticos, probablemente por la facilidad que representa su
implementación. Pero esta facilidad trae consigo el costo de no aportar información adicional
acerca de la estimación que se realiza; de hecho este criterio parece ser el único en el proceso
de selección entre alguno de estos métodos, dejando sin posibilidad al analista de encontrar
un método óptimo para el tipo de datos que esté manejando. Así, a pesar de la extensa
difusión de este tipo de métodos, parece no existir un criterio categórico u objetivo que
permita discriminar entre éstos para la elección del más adecuado.
Por otra parte tenemos el problema de escoger entre un conjunto basto de métodos con
suficientes fundamentos estadísticos que nos permiten, en primera instancia, hacer una
partición entre los apropiados para el problema por resolver, validando los supuestos, y los
que no nos serán útiles. Una vez salvada esta instancia todavía existe el problema de contar
con una cantidad suficiente de información, situación hasta ahora poco común y determinante
en el caso mexicano ya que, dada a reciente reglamentación que al respecto ha emitido la
Comisión Nacional de Seguros y Fianzas, las compañías de seguros en nuestro país han tenido
que elegir un método para el cálculo de las reservas de SOPNR y, en muchos casos, por no
contar con un acervo suficiente de información histórica al respecto, seguramente se han visto
inclinadas a seleccionar un método que no lo exija, por lo más común un método noestocástico. Aunada a esta situación existe un punto por lo más importante para las compañías
de seguros: la facilidad. Como hemos visto existen métodos que ofrecen una alternativa
estadísticamente atractiva, como los métodos Y basados en la teoría de credibilidad, pero es
evidente que el tratamiento de dichos modelos no es sencillo para un analista y de hecho
implicaría un considerable esfuerzo hasta para un especialista que no haya tenido mucho
contacto con esta teoría, aparte de necesitar cálculos que no realizan por lo general los
paquetes estadísticos comunes en el mercado.
De las consideraciones anteriores surge la necesidad de desarrollar métodos que: i) necesiten
de la menor cantidad de información posible. ii) utilicen pocos supuestos y que estos sean
fácilmente sustentables, iii) que los cálculos sean sencillos y iv) que estén fundamentados en
la teoría estadística.
Como se ha visto a lo largo de las aplicaciones desarrolladas en la presente tesis, el Modelo
Bayesiano que se presenta aquí funciona razonablemente bien en varías ramas de la operación
aseguradora (vida, gastos médicos mayores, responsabilidad civil, etc.) y con una cartera con
buena selección y homogénea (es decir que los riesgos sean parecidos) se puede lograr el
cumplimiento de los supuestos principales.
De igual modo hemos visto, en un pequeño ejemplo, el comportamiento del pronóstico con el
Modelo Bayesiano al relajar los supuestos y hemos verificado que, para este ejemplo en
particular, sugiere una estabilidad en el resultado. Sin embargo, la distancia entre el resultado
obtenido con este método y los que fueron utilizados para la comparación, nos llevó a realizar
una simulación del proceso para constatar el comportamiento distribucional de la estimación.
Los resultados de las simulaciones parecen alentadores dado que presentan un
comportamiento simétrico, en distribución, que prácticamente puede ser aproximado mediante
una densidad normal. Este hecho, de ser constatado, puede representar un resultado
interesante y muy práctico en el tratamiento del pronóstico.
46
Por otra parte existe aún la perspectiva, en un futuro no muy lejano, de contar con una mayor
cantidad de información y experiencia con la cual tratar de mejorar nuestras estimaciones, al
incluirla en el modelo en la forma de distribuciones previas informativas. Más aun, queda el
hecho de especificar una función que refleje la utilidad o pérdida de cada individuo -i.e.
compañía de seguros- en particular. En esta tesis hemos utilizado una función de la forma
cuadrática que supone una pérdida igual si se sobre-estima o sub-estima la reserva en la
misma magnitud: este hecho deberá ser evaluado por cada compañía, que decidirá si este
modelo se ajusta a su operación.
Finalmente la selección del modelo a usar en el tratamiento de cualquier problema es una
decisión subjetiva, la cual debería ser hecha por el investigador contando con la mayor
cantidad y mejor calidad de información, aunque como nos hemos dado cuenta en los ejemplos
que hemos presentado, muchas veces la mayor cantidad de información no siempre es
suficiente. Así, el propósito de esta tesis es presentar un modelo que sea útil en estas
circunstancias para las compañías de seguros en el cálculo de las reservas y en consecuencia
de la correcta tarificación en sus operaciones, con el fin de conservar la equidad en el contrato
de seguro.
47
Bibliografía
Benjamín. B. General Insurance. Heinemann, I977.
Berger J., Statistical Decision Theory and Bayesian Analysis, Springer, 1985.
Bernardo J.M. y Smith F, M., Bayesian Theory. John Wiley & Sons, 1994.
Bowers N. L., Gerber H., Hickman J., Jones D., Nesbitt C., Actuarial Mathematics, Society of
Actuaries, 1986.
Box, G.E.P., Tiao G., Bayesian Inference in Statistical Analysis, Addison-Wesley, 1973.
de Alba E., Pronóstico Bayesiano de Agregados en Procesos Estacionales Estables, Revista de
Estadística, Vol II(4), 1988.
de Alba E. y Mendoza M., A Discrete Model for Bayesian Forecasting with Stable Seasonal
Patterns, Advances in Econometrics, Vol. 1 I B, 267-281.
de Alba E. y Juarez M. A., Bayesian Forecasting : An Application to IBNR Reserves, Proceedings
of the ISBA 3,1995.
De Groot M., Optimal Statistical Decisions. McGraw-Hill, 1970.
De Vylder F., Estimations of IBNR claims by Credibility Theory, insurance: Mathematics and
Economics Vol 1, 35-40, 1982.
Elizondo A. y Guerrero V., 11/Métodos de Pronóstico de Siniestralidad Ocurrencia Pero no
Reporiada, Documentos de Trabajo. ITAM. 1995.
Esteva E., Reserva de Siniestros Ocurridos Pero No Reportados, Serie de Documentos de
Trabajo 36, C.N.S.F., 1994.
Goovaerts M. J.. Kaas R., Van Heerwaarden A. E., Bauwelinckx T.. Effective Actuarial Methods,
North-Holland, 1990.
Karlin S, A First Course in Stochastic Processes, Academic Press, 1969.
Mack T., Which stochastic model is Underlying the Cahin-Ladder method?,
Insurance: Mathematics and Economics, Vol 15 133-138, 1994.
Press J., Bavesian Statistics: Principles, Models and Applications, John Wiley & Sons, 1989.
Raiffa H. & Schlaifer R., Applied Statistical Decision Theory, The M.I.T. Press, 1961.
Verrall R. J., Bayesian Linear Models and the Claims Run-Off Triangle, Actuarial Research Paper
N° 7, City University, London, 1988.
48
Descargar
Colecciones de estudio