modelo de regresión poisson para el análisis de datos con

Anuncio
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMÁTICAS
E.A.P. DE..ESTADÍSTICA
La fecundidad y su relación con variables
socioeconómicas, demográficas y educativas aplicando el
Modelo de Regresión Poisson
Capítulo3. Modelo de regresión poisson para el análisis de datos
con respuestas en forma de conteos
MONOGRAFÍA
Para optar el Título de Licenciado en Estadística
AUTOR
Giulianna Teresa Figueroa Arboccó
LIMA – PERÚ
2005
36
CAPÍTULO III: MODELO DE REGRESIÓN POISSON
PARA EL ANÁLISIS DE DATOS CON RESPUESTAS EN
FORMA DE CONTEOS
Las variables de conteo o recuento se definen como el número de sucesos o
eventos que ocurren en una misma unidad de observación en un intervalo espacial o
temporal definido. Así, por ejemplo, el número de artículos adquiridos por una tienda
deportiva durante un año es un conteo. En los conteos o recuentos e l valor 0 es bastante
habitual. A partir de esta definición propuesta por Lindsey (1995b) , se derivan dos
características principales de una variable de recuento, lo cual la diferencia de una
variable cuantitativa continua, estas son su naturaleza discreta y no negativa.
El Modelo de Regresión Poisson (MRP) es el modelo de referencia en estudios
de variables de recuento (Cameron y Trivedi, 1998; Winkelmann, 2000). Es un modelo
que resulta especialmente adecuado para modelar valores enteros no negativos,
especialmente cuando la frecuencia de ocurrencia es baja.
3.1 LA VARIABLE DE DISTRIBUCIÓN POISSON
3.1.1 HISTORIA
La distribución de Poisson fue derivada por SIMEON DENIS POISSON, quien
en 1837 (citado en King, 1988) publicó un trabajo de Investigación en el que se
presentaba una nueva distribución para el cálculo de probabilidades aplicado al ámbito
penal. Poisson encontró que cuando el tamaño de una muestra es grande y la
probabilidad de ocurrencia de un evento es pequeña, el valor esperado µ = np tiende a
una constante.
3.1.2 APLICACIONES DE LA VARIABLE DE POISSON
Como ya se mencionó anteriormente, un conteo es el número de veces en que
cierto evento ocurre en una misma unidad de observación durante un determinado
periodo de tiempo o espacio. Ejemplos de tales eventos o conteos pueden ser:
37
Conteos en el tiempo:
•
Número de accidentes de tráfico en un tramo de cierta carretera en un mes.
•
Número del registro de partículas de una desintegración radioactiva por
segundo.
•
Número de mutaciones en una población de animales durante 5 años.
Conteos en el espacio:
•
Número de accidentes de tráfico que se originan en el cruce de 2 carreteras.
•
Número de organismos infecciosos propagados en una placa agárica.
•
Número de células sanguíneas en una muestra de sangre (el espacio es igual al
volumen en centímetros cúbicos)
•
Número de árboles infectados por hectárea en un bosque.
•
Número de pasas en una masa por kg.
La ley de los eventos raros establece que el número total de eventos seguirá una
distribución de Poisson si un evento puede ocurrir en cualquier punto del tiempo o
espacio bajo observación pero la probabilidad de ocurrencia en un punto determinado es
pequeña (Cameron y Trivedi, 1998).
De hecho, tal como indica King (1988)
habitualmente se asume que el mecanismo generador de datos que produce recuento de
eventos es, con independencia de su probabilidad de ocurrencia, Poisson.
3.1.3 SEMEJANZAS Y DIFERENCIAS DEL MRP CON OTROS MODELOS DE
REGRESIÓN
En todos los ejemplos mencionados anteriormente la variable dependiente o de
respuesta (Y) es un número entero no negativo . Podemos desear explicar o analizar esta
variable en término de un conjunto de covariables ( X). Algunos ejemplos de casos de
regresión de Poisson son el análisis del número de accidentes de una aerolínea durante
cierto período y se busca determinar su relación con la situación económica de la
aerolínea u otras medidas de su estado financiero. Los estudios de demanda de salud
modelan datos del número de veces que los individuos consumen un servicio de salud,
38
tales como visitar al doctor en cierto año. En todas estas situaciones de interés
práctico la variable respuesta en un estudio observacional o experimental es un conteo.
a) La variable respuesta
La variable respuesta se asume que tiene una distribución de probabilidad
Poisson, en la cual la variable aleatoria se define como el número de eventos que
ocurren en un intervalo de tiempo, cuya ocurrencia es aleatoria, independiente en el
tiempo y con una tasa constante de ocurrencia. La distribución Poisson es usada para
modelar eventos por unidad espacial como también por unidad de tiempo.
A diferencia del modelo de regresión clásico, la variable respuesta en el modelo
de regresión de Poisson es discreta, con valores enteros positivos y se comporta como
una distribución de probabilidades Poisson.
b) Tipo de distribución de probabilidad
La distribución Poisson es la distribución que corresponde a datos de conteo en
la misma forma en que la Distribución Normal lo es para los datos continuos. En la
distribución Poisson se tiene un único parámetro que es la media µ, el cual debe ser
siempre positivo. De esta manera. este único parámetro determina la distribución en su
totalidad. Por otra parte, en la Distribución Normal existen dos parámetros que son la
media y la varianza, las cuales caracterizan la distribución de probabilidades.
A diferencia de la distribución multinomial, se asume una distribución de
Poisson cuando el tamaño de muestra n es aleatorio, lo cual lleva a considerar que para
todas las celdas de una tabla de contingencia, los conteos de cada celda ( ni , i = 1,2,...l )
son variables aleatorias independientes con distribución de Poisson. Es decir, ningún
total es fijado previamente al estudio como sí ocurre en el caso de una distribución
multinomial.
Cuando los conteos tienen un límite superior muy pequeño (por ejemplo, el
número de jugadores lesionados en una escuadra de 24 es a lo más 24), los conteos de
39
muestra a muestra varían de acuerdo a lo que se conoce como una distribución
binomial. En cambio cuando el limite superior es muy grande comparado con los
valores observados del conteo (por ejemplo, el numero de lesiones espinales en el
Fútbol cada año), los conteos tienen una distribución Poisson.
En todos los casos de una regresión de Poisson los valores de la variable son
discretos, digamos 0,1,2,… sin un límite superior; sesgados hacia la izquierda e
intrínsecamente heterocedásticos, es decir con una varianza que se incrementa
paralelamente con la media.
De esta manera, el modelo de regresión de Poisson tiene un importante papel en
el análisis de datos de conteos y sus principales características son: a) proporciona una
descripción satisfactoria de datos cuya varianza es proporcional a su media, b) es
deducido teóricamente de principios elementales sin muchas restricciones y c) los
eventos o conteos ocurren independientemente y aleatoriamente en el tiempo, con una
tasa de ocurrencia constante , el modelo determina el número de eventos dentro de un
intervalo especificado.
3.2 LA DISTRIBUCIÓN DE PROBABILIDAD POISSON
La distribución de Poisson es:
f ( y ,µ) =
µy e − µ
y!
,y = 0,1,2,3,... ; µ > 0
(III.1)
Esta distribución puede ser obtenida de la siguiente forma: Sea Y una variable
aleatoria
con
distribución
 n
P(Y = y ) =   p y (1 − p) n − y
 y
Binomial
, y = 0,1,..., n .
con
parámetro
n
y
p,
dada
por
Haciendo que n → +∞ y p → 0 , de
modo que np = µ permanezca constante, el límite de la distribución es una Poisson con
parámetro µ dado en la distribución de Poisson definida anteriormente.
La distribución de Poisson derivada es:
40
f ( y ,µ) =
µy e − µ
y!
,y = 0,1,2,3,...
y µ> 0
f ( y ,µ) = exp { y log µ − µ} − (− log y !)
(III.2)
De esta manera haciendo θ = ln µ se tiene que:
f ( y ;θ ,φ) = exp{yθ − eθ − log y !}
siendo
así
(III.3)
una
distribución
a (φ) = 1, b (θ ) = eθ , c ( y ,φ ) = − log y ! ,
de
familia
E ( y ) = eθ = µ
(III.3)
exponencial,
entonces
y Var(y)=eθ = µ
y la
función varianza es µ. El parámetro canónico es θ = log µ .
3.2.1 APROXIMACIÓN A LA DISTRIBUCIÓN NORMAL
La distribución de Poisson tiende a una normal a medida que aumenta su media.
Se puede mostrar (McCullagh y Nelder, 1991) que cuando µ → ∞
( y − µ) / µ1 / 2 ~ N (0,1)
(III.4)
La distribución es visualizada graficando P( y = µ) vs µ .
Gráfico III.1
Gráfico de P( y = µ) vs µ ; µ = 3
Gráfico III.2
Gráfico de P( y = µ) vs µ ; µ = 10
Esto ilustra la asimetría particularmente para valores pequeños de µ y la
aproximación al límite de la Normal para grandes µ 's . En otras palabras, para µ
grande tenemos que Y sigue aproximadamente una distribución normal de media µ y
desviación estándar
µ.
41
3.3 LA FUNCIÓN ENLACE
Puesto que el parámetro canónico de la distribución de Poisson es θ = l og µ , la
función de enlace canónico para la distribución de Poisson es η = θ = log µ , donde µ
representa el valor medio de la distribución de Poisson. Usando este enlace, las
(funciones de) covariables tienen un efecto multiplicativo en lugar de aditivo sobre la
media. Se podrían usar otras funciones enlace alternativas cuando falla el enlace
canónico:
*Enlace Identidad: g ( µ) = µ
*Enlace Raíz Cuadrada: g ( µ) = µ .
Sin embargo, estas funciones de enlace pueden ser problemáticas para las
p
predicciones de µi , ya que g ( µˆ i ) = ∑ x ij βˆ j podría ser negativo.
j =1
3.4 EL MODELO DE REGRESIÓN POISSON
El Modelo de Regresión Poisson (MRP) se deriva a partir de la función de
enlace de los MLG, donde se parametriza la relación entre la media, µ, y las variables
predictoras. La idea básica para este modelo es que la información de las variables
predictoras (X) están relacionadas a la razón o susceptibilidad de la respuesta al
incremento o decrecimiento en los conteos (Y).
El MRP tiene la siguiente forma:
log µi = ηi = βT xi
i = 1,2,..., n
(III.5)
Los tres componentes del Modelo de Regresión Poisson son:
•
Componente aleatoria: La variabilidad de Y no explicada por η sigue una
distribución de Poisson
ε ~ Poisson ( µ) .
42
•
Componente sistemática: El predictor lineal que expresa la combinación lineal
de las variables explicativas y proporciona el valor predicho es:
ηi = βT xi .
•
Función de enlace: aquella que relaciona η con µ es:
g ( µi ) = log( µi )
Como la respuesta media debe ser positiva, se considera insatisfactorio un
modelo aditivo. En cambio, al construirse la relación µ = exp(η) , se asegura que
µserá siempre positivo para cualquier η, por tanto este tipo de modelo de efectos
multiplicativos será el más adecuado.
La función de enlace tiene la propiedad de que:
p
µ i = exp(∑ x ij βj )
(III.6)
j =1
= e xi 1β1 ....e
xip β p
= g −1 ( xi 1 β1 )... g −1 ( xip βp )
Con este modelo las funciones de las covariables tienen un efecto multiplicativo
sobre la respuesta media µ.
El uso de la función exponencial asegura que el lado derecho de la ecuación
(III,6) siempre será positivo , así como la respuesta esperada ( E (Y ) = µ ) en el lado
izquierdo.
3.4.1 FORMULACIÓN DEL MODELO
Los elementos básicos para plantear un modelo de regresión Poisson son: una
variable respuesta Y basada en conteos, para la que s e asume una distribución Poisson y
un conjunto de variables explicativas X1 ,..., X p , que determinan las condiciones
43
específicas para la observación. Denotaremos con λ = ( µ / t ) el riesgo o tasa de
incidencia de los sucesos que contabilizamos por unidad de tiempo o exposición t .
3.4.1.1 LA VARIABLE OFFSET O DE EXPOSICIÓN
En aquellos casos en que los conteos de las observaciones se dan en períodos de
tiempo o espacio no homogéneos entre los valores de las variables explicativas, es
recomendable incluir en el modelo un término adicional: la variable de exposición,
también denominada “offset” que se simboliza por t.
Si por ejemplo, nos interesara determinar qué variables están relacionadas con el
número de quejas que reciben los médicos a lo largo de un año, deberíamos tomar en
cuenta como una variable de “exposición o control” el número de consultas que realizó
cada médico a lo largo del año. La variable log(t ) , donde t es el número de consultas,
actúa como un offset, esto es, influye en la respuesta media directamente, ya que es
lógico asumir que a más consultas, puede existir mayor número de quejas.
El modelo será:
p
log( E( Yi )) = log( ti ) + ∑ xi j βj i = 1, 2,..., n
(III.7)
j =1
Dado que un cambio de una unidad en log(t ) provoca un cambio de una unidad
en log( E(Yi )) , sólo se estiman los parámetros βj asociados a las covariables X j .
La ecuación del Modelo de Regresión Poisson que permite obtener los valores
de conteo esperados, incorporando a la variable offset es:
µi = t i exp( xi β) ,
(III.8)
donde ti es un vector columna que contiene los valores de exposición para cada unidad
de observación.
44
3.4.2
EQUIDISPERSIÓN
Se asume debido a la naturaleza de la distribución Poisson, que
Var (Y ) = σ 2 E (Y ) ; donde σ2 es el parámetro de dispersión y se asume constante. Es
decir la distribución de Poisson se caracteriza por la equidispersión, esto es:
Var (Y ) = E (Y ) . Sin embargo, un problema que se da con cierta frecuencia en este
modelo es que la relación media-varianza no es equitativa.
Las desviaciones en
relación a la equidispersión pueden resultar en:
•
Sobredispersión: Si Var ( Y ) > E( Y ), es decir si σ2 > 1 .
•
Infradispersión o Subdispersión: Var ( Y ) < E(Y ), es decir si σ 2 < 1 .
Más adelante se tratará con mayor detalle el tema de la sobredispersión, un caso
más frecuente que el de subdispersión en el Modelo de Regresión Poisson.
3.4.3 ESTIMACIÓN DE LOS PARÁMETROS
El método mayormente utilizado para estimar al vector de parámetros β de un
modelo Poisson es al igual que en los Modelos Lineales Generalizados, mencionado en
la sección (2.1.3) el de Máxima Verosimilitud iterativo .
Para un vector de observaciones independientes, la función log-verosímil para el
Modelo de Regresión Poisson toma la forma:
n
L( β; y , x ) = ∑ yi log µi −µi − log yi ! .
(III.9)
i =1
El valor que maximice L( β) es el vector de coeficientes estimados β̂ .
Derivando L( β) con respecto a β se tiene que:
∂ L ( β) n
= ∑ ( yi − yˆi ) xi = 0
∂β
i =1
n
(III.10)
, β ∈¡ p.
= ∑ ( yi − exp( xi βˆ )) xi = 0
i =1
45
Resolviendo el sistema de ecuaciones (III.10) se obtiene el vector β̂ de
estimaciones de β .
Por la teoría estándar de máxima verosimilitud de modelos
correctamente especificados, β̂ es un estimador consistente para β y es
asintóticamente normal con la matriz de covarianzas muestral:
n
V ( βˆ ) = ( ∑ xi xi 'yˆi ) −1 ,
(III.11)
i =1
xi = ( xi 1, ..., xip ) .
donde
A partir del conocimiento de la distribución de β̂ se puede realizar las pruebas
de hipótesis y construir los intervalos de confianza.
3.4.4 INTERPRETACIÓN DE LOS PARÁMETROS
Necesitamos ser cuidadosos en como modelamos la media µ. Por ejemplo, si Yi
es el número de defectos en una pieza con un área de superficie ai , deberemos usar el
modelo Yi ~ Poisson( µ0 ai ) , donde µ0 es el número medio de defectos por unidad de
área. En otros casos la exposición es constante, en tal caso no necesitamos incluirlo
explícitamente en el modelo. Las agencias de seguros pueden específicamente colectar
datos del número de accidentes que cada cliente tiene en un año dado. Si Yi es el
número de accidentes por cliente i en un año dado, entonces usaremos el modelo
Yi ~ Poisson( µ) , donde µ es el número promedio de accidentes por cliente.
Considere un modelo simple con un solo predictor x , tenemos que
E (Y ) = λ = µ = exp( a + βx ). Esta función puede ser rescrita como exp( a)(exp{β}) x .
Cuando consideramos el incremento de una unidad en el predictor x ahora
tenemos una función media:
E (Y / x + 1) = exp( a)(exp{β}) x +1 = exp( a)(exp{β}) x exp( β) = E (Y / x )exp( β),
(III.12)
de tal manera que la media en x + 1 es simplemente la media en x multiplicada por
exp( β) , así que el impacto de una unidad de cambio en x es un múltiplo de la media
anterior.
46
Las estimaciones de los parámetros a menudo son interpretadas sobre e β en
términos de razón de incidencias, es decir, exp( β j ) representa el riesgo relativo (RR)
sobre la tasa de incidencia de los sucesos asociada a un incremento de una unidad en la
covariable x j .
Para una variable explicativa binaria denotada por una variable indicadora
( X j = 0 si el factor está ausente o X j = 1 si está presente), el riesgo relativo para la
presencia versus la ausencia se define como:
RR =
E (Y / X = 1)
= eβ
E(Y / X = 0)
(III.13)
Similarmente, para una variable explicativa continua X k , un incremento de una
unidad resultará en un efecto multiplicativo de e β k en la razón µ, es decir si la variable
X k aumenta n unidades, la esperanza de la variable Poisson se multiplica por
e n βk = (e βk ) n , es decir la potencia n-ésima de e β k .
3.4.5 EVALUACIÓN DE LA BONDAD DEL AJUSTE DEL MRP
3.4.5.1 LA FUNCIÓN DESVÍO
A partir de (II.14), l a función desvío para el modelo de regresión Poisson viene
dada por:
D( y ; µ
ˆ ) = 2l ( y , y ) − 2l ( µ
ˆ , y)
n
=2∑ { y i log( y i / µˆi ) − ( yi − µˆi )}
(III.14)
i =1
En particular, si el modelo incluye una constante, se puede demostrar que
n
∑(y
i =1
i
ˆ i ) = 0 , por tanto la función desvío se expresa en su forma más usual como
−µ
n
D ( y ;µ
ˆ ) = 2∑ y i log( y i / µ
ˆ i ) , donde y es el número de eventos, n es el número de
i =1
observaciones y µ̂ es la respuesta media Poisson ajustada. El desvío tiene una
distribución desconocida pero cuando n→ ∞ , presenta una distribución asintótica
47
χn2− p , donde n-p es el número de grados de libertad del modelo, siendo n el número de
variables y p el número de parámetros involucrados en el modelo. Sin embargo, esta
aproximación no es buena cuando las muestras son pequeñas.
3.4.5.2 COEFICIENTE DE DETERMINACIÓN ( R2 )
Las medidas de bondad de ajuste como el R2 para datos de conteo son
raramente reportados, sin embargo en la sección (2.1.5.1.2) se presentó una estadística
de bondad de ajuste R2 como una medida de bondad de ajuste para modelos de
regresión de la familia exponencial, la cual incluye al Modelo de Regresión de Poisson.
En general, para el Modelo de Regresión considerando sólo el intercepto la
media estimada es y , el desvío considerando la definición para los MLG, vista en la
N
sección (2.1.5.1.1) está dado por: D(y, y )= ∑ 2 yi log( yi / y ) .
i =1
Por tanto, el coeficiente de determinación R2 para el Modelo de Regresión de
Poisson es:
N
R
2
DEV , P
=1−
∑ {y
i
log( µˆi / yi ) − ( µˆi − yi )}
i=
N
∑ { y log( y / y )
i=
i
i
(III.15)
i
R 2 DEV , P se encuentra dentro del intervalo (0,1) y no decrece cuando se añaden
los regresores.
A diferencia de los coeficientes de determinación basados en residuales simples
o de Pearson, aquel basado en los residuales desvío, tiene la ventaja que la medida
basada en la variación del residual coincide con la medida basada en la variación
explicada. Además R 2 DEV , P depende sólo de la variable Y y no de los regresores X .
3.4.5.3 ESTADÍSTICA CHI-CUADRADO DE PEARSON
La estadística Chi-cuadrado de Pearson en el caso de la regresión Poisson es la
estadística Pearson X 2 original definida en la sección (2.1.5.1.3), es decir:
48
ˆ i )2
( yi − µ
ˆi )
V (µ
i =1
n
X2 = ∑
(III.16)
Esta estadística se usa como una medida de bondad de ajuste, ya que se calcula a partir
de los datos y del modelo ajustado.
3.4.5.4 ESTADÍSTICA DE RAZÓN DE VEROSIMILITUD
Si particionamos un vector de parámetros de tal modo que β = ( β1T , β2T )T , donde
β1 y β2 son subvectores de dimensión p-q y q respectivamente, la estadística de RV
para probar la hipótesis H 0 : β2 = 0 vs H1 : β2 ≠ 0 está dada en el modelo de regresión
Poisson por:
n
Λ RV = 2∑ yi ln( µˆ oi / µˆ i )
.
(III.17)
i =1
Bajo H 0 y para muestras grandes Λ RV : χq2 . Esta estadística es la más
representativa para la verificación del modelo ajustado porque r epresenta el cambio en
el desvío entre el modelo ajustado y el modelo con un término constante y ninguna
covariable. Si este test resulta significativo entonces las covariables contribuyen
significativamente al modelo de regresión Poisson.
3.4.5.5 LA ESTADÍSTICA F
La estadística F para el caso específico del MRP se construye siguiendo los
mismos pasos que para los Modelos Lineales Generalizados (ecuación II.18). El valor
de F será comparado con el valor de la distribución descrita respectivamente en el
capítulo anterior. Si F es menor que este valor, para un nivel de significancia α ,
entonces optaríamos por un modelo con menos regresores. El paso siguiente será
entonces tratar de reducir el número de parámetros del modelo, repitiendo la prueba F.
Es importante, considerar en el modelo variables que expliquen realmente el fenómeno
en estudio.
49
3.4.5.6 PRUEBAS DE HIPÓTESIS SIMPLES E INTERVALOS DE CONFIANZA
En e l caso de los Modelos de Regresión Poisson calcular las pruebas estadísticas
de Wald, Score y Razón de Verosimilitud se harán bajo los mismos procedimientos
definidos para los MLG de la sección (2.1.5.1.5). No es necesario calcularlos
especialmente para l os procesos de distribución Poisson, ya que llegaremos a la misma
definición general descrita en el capítulo anterior.
De manera similar, con estas pruebas y conociendo asintóticamente la
distribución de β̂ , se construirán los intervalos de confianza respectivos. La mayoría
de los paquetes estadísticos que incluyen el modelamiento de procesos de distribución
Poisson están programados para calcular los respectivos intervalos de confianza, sin
embargo el más utilizado es aquel construido a partir de la Estadística de Wald, ya que
no requiere conocer al parámetro de dispersión σ 2 .
3.4.5.7 ESTIMACIÓN DEL PARÁMETRO DE DISPERSIÓN
La función varianza en el modelo Poisson es V ( µ) = µ . El parámetro φ en el
caso de la distribución Poisson se prefija en 1 . Sin embargo, si requerimos estimar este
parámetro igual que en el caso de los modelos lineales generalizados mencionado en la
sección (2.1.5.1.7) se definirá:
n
σˆ 2 = X 2 /( n − p) = ∑
i =1
ˆi )2
( yi − µ
/ ( n − p)
ˆi
µ
(III.18)
según McCullagh y Nelder (1991).
Estimar el parámetro de dispersión nos llevará primordialmente a una detección
preliminar de no existencia de equidispersión asumida en un modelo de regresión
Poisson. En la sección (3.5.8) se tratará acerca de l a sobredispersión en el MRP y las
alternativas para la evaluación del modelo.
50
3.4.6 EVALUACIÓN DE LA ADECUACIÓN DEL MODELO
3.4.6.1 ANÁLISIS EXPLORATORIO DE LOS RESIDUOS
El análisis de los residuos del ajuste del modelo nos va a permitir explorar la
adecuación del modelo. Como ya se vio en el capítulo anterior en la sección (2.1.5.2.1)
esperamos que los residuos tengan un comportamiento aleatorio con media cero y
varianza constante y que además no existan datos atípicos.
Los residuos más
utilizados en el MRP son por ejemplo el Residual Pearson, el cual es:
yi − µˆi
; i = 1,2,..., n
ˆi
µ
ri p =
(III.19)
La adecuación del modelo se puede investigar a través de los residuales de la
forma habitual. Residuos muy alejados del cero ( ri > 2) o la observación de ciertos
patrones o tendencias de comportamiento no aleatorio podrían sugerir no adecuación del
modelo.
Los demás tipos de residuales definidos para los Modelos Lineales
Generalizados, son definidos análogamente para el caso de los MRP. Por ejemplo, el
residual Pearson estudentizado es
ri p ' =
ˆi
yi − µ
; i = 1,2,..., n
( µˆ i )(1 − hi )
,
(III.20)
donde hi es el i-ésimo elemento de la matriz de proyección . Notar que, en la
construcción de estos residuales estamos asumiendo que el parámetro de dispersión es 1
y que además V ( µˆ i ) = µˆ i . El residual de Pearson estudentizado servirá a su vez para
construir la estadística de Cook respectiva LDi definida en la ecuación (II.37).
Una vez que obtengamos los residuales y respectivas medidas o estadísticas
estudiadas en la sección (2.1.5.2) para detectar observaciones influyentes ya podremos
realizar todos los gráficos de diagnóstico de adecuación correspondientes como se trató
en la sección (2.1.5.2.2.3).
3.4.7
LA SOBREDISPERSIÓN
Si bien es cierto, el MRP se presenta como un modelo con indudables mejoras
para representar de datos de conteos, éste puede resultar inapropiado debido al
51
incumplimiento de ciertos supuestos, cuyo origen es diverso ( Winkelmann, 2000), la
más común es la ausencia de equidispersión ( Cameron y Trivedi, 1998). En la práctica,
puede ocurrir que se presente subdispersión o sobredispersión, pero es esta última la
que aparece con mayor frecuencia, por lo que será discutida con más detalle. De hecho,
las pruebas para evaluar equidispersión son denominadas habitualmente pruebas de
sobredispersión.
Recordemos que la equidispersión constituye un supuesto básico, es decir se
asume que V (Y ) = σ 2 E (Y ) , donde el parámetro de dispersión σ 2 = 1 .
La
sobredispersión ocurre cuando V (Y ) > E(Y ) , es decir σ 2 > 1 . Cuando existe exceso de
variación en los datos, las estimaciones de los errores estándar pueden resultar sesgadas,
pudiendo presentarse errores en las inferencias a partir de los parámetros del modelo de
regresión (Krzanowski, 1998).
Entre las diversas causas de la sobredispersión podemos mencionar:
• Alta variabilidad en los datos.
• Los datos no provienen de una distribución Poisson.
• Los eventos no ocurren independientemente a través del tiempo.
• Falta de estabilidad, es decir, la probabilidad de ocurrencia de un e vento puede ser
independiente de la ocurrencia de un evento previo pero no es constante.
• Errores de especificación de la media µ (Winkelmann, 2000) como omitir
variables explicativas o que entran al modelo a través de alguna transformación en
lugar de linealmente.
• Errores al elegir la función de enlace, es decir tal vez no fue apropiado el escoger el
enlace log-lineal.
Existen diversas propuestas para detectar sobredispersión, por ejemplo Lindsey
(1995b) propone aplicar un coeficiente de variación CV:
CV =
Var ( µi )
µi
(III.21)
52
Este coeficiente teóricamente debería resultar en el valor 1, si se cumpliera la
equidispersión. Este sencillo índice constituye una simple aproximación para la
detección de sobredispersión. Sin embargo, existen otros criterios de detección.
Generalmente se evalúa la sobredispersión evaluando la relación entre la
estadística de Pearson X 2 o la función desvío D y sus respectivos grados de libertad
(gl), es decir evaluar:
X 2 / gl
y
D / gl
Si estos valores son mayores que 1, indican sobredispersión.
Otro diagnóstico está basado en una prueba de Razón de Verosimilitud (RV)
basada en las distribuciones Poisson y la Binomial Negativa.
•
Para la distribución Poisson V (Y ) = µ .
•
Para la distribución Binomial Negativa V (Y ) = µ + k µ2 .
Si k=0, entonces la distribución Binomial Negativa se reducirá a una Poisson.
Por tanto las hipótesis que se plantean son:
H0 : k = 0
vs
H1 : k > 0
Para llevar a cabo esta prueba , se deberán ajustar los 2 modelos: Poisson y
Binomial Negativa (BN). Para cada modelo se obtendrá su respectiva función de log
verosimilitud (l ) . La estadística de prueba es :
RV = −(2(l ( Poisson) − l ( BN )))
(III.22)
Según Cameron y Trivedi (1998) esta prueba tiene una distribución asintótica
χ(12 − 2α ,1) . Por tanto, rechazaremos H 0 si la estadística es mayor que χ(12 − 2α ,1) . En tal
caso, sería más conveniente modelar el número de ocurrencias a través de una Binomial
Negativa. La interpretación de los resultados sería la misma que en el caso de la
Regresión Poisson.
Otra alternativa sería usar métodos de estimación de Quasi Verosimilitud, los
cuales nos permiten estimar el parámetro de dispersión e incluirlo en el modelo. Sin
embargo, este método comprende una teoría diferente a la tratada previamente en el
53
capítulo anterior y se aleja de la extensión del presente trabajo, sin embargo existen
ejemplos de esta clase de aplicación, los cuales son presentados en McCullagh y Nelder
(1991). De esta manera, la estimación pasa a ser semiparamétrica o robusta pero hay
que tener cuidado con estas estimaciones pues pueden ser en general “inconsistentes e
ineficientes” según Winkelmann (2000, p.84).
Descargar