UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE..ESTADÍSTICA La fecundidad y su relación con variables socioeconómicas, demográficas y educativas aplicando el Modelo de Regresión Poisson Capítulo3. Modelo de regresión poisson para el análisis de datos con respuestas en forma de conteos MONOGRAFÍA Para optar el Título de Licenciado en Estadística AUTOR Giulianna Teresa Figueroa Arboccó LIMA – PERÚ 2005 36 CAPÍTULO III: MODELO DE REGRESIÓN POISSON PARA EL ANÁLISIS DE DATOS CON RESPUESTAS EN FORMA DE CONTEOS Las variables de conteo o recuento se definen como el número de sucesos o eventos que ocurren en una misma unidad de observación en un intervalo espacial o temporal definido. Así, por ejemplo, el número de artículos adquiridos por una tienda deportiva durante un año es un conteo. En los conteos o recuentos e l valor 0 es bastante habitual. A partir de esta definición propuesta por Lindsey (1995b) , se derivan dos características principales de una variable de recuento, lo cual la diferencia de una variable cuantitativa continua, estas son su naturaleza discreta y no negativa. El Modelo de Regresión Poisson (MRP) es el modelo de referencia en estudios de variables de recuento (Cameron y Trivedi, 1998; Winkelmann, 2000). Es un modelo que resulta especialmente adecuado para modelar valores enteros no negativos, especialmente cuando la frecuencia de ocurrencia es baja. 3.1 LA VARIABLE DE DISTRIBUCIÓN POISSON 3.1.1 HISTORIA La distribución de Poisson fue derivada por SIMEON DENIS POISSON, quien en 1837 (citado en King, 1988) publicó un trabajo de Investigación en el que se presentaba una nueva distribución para el cálculo de probabilidades aplicado al ámbito penal. Poisson encontró que cuando el tamaño de una muestra es grande y la probabilidad de ocurrencia de un evento es pequeña, el valor esperado µ = np tiende a una constante. 3.1.2 APLICACIONES DE LA VARIABLE DE POISSON Como ya se mencionó anteriormente, un conteo es el número de veces en que cierto evento ocurre en una misma unidad de observación durante un determinado periodo de tiempo o espacio. Ejemplos de tales eventos o conteos pueden ser: 37 Conteos en el tiempo: • Número de accidentes de tráfico en un tramo de cierta carretera en un mes. • Número del registro de partículas de una desintegración radioactiva por segundo. • Número de mutaciones en una población de animales durante 5 años. Conteos en el espacio: • Número de accidentes de tráfico que se originan en el cruce de 2 carreteras. • Número de organismos infecciosos propagados en una placa agárica. • Número de células sanguíneas en una muestra de sangre (el espacio es igual al volumen en centímetros cúbicos) • Número de árboles infectados por hectárea en un bosque. • Número de pasas en una masa por kg. La ley de los eventos raros establece que el número total de eventos seguirá una distribución de Poisson si un evento puede ocurrir en cualquier punto del tiempo o espacio bajo observación pero la probabilidad de ocurrencia en un punto determinado es pequeña (Cameron y Trivedi, 1998). De hecho, tal como indica King (1988) habitualmente se asume que el mecanismo generador de datos que produce recuento de eventos es, con independencia de su probabilidad de ocurrencia, Poisson. 3.1.3 SEMEJANZAS Y DIFERENCIAS DEL MRP CON OTROS MODELOS DE REGRESIÓN En todos los ejemplos mencionados anteriormente la variable dependiente o de respuesta (Y) es un número entero no negativo . Podemos desear explicar o analizar esta variable en término de un conjunto de covariables ( X). Algunos ejemplos de casos de regresión de Poisson son el análisis del número de accidentes de una aerolínea durante cierto período y se busca determinar su relación con la situación económica de la aerolínea u otras medidas de su estado financiero. Los estudios de demanda de salud modelan datos del número de veces que los individuos consumen un servicio de salud, 38 tales como visitar al doctor en cierto año. En todas estas situaciones de interés práctico la variable respuesta en un estudio observacional o experimental es un conteo. a) La variable respuesta La variable respuesta se asume que tiene una distribución de probabilidad Poisson, en la cual la variable aleatoria se define como el número de eventos que ocurren en un intervalo de tiempo, cuya ocurrencia es aleatoria, independiente en el tiempo y con una tasa constante de ocurrencia. La distribución Poisson es usada para modelar eventos por unidad espacial como también por unidad de tiempo. A diferencia del modelo de regresión clásico, la variable respuesta en el modelo de regresión de Poisson es discreta, con valores enteros positivos y se comporta como una distribución de probabilidades Poisson. b) Tipo de distribución de probabilidad La distribución Poisson es la distribución que corresponde a datos de conteo en la misma forma en que la Distribución Normal lo es para los datos continuos. En la distribución Poisson se tiene un único parámetro que es la media µ, el cual debe ser siempre positivo. De esta manera. este único parámetro determina la distribución en su totalidad. Por otra parte, en la Distribución Normal existen dos parámetros que son la media y la varianza, las cuales caracterizan la distribución de probabilidades. A diferencia de la distribución multinomial, se asume una distribución de Poisson cuando el tamaño de muestra n es aleatorio, lo cual lleva a considerar que para todas las celdas de una tabla de contingencia, los conteos de cada celda ( ni , i = 1,2,...l ) son variables aleatorias independientes con distribución de Poisson. Es decir, ningún total es fijado previamente al estudio como sí ocurre en el caso de una distribución multinomial. Cuando los conteos tienen un límite superior muy pequeño (por ejemplo, el número de jugadores lesionados en una escuadra de 24 es a lo más 24), los conteos de 39 muestra a muestra varían de acuerdo a lo que se conoce como una distribución binomial. En cambio cuando el limite superior es muy grande comparado con los valores observados del conteo (por ejemplo, el numero de lesiones espinales en el Fútbol cada año), los conteos tienen una distribución Poisson. En todos los casos de una regresión de Poisson los valores de la variable son discretos, digamos 0,1,2,… sin un límite superior; sesgados hacia la izquierda e intrínsecamente heterocedásticos, es decir con una varianza que se incrementa paralelamente con la media. De esta manera, el modelo de regresión de Poisson tiene un importante papel en el análisis de datos de conteos y sus principales características son: a) proporciona una descripción satisfactoria de datos cuya varianza es proporcional a su media, b) es deducido teóricamente de principios elementales sin muchas restricciones y c) los eventos o conteos ocurren independientemente y aleatoriamente en el tiempo, con una tasa de ocurrencia constante , el modelo determina el número de eventos dentro de un intervalo especificado. 3.2 LA DISTRIBUCIÓN DE PROBABILIDAD POISSON La distribución de Poisson es: f ( y ,µ) = µy e − µ y! ,y = 0,1,2,3,... ; µ > 0 (III.1) Esta distribución puede ser obtenida de la siguiente forma: Sea Y una variable aleatoria con distribución n P(Y = y ) = p y (1 − p) n − y y Binomial , y = 0,1,..., n . con parámetro n y p, dada por Haciendo que n → +∞ y p → 0 , de modo que np = µ permanezca constante, el límite de la distribución es una Poisson con parámetro µ dado en la distribución de Poisson definida anteriormente. La distribución de Poisson derivada es: 40 f ( y ,µ) = µy e − µ y! ,y = 0,1,2,3,... y µ> 0 f ( y ,µ) = exp { y log µ − µ} − (− log y !) (III.2) De esta manera haciendo θ = ln µ se tiene que: f ( y ;θ ,φ) = exp{yθ − eθ − log y !} siendo así (III.3) una distribución a (φ) = 1, b (θ ) = eθ , c ( y ,φ ) = − log y ! , de familia E ( y ) = eθ = µ (III.3) exponencial, entonces y Var(y)=eθ = µ y la función varianza es µ. El parámetro canónico es θ = log µ . 3.2.1 APROXIMACIÓN A LA DISTRIBUCIÓN NORMAL La distribución de Poisson tiende a una normal a medida que aumenta su media. Se puede mostrar (McCullagh y Nelder, 1991) que cuando µ → ∞ ( y − µ) / µ1 / 2 ~ N (0,1) (III.4) La distribución es visualizada graficando P( y = µ) vs µ . Gráfico III.1 Gráfico de P( y = µ) vs µ ; µ = 3 Gráfico III.2 Gráfico de P( y = µ) vs µ ; µ = 10 Esto ilustra la asimetría particularmente para valores pequeños de µ y la aproximación al límite de la Normal para grandes µ 's . En otras palabras, para µ grande tenemos que Y sigue aproximadamente una distribución normal de media µ y desviación estándar µ. 41 3.3 LA FUNCIÓN ENLACE Puesto que el parámetro canónico de la distribución de Poisson es θ = l og µ , la función de enlace canónico para la distribución de Poisson es η = θ = log µ , donde µ representa el valor medio de la distribución de Poisson. Usando este enlace, las (funciones de) covariables tienen un efecto multiplicativo en lugar de aditivo sobre la media. Se podrían usar otras funciones enlace alternativas cuando falla el enlace canónico: *Enlace Identidad: g ( µ) = µ *Enlace Raíz Cuadrada: g ( µ) = µ . Sin embargo, estas funciones de enlace pueden ser problemáticas para las p predicciones de µi , ya que g ( µˆ i ) = ∑ x ij βˆ j podría ser negativo. j =1 3.4 EL MODELO DE REGRESIÓN POISSON El Modelo de Regresión Poisson (MRP) se deriva a partir de la función de enlace de los MLG, donde se parametriza la relación entre la media, µ, y las variables predictoras. La idea básica para este modelo es que la información de las variables predictoras (X) están relacionadas a la razón o susceptibilidad de la respuesta al incremento o decrecimiento en los conteos (Y). El MRP tiene la siguiente forma: log µi = ηi = βT xi i = 1,2,..., n (III.5) Los tres componentes del Modelo de Regresión Poisson son: • Componente aleatoria: La variabilidad de Y no explicada por η sigue una distribución de Poisson ε ~ Poisson ( µ) . 42 • Componente sistemática: El predictor lineal que expresa la combinación lineal de las variables explicativas y proporciona el valor predicho es: ηi = βT xi . • Función de enlace: aquella que relaciona η con µ es: g ( µi ) = log( µi ) Como la respuesta media debe ser positiva, se considera insatisfactorio un modelo aditivo. En cambio, al construirse la relación µ = exp(η) , se asegura que µserá siempre positivo para cualquier η, por tanto este tipo de modelo de efectos multiplicativos será el más adecuado. La función de enlace tiene la propiedad de que: p µ i = exp(∑ x ij βj ) (III.6) j =1 = e xi 1β1 ....e xip β p = g −1 ( xi 1 β1 )... g −1 ( xip βp ) Con este modelo las funciones de las covariables tienen un efecto multiplicativo sobre la respuesta media µ. El uso de la función exponencial asegura que el lado derecho de la ecuación (III,6) siempre será positivo , así como la respuesta esperada ( E (Y ) = µ ) en el lado izquierdo. 3.4.1 FORMULACIÓN DEL MODELO Los elementos básicos para plantear un modelo de regresión Poisson son: una variable respuesta Y basada en conteos, para la que s e asume una distribución Poisson y un conjunto de variables explicativas X1 ,..., X p , que determinan las condiciones 43 específicas para la observación. Denotaremos con λ = ( µ / t ) el riesgo o tasa de incidencia de los sucesos que contabilizamos por unidad de tiempo o exposición t . 3.4.1.1 LA VARIABLE OFFSET O DE EXPOSICIÓN En aquellos casos en que los conteos de las observaciones se dan en períodos de tiempo o espacio no homogéneos entre los valores de las variables explicativas, es recomendable incluir en el modelo un término adicional: la variable de exposición, también denominada “offset” que se simboliza por t. Si por ejemplo, nos interesara determinar qué variables están relacionadas con el número de quejas que reciben los médicos a lo largo de un año, deberíamos tomar en cuenta como una variable de “exposición o control” el número de consultas que realizó cada médico a lo largo del año. La variable log(t ) , donde t es el número de consultas, actúa como un offset, esto es, influye en la respuesta media directamente, ya que es lógico asumir que a más consultas, puede existir mayor número de quejas. El modelo será: p log( E( Yi )) = log( ti ) + ∑ xi j βj i = 1, 2,..., n (III.7) j =1 Dado que un cambio de una unidad en log(t ) provoca un cambio de una unidad en log( E(Yi )) , sólo se estiman los parámetros βj asociados a las covariables X j . La ecuación del Modelo de Regresión Poisson que permite obtener los valores de conteo esperados, incorporando a la variable offset es: µi = t i exp( xi β) , (III.8) donde ti es un vector columna que contiene los valores de exposición para cada unidad de observación. 44 3.4.2 EQUIDISPERSIÓN Se asume debido a la naturaleza de la distribución Poisson, que Var (Y ) = σ 2 E (Y ) ; donde σ2 es el parámetro de dispersión y se asume constante. Es decir la distribución de Poisson se caracteriza por la equidispersión, esto es: Var (Y ) = E (Y ) . Sin embargo, un problema que se da con cierta frecuencia en este modelo es que la relación media-varianza no es equitativa. Las desviaciones en relación a la equidispersión pueden resultar en: • Sobredispersión: Si Var ( Y ) > E( Y ), es decir si σ2 > 1 . • Infradispersión o Subdispersión: Var ( Y ) < E(Y ), es decir si σ 2 < 1 . Más adelante se tratará con mayor detalle el tema de la sobredispersión, un caso más frecuente que el de subdispersión en el Modelo de Regresión Poisson. 3.4.3 ESTIMACIÓN DE LOS PARÁMETROS El método mayormente utilizado para estimar al vector de parámetros β de un modelo Poisson es al igual que en los Modelos Lineales Generalizados, mencionado en la sección (2.1.3) el de Máxima Verosimilitud iterativo . Para un vector de observaciones independientes, la función log-verosímil para el Modelo de Regresión Poisson toma la forma: n L( β; y , x ) = ∑ yi log µi −µi − log yi ! . (III.9) i =1 El valor que maximice L( β) es el vector de coeficientes estimados β̂ . Derivando L( β) con respecto a β se tiene que: ∂ L ( β) n = ∑ ( yi − yˆi ) xi = 0 ∂β i =1 n (III.10) , β ∈¡ p. = ∑ ( yi − exp( xi βˆ )) xi = 0 i =1 45 Resolviendo el sistema de ecuaciones (III.10) se obtiene el vector β̂ de estimaciones de β . Por la teoría estándar de máxima verosimilitud de modelos correctamente especificados, β̂ es un estimador consistente para β y es asintóticamente normal con la matriz de covarianzas muestral: n V ( βˆ ) = ( ∑ xi xi 'yˆi ) −1 , (III.11) i =1 xi = ( xi 1, ..., xip ) . donde A partir del conocimiento de la distribución de β̂ se puede realizar las pruebas de hipótesis y construir los intervalos de confianza. 3.4.4 INTERPRETACIÓN DE LOS PARÁMETROS Necesitamos ser cuidadosos en como modelamos la media µ. Por ejemplo, si Yi es el número de defectos en una pieza con un área de superficie ai , deberemos usar el modelo Yi ~ Poisson( µ0 ai ) , donde µ0 es el número medio de defectos por unidad de área. En otros casos la exposición es constante, en tal caso no necesitamos incluirlo explícitamente en el modelo. Las agencias de seguros pueden específicamente colectar datos del número de accidentes que cada cliente tiene en un año dado. Si Yi es el número de accidentes por cliente i en un año dado, entonces usaremos el modelo Yi ~ Poisson( µ) , donde µ es el número promedio de accidentes por cliente. Considere un modelo simple con un solo predictor x , tenemos que E (Y ) = λ = µ = exp( a + βx ). Esta función puede ser rescrita como exp( a)(exp{β}) x . Cuando consideramos el incremento de una unidad en el predictor x ahora tenemos una función media: E (Y / x + 1) = exp( a)(exp{β}) x +1 = exp( a)(exp{β}) x exp( β) = E (Y / x )exp( β), (III.12) de tal manera que la media en x + 1 es simplemente la media en x multiplicada por exp( β) , así que el impacto de una unidad de cambio en x es un múltiplo de la media anterior. 46 Las estimaciones de los parámetros a menudo son interpretadas sobre e β en términos de razón de incidencias, es decir, exp( β j ) representa el riesgo relativo (RR) sobre la tasa de incidencia de los sucesos asociada a un incremento de una unidad en la covariable x j . Para una variable explicativa binaria denotada por una variable indicadora ( X j = 0 si el factor está ausente o X j = 1 si está presente), el riesgo relativo para la presencia versus la ausencia se define como: RR = E (Y / X = 1) = eβ E(Y / X = 0) (III.13) Similarmente, para una variable explicativa continua X k , un incremento de una unidad resultará en un efecto multiplicativo de e β k en la razón µ, es decir si la variable X k aumenta n unidades, la esperanza de la variable Poisson se multiplica por e n βk = (e βk ) n , es decir la potencia n-ésima de e β k . 3.4.5 EVALUACIÓN DE LA BONDAD DEL AJUSTE DEL MRP 3.4.5.1 LA FUNCIÓN DESVÍO A partir de (II.14), l a función desvío para el modelo de regresión Poisson viene dada por: D( y ; µ ˆ ) = 2l ( y , y ) − 2l ( µ ˆ , y) n =2∑ { y i log( y i / µˆi ) − ( yi − µˆi )} (III.14) i =1 En particular, si el modelo incluye una constante, se puede demostrar que n ∑(y i =1 i ˆ i ) = 0 , por tanto la función desvío se expresa en su forma más usual como −µ n D ( y ;µ ˆ ) = 2∑ y i log( y i / µ ˆ i ) , donde y es el número de eventos, n es el número de i =1 observaciones y µ̂ es la respuesta media Poisson ajustada. El desvío tiene una distribución desconocida pero cuando n→ ∞ , presenta una distribución asintótica 47 χn2− p , donde n-p es el número de grados de libertad del modelo, siendo n el número de variables y p el número de parámetros involucrados en el modelo. Sin embargo, esta aproximación no es buena cuando las muestras son pequeñas. 3.4.5.2 COEFICIENTE DE DETERMINACIÓN ( R2 ) Las medidas de bondad de ajuste como el R2 para datos de conteo son raramente reportados, sin embargo en la sección (2.1.5.1.2) se presentó una estadística de bondad de ajuste R2 como una medida de bondad de ajuste para modelos de regresión de la familia exponencial, la cual incluye al Modelo de Regresión de Poisson. En general, para el Modelo de Regresión considerando sólo el intercepto la media estimada es y , el desvío considerando la definición para los MLG, vista en la N sección (2.1.5.1.1) está dado por: D(y, y )= ∑ 2 yi log( yi / y ) . i =1 Por tanto, el coeficiente de determinación R2 para el Modelo de Regresión de Poisson es: N R 2 DEV , P =1− ∑ {y i log( µˆi / yi ) − ( µˆi − yi )} i= N ∑ { y log( y / y ) i= i i (III.15) i R 2 DEV , P se encuentra dentro del intervalo (0,1) y no decrece cuando se añaden los regresores. A diferencia de los coeficientes de determinación basados en residuales simples o de Pearson, aquel basado en los residuales desvío, tiene la ventaja que la medida basada en la variación del residual coincide con la medida basada en la variación explicada. Además R 2 DEV , P depende sólo de la variable Y y no de los regresores X . 3.4.5.3 ESTADÍSTICA CHI-CUADRADO DE PEARSON La estadística Chi-cuadrado de Pearson en el caso de la regresión Poisson es la estadística Pearson X 2 original definida en la sección (2.1.5.1.3), es decir: 48 ˆ i )2 ( yi − µ ˆi ) V (µ i =1 n X2 = ∑ (III.16) Esta estadística se usa como una medida de bondad de ajuste, ya que se calcula a partir de los datos y del modelo ajustado. 3.4.5.4 ESTADÍSTICA DE RAZÓN DE VEROSIMILITUD Si particionamos un vector de parámetros de tal modo que β = ( β1T , β2T )T , donde β1 y β2 son subvectores de dimensión p-q y q respectivamente, la estadística de RV para probar la hipótesis H 0 : β2 = 0 vs H1 : β2 ≠ 0 está dada en el modelo de regresión Poisson por: n Λ RV = 2∑ yi ln( µˆ oi / µˆ i ) . (III.17) i =1 Bajo H 0 y para muestras grandes Λ RV : χq2 . Esta estadística es la más representativa para la verificación del modelo ajustado porque r epresenta el cambio en el desvío entre el modelo ajustado y el modelo con un término constante y ninguna covariable. Si este test resulta significativo entonces las covariables contribuyen significativamente al modelo de regresión Poisson. 3.4.5.5 LA ESTADÍSTICA F La estadística F para el caso específico del MRP se construye siguiendo los mismos pasos que para los Modelos Lineales Generalizados (ecuación II.18). El valor de F será comparado con el valor de la distribución descrita respectivamente en el capítulo anterior. Si F es menor que este valor, para un nivel de significancia α , entonces optaríamos por un modelo con menos regresores. El paso siguiente será entonces tratar de reducir el número de parámetros del modelo, repitiendo la prueba F. Es importante, considerar en el modelo variables que expliquen realmente el fenómeno en estudio. 49 3.4.5.6 PRUEBAS DE HIPÓTESIS SIMPLES E INTERVALOS DE CONFIANZA En e l caso de los Modelos de Regresión Poisson calcular las pruebas estadísticas de Wald, Score y Razón de Verosimilitud se harán bajo los mismos procedimientos definidos para los MLG de la sección (2.1.5.1.5). No es necesario calcularlos especialmente para l os procesos de distribución Poisson, ya que llegaremos a la misma definición general descrita en el capítulo anterior. De manera similar, con estas pruebas y conociendo asintóticamente la distribución de β̂ , se construirán los intervalos de confianza respectivos. La mayoría de los paquetes estadísticos que incluyen el modelamiento de procesos de distribución Poisson están programados para calcular los respectivos intervalos de confianza, sin embargo el más utilizado es aquel construido a partir de la Estadística de Wald, ya que no requiere conocer al parámetro de dispersión σ 2 . 3.4.5.7 ESTIMACIÓN DEL PARÁMETRO DE DISPERSIÓN La función varianza en el modelo Poisson es V ( µ) = µ . El parámetro φ en el caso de la distribución Poisson se prefija en 1 . Sin embargo, si requerimos estimar este parámetro igual que en el caso de los modelos lineales generalizados mencionado en la sección (2.1.5.1.7) se definirá: n σˆ 2 = X 2 /( n − p) = ∑ i =1 ˆi )2 ( yi − µ / ( n − p) ˆi µ (III.18) según McCullagh y Nelder (1991). Estimar el parámetro de dispersión nos llevará primordialmente a una detección preliminar de no existencia de equidispersión asumida en un modelo de regresión Poisson. En la sección (3.5.8) se tratará acerca de l a sobredispersión en el MRP y las alternativas para la evaluación del modelo. 50 3.4.6 EVALUACIÓN DE LA ADECUACIÓN DEL MODELO 3.4.6.1 ANÁLISIS EXPLORATORIO DE LOS RESIDUOS El análisis de los residuos del ajuste del modelo nos va a permitir explorar la adecuación del modelo. Como ya se vio en el capítulo anterior en la sección (2.1.5.2.1) esperamos que los residuos tengan un comportamiento aleatorio con media cero y varianza constante y que además no existan datos atípicos. Los residuos más utilizados en el MRP son por ejemplo el Residual Pearson, el cual es: yi − µˆi ; i = 1,2,..., n ˆi µ ri p = (III.19) La adecuación del modelo se puede investigar a través de los residuales de la forma habitual. Residuos muy alejados del cero ( ri > 2) o la observación de ciertos patrones o tendencias de comportamiento no aleatorio podrían sugerir no adecuación del modelo. Los demás tipos de residuales definidos para los Modelos Lineales Generalizados, son definidos análogamente para el caso de los MRP. Por ejemplo, el residual Pearson estudentizado es ri p ' = ˆi yi − µ ; i = 1,2,..., n ( µˆ i )(1 − hi ) , (III.20) donde hi es el i-ésimo elemento de la matriz de proyección . Notar que, en la construcción de estos residuales estamos asumiendo que el parámetro de dispersión es 1 y que además V ( µˆ i ) = µˆ i . El residual de Pearson estudentizado servirá a su vez para construir la estadística de Cook respectiva LDi definida en la ecuación (II.37). Una vez que obtengamos los residuales y respectivas medidas o estadísticas estudiadas en la sección (2.1.5.2) para detectar observaciones influyentes ya podremos realizar todos los gráficos de diagnóstico de adecuación correspondientes como se trató en la sección (2.1.5.2.2.3). 3.4.7 LA SOBREDISPERSIÓN Si bien es cierto, el MRP se presenta como un modelo con indudables mejoras para representar de datos de conteos, éste puede resultar inapropiado debido al 51 incumplimiento de ciertos supuestos, cuyo origen es diverso ( Winkelmann, 2000), la más común es la ausencia de equidispersión ( Cameron y Trivedi, 1998). En la práctica, puede ocurrir que se presente subdispersión o sobredispersión, pero es esta última la que aparece con mayor frecuencia, por lo que será discutida con más detalle. De hecho, las pruebas para evaluar equidispersión son denominadas habitualmente pruebas de sobredispersión. Recordemos que la equidispersión constituye un supuesto básico, es decir se asume que V (Y ) = σ 2 E (Y ) , donde el parámetro de dispersión σ 2 = 1 . La sobredispersión ocurre cuando V (Y ) > E(Y ) , es decir σ 2 > 1 . Cuando existe exceso de variación en los datos, las estimaciones de los errores estándar pueden resultar sesgadas, pudiendo presentarse errores en las inferencias a partir de los parámetros del modelo de regresión (Krzanowski, 1998). Entre las diversas causas de la sobredispersión podemos mencionar: • Alta variabilidad en los datos. • Los datos no provienen de una distribución Poisson. • Los eventos no ocurren independientemente a través del tiempo. • Falta de estabilidad, es decir, la probabilidad de ocurrencia de un e vento puede ser independiente de la ocurrencia de un evento previo pero no es constante. • Errores de especificación de la media µ (Winkelmann, 2000) como omitir variables explicativas o que entran al modelo a través de alguna transformación en lugar de linealmente. • Errores al elegir la función de enlace, es decir tal vez no fue apropiado el escoger el enlace log-lineal. Existen diversas propuestas para detectar sobredispersión, por ejemplo Lindsey (1995b) propone aplicar un coeficiente de variación CV: CV = Var ( µi ) µi (III.21) 52 Este coeficiente teóricamente debería resultar en el valor 1, si se cumpliera la equidispersión. Este sencillo índice constituye una simple aproximación para la detección de sobredispersión. Sin embargo, existen otros criterios de detección. Generalmente se evalúa la sobredispersión evaluando la relación entre la estadística de Pearson X 2 o la función desvío D y sus respectivos grados de libertad (gl), es decir evaluar: X 2 / gl y D / gl Si estos valores son mayores que 1, indican sobredispersión. Otro diagnóstico está basado en una prueba de Razón de Verosimilitud (RV) basada en las distribuciones Poisson y la Binomial Negativa. • Para la distribución Poisson V (Y ) = µ . • Para la distribución Binomial Negativa V (Y ) = µ + k µ2 . Si k=0, entonces la distribución Binomial Negativa se reducirá a una Poisson. Por tanto las hipótesis que se plantean son: H0 : k = 0 vs H1 : k > 0 Para llevar a cabo esta prueba , se deberán ajustar los 2 modelos: Poisson y Binomial Negativa (BN). Para cada modelo se obtendrá su respectiva función de log verosimilitud (l ) . La estadística de prueba es : RV = −(2(l ( Poisson) − l ( BN ))) (III.22) Según Cameron y Trivedi (1998) esta prueba tiene una distribución asintótica χ(12 − 2α ,1) . Por tanto, rechazaremos H 0 si la estadística es mayor que χ(12 − 2α ,1) . En tal caso, sería más conveniente modelar el número de ocurrencias a través de una Binomial Negativa. La interpretación de los resultados sería la misma que en el caso de la Regresión Poisson. Otra alternativa sería usar métodos de estimación de Quasi Verosimilitud, los cuales nos permiten estimar el parámetro de dispersión e incluirlo en el modelo. Sin embargo, este método comprende una teoría diferente a la tratada previamente en el 53 capítulo anterior y se aleja de la extensión del presente trabajo, sin embargo existen ejemplos de esta clase de aplicación, los cuales son presentados en McCullagh y Nelder (1991). De esta manera, la estimación pasa a ser semiparamétrica o robusta pero hay que tener cuidado con estas estimaciones pues pueden ser en general “inconsistentes e ineficientes” según Winkelmann (2000, p.84).