5. Otros temas

Anuncio
INSTRUCTOR: LUIS E. NIETO BARAJAS
5. Otros temas
5.1 Modelos jerárquicos
¾ Los modelos jerárquicos Bayesianos simplifican la estimación simultánea
de varios parámetros θi del mismo tipo con dos fines principales: (1)
combinar la fuerza de los datos para mejorar la precisión de las
estimaciones de los parámetros y (2) permitir incorporar incertidumbre en
las estimaciones.
¾ Una ventaja de los métodos de simulación Bayesianos, como el MCMC, es
que permiten realizar inferencias relativamente fáciles para modelos
jerárquicos complejos.
¾ La idea de combinar fuerzas está basada en un supuesto de
intercambiabilidad (simetría) entre los parámetros θi del modelo.
¾ INTECAMBIABILIDAD: La idea de intercambiabilidad se puede explicar de la
siguiente manera: Consideremos un conjunto de k poblaciones, donde
cada población está determinada por un parámetro θi, i=1,...,k. Sea Yi una
observación de la i‐ésima población, i.e., cada población se puede
representar mediante la función de densidad f (y i θi ) . Si no se cuenta con
información que nos permita distinguir las θi’s unas de otras (además de
la información de los datos Y1,...,Yk) y si no es razonable establecer algún
orden o agrupación de los parámetros, entonces debemos suponer una
99
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
especie de simetría entre los parámetros y ésta debe reflejarse en su
distribución inicial. Dicha simetría se representa a través del concepto de
intercambiabilidad.
‰
¿CÓMO representamos intercambiabilidad en las θi’s?.
La intercambiabilidad entre el conjunto (θ1 ,Kθk ) se logra suponiendo
que las θi’s son condicionalmente independientes dado el valor de un
hiper‐parámetro, digamos ϕ, i.e.,
k
f (θ1 ,Kθk ) = ∫ f (θ1 ,Kθk ϕ)f (ϕ)dϕ = ∫ ∏ f (θi ϕ)f (ϕ)dϕ ,
i=1
donde f(ϕ) es la distribución inicial del hiperparámetro.
‰
MODELO: El modelo jerárquico general toma la siguiente forma:
1) Condicional en ϕ y (θ1 ,Kθk ) , los datos Yi son independientes, con
densidades f (y i θi ) , i.e.,
k
f (y 1 ,Ky k θ1 ,Kθk ) = ∏ f (y i θi )
i=1
2) Condicional en ϕ, los parámetros θi son observaciones de la misma
densidad f (θ ϕ) , i.e.,
k
f (θ1 ,Kθk ϕ) = ∏ f (θi ϕ)
i=1
3) El hiperparámetro ϕ tiene función de densidad f (ϕ) .
La parte (1) representa el modelo paramétrico de los datos y las partes (2)
y (3) representan la distribución inicial de los parámetros del modelo.
100
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
‰
Representación gráfica del modelo jerárquico. El modelo jerárquico se
ϕ
hiperparámetro
θ1
θ2
θk
parámetros
Y1
Y2
Yk
observaciones
puede representar mediante el siguiente esquema:
‰
APLICACIONES / EXPLICACIONES.
o Este tipo de modelos se utilizan para realizar inferencias dentro de un
conjunto de unidades, por ejemplo, en estudios comparativos entre
instituciones, como universidades, hospitales, bancos etc., los
parámetros de interés podían ser la calificación promedio en un
examen por universidad, tasas de mortalidad por hospital, tasas de
aceptación de créditos, etc.
o Por lo general en este tipo de estudios comparativos se tienen varias
unidades (universidades, hospitales, bancos, etc.) pero pocos datos de
cada uno de ellos por separado. La idea de los modelos jerárquicos es
combinar la información de distintas fuentes de datos (universidades,
hospitales, bancos etc.), explotando la similaridad entre los parámetros
en términos de su génesis.
101
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
‰
ANÁLISIS DEL MODELO. Las componentes del modelo son:
k
Verosimilitud: f (y 1 ,Ky k θ1 ,Kθk ) = ∏ f (y i θi )
i=1
Inicial: f (θ1 ,Kθk , ϕ) = f (θ1 ,Kθk ϕ)f (ϕ) ,
k
donde, f (θ1 ,Kθk ϕ) = ∏ f (θi ϕ)
i=1
La idea es hacer inferencias sobre los parámetros individuales (θ1 ,Kθk ) y
el parámetro común ϕ. Entonces,
Final: f (θ1 ,Kθk , ϕ y ) = f (θ1 ,Kθk ϕ, y )f (ϕ y ) ,
donde, f (θ1 ,Kθk ϕ, y ) ∝ f (y 1 ,K y k θ1 ,Kθk )f (θ1 ,Kθk ϕ) , y
f (ϕ y ) ∝ f (y ϕ)f (ϕ) con f (y ϕ) = ∫ f (y θ1 ,K , θk )f (θ1 ,K , θk ϕ)dθ
CASOS
PARTICULARES:
Dependiendo de la selección de la distribución que
genera los datos, se pueden construir distintos modelos jerárquicos. Una
clase de modelos jerárquicos general se obtiene al considerar f (y i θi )
como un miembro de la familia exponencial y las distribuciones iniciales
f (θi ϕ) y f (ϕ) miembros de la familia conjugada correspondiente.
Ejemplos:
o Normal:
1) Yi µi ∼ N(µi , τi ) , con τi conocida
2) µ i ϕ ∼ N(ϕ, λ ) , con λ conocida
3) ϕ ∼ N(ϕ0 , λ 0 ) , con ϕ0 y λ0 conocidas
Nota: Es posible que en la primera etapa del modelo se incluyan
102
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
covariables o variables explicativas.
o Poisson:
1) Yi µi ∼ Po(µi )
2) µ i β ∼ Ga(α ,β) , con α conocida
3) β ∼ Ga(α 0 , β 0 ) , con α0 y β0 conocidas
Alternativamente,
2a) ηi = log (µi ) , ηi ϕ ∼ N(ϕ, λ ) , con λ conocida
3a) ϕ ∼ N(ϕ0 , λ 0 ) , con ϕ0 y λ0 conocidas
o Bernoulli:
1) Yi πi ∼ Bin(ni , πi )
2) πi , α , β ∼ Beta(α , β)
3) α ∼ Ga(a0 ,b 0 ) , β ∼ Ga(c 0 , d0 ) , con a0, b0, c0 y d0 conocidos
Alternativamente,
2a) ηi = logit(πi ) , ηi ϕ ∼ N(ϕ, λ ) , con λ conocida
3a) ϕ ∼ N(ϕ0 , λ 0 ) , con ϕ0 y λ0 conocidas
¾ EJERCICIO 13. Incidencia y tasas de mortalidad (Congdon, 2001). Considera
un caso de estudio de niños con leucemia. Se cuenta con la información
del número de muertes en dos regiones del Reino Unido en el año de
1950. Las tasas de muerte están clasificadas por edad (1‐0:5, 2‐6:14), el
tipo de residencia del niño (1‐rural, 2‐urbano) y el tipo de cancer (1‐
Lymphoblastic, 2‐Myeloblastic). Sea Oi el número de muertes observadas,
103
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
Pi es el número total de niños (en millones) y θi la tasa de mortalidad en la
clase i. Se proponen dos modelos para estos datos:
a) Modelo de efectos independientes:
Yi θi ∼ Po(θiPi ) , θi ∼ Ga(0.001,0.001)
b) Modelo de efectos intercambiables:
Yi θi ∼ Po(θiPi ) , θi α , β ∼ Ga(α , β) , α ∼ Ga(1,1) , β ∼ Ga(0.1,1)
¾ EJERCICIO 14. Probabilidades de reclamación. Considera una compañía de
seguros que cuenta con 10 tipos de seguros. Por el momento la compañía
tiene un total de ni asegurados en cada categoría y únicamente ri de ellos
le han hecho una reclamación, i=1,...,10. Sea πi la probabilidad de que un
asegurado en la categoría i le haga una reclamación. Se proponen dos
modelos:
a) Modelo con efectos independientes:
Yi πi ∼ Bin(ni , πi ) , πi ∼ Beta(1,1)
b) Modelo con efectos intercambiables:
Yi πi ∼ Bin(ni , πi ) , πi α , β ∼ Beta(α , β) , α ∼ Ga(1,1) , β ∼ Ga(1,1)
104
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
5.2 Análisis Bayesiano empírico
¾ En términos generales, el análisis Bayesiano empírico consiste en hacer
uso de la información muestral para estimar los hiperparámetros de las
distribuciones iniciales.
¾ Para concretar ideas considera el siguiente modelo. Sea f (y θ) la función
de densidad conjunta de las variables observables Y condicional en un
vector de parámetros θ (i.e., la función de verosimilitud), y sea f (θ η) la
distribución inicial para θ que depende de un vector de hiperparámetros
η.
‰
Si η es conocido, entonces la inferencia sobre θ se hace a través de su
distribución final, la cuál está dada por el Teorema de Bayes,
f (θ y , η) =
f (y θ)f (θ η)
,
f (y η)
donde f (y η) denota la distribución marginal de los datos y, dada por
f (y η) = ∫ f (y θ)f (θ η)dθ
‰
Si η es desconocido, el análisis Bayesiano completo consistiría en asignar
una distribución inicial para η, digamos f (η) y obtener la distribución final
para θ como
f (θ y ) =
∫ f (y θ)f (θ η)f (η)dη = f (θ y , η)f (η y )dη
~ )f (θ
~ η)f (η)dηdθ
~ ∫
(
θ
f
y
∫∫
105
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
Esta segunda expresión representa una mezcla de la distribución final de θ
condicional en η con respecto a la distribución final marginal de η.
‰
En el análisis Bayesiano empírico se usa la distribución marginal f (y η)
para estimar η mediante su correspondiente estimador máximo verosímil
ˆ =η
ˆ (y ) . Entonces, la inferencia sobre θ se realiza a través de f (θ y , η
ˆ ).
η
¾ EJEMPLO 14: Considera un modelo jerárquico de 2 niveles,
(
)
), i=1,….,k independientes.
Yi θi ∼ N θi , σ −2 , i=1,…,k independientes, y
(
θi µ ∼ N µ , τ −2
Supongamos que σ2 y τ2 son conocidos, por lo que el único parámetro
desconocido es µ, (i.e., η=µ). No es difícil demostrar que la distribución
(
(
marginal de las Yi’s condicional en µ es Yi µ ∼ N µ , σ2 + τ2
)
−1
). Entonces la
verosimilitud para µ está dada por,
(
k
f (y µ ) = ∏ N y i µ , σ2 + τ2
i=1 
)
−1 
.

Por lo tanto el EMV de µ es µˆ = y . Finalmente, la distribución posterior
(estimada) de θi es
(
)
f (θi y , µˆ ) = N Bµˆ + (1 − B )y i , (1 − B )−1 σ −2 ,
(
)
con B = σ2 σ2 + τ2 .
En este caso el estimador Bayesiano empírico de θi es
θˆ iEB = By + (1 − B )y i = y + (1 − B )(y i − y )
106
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
¾ EJEMPLO 15: Considera el mismo modelo jerárquico del Ejemplo 14. Un
análisis Bayesiano completo consistiría en tomar una distribución inicial
para µ. Supongamos que la distribución inicial es
(
)
µ ∼ N µ 0 , λ−02 .
En este caso, la distribución final para θi es una mezcla de la forma
(
)(
)
f (θi y ) = ∫ N θi Bµ + (1 − B )y i , (1 − B )−1 σ −2 N µ Cy + (1 − C )µ 0 , (1 − C )−1 λ−02 dµ
(
)
con C = nλ2o σ2 + τ2 + nλ20 .
En este caso, el estimador completamente Bayesiano de θi es
θˆ iFB = BCy + B(1 − C )µ 0 + (1 − B )y i
o Nota 1: Si C=1 entonces θˆ iFB = θˆ iEB .
o Nota 2. C→1 si n→∞ ó λ20 →∞.
5.3 Modelos Bayesianos no paramétricos
¾ Los métodos Bayesianos no paramétricos combinan la robustez de la
estadística no paramétrica con la versatilidad de la estadística Bayesiana
mediante el uso de procesos estocásticos.
107
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
¾ Para poder entender las ideas generales en las que se basan los modelos
Bayesianos no paramétricos comencemos por describir las diferencias
entre los supuestos paramétricos y no paramétricos.
‰
PARAMÉTRICO: X∼F, F ∈ ℑΘ
ℑΘ = {F : F = Fθ , θ ∈ Θ}
‰
NO PARAMÉTRICO: X∼F, F ∈ ℑ
ℑ = {F : F es una función de distribución}
⇔ dim(Θ) = ∞
¾ Recordemos que la teoría Bayesiana requiere que el tomador de
decisiones exprese su conocimiento inicial sobre todos los parámetros
desconocidos del modelo. Para cada uno de los supuestos paramétricos y
no paramétricos anteriores tenemos:
‰
INFERENCIA BAYESIANA PARAMÉTRICA:
θ ∼ f(θ) con θ∈Θ ⇒ ℑΘ ∼ P
‰
INFERENCIA BAYESIANA NO PARAMÉTRICA:
ℑ∼P
¾ El planteamiento de la inferencia Bayesiana no paramétrica se puede
resumir mediante:
X1,X2,…,Xn m.a. tal que
X i F ∼ F definida en (ℜ,B)
F ∼ P definida en (ℑ,A)
108
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
donde P es una “distribución” inicial sobre el espacio de funciones ℑ, i.e.,
P es un proceso estocástico cuyas trayectorias son funciones de
distribución.
¾ La idea de una distribución inicial no paramétrica es que considere
eventualidades no captadas por las familias paramétricas. En notación
matemática esto se puede ver como:
o Sea G la función de distribución real de los datos. Entonces al suponer
que X|F ∼ F y F ∼ P, para cualquier partición medible (B1 ,KBk ) de ℜ y
ε > 0 quisiéramos que
P (F : F(Bi ) − G(Bi ) < ε , para i = 1,K ,k ) > 0 .
¾ Las distribuciones iniciales no paramétricas más comunes son el Proceso
de Dirichlet y el Árbol de Polya.
¾ PROCESO DIRICHLET (Ferguson, 1973): Sea F0 una función definida en (ℜ,B) y
c>0 un escalar. Sea F un proceso estocástico indexado por elementos de
B. Entonces,
F ∼ DP (c,F0 )
si para toda partición finita de medible (B1 ,KBk ) de ℜ se tiene que
(F(B1 ),KF(Bk )) ∼ Dir(cF0 (B1 ),K, cF0 (Bk ))
o El proceso de Dirichlet asigna probabilidad 1 al espacio de funciones de
distribución discretas.
109
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
o F0 es llamada medida de centralidad del proceso
o c es el parámetro de precisión
o Para cada B∈B,
F(B ) ∼ Be(cF0 (B ), c{1 − F0 (B )}) , con
E {F(B )} = F0 (B )
VAR {F(B )} =
‰
F0 (B ){1 − F0 (B )}
c +1
Distribución final del proceso: dada una muestra X1,…,Xn de observaciones
de F se tiene
(
F X ∼ DP c* ,F0*
)
donde c* = c + n y
F0* =
cF0 + nFn
c +n
con Fn la función de distribución empírica. F0* es la nueva medida de
centralidad del proceso posterior y puede ser usado como estimador
puntual de F.
¾ Definiciones alternativas del proceso de Dirichlet:
1) Sethuraman (1994): Sea F ∼ DP(c,F0) entonces,
∞
F = ∑ Vjδ Yj
j=1
donde, Vj = Wj ∏ (1 − Wj ), Wj ∼ Be(1, c ) , y Yj ∼ F0
iid
iid
i< j
110
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
iid
2) Blackwell y MacQueen (1973): Sean X i F ∼ F y F∼DP(c,F0). Entonces, al
marginalizar el proceso F, la sucesión de v.a.’s (X 1 , X 2 ,K) es un
conjunto de v.a.’s intercambiables generadas como,
X 1 ∼ F0 ,
X2 X1 ∼
cF0 + δ X1
c +1
,…,
n−1
X n X 1 ,K , X n−1 ∼
¾ ÁRBOL
DE
cF0 + ∑i=1 δ Xi
c +n−1
.
POLYA (Lavine, 1992). Sea A = (α 0 , α 1 , α 00 ,K) números no
negativos, Y = (Y0 , Y1 , Y00 ,K) v.a.’s, y Π = {B ε } un árbol de particiones
binarias de (ℜ,B). Entonces,
F ∼ PT (Π , A ) si
a) Todas las v.a.’s en Y son independientes,
b) Para todo ε, Yε 0 ∼ Be(α ε 0 , α ε1 ) , y
c) Para todo m=1,2,… y ε = ε1ε 2 Lεm con ε j ∈ {0,1} se tiene que
(
F B ε1Lεm
)
 m
 m

= ∏ Yε1Lε j−1 0  ∏ 1 − Yε1Lε j−1 0
 j=1,ε =1
 j=1,ε =0
 j
 j
(
) .

o Árbol de particiones binarias Π = {B ε }. Para un nivel m, ε = ε1ε 2 Lεm ,
ε j ∈ {0,1} , j=1,…,m se tiene el siguiente diagrama:
111
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
o La distribución (predictiva) de cualquier observación se puede obtener
como el producto de las Yε por donde pasa una canica si se deja caer de la
parte superior del árbol, i.e.,
o Si tomamos α ε = cm2 con c>0 entonces el árbol de Polya asigna
probabilidad 1 al espacio de funciones de distribución continuas.
‰
Distribución final del proceso: dada una muestra X1,…,Xn de observaciones
de F se tiene
(
F X ∼ PT Π , A *
)
112
Curso: Métodos Bayesianos
INSTRUCTOR: LUIS E. NIETO BARAJAS
{ }
donde A * = α *ε con
α *ε = α ε + nε , y
n
nε = ∑ I(X i ∈ B ε )
i=1
El número de observaciones en Bε.
¾ EJERCICIOS con el proceso Dirichlet y árbol de Polya se encuentran en la
librería de R llamada “DPpackage”.
113
Curso: Métodos Bayesianos
Descargar