Teoría de la Decisión

Anuncio
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la Decisión
Alvaro J. Riascos Villegas
Universidad de los Andes y Quantil
Enero 30 de 2012
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
1
2
3
4
5
6
7
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Introducción
La teorı́a clásica utiliza la información muestral para hacer
inferencias sobre los parámetros de interés.
La importancia de la información muestral se pone de
manifiesto en este ejemplo de Savage (1961).
Example (Savage (1961))
Uso de la información muestral.
1
Una mujer adiciona te a una tasa de leche y afirma poder diferencia
que ingrediente se utilizó primero. En 10 experimentos acierta en
todos.
2
Un músico afirma poder diferenciar entre un partitura de Mozart y
una de Hayden. En 10 experimentos siempre acierta.
3
Un
amigo borracho afirma poder Alvaro
predecir
el lado que cae una
Métodos Bayesianos - Banco de Guatemala
Riascos
Introducción
Usualmente existe información incial sobre los parámetros de
un modelo estructural.
Probabilidad = Incertidumbre. En la teorı́a Bayesiana el
concepto de probabilidad tiene una interpretación distinta a la
teorı́a clásica o frecuentista. El concepto de probabilidad es
una medida de la incertidumbre sobre la ocurrencia de un
evento. A diferencia de la teorı́a clásica es posible dar
interpetaciones sobre la incertidumbre de un parámetro que
no están basadas en la repetición bajo condiciones iguales de
un experimento (intervalos de confianza). Por ejemplo es
posible cuantificar en términos probabilı́sticos el grado de
incertidubre con la cuál se hace un pronóstico.
Introducción
Permite condicionar a los datos observados. En el análisis
clásico se promedia sobre los los datos, aun los no observados.
Distribuciones exactas. La teorı́a clásica se basa en muchas
ocasiones en teorı́a asintótica.
Coherencia y racionalidad: La teorı́a Bayesiana es una
aproximación general al problema de inferencia consistente
con la teorı́a de la decisión.
Las reglas de decisión en un contexto Bayesiano son óptimas
desde un punto de vista clásico.
Mécanica Bayesiana: Siempre se sabe qué hacer.
Computacionalmente es difı́cil.
Introducción
Razones técnicas:
1
2
3
4
Permite hacer inferenecia estadı́stca en modelos no regulares.
Permite introducir incertidumbre en los parámetros para hacer
prediciciones.
Permite hacer pruebas de modelos no anidados.
Se pueden analizar modelos jerárquicos de forma
conceptualmente muy coherente.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
El concepto de probabilidad
Existen por lo menos tres interpretaciones del concepto:
objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,
de Finetti, Savage), lógica.
Axiomas de Kolmogorov.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
El concepto de probabilidad
Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna
contiene 90 bolas donde 30 son rojas. El resto de las bolas son
amarillas o negras y su distribución es desconocida. Algunas
personas fueron sometidas a una apuesta. Apuesta A: Quien
saque una bola roja gana una cantidad monetaria, las
amarillas y las negras pierden. Apuesta B: Quien saque una
bola amarilla gana, el resto pierde. La mayorı́a de las personas
optan por la A. Después cambiamos las apuestas de una
manera que en ambos casos, las bolas negras son desde ahora
ganadoras. Apuesta C: Quien saque una bola roja o negra
gana, las amarillas pierden. Apuesta D: Quien saque una bola
amarilla o negra gana, las rojas pierden. En este caso, la
mayorı́a de las personas escogen la D. Lo cual entra en
contradicción con la desición anterior de escoger la apuesta A,
a pesar de que la bola negra es ganadora en ambas C y D, lo
cual no aporta diferencia alguna.
El concepto de probabilidad
Ellsberg explica éste resultado en términos de la diferencia
entre el riesgo e incertidumbre. Las personas sometidas a
estas escogencias suponen prudentemente que la distribución
desconocida entre bolas rojas y amarillas pueden traerles
desventaja y por lo tanto escogen en ambas ocasiones bajo el
riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).
Llama la atención sobre la necesidad de una teorı́a para
modelar la incertidumbre.
El concepto de probabilidad
Una forma de interpretar el concepto de probabilidad desde un
punto de vista lógico es de acuerdo al concepto de
razonamiento plausible (Jaymes): cuano en el mundo real
observamos un evento B que tı́picamente es consecuencia de
un evento A, decimos que A es plausible pero usalmente no es
posible deducir que A ha sucedido. La idea predominante es
que A es plausible dado que observamos B. La lógica es que si
B ha ocurrido, esto arroja evidencia en favor de A.
Al fundamentar la teorı́a de la probabilidad de esta forma se
obtiene una formalización de la idea del grado de
incertidumbre sobre la ocurrencia de un evento (plausibilidad
del evento).
El concepto de probabilidad
Luego la interpretación de la probabilidad de un evento no
está relacionada con la frecuencia de un evento repetido sino
con el grado de incertidumbre del evento. Esta es la
interpreatción subjetivista del concepto de probabilidad.
Para de Finetti la probabiidad (objetiva) de un evento no
existe. Es algo tan ficticio y en contradición con laevidencia
cuanto la existencia del éter.
Cuál es la probabilidad de cada número cuando se lanza un
dado al aire?
La idea de aprendizaje en un ambiente incierto puede ser sutil.
El concepto de probabilidad
La paradoja del gato I. Una persona está frente a tres puertas
cerradas. Se sabe que detrás de alguna de las puertas hay un
gato. La persona se le pide escoger una puerta. Antes de abrir
cualquier puerta, una segunda persona que sabe exactamente
que hay detrás de cada puerta y conoce también cuál fue la
puerta elegida por la primera persona, éste abre una de las
puertas que sea la elegida por la primera persona y en la que
no esté el gato. Ahora, con una puerta abierta en la que no
está el gato, se le pregunta a la primera persona si desearı́a
cambiar de puerta.
El concepto de probabilidad
El sentido común dice que no hace diferencia. Pero la teorı́a
de la probabilidad dice otra cosa. La probabilidad de encontrar
el gato en alguna de las dos puertas al cambiar la elección
original es mayor que la probabilidad de que el gato esté en la
primera puerta elegida.
El concepto de probabilidad
Definición probabiidad condicional. Dados dos evento A y B,
tal que P(B) > 0 definimos la probabilidad condicional de A
dado B como:
P(A |B) =
P(A ∩ B)
.
P(B)
(1)
El teorema de Bayes (o regla de Bayes) afirma que:
P(A |B) =
P(B |A) × P(A)
.
P(B)
Este resultado es la base de toda la estadı́stica Bayesiana.
(2)
El concepto de probabilidad
La paradoja del gato II: Para formalizar este problema,
supongamos que la primera elección fue la tercera puerta.
Sean A1 , A2 y A3 los eventos en los cuales el gato está detrás
de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los
eventos en los cuales el segundo jugador abre la puerta 1 o 2
reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) .
Entonces dada la información del problema es natural suponer:
1
P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0
3
P(B1 |A2 ) = P(B2 |A1 ) = 1
y
1
P(B1 |A3 ) = P(B2 |A3 ) = .
2
Entonces si la segunda persona abre la puerta 2 es fácil
calcular, usando la regla de Bayes, P A1 |B2 ) = 23 .
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
La Aproximación Bayesiana a la Estadı́stica
Sea Θ un espacio de parámetros o estados de la naturaleza y
Ξ un espacio de datos observables.
En términos de funciones de densidad el teorema se puede
expresar como:
f(θ |y ) =
f (y |θ)f (θ)
f (y )
donde f (y ) es la distribución marginal de la variable aleatoria
Y (o distribución marginal de los datos):
Z
f (y ) =
f (y |θ)f (θ)dθ,
Θ
f (θ |y ) es la distribución expost (posteriori) del parámetro θ
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
La Aproximación Bayesiana a la Estadı́stica
La función L(θ|y )= f (y |θ) , como funición de θ se llama la
función de verosimilitud.
f (θ) es la distribución inicial (prior) sobre los parámetros.
La Aproximación Bayesiana a la Estadı́stica
Obsérvese que no se ha hecho ninguna hipótesis sobre la
forma de la distribución muestral. En general suponemos que
y es un vector de obsrevaciones y f (y |θ) es la distribución
conjunta o distribución del vector aleatorio Y .
En pocas palabras la estadı́stica Bayesiana es un modelo
formal de aprendizaje en un ambiente incierto aplicado a la
inferencia estadı́stica.
La mecánica Bayesiana es siempre la misma. Formule un
distribución inicial para lo parámetros y calcule la distribución
expost.
El resultado final del análisis Bayesiano es la distribución
expost. En el análisis clásico, el obejetivo final es un estimador
que si bien es una variable aleatoria es, conceptualmente, muy
distinto.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Teorı́a de la decisión
En la teorı́a de decisión la idea es combinar la información
muestral con información no muestral con el objeto tomar una
decisón óptima.
El análisis Bayesiano comparte con la teorı́a de la decisión el
uso de información no muestral.
Recordemos que Θ es el espacio de parámetros o estados de la
naturaleza. θ ∈ Θ es un estado de la naturaleza.
Sea A el espacio de acciones del tomador de decisiones. a ∈ A
es una acción.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Teorı́a de la decisión
Un problema de decisión es una función D : A × θ → C ,
donde C es un espacion de consecuencias. Suponemos que el
agente tiene preferencias sobre el conjunto de consecuencias
que las representamos mediante una función de (des)utilidad.
A continuación definimos la función de pérdida como la
composición de la función D y la función de (des)utilidad.
Teorı́a de la decisión
Un problema de desición está bien puesto cuando el conjunto
la especificación del conjunto de acciones, estados de la
naturaleza y consecuencias son tales que las preferencias del
tomador de decisiones sobre las consecuencias son totalmente
independientes de las acciones o estados de la naturaleza.
Teorı́a de la decisión
Sea L(θ, a) una función de pérdida.
Definimos la perdida esperada expost o pérdidad esperada
Bayesiana cuando se toma una decisión a ∈ A como:
Z
ρ(a |y ) =
L(θ, a)f (θ |y )dθ
Θ
Dada una función de pérdida y una distribución expost,
definimos el estimador Bayesiano de θ como:
θbB (y ) = argmina∈A ρ(a |y )
Teorı́a de la decisión
Example (Funciones de pérdida)
Algunas funciones de pérdida estándar son:
1
Pérdida cuadrática.
2
Error absoluto.
Los respectivos estimadores son el valor esperado y la mediana
expost del parámetro respectivamente. Verificar el primer caso es
inmediato.
Teorı́a de la decisión
Example (Distribución inicial y muestral normal)
Supongamos que tenemos una muestra de n observaciones
y1 , ..., yn , yi vi.i.d N(µ, 1) entonces la distribución muestral
(función de verosimilitud) es:
n
p(y |µ) = (2π)− 2 σ −n exp(−
1 X
(yi − µ)2 )
2σ 2
(3)
i
Ahora supongamos que la distribución inicial p(µ) v N µ0 , σ02
donde los parámetros de esta distribución son conocidos (estos se
denominan hiperparámetros). Obsérvese que antes de observar los
datos, si el agente tiene una función de pérdida que es cuadrática,
entonces el estimador Bayesiano (exante) de µ es µ0 .
Teorı́a de la decisión
La distribución expost es:
p(µ |y ) ∝ p(y |µ) p(µ)
1 X
∝ exp(− 2
(µ − µ)2 )
2σ
n
y + σ12 µ0
σ2
0
µ= n
1
+
σ2
σ2
(4)
(5)
(6)
0
σ2 =
n
σ2
1
+
1
σ02
(7)
Teorı́a de la decisión
Cuando la función dé pérdida es la función de error
cuadrático. Entonces el estimador Bayesiano (expost) es:
E [µ |y ] = µ
(8)
Es decir, el valor esperado expost de µ es una combinación
convexa del estimador clásico y de los datos observados y la
media inicial.
Cuando el número de observaciones es grande o la
incertidumbre de la distribución inicial es grande, el estimador
Bayesiano se apróxima al estimador clásico.
Teorı́a de la decisión
δ : Ξ → A es una regla de decisición.
Un tipo de reglas de decisión importante son las reglas de
decisión aleatorias.
Para un problema sin datos, una regla de decisición es
simplemente una acción.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Riesgo frecuentista
Definition (Función de Riesgo Clásica)
Dada una regla de decisión δ y una función de pérdida definimos la
función de riesgo (clásica) como:
Z
R(θ, δ) = EY [L(θ, δ)] =
L(θ, δ(y ))dF (y |θ)
(9)
Obsérvese que la función de riesgo clásica promedia sobre
todas las realizaciones posibles de los datos (aun aquellas que
no han ocurrido!).
Esta es una función del estado y la regla de decisión (la regla
de desición es tı́picamente un estimador).
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
A diferencia de la pérdida esperada Bayesiana que es un
número, el riegso frecuentista depende del estado. Esto
dificulta el problema de escoger una regla de decisión para
minimizar el riesgo ya que ésta va depender del estado.
La siguiente definición acota el universo razonable de reglas de
decisión.
Definition (Admisibilidad)
Dada una función de péridida. Decimos que una regla de decisión δ
es inadmisible si existe otra regla de decisión que la (domina
débilmente) para toda realización posible de los estados. De lo
contrario se llama admisible.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Riesgo frecuentista
Bajo condiciones débiles se puede mostrar que los estimadores
Bayesianos son admisibles. Existe un teorema converso
llamado teorema de completo de clases.
En la teorı́a clásica estadı́stica existen algunas formas de
resolver el problema de decisión:
1
2
3
4
5
Máxima verosimilitud.
Mı́nima varianza.
Mı́nimos cuadrados ordinarios.
Sesgo nulo.
Solución minimax.
Riesgo frecuentista
Una regla de decisión δ M satisface el principio minimax si:
supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ)
(10)
donde ∆(D) denota e conjunto de reglas de decisión
aleatorias (que tienen como rango las acciones mixtas).
Intuitivamente, una regla de decisión satisface el principio
minimax si permite asegurar el mı́nimo riesgo en el pero de los
casos (peor estado).
Invarianza: Este principio afirma que las reglas de decisión
deben ser las mismas cuando los problmeas de decisión tienen
la misma estructura.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Riesgo Bayesiano
Definition (Riesgo Bayesiano)
Dada una regla de decisión δ, una función de péridida L y una
distribución inicial de los parámetros p definimos la función de
riesgo Bayesiana como:
Z
r (δ, p) = Ep [R(θ, δ)] =
R(θ, δ)dp(θ)
(11)
Θ
Obsérvese que el riesgo Bayesiano promedia sobre el espacio
de parámetros y es una función únicamente de la regla de
decisión y la idstribución inicial de los parámetros.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Riesgo Bayesiano
Asociado a el riesgo Bayesiano hay un principio de decisión.
Una regla de decisión δ B es una regla de decisión Bayesiana si:
r (θ, δ B ) = infδ∈D R(θ, δ)
donde D es el espacio de reglas de decisión.
(12)
Riesgo Bayesiano
En la teorı́a de la decisión, la forma estándar de resolver el
problema de decisión es usando el principio condicional de
Bayes. Una regla de decisión condicional Bayesiana δ CB es
una regla de decisión tal que:
ρ(θ, δ CB (y )) = infa∈A ρ(θ, a)
(13)
Obsérvese que en un problema sin datos, la regla de decisión
condicional coincide con la regla de desición de Bayes.
En general se cumple que la decisión usando la regla
condicional es igual a decisión usando la regla de Bayes.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Familias Conjugadas
Dada una familia de de distribuciones muestrales F, decimos
que una familia de distribuciones iniciales P es una familia
conjugada para F si la distribucion expost es siempre un
elemento de P. Decimos que natural conjugada si es
conjugada y si está en la familia de distribuciones muestrales.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Estimadores
El estimador de máximaverosimilitud generalizado de es aquel
que maximiza la distribución expost.
Este es el el valor más probable dado la idstribución inical del
parámetro y la muestra y .
El error de un estimador se define como la desviación
cuadrática promedio de los parámetros con respecto al
estimador utilizando la distribución expost.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Prueba de hipótesis
Un subconjunto C de Θ es créible con un nivel de confianza
1 − α (condicional a y ) si:
1 − α ≤ P(C |y )
(14)
Un conjunto creible tiene un significado probabilı́stico (aunque
subjetivo). Esto no ocurre siempre en la teorı́a clásica.
Un problema con la noción Bayesiana de conjunto creı́ble (o
intervalo de confianza) es que pueden existir mucho onjunto
creı́bles. Una forma, adhoc, de selecionar uno es calculando
conjunto creı́ble de mayor densidad de expost.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Prueba de hipótesis
Sea kα el mayor k tal que:
P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α
(15)
Entonces definimos el conjunto creı́ble CHPD con un nivel de
confianza 1 − α como:
CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα }
(16)
Prueba de hipótesis
La prueba de hipótesis en estadı́stica clásica consiste en
estudiar los errores tipo I y II (probabilidad que la muestra
observada resulte en la hipótesis incorrecta siendo aceptada).
En estadı́stica Bayesiana la prueba de hipótesis es
conceptualmente sencillo: comparar la probabilidad expost
P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hipótesis son:
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 .
La razón entre estas dos probabilidades se llama posterior
odds ratio. La misma razón pero con las probabilidades
iniciales se llama prior odd ratios.
La razón entre el posterior y el prior odds se llama factor de
Bayes (Berger).
Cuando las hipótesis son simples, el factor de Bayes es
simplemente la razón de las funciones de verosimilitud.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipótesis
Predicciones
Predicciones
Supongams que queremos pronósticar una variable z basado
en la variable bservable y . En estadı́stica Bayesiana el objeivo
es determinar p(z |y ) .
Esto se puede escribir:
Z
p(z |y ) =
p (z, θ |y ) dθ
(17)
Θ
Z
p(z |y ) =
p (z |y , θ)p(θ |y ) dθ
(18)
Θ
p(z |y ) se denomina la densidad predictiva de z dado los datos
observables y .
El análisis Bayesiano trata de forma simétrica, parámetros,
observables y predicciones: son todas variables aleatorias.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Comparación de modelos
Un modelo se define formalmente como una distribución
inicial y una distribución muestral.
Supongamos que tenemos m modelos que buscan explicar los
datos observado y .
Usando la distribución inicial y muestral de cada modelo
calculamos la distribución expost de los datos.
P(y |θ, M) P(θ |M)
P(θ |y , M) =
(19)
p(y |M)
donde p(y |M) es la distribución marginal de los datos
condicional al modelo. Esta también se denomina la
verosimilitud marginal y se puede obtener mediante la
integración obvia.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Comparación de modelos
Ahora podemos tener una distribución inicial de cada uno de
los modelos (grado de confianza que tenemos en el modelo) y
esto nos permite calcular la distribcuión expost sobre nuestra
confianza en el modelo condicional a los datos observados:
P(M |y ) =
P(y |M)P(M)
p(y )
(20)
donde P(M) el la distribución inicial del modelo.
Obsérvese que la verosimilitud marginal se obtiene mediante
integracióny en principio, con ésta, se puede calcular la
distribución expost del modelo (dados la distribución inical de
los modelos y la distribución marginal de los datos).
Comparación de modelos
Como usualmente es dificil determinar la distribución marginal
de los datos lo que se hace es comparar la razón entre las
distribuciones expost:
POij =
P(M i |y )
P(M j |y )
denominado posterior odds ratio.
(21)
Comparación de modelos
Cuando la prior sobre cada modelo es la misma, el posterior
odds ratio se reduce a la razón entre las verosimilitudes
marginales.
P(y M i
BFij =
(22)
P(y |M j )
El caso de comparar dos modelos lineales bajor normalidad es
posibels hacerlo a mano.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Propiedades clásicas de la aproximación Bayesiana
Consideremos el problema de consistencia.
Supongamos que existe una distribución poblacional f (y ).
Sea p(y |θ) la distribución muestral.
Definamos la distancia entre ambas distribuciones como la
distancia de Kullback - Leibler.
Sea θ∗ el valor que minimiza la distancia entre la distribución
poblacional y la distribución muestral. Uno puede mostrar que
si existe un parámetro verdadero tal que la distribución
muestral es igual a la distribución poblacional entonces θ∗ es
el parámetro verdadero. En este caso decimos que el modelo
muestral está bien especificado.
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Propiedades clásicas de la aproximación Bayesiana
Theorem (Consistencia)
Supongamos que es espacio de estados Θ es compacto y sea Θ0
una vecindad del verdadero parámetro θ0 con probabilidad inicial
difeerente de cero. Entonces,
p(θ ∈ Θ0 |y ) → 1
cuando el tamaño de la muestra crece hacia el infinito.
Es decir, si el modelo está bien especificado (distribución
muestral es igual a la poblacional para algún parámetro)
entonces la distribución expost se va concetrar
asintóticamente alrededor del verdadero parámetro siempre el
verdadero parámetro esté en el soporte de la distribución
inicial.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Discusión
Obsérvese que la principal diferencia entre el análisis clásico y
el Bayesiano se deriva de la forma radicalmente de intepretar
los parámetros, modelos y pronósticos de un modelo. Éstos
tres se intepretan como variable aleatorias y en ese sentido se
les da un tratamiento simétrico con los datos observados.
La diferencia fundamental entre ambas aproximaciones es el
uso de información inicial en el proceso de inferencia. La
teorı́a clásica responde
1
2
3
Antes de observar los datos, qué podemos esperar.
Antes de observar los datos, qué tan precisos son los
estimadores.
Dado que la hipótesis a estudiar es verdadera, que probabilidad
existe de que los datos indiquen que es verdadera.
Métodos
Bayesianos - Banco
de Guatemala considera
Alvaro Riascos
La
aproximación
Bayesiana
que las preguntas
Discusión
Example (Distribución inicial y muestral normal)
Considere la distribución expost cuando la distribución inical no es
informativa. Es fácil mostrar que el estimador Bayesiano más o
menos una distribución estándar (de la distribución expost) es:
σ
µ
b=y±√
n
(23)
Ahora la distribución del estimador clásico y más o menos una
desviación estándar es igual. Sin embargo, la intepretación es
completamente distinta. En el primer caso la interpretación es:
Qué tan preciso es la estimación de mu dado que hemos observado
ciertos datos.
Discusión
Una crı́tica estándard al análisis Bayesiano es la necesidad de
definir una distribución inicial de los estados.
Bajo condiciones débiles, siempre existe una prior natural.
Decimos que la distribución marginal conjunta de los datos es
intercambiable si es invariante frente a permutaciones de los
subı́ndices de los datos.
Suponga que los datos toman valores cero o uno únicamente.
Entonces el Teorema de deFinetti afirma que los datos se
pueden interpeetar como distribuidos condicional i.i.d con yi θ
distribuido Bernoulli con parámetro θ. Ademas caracteriza la
distribución asintótica del parámetro θ en términos del la
media muestral. El converso también vale.
Luego la intercambiabilidad es una hipótesis natural en ciertas
circunstancias que racionaliza la escogencia de un modelo de
mixtura de Bernoulli dejando como grado de libertad la
distribución asintótica del θ para lo cal basta con expresar
nuestra distribución inicial sobre la distribución de la media
muestral.
Discusión
Example (Laboratorios)
Una sustancia debe ser analizada y existen dos laboratorios
igualmente buenos para hacerlo. Para tomar una decisión se lanza
una moneda al aire. Al recibir los resultados del laboratorio
escogido el agente se pregunta: Deberı́amos de llevar en
consideración que estos resultados dependen de que se lanzo al aire
una moneda que hubiera podido indicar que fuera el otro
laboratorio el que hiciera el examen? De acuerdo a la visión clásica
deberı́amos de promediar sobre todos los posibles resultados
incluyendo los del laboratorio que no hizo la prueba.
Discusión
Example (Diferentes distribuciones muestrales)
Suponga que se lanza de forma independiente 12 monedas al aire y
se obervan 9 caras y 3 sellos. Esta información no especifica
completamente el experimento puesto que pudo ser el resultado de
dos procedimientos: (1) Se fijo en 12 el núemro de lanzamientos y
se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio
la tercer sello. En ambos casos la distribución muestral es
completamente distinta. En el primer caso es Binomial y el el
segundo es Negativa Binomial. Ahora suponga que queremos
probar la hipótesis de que la probabilidad de que salga cara es 12
contra la hipótesis de que sea mayor que 21 . Se diseña una prueba
que es de la siguinete forma, si el núemro de caras observadas es
superior a algun umbral c, entonces se se rechaza la hipótesis de
que estados (probabilidad de que salga) sea 12 . Por definición el
p-valor de esta hipótesis es la probabilidad de observar 9 o más
caras en el experimento. Si calculamos el p-valor bajo para los dos
procedimientos en el primero aceptamos la hipótesis nula y en el
Discusión
La forma como en la teorı́a clásica se eliminan parámetros es
mediante la sustitución de los mismos por un parámetro. En el
análisis Bayesiano se promedia sobre todos sus posibles
valores.
Contenido
Introducción
El concepto de probabilidad
La Aproximación Bayesiana a la Estadı́stica
Comparación de modelos
Propiedades clásicas de la aproximación Bayesiana
Discusión
Teorı́a de la decisión robusta
Teorı́a de la decisión robusta
Métodos Bayesianos - Banco de Guatemala
Alvaro Riascos
Descargar