Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la Decisión Alvaro J. Riascos Villegas Universidad de los Andes y Quantil Enero 30 de 2012 Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta 1 2 3 4 5 6 7 Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Introducción La teorı́a clásica utiliza la información muestral para hacer inferencias sobre los parámetros de interés. La importancia de la información muestral se pone de manifiesto en este ejemplo de Savage (1961). Example (Savage (1961)) Uso de la información muestral. 1 Una mujer adiciona te a una tasa de leche y afirma poder diferencia que ingrediente se utilizó primero. En 10 experimentos acierta en todos. 2 Un músico afirma poder diferenciar entre un partitura de Mozart y una de Hayden. En 10 experimentos siempre acierta. 3 Un amigo borracho afirma poder Alvaro predecir el lado que cae una Métodos Bayesianos - Banco de Guatemala Riascos Introducción Usualmente existe información incial sobre los parámetros de un modelo estructural. Probabilidad = Incertidumbre. En la teorı́a Bayesiana el concepto de probabilidad tiene una interpretación distinta a la teorı́a clásica o frecuentista. El concepto de probabilidad es una medida de la incertidumbre sobre la ocurrencia de un evento. A diferencia de la teorı́a clásica es posible dar interpetaciones sobre la incertidumbre de un parámetro que no están basadas en la repetición bajo condiciones iguales de un experimento (intervalos de confianza). Por ejemplo es posible cuantificar en términos probabilı́sticos el grado de incertidubre con la cuál se hace un pronóstico. Introducción Permite condicionar a los datos observados. En el análisis clásico se promedia sobre los los datos, aun los no observados. Distribuciones exactas. La teorı́a clásica se basa en muchas ocasiones en teorı́a asintótica. Coherencia y racionalidad: La teorı́a Bayesiana es una aproximación general al problema de inferencia consistente con la teorı́a de la decisión. Las reglas de decisión en un contexto Bayesiano son óptimas desde un punto de vista clásico. Mécanica Bayesiana: Siempre se sabe qué hacer. Computacionalmente es difı́cil. Introducción Razones técnicas: 1 2 3 4 Permite hacer inferenecia estadı́stca en modelos no regulares. Permite introducir incertidumbre en los parámetros para hacer prediciciones. Permite hacer pruebas de modelos no anidados. Se pueden analizar modelos jerárquicos de forma conceptualmente muy coherente. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta El concepto de probabilidad Existen por lo menos tres interpretaciones del concepto: objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey, de Finetti, Savage), lógica. Axiomas de Kolmogorov. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos El concepto de probabilidad Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna contiene 90 bolas donde 30 son rojas. El resto de las bolas son amarillas o negras y su distribución es desconocida. Algunas personas fueron sometidas a una apuesta. Apuesta A: Quien saque una bola roja gana una cantidad monetaria, las amarillas y las negras pierden. Apuesta B: Quien saque una bola amarilla gana, el resto pierde. La mayorı́a de las personas optan por la A. Después cambiamos las apuestas de una manera que en ambos casos, las bolas negras son desde ahora ganadoras. Apuesta C: Quien saque una bola roja o negra gana, las amarillas pierden. Apuesta D: Quien saque una bola amarilla o negra gana, las rojas pierden. En este caso, la mayorı́a de las personas escogen la D. Lo cual entra en contradicción con la desición anterior de escoger la apuesta A, a pesar de que la bola negra es ganadora en ambas C y D, lo cual no aporta diferencia alguna. El concepto de probabilidad Ellsberg explica éste resultado en términos de la diferencia entre el riesgo e incertidumbre. Las personas sometidas a estas escogencias suponen prudentemente que la distribución desconocida entre bolas rojas y amarillas pueden traerles desventaja y por lo tanto escogen en ambas ocasiones bajo el riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda). Llama la atención sobre la necesidad de una teorı́a para modelar la incertidumbre. El concepto de probabilidad Una forma de interpretar el concepto de probabilidad desde un punto de vista lógico es de acuerdo al concepto de razonamiento plausible (Jaymes): cuano en el mundo real observamos un evento B que tı́picamente es consecuencia de un evento A, decimos que A es plausible pero usalmente no es posible deducir que A ha sucedido. La idea predominante es que A es plausible dado que observamos B. La lógica es que si B ha ocurrido, esto arroja evidencia en favor de A. Al fundamentar la teorı́a de la probabilidad de esta forma se obtiene una formalización de la idea del grado de incertidumbre sobre la ocurrencia de un evento (plausibilidad del evento). El concepto de probabilidad Luego la interpretación de la probabilidad de un evento no está relacionada con la frecuencia de un evento repetido sino con el grado de incertidumbre del evento. Esta es la interpreatción subjetivista del concepto de probabilidad. Para de Finetti la probabiidad (objetiva) de un evento no existe. Es algo tan ficticio y en contradición con laevidencia cuanto la existencia del éter. Cuál es la probabilidad de cada número cuando se lanza un dado al aire? La idea de aprendizaje en un ambiente incierto puede ser sutil. El concepto de probabilidad La paradoja del gato I. Una persona está frente a tres puertas cerradas. Se sabe que detrás de alguna de las puertas hay un gato. La persona se le pide escoger una puerta. Antes de abrir cualquier puerta, una segunda persona que sabe exactamente que hay detrás de cada puerta y conoce también cuál fue la puerta elegida por la primera persona, éste abre una de las puertas que sea la elegida por la primera persona y en la que no esté el gato. Ahora, con una puerta abierta en la que no está el gato, se le pregunta a la primera persona si desearı́a cambiar de puerta. El concepto de probabilidad El sentido común dice que no hace diferencia. Pero la teorı́a de la probabilidad dice otra cosa. La probabilidad de encontrar el gato en alguna de las dos puertas al cambiar la elección original es mayor que la probabilidad de que el gato esté en la primera puerta elegida. El concepto de probabilidad Definición probabiidad condicional. Dados dos evento A y B, tal que P(B) > 0 definimos la probabilidad condicional de A dado B como: P(A |B) = P(A ∩ B) . P(B) (1) El teorema de Bayes (o regla de Bayes) afirma que: P(A |B) = P(B |A) × P(A) . P(B) Este resultado es la base de toda la estadı́stica Bayesiana. (2) El concepto de probabilidad La paradoja del gato II: Para formalizar este problema, supongamos que la primera elección fue la tercera puerta. Sean A1 , A2 y A3 los eventos en los cuales el gato está detrás de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los eventos en los cuales el segundo jugador abre la puerta 1 o 2 reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) . Entonces dada la información del problema es natural suponer: 1 P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0 3 P(B1 |A2 ) = P(B2 |A1 ) = 1 y 1 P(B1 |A3 ) = P(B2 |A3 ) = . 2 Entonces si la segunda persona abre la puerta 2 es fácil calcular, usando la regla de Bayes, P A1 |B2 ) = 23 . Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones La Aproximación Bayesiana a la Estadı́stica Sea Θ un espacio de parámetros o estados de la naturaleza y Ξ un espacio de datos observables. En términos de funciones de densidad el teorema se puede expresar como: f(θ |y ) = f (y |θ)f (θ) f (y ) donde f (y ) es la distribución marginal de la variable aleatoria Y (o distribución marginal de los datos): Z f (y ) = f (y |θ)f (θ)dθ, Θ f (θ |y ) es la distribución expost (posteriori) del parámetro θ Métodos Bayesianos - Banco de Guatemala Alvaro Riascos La Aproximación Bayesiana a la Estadı́stica La función L(θ|y )= f (y |θ) , como funición de θ se llama la función de verosimilitud. f (θ) es la distribución inicial (prior) sobre los parámetros. La Aproximación Bayesiana a la Estadı́stica Obsérvese que no se ha hecho ninguna hipótesis sobre la forma de la distribución muestral. En general suponemos que y es un vector de obsrevaciones y f (y |θ) es la distribución conjunta o distribución del vector aleatorio Y . En pocas palabras la estadı́stica Bayesiana es un modelo formal de aprendizaje en un ambiente incierto aplicado a la inferencia estadı́stica. La mecánica Bayesiana es siempre la misma. Formule un distribución inicial para lo parámetros y calcule la distribución expost. El resultado final del análisis Bayesiano es la distribución expost. En el análisis clásico, el obejetivo final es un estimador que si bien es una variable aleatoria es, conceptualmente, muy distinto. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Teorı́a de la decisión En la teorı́a de decisión la idea es combinar la información muestral con información no muestral con el objeto tomar una decisón óptima. El análisis Bayesiano comparte con la teorı́a de la decisión el uso de información no muestral. Recordemos que Θ es el espacio de parámetros o estados de la naturaleza. θ ∈ Θ es un estado de la naturaleza. Sea A el espacio de acciones del tomador de decisiones. a ∈ A es una acción. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Teorı́a de la decisión Un problema de decisión es una función D : A × θ → C , donde C es un espacion de consecuencias. Suponemos que el agente tiene preferencias sobre el conjunto de consecuencias que las representamos mediante una función de (des)utilidad. A continuación definimos la función de pérdida como la composición de la función D y la función de (des)utilidad. Teorı́a de la decisión Un problema de desición está bien puesto cuando el conjunto la especificación del conjunto de acciones, estados de la naturaleza y consecuencias son tales que las preferencias del tomador de decisiones sobre las consecuencias son totalmente independientes de las acciones o estados de la naturaleza. Teorı́a de la decisión Sea L(θ, a) una función de pérdida. Definimos la perdida esperada expost o pérdidad esperada Bayesiana cuando se toma una decisión a ∈ A como: Z ρ(a |y ) = L(θ, a)f (θ |y )dθ Θ Dada una función de pérdida y una distribución expost, definimos el estimador Bayesiano de θ como: θbB (y ) = argmina∈A ρ(a |y ) Teorı́a de la decisión Example (Funciones de pérdida) Algunas funciones de pérdida estándar son: 1 Pérdida cuadrática. 2 Error absoluto. Los respectivos estimadores son el valor esperado y la mediana expost del parámetro respectivamente. Verificar el primer caso es inmediato. Teorı́a de la decisión Example (Distribución inicial y muestral normal) Supongamos que tenemos una muestra de n observaciones y1 , ..., yn , yi vi.i.d N(µ, 1) entonces la distribución muestral (función de verosimilitud) es: n p(y |µ) = (2π)− 2 σ −n exp(− 1 X (yi − µ)2 ) 2σ 2 (3) i Ahora supongamos que la distribución inicial p(µ) v N µ0 , σ02 donde los parámetros de esta distribución son conocidos (estos se denominan hiperparámetros). Obsérvese que antes de observar los datos, si el agente tiene una función de pérdida que es cuadrática, entonces el estimador Bayesiano (exante) de µ es µ0 . Teorı́a de la decisión La distribución expost es: p(µ |y ) ∝ p(y |µ) p(µ) 1 X ∝ exp(− 2 (µ − µ)2 ) 2σ n y + σ12 µ0 σ2 0 µ= n 1 + σ2 σ2 (4) (5) (6) 0 σ2 = n σ2 1 + 1 σ02 (7) Teorı́a de la decisión Cuando la función dé pérdida es la función de error cuadrático. Entonces el estimador Bayesiano (expost) es: E [µ |y ] = µ (8) Es decir, el valor esperado expost de µ es una combinación convexa del estimador clásico y de los datos observados y la media inicial. Cuando el número de observaciones es grande o la incertidumbre de la distribución inicial es grande, el estimador Bayesiano se apróxima al estimador clásico. Teorı́a de la decisión δ : Ξ → A es una regla de decisición. Un tipo de reglas de decisión importante son las reglas de decisión aleatorias. Para un problema sin datos, una regla de decisición es simplemente una acción. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Riesgo frecuentista Definition (Función de Riesgo Clásica) Dada una regla de decisión δ y una función de pérdida definimos la función de riesgo (clásica) como: Z R(θ, δ) = EY [L(θ, δ)] = L(θ, δ(y ))dF (y |θ) (9) Obsérvese que la función de riesgo clásica promedia sobre todas las realizaciones posibles de los datos (aun aquellas que no han ocurrido!). Esta es una función del estado y la regla de decisión (la regla de desición es tı́picamente un estimador). Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones A diferencia de la pérdida esperada Bayesiana que es un número, el riegso frecuentista depende del estado. Esto dificulta el problema de escoger una regla de decisión para minimizar el riesgo ya que ésta va depender del estado. La siguiente definición acota el universo razonable de reglas de decisión. Definition (Admisibilidad) Dada una función de péridida. Decimos que una regla de decisión δ es inadmisible si existe otra regla de decisión que la (domina débilmente) para toda realización posible de los estados. De lo contrario se llama admisible. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Riesgo frecuentista Bajo condiciones débiles se puede mostrar que los estimadores Bayesianos son admisibles. Existe un teorema converso llamado teorema de completo de clases. En la teorı́a clásica estadı́stica existen algunas formas de resolver el problema de decisión: 1 2 3 4 5 Máxima verosimilitud. Mı́nima varianza. Mı́nimos cuadrados ordinarios. Sesgo nulo. Solución minimax. Riesgo frecuentista Una regla de decisión δ M satisface el principio minimax si: supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ) (10) donde ∆(D) denota e conjunto de reglas de decisión aleatorias (que tienen como rango las acciones mixtas). Intuitivamente, una regla de decisión satisface el principio minimax si permite asegurar el mı́nimo riesgo en el pero de los casos (peor estado). Invarianza: Este principio afirma que las reglas de decisión deben ser las mismas cuando los problmeas de decisión tienen la misma estructura. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Riesgo Bayesiano Definition (Riesgo Bayesiano) Dada una regla de decisión δ, una función de péridida L y una distribución inicial de los parámetros p definimos la función de riesgo Bayesiana como: Z r (δ, p) = Ep [R(θ, δ)] = R(θ, δ)dp(θ) (11) Θ Obsérvese que el riesgo Bayesiano promedia sobre el espacio de parámetros y es una función únicamente de la regla de decisión y la idstribución inicial de los parámetros. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Riesgo Bayesiano Asociado a el riesgo Bayesiano hay un principio de decisión. Una regla de decisión δ B es una regla de decisión Bayesiana si: r (θ, δ B ) = infδ∈D R(θ, δ) donde D es el espacio de reglas de decisión. (12) Riesgo Bayesiano En la teorı́a de la decisión, la forma estándar de resolver el problema de decisión es usando el principio condicional de Bayes. Una regla de decisión condicional Bayesiana δ CB es una regla de decisión tal que: ρ(θ, δ CB (y )) = infa∈A ρ(θ, a) (13) Obsérvese que en un problema sin datos, la regla de decisión condicional coincide con la regla de desición de Bayes. En general se cumple que la decisión usando la regla condicional es igual a decisión usando la regla de Bayes. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Familias Conjugadas Dada una familia de de distribuciones muestrales F, decimos que una familia de distribuciones iniciales P es una familia conjugada para F si la distribucion expost es siempre un elemento de P. Decimos que natural conjugada si es conjugada y si está en la familia de distribuciones muestrales. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Estimadores El estimador de máximaverosimilitud generalizado de es aquel que maximiza la distribución expost. Este es el el valor más probable dado la idstribución inical del parámetro y la muestra y . El error de un estimador se define como la desviación cuadrática promedio de los parámetros con respecto al estimador utilizando la distribución expost. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Prueba de hipótesis Un subconjunto C de Θ es créible con un nivel de confianza 1 − α (condicional a y ) si: 1 − α ≤ P(C |y ) (14) Un conjunto creible tiene un significado probabilı́stico (aunque subjetivo). Esto no ocurre siempre en la teorı́a clásica. Un problema con la noción Bayesiana de conjunto creı́ble (o intervalo de confianza) es que pueden existir mucho onjunto creı́bles. Una forma, adhoc, de selecionar uno es calculando conjunto creı́ble de mayor densidad de expost. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Prueba de hipótesis Sea kα el mayor k tal que: P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α (15) Entonces definimos el conjunto creı́ble CHPD con un nivel de confianza 1 − α como: CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα } (16) Prueba de hipótesis La prueba de hipótesis en estadı́stica clásica consiste en estudiar los errores tipo I y II (probabilidad que la muestra observada resulte en la hipótesis incorrecta siendo aceptada). En estadı́stica Bayesiana la prueba de hipótesis es conceptualmente sencillo: comparar la probabilidad expost P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hipótesis son: H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 . La razón entre estas dos probabilidades se llama posterior odds ratio. La misma razón pero con las probabilidades iniciales se llama prior odd ratios. La razón entre el posterior y el prior odds se llama factor de Bayes (Berger). Cuando las hipótesis son simples, el factor de Bayes es simplemente la razón de las funciones de verosimilitud. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hipótesis Predicciones Predicciones Supongams que queremos pronósticar una variable z basado en la variable bservable y . En estadı́stica Bayesiana el objeivo es determinar p(z |y ) . Esto se puede escribir: Z p(z |y ) = p (z, θ |y ) dθ (17) Θ Z p(z |y ) = p (z |y , θ)p(θ |y ) dθ (18) Θ p(z |y ) se denomina la densidad predictiva de z dado los datos observables y . El análisis Bayesiano trata de forma simétrica, parámetros, observables y predicciones: son todas variables aleatorias. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Comparación de modelos Un modelo se define formalmente como una distribución inicial y una distribución muestral. Supongamos que tenemos m modelos que buscan explicar los datos observado y . Usando la distribución inicial y muestral de cada modelo calculamos la distribución expost de los datos. P(y |θ, M) P(θ |M) P(θ |y , M) = (19) p(y |M) donde p(y |M) es la distribución marginal de los datos condicional al modelo. Esta también se denomina la verosimilitud marginal y se puede obtener mediante la integración obvia. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Comparación de modelos Ahora podemos tener una distribución inicial de cada uno de los modelos (grado de confianza que tenemos en el modelo) y esto nos permite calcular la distribcuión expost sobre nuestra confianza en el modelo condicional a los datos observados: P(M |y ) = P(y |M)P(M) p(y ) (20) donde P(M) el la distribución inicial del modelo. Obsérvese que la verosimilitud marginal se obtiene mediante integracióny en principio, con ésta, se puede calcular la distribución expost del modelo (dados la distribución inical de los modelos y la distribución marginal de los datos). Comparación de modelos Como usualmente es dificil determinar la distribución marginal de los datos lo que se hace es comparar la razón entre las distribuciones expost: POij = P(M i |y ) P(M j |y ) denominado posterior odds ratio. (21) Comparación de modelos Cuando la prior sobre cada modelo es la misma, el posterior odds ratio se reduce a la razón entre las verosimilitudes marginales. P(y M i BFij = (22) P(y |M j ) El caso de comparar dos modelos lineales bajor normalidad es posibels hacerlo a mano. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Propiedades clásicas de la aproximación Bayesiana Consideremos el problema de consistencia. Supongamos que existe una distribución poblacional f (y ). Sea p(y |θ) la distribución muestral. Definamos la distancia entre ambas distribuciones como la distancia de Kullback - Leibler. Sea θ∗ el valor que minimiza la distancia entre la distribución poblacional y la distribución muestral. Uno puede mostrar que si existe un parámetro verdadero tal que la distribución muestral es igual a la distribución poblacional entonces θ∗ es el parámetro verdadero. En este caso decimos que el modelo muestral está bien especificado. Métodos Bayesianos - Banco de Guatemala Alvaro Riascos Propiedades clásicas de la aproximación Bayesiana Theorem (Consistencia) Supongamos que es espacio de estados Θ es compacto y sea Θ0 una vecindad del verdadero parámetro θ0 con probabilidad inicial difeerente de cero. Entonces, p(θ ∈ Θ0 |y ) → 1 cuando el tamaño de la muestra crece hacia el infinito. Es decir, si el modelo está bien especificado (distribución muestral es igual a la poblacional para algún parámetro) entonces la distribución expost se va concetrar asintóticamente alrededor del verdadero parámetro siempre el verdadero parámetro esté en el soporte de la distribución inicial. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Discusión Obsérvese que la principal diferencia entre el análisis clásico y el Bayesiano se deriva de la forma radicalmente de intepretar los parámetros, modelos y pronósticos de un modelo. Éstos tres se intepretan como variable aleatorias y en ese sentido se les da un tratamiento simétrico con los datos observados. La diferencia fundamental entre ambas aproximaciones es el uso de información inicial en el proceso de inferencia. La teorı́a clásica responde 1 2 3 Antes de observar los datos, qué podemos esperar. Antes de observar los datos, qué tan precisos son los estimadores. Dado que la hipótesis a estudiar es verdadera, que probabilidad existe de que los datos indiquen que es verdadera. Métodos Bayesianos - Banco de Guatemala considera Alvaro Riascos La aproximación Bayesiana que las preguntas Discusión Example (Distribución inicial y muestral normal) Considere la distribución expost cuando la distribución inical no es informativa. Es fácil mostrar que el estimador Bayesiano más o menos una distribución estándar (de la distribución expost) es: σ µ b=y±√ n (23) Ahora la distribución del estimador clásico y más o menos una desviación estándar es igual. Sin embargo, la intepretación es completamente distinta. En el primer caso la interpretación es: Qué tan preciso es la estimación de mu dado que hemos observado ciertos datos. Discusión Una crı́tica estándard al análisis Bayesiano es la necesidad de definir una distribución inicial de los estados. Bajo condiciones débiles, siempre existe una prior natural. Decimos que la distribución marginal conjunta de los datos es intercambiable si es invariante frente a permutaciones de los subı́ndices de los datos. Suponga que los datos toman valores cero o uno únicamente. Entonces el Teorema de deFinetti afirma que los datos se pueden interpeetar como distribuidos condicional i.i.d con yi θ distribuido Bernoulli con parámetro θ. Ademas caracteriza la distribución asintótica del parámetro θ en términos del la media muestral. El converso también vale. Luego la intercambiabilidad es una hipótesis natural en ciertas circunstancias que racionaliza la escogencia de un modelo de mixtura de Bernoulli dejando como grado de libertad la distribución asintótica del θ para lo cal basta con expresar nuestra distribución inicial sobre la distribución de la media muestral. Discusión Example (Laboratorios) Una sustancia debe ser analizada y existen dos laboratorios igualmente buenos para hacerlo. Para tomar una decisión se lanza una moneda al aire. Al recibir los resultados del laboratorio escogido el agente se pregunta: Deberı́amos de llevar en consideración que estos resultados dependen de que se lanzo al aire una moneda que hubiera podido indicar que fuera el otro laboratorio el que hiciera el examen? De acuerdo a la visión clásica deberı́amos de promediar sobre todos los posibles resultados incluyendo los del laboratorio que no hizo la prueba. Discusión Example (Diferentes distribuciones muestrales) Suponga que se lanza de forma independiente 12 monedas al aire y se obervan 9 caras y 3 sellos. Esta información no especifica completamente el experimento puesto que pudo ser el resultado de dos procedimientos: (1) Se fijo en 12 el núemro de lanzamientos y se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio la tercer sello. En ambos casos la distribución muestral es completamente distinta. En el primer caso es Binomial y el el segundo es Negativa Binomial. Ahora suponga que queremos probar la hipótesis de que la probabilidad de que salga cara es 12 contra la hipótesis de que sea mayor que 21 . Se diseña una prueba que es de la siguinete forma, si el núemro de caras observadas es superior a algun umbral c, entonces se se rechaza la hipótesis de que estados (probabilidad de que salga) sea 12 . Por definición el p-valor de esta hipótesis es la probabilidad de observar 9 o más caras en el experimento. Si calculamos el p-valor bajo para los dos procedimientos en el primero aceptamos la hipótesis nula y en el Discusión La forma como en la teorı́a clásica se eliminan parámetros es mediante la sustitución de los mismos por un parámetro. En el análisis Bayesiano se promedia sobre todos sus posibles valores. Contenido Introducción El concepto de probabilidad La Aproximación Bayesiana a la Estadı́stica Comparación de modelos Propiedades clásicas de la aproximación Bayesiana Discusión Teorı́a de la decisión robusta Teorı́a de la decisión robusta Métodos Bayesianos - Banco de Guatemala Alvaro Riascos