Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz Tema 4: Introducción a la inferencia bayesiana Página www Página inicial Contenido JJ II J I Página 1 de 11 Regresar Pantalla completa Cerrar Abandonar Inferencia y Decisión. Licenciado en Ciencias y Técnicas Estadı́sticas Curso 2010/2011. Prof. Dr. Francisco de Ası́s Torres Ruiz Tema 4: Introducción a la inferencia bayesiana Índice 1. Introducción 2 2. Distribución a priori y a posteriori 2 3. Familias conjugadas 4 4. Estimadores bayesianos 7 5. Regiones de confianza bayesianas 6. Contrastes bayesianos 9 10 Página www Página inicial Contenido JJ II J I Página 1 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico que en otra. Ello conduce al concepto de distribución inicial o distribución a priori. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 1. Introducción Como ya se ha comentado en repetidas ocasiones, un problema de inferencia estadı́stica es un problema en el que se han de analizar datos que han sido generados de acuerdo con alguna distribución de probabilidad desconocida, planteando determinadas cuestiones sobre tal distribución que permitan, tras analizar los datos, conocer la distribución que los ha generado. En muchas ocasiones la distribución de probabilidad es conocida salvo para los valores de uno o más parámetros. En la perspectiva clásica, que hemos seguido hasta ahora, esos parámetros son desconocidos pero son cantidades fijas pertenecientes a un determinado espacio, el espacio paramétrico. De esta forma se han diseñado procedimientos para obtener estimaciones puntuales de los parámetros, estimaciones por regiones de confianza, ası́ como tests de hipótesis que ayuden a decidir sobre cuestiones planteadas acerca de dichos parámetros. Sin embargo existe otra aproximación a un problema de inferencia, la perspectiva bayesiana, que parte de otra premisa como es la de que el parámetro de interés es una variable aleatoria, con las implicaciones que ello conlleva en todo el planteamiento de la inferencia. Este enfoque alternativo se fundamenta en que en ocasiones, antes de disponer de las observaciones muestrales de la variable objeto de estudio, el experimentador dispone de información adicional acerca de dónde es probable que se encuentre el valor del parámetro y esa información la puede expresar en términos de una distribución de probabilidad en el espacio paramétrico. Por lo tanto, lo que estamos diciendo es que la información previa de la que se dispone permite al investigador tener la creencia de que es más probable que el parámetro se encuentre en una determinada región del espacio paramétrico que en otra. Ello conduce al concepto de distribución inicial o distribución a priori. Además, una vez que se obtienen las observaciones muestrales, parece lógico pensar que esa información adicional debe servir para actualizar la distribución inicial. Ello da origen a la distribución final o distribución a posteriori, distribución que recoge la creencia sobre el parámetro una vez que los datos han sido observados (por lo tanto es condicional a ellos) y que, por lo tanto, debe ser la base sobre la que se cimente la inferencia sobre el parámetro. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no informativas. Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar 2. Distribución a priori y a posteriori Como se ha dicho, la interpretación que ha de hacerse sobre la distribución inicial o a priori es el grado de creencia acerca de la ocurrencia de los distintos valores del parámetro que se tiene antes de disponer de las observaciones muestrales. Esta distribución puede determinar, con mayor o menor precisión, ese nivel de creencia. Ejemplo 2.1. Sea θ la probabilidad de obtener una cara cuando se lanza una moneda y supongamos que se sabe que la moneda es equilibrada o que tiene dos caras. Por lo tanto, los valores posibles de θ forman el espacio paramétrico Θ = {1/2, 1}. Si llamamos p a la probabilidad inicial de que la moneda sea equilibrada, entonces la distribución a priori es π(1/2) = p, π(1) = 1 − p. Ejemplo 2.2. Sea θ la proporción de artı́culos defectuosos en un gran lote de productos manufacturados elaborados en una cadena de producción. Evidentemente, en este caso Θ = [0, 1], por lo que, a expensas de disponer de información más precisa, podrı́a considerarse π(θ) = I[0≤θ≤1] . Página www Página inicial Observemos que en los dos ejemplos se aporta una información inicial que refleja una determinada creencia sobre el parámetro. No obstante hay una gran diferencia entre ellos. En efecto, en el primer caso se trata de una distribución a priori en la que cada posible valor del parámetro tiene asignada una determinada probabilidad mientras que en el segundo se reparte por igual la masa de probabilidad inicial en el espacio paramétrico, lo cual es indicativo de que no hay ninguna preferencia a priori sobre alguno o algunos valores del parámetro. Este caso es frecuente ya que no siempre se tiene información del tipo plasmada en el primer ejemplo, y las distribuciones de ese tipo suelen recibir el nombre de no informativas. El conocimiento a priori sobre el parámetro, expresado por la distribución inicial o a priori, puede ser actualizado mediante los datos muestrales observados. Para ello, el Teorema de Bayes proporciona un forma de combinar ambos tipos de información, tanto la inicial acerca del parámetro como la proporcionada por los datos. Ello da lugar a una nueva distribución, la distribución a posteriori o final. Contenido JJ II J I Página 2 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Página www Página inicial Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) Página www Página inicial Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II J I π(θ | x) = Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori JJ II J I π(θ | x) = f (x; θ) = m(x) Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) = f (x | θ)π(θ) X f (x | θ)π(θ) θ∈Θ f (x; θ) = m(x) JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) = f (x | θ)π(θ) X f (x | θ)π(θ) θ∈Θ f (x; θ) = m(x) en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) = f (x | θ)π(θ) X f (x | θ)π(θ) θ∈Θ f (x; θ) = m(x) f (x | θ)π(θ) Z f (x | θ)π(θ) dθ Θ en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa Cerrar Abandonar Sea X una variable aleatoria con distribución en una familia paramétrica {Pθ : θ ∈ Θ}. La función de densidad, o masa de probabilidad, de X será notada ahora como f (x | θ) para hacer notar que θ es una variable y que, por lo tanto, la distribución de X depende del valor concreto que tome el parámetro en tanto en cuanto es una variable aleatoria. Si X = (X1 , . . . , Xn )0 es una muestra aleatoria de X y notamos f (x | θ) a la función de densidad, o masa de probabilidad, de X condicionada a θ, y π(θ) a la distribución inicial de θ, entonces es inmediato comprobar que la distribución conjunta de X y θ será f (x; θ) = f (x | θ)π(θ) de donde la marginal de la muestra será X f (x | θ)π(θ) θ∈Θ m(x) = Z f (x | θ)π(θ) dθ en el caso discreto Página www en el caso continuo. Página inicial Θ Contenido Aplicando el Teorema de Bayes se obtiene la distribución final o a posteriori π(θ | x) = f (x | θ)π(θ) X f (x | θ)π(θ) θ∈Θ f (x; θ) = m(x) f (x | θ)π(θ) Z f (x | θ)π(θ) dθ Θ en el caso discreto JJ II J I Página 3 de 11 Regresar Pantalla completa en el caso continuo Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene π(θ | x) = Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene f (x | θ)π(θ) π(θ | x) = Z 1 f (x | θ) dθ 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) π(θ | x) = Z 1 = Z 1 P Pn n f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias a priori conjugadas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 2.3. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Tras observar una muestra aleatoria simple de tamaño n de X se tiene Pn Pn Pn Pn θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) θ i=1 xi (1 − θ)n− i=1 xi I(0,1) (θ) f (x | θ)π(θ) Pn Pn π(θ | x) = Z 1 = Z 1 P · = Pn n Beta( x + 1, n − x + 1) i i i=1 i=1 f (x | θ) dθ θ i=1 xi (1 − θ)n− i=1 xi dθ 0 0 En consecuencia, la distribución a posteriori es una beta de parámetros 3. Pn i=1 xi + 1 y n − Pn i=1 xi + 1. Familias conjugadas La principal dificultad que surge en los problemas de inferencia bajo la perspectiva bayesiana es tanto la licitación de la distribución a priori como el cálculo de la distribución a posteriori. La primera cuestión es importante ya que la inferencia que se realice posteriormente puede depender de la elección hecha de la distribución inicial, razón por la cual en muchos casos se recurre a distribuciones no informativas, que no imponen unas condiciones muy fuertes sobre el parámetro, o bien se puede aprovechar parte de la información muestral para mejorar la distribución inicial, dando origen a las denominadas distribuciones intrı́nsecas a priori, de gran auge en la actualidad. En cuanto a la segunda opción, el cálculo de la distribución a posteriori no tiene por qué conducir a una distribución tratable y, en ocasiones, hay que recurrir a métodos numéricos para poder trabajar con ellas. Centrándonos en la segunda cuestión, interesa considerar familias de distribuciones a priori cuyas distribuciones a posteriori asociadas sean de fácil cálculo. En este sentido surge el concepto de familias a priori conjugadas. Página www Página inicial Contenido JJ II J I Página 4 de 11 Regresar Pantalla completa Cerrar Definición 3.1. Una familia de distribuciones a priori P = {πα (θ), α ∈ A} se dice conjugada de la familia de funciones de densidad, o masa de probabilidad, P = {f (x | θ), θ ∈ Θ} cuando para cualquier distribución inicial perteneciente a P , la distribución final también pertenece a P . Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ f (x | λ)π(λ) dλ = 0 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b e λ i=1 λ e Qn f (x | λ)π(λ) dλ = dλ a x ! Γ(a) b i 0 0 i=1 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b Pn a i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Pn a i=1 xi ! Γ(a) b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + Pn a i=1 xi ! Γ(a) b Ası́ pues, i=1 xi ) P n 1 a+ i=1 xi n+ b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar π(λ | x) = Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + Pn a i=1 xi ! Γ(a) b Ası́ pues, i=1 xi ) P n 1 a+ i=1 xi n+ b Z i=1 xi ) P a+ ni=1 xi · n + 1b 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ JJ II J I Página 5 de 11 Regresar Pantalla completa Cerrar Abandonar f (x | λ)π(λ) π(λ | x) = Z +∞ f (x | λ)π(λ) 0 dλ Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + dλ JJ II J I Página 5 de 11 Pn a i=1 xi ! Γ(a) b Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ i=1 xi ) P a+ ni=1 xi · n + 1b Ası́ pues, Regresar Pantalla completa Cerrar Pn e−nλ λ Qn λa−1 e−λ/b a f (x | λ)π(λ) i=1 xi ! Γ(a) b π(λ | x) = Z +∞ dλ = Pn a+Pni=1 xi Γ (a + i=1 xi ) 1 f (x | λ)π(λ) Qn n + a 0 b i=1 xi ! Γ(a) b i=1 xi Abandonar Comentario 3.1. Algunas familias de distribuciones conjugadas son las siguientes: La familia de distribuciones beta es una familia de distribuciones a priori conjugada para muestras de distribuciones de Bernoulli, binomiales y binomiales negativas. La familia de distribuciones gamma es una familia de distribuciones a priori conjugada para muestras de distribuciones de Poisson y exponenciales. La familia de distribuciones normales es una familia de distribuciones a priori conjugada para muestras de una distribución normal con varianza conocida. Ejemplo 3.1. Sea X una variable aleatoria de Poisson de parámetro λ > 0 y consideremos como distribución a priori una distribución gamma de parámetros a y b. Entonces, dada una muestra aleatoria simple de tamaño n se tiene Z +∞ Z +∞ −nλ Pn xi a−1 −λ/b Z +∞ a+Pn xi −1 −λ/(n+1/b)−1 i=1 e λ i=1 λ e λ e Qn Q f (x | λ)π(λ) dλ = dλ = dλ n a a x ! Γ(a) b x ! Γ(a) b i i 0 0 0 i=1 i=1 Página www Página inicial Contenido =Q n Γ (a + i=1 xi ! Γ(a) b =Q n Pn a Γ (a + i=1 xi ) P n 1 a+ i=1 xi n+ b Z 0 +∞ λ Γ (a + Pn −1 i=1 xi −1 e−λ/(n+1/b) Pn Pn 1 −a− i=1 xi i=1 xi ) n + b a+ dλ II J I Página 5 de 11 Pn a i=1 xi ! Γ(a) b JJ i=1 xi ) P a+ ni=1 xi · n + 1b Ası́ pues, Regresar Pantalla completa Cerrar Pn e−nλ λ Qn λa−1 e−λ/b Pn a+ i=1 xi −1 −λ/(n+1/b)−1 a f (x | λ)π(λ) λ e x ! Γ(a) b i=1 i π(λ | x) = Z +∞ dλ = Pn a+Pni=1 xi = −a−Pni=1 xi · Pn 1 Γ (a + i=1 xi ) 1 Γ (a + i=1 xi ) n + b f (x | λ)π(λ) Qn n + a 0 b i=1 xi ! Γ(a) b i=1 xi Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene f (x | µ)π(µ) = Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 ! −1/2 2 nτ 2 + σ 2 nxτ 2 + σ 2 η 2σ 2 τ 2 −1/2 exp − µ− × (2π) nτ 2 + σ 2 2σ 2 τ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Abandonar Por lo tanto, la distribución a posteriori es una gamma de parámetros a + Pn i=1 xi y (n + 1/b)−1 . Ejemplo 3.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n se tiene (µ − η)2 n 2 2 −n/2 2 −1/2 2 f (x | µ)π(µ) = 2πσ 2πτ exp − 2 s + (x − µ) − 2σ 2τ 2 2 ns 1 −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2 2 nτ 2 (x − µ)2 + σ 2 (µ − η)2 2σ 2σ τ 2 2 2 2 2 nx τ + σ η ns −n/2 −1/2 = 2πσ 2 2πτ 2 exp − 2 exp − 2σ 2σ 2 τ 2 1 2 2 2 2 2 × exp − 2 2 µ (nτ + σ ) − 2µ(nxτ + σ η) 2σ τ ns2 nx2 τ 2 + σ 2 η 2 (nxτ 2 + σ 2 η)2 2 −n/2 2 −1/2 = 2πσ 2πτ exp − 2 exp − exp 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) " #! 2 nτ 2 + σ 2 2 nxτ 2 + σ 2 η nxτ 2 + σ 2 η × exp − µ − 2µ + 2σ 2 τ 2 nτ 2 + σ 2 nτ 2 + σ 2 1/2 2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ −n/2 exp = 2πσ 2 τ −1 exp − 2 exp − 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 ! −1/2 2 nτ 2 + σ 2 nxτ 2 + σ 2 η 2σ 2 τ 2 −1/2 exp − µ− × (2π) nτ 2 + σ 2 2σ 2 τ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 6 de 11 Regresar Pantalla completa Cerrar Ası́, Z +∞ f (x | µ)π(µ) dµ = 2πσ −∞ Abandonar 2 −n/2 1/2 2 2 2 2 2 2 2 2 2 ns nx τ + σ η (nxτ + σ η) 2σ τ τ −1 exp − 2 exp − exp , 2σ 2σ 2 τ 2 2σ 2 τ 2 (nτ 2 + σ 2 ) nτ 2 + σ 2 y por lo tanto, π(µ | x) = Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ −∞ Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ = (2π)−1/2 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ f (x | µ)π(µ) dµ = (2π)−1/2 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando origen al riesgo a posteriori : Página www Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar y por lo tanto, π(µ | x) = Z f (x | µ)π(µ) +∞ = (2π)−1/2 f (x | µ)π(µ) dµ 2 2 2σ τ nτ 2 + σ 2 −1/2 2 exp − nτ + σ 2σ 2 τ 2 2 2 µ− 2 nxτ + σ η nτ 2 + σ 2 2 ! . −∞ Ası́, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 y 2σ 2 τ 2 nτ 2 + σ 2 y ası́ la familia de distribuciones normal es conjugada 4. Estimadores bayesianos Página www Como, desde el punto de vista bayesiano, el parámetro sobre el que se realiza la inferencia es una variable aleatoria, parece lógico que dicha inferencia se base en caracterı́sticas calculadas a partir de distribuciones que representen la evolución del parámetro como variable aleatoria. En este sentido, la distribución a posteriori parece la más indicada para estos fines. No obstante, hay que tener en cuenta, como se vio en el tema 1, las funciones de pérdida (ası́ como las funciones de riesgo asociadas) que determinan los criterios de obtención de estimadores (recordemos, por ejemplo, como la pérdida cuadrática y la varianza como riesgo asociado a ella, fue el criterio más desarrollado desde el punto de vista clásico). Sea L(θ, T ) una función de pérdida para estimar una función paramétrica ψ(θ). Puesto que en la perspectiva bayesiana se parte de una distribución inicial que se actualiza con los datos para obtener la distribución final, el riesgo asociado a la pérdida L(θ, T ) también se actualiza en ese sentido, dando origen al riesgo a posteriori : Z π RF (θ, T ) = L(θ, T )π(θ | x) dθ. θ∈Θ Página inicial Contenido JJ II J I Página 7 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es Página www Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el estimador bayes de µ es JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar El sentido de los estimadores bayesianos es que toda la información sobre θ, una vez observada la muestra, se encuentra contenida en la distribución final. En ese sentido, esa distribución es realmente el estimador bayesiano. no obstante, si se desea proporcionar un valor de θ (una estimación) se puede emplear una caracterı́stica de dicha distribución que minimice el riesgo seleccionado. Por ello, para pérdidas cuadráticas L(θ, t) = (θ − t)2 , se elige la media de la distribución a posteriori, mientras que para pérdidas del tipo L(θ, t) =| θ − t | se elige la mediana. Ejemplo 4.1. Sea X una variable aleatoria de Bernoulli de parámetro θ y consideremos π(θ) = I(0,1) (θ). Deseamos obtener el estimador bayesiano a partir de una muestra aleatoria simple de tamaño n, considerando la función de pérdida L(θ, t) = (θ − t)2 . Pn Puesto que la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − Pn i=1 xi + 1, se deduce que, para la función pérdida considerada, el estimador bayes es n X T (x) = Página www xi + 1 i=1 n+2 · Página inicial Contenido Ejemplo 4.2. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y consideremos como distribución a priori una distribución normal de parámetros η y τ 2 . Entonces, dada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η nτ 2 + σ 2 2σ 2 τ 2 y · nτ 2 + σ 2 Ası́ pues, tanto si se considera como función de pérdida L(θ, t) = (θ − t)2 como L(θ, t) =| θ − t |, el estimador bayes de µ es nxτ 2 + σ 2 η T (x) = · nτ 2 + σ 2 JJ II J I Página 8 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α. Regresar Pantalla completa Cerrar Abandonar 5. Regiones de confianza bayesianas Mediante la aproximación bayesiana, el cálculo de regiones de confianza se realizará, al igual que los estimadores puntuales, a partir de la distribución final. Sin embargo, ahora la interpretación es diferente ya que el parámetro es aleatorio. Ası́ se suele hablar de región creı́ble. Ası́ se dice que C(x) es una región creı́ble de probabilidad 1 − α si P (θ ∈ C(x) | X = x) ≥ 1 − α donde la probabilidad se calcula mediante la distribución a posteriori. Ejemplo 5.1. Siguiendo con el ejemplo en el que X es una variable aleatoria de Bernoulli de parámetro θ y se considera π(θ) = I(0,1) (θ), sabemos que a partir de una muestra Pn aleatoria simple Pn de tamaño n, la distribución a posteriori es una distribución beta de parámetros i=1 xi + 1 y n − i=1 xi + 1. P De esta forma, tomando por ejemplo n = 10, ni=1 xi = 3 y α = 0.1, la distribución final es una beta de parámetros 4 y 8. Considerando colas de igual tamaño, α/2, la región creı́ble que se obtiene es C(x) = (0.135, 0.564). Observemos que en este tipo de cálculo existe el problema, como ocurrı́a en el caso clásico, de determinar los lı́mites del intervalo dependiendo de cómo se reparte la probabilidad. Para un valor α fijado, la solución a dicho problema no es única y puede conducir a distintas regiones. Página www Página inicial Contenido JJ II J I Página 9 de 11 La solución más correcta es escoger la región de forma que los puntos en ella tengan la máxima probabilidad final posible. En el caso de que la región sea un intervalo, ello consigue además que el intervalo tenga amplitud mı́nima. Esta solución suele denominarse región creı́ble con mayor distribución final (HPD en la nomenclatura anglosajona). De esta forma, la región creı́ble HPD es de la forma C(x) = {θ ∈ Θ; π(θ | x) ≥ c} ≥ 1 − α. La solución a este problema, como ocurre en múltiples aplicaciones en el campo clásico, conduce a una cuestión numérica. En el ejemplo anterior, la solución lleva al intervalo (0.117, 0.542), que tiene una probabilidad 0.9 y es de menor longitud que el anterior. Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas, la región crı́tica es JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Ejemplo 5.2. Siguiendo con el ejemplo en el que X es una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y se considera como distribución a priori una distribución normal de parámetros η y τ 2 , observada una muestra aleatoria simple de tamaño n, la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 [µ | x] = y Var[µ | x] = · E nτ 2 + σ 2 nτ 2 + σ 2 Por lo tanto, µ − E[µ | x] p ; N1 [0, 1]· Var[µ | x] Ası́, gracias a las caracterı́sticas de la distribución normal, la región HPD con probabilidad 1−α viene dada por p C(x) = {θ :| µ − E[µ | x] |< zα/2 Var[µ | x]}. Página www 6. Contrastes bayesianos Página inicial Contenido Consideremos el problema de contraste H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 . Al igual que ocurre con la estimación, el enfoque bayesiano para el problema de contraste de hipótesis se centra en la distribución a posteriori, por lo que se puede hablar con toda propiedad de la probabilidad final de la hipótesis nula y la alternativa y compararlas para tomar una decisión definitiva. Llamemos P (Θi | x), i = 1, 2, a la probabilidad de que θ ∈ Θi , i = 1, 2, cuando dicha probabilidad se mide con la distribución a posteriori. En consecuencia, como ambas probabilidades pueden ser calculadas, la región crı́tica es C = {x ∈ Rn : P (Θ1 | x) > P (Θ0 | x)} . JJ II J I Página 10 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x) es menor o igual que µ0 , lo cual es cierto si y sólo si σ 2 (µ0 − η) x ≤ µ0 + · nτ 2 Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar Comentario 6.1. En este planteamiento el énfasis se hace sobre el espacio paramétrico y no sobre el espacio muestral como hace el planteamiento clásico. En efecto, ahora no se va a estar interesado en todos los puntos de la región crı́tica, sino en si para un punto muestral fijo, el que se observa, se acepta o se rechaza la hipótesis nula en función de las probabilidades a posteriori. Además, observemos que ahora el comportamiento de ambas hipótesis es simétrico y simplemente se calculan las probabilidades finales de ambas hipótesis, verificándose P (Θ0 | x) + P (Θ1 | x) = 1, aceptándose aquella cuya probabilidad final sea mayor. La unión de todos los puntos muestrales para los cuales la probabilidad final de la hipótesis alternativa sea mayor que la de la nula conforman la región crı́tica. Ejemplo 6.1. Sea X una variable aleatoria normal N1 [µ; σ 2 ] con σ 2 conocida y sea una distribución normal de parámetros η y τ 2 la distribución a priori para µ. Consideremos el problema de contraste H0 : µ ≤ µ0 frente a H1 : µ > µ0 . Observada una muestra aleatoria simple de tamaño n sabemos que la distribución a posteriori es una normal de parámetros nxτ 2 + σ 2 η 2σ 2 τ 2 y · nτ 2 + σ 2 nτ 2 + σ 2 Se decidirá aceptar H0 si y sólo si P (µ ≤ µ0 | x) > P (µ > µ0 | x), lo cual ocurrirá si y sólo si P (µ ≤ µ0 | x) ≥ 1/2. Como π(µ | x) es simétrica entorno a la media, P (µ ≤ µ0 | x) ≥ 1/2 si y sólo si la media de π(µ | x) es menor o igual que µ0 , lo cual es cierto si y sólo si σ 2 (µ0 − η) x ≤ µ0 + · nτ 2 En particular, observemos que si η = µ0 , lo cual significa que se le da igual probabilidad inicial (1/2) a ambas hipótesis, entonces H0 se acepta si y sólo si x ≤ µ0 , lo cual ocurre, independientemente de π(µ), si el tamaño muestral n tiende a infinito. Página www Página inicial Contenido JJ II J I Página 11 de 11 Regresar Pantalla completa Cerrar Abandonar