Esperanza condicionada Apuntes de clase Probabilidad II (grupos 31 y 40) Curso 2010-11 Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid Probabilidad y esperanza condicionada: recordatorio del enfoque elemental Sea X una v.a. X : (Ω, A, P) −→ (Rk , B(Rk )). Recordemos el enfoque elemental a la idea básica de probabilidad condicionada: I En teorı́a de probabilidad elemental, si P(X = x) > 0, y =x}) A ∈ A se define P(A|X = x) = P(A∩{X P(X =x) I Cuando P(X = x) = 0, se puede obtener, bajo ciertas condiciones reemplazando P(A|X = x) pot P(A|X ∈ (−, )) y pasando al lı́mite. I Si Y es otra v.a. (con valores reales) se puede definir F (y |x) = P(Y ≤ y |X = x). En el caso absolutamente continuo, bajo condiciones relativamente fuertes, se obtenı́a que F (y |x) es absolutamente continua con densidad ) f (y |x) = ffX(x,y (x) , siendo f (x, y ), fRX las densidades de (X , Y ) y de X . Se define E(Y |X = x) = yf (y |x)dy . Inconvenientes del enfoque elemental I Es difı́cil de implementar cuando se desea condicionar a una familia (no necesariamente finita) de v.a.’s. I Hay que imponer condiciones incómodas y artificiales para garantizar la existencia del lı́mite que define la probabilidad condicionada. El enfoque general, basado en teorı́a de la medida Nuestro objetivo es dar una definición general, válida bajo condiciones mı́nimas, de la esperanza condicionada y, como caso particular, de la probabilidad condicionada. Esta definición será aplicable al caso en que la información que condiciona venga dada por una familia cualquiera de variables aleatorias. Para obtener este grado de generalidad utilizaremos nociones de teorı́a de la medida y renunciaremos a definir la esperanza condicional (o la probabilidad condicional) “punto a punto”. Las definiremos más bien como funciones cuyos valores pueden alterarse en conjuntos de medida cero y aún siguen cumpliendo las condiciones establecidas en la definición. ¿Por qué son importantes la esperanza condicionada y la probabilidad condicionada? R I Herramientas de cálculo: P(A) = R E(Y ) = E(Y |X = x)dPX (x) P(A|X = x)dPX (x), I Herramientas de predicción: E(Y |X ) es la mejor predicción (en el sentido del error cuadrático medio) de Y en términos de X . r (x) = E(Y |X = x) se denomina “función general de regresión de Y respecto a X ”. I Herramientas conceptuales para definir y manejar algunas ideas naturales y sumamente importantes (procesos markovianos, martingalas, etc.) En todas estas aplicaciones, no interesa tanto tener E(Y |X = x) (o P(A|X = x)) definida para cada x particular, sino más bien tenerlo definido globalmente como una función medible, que puede cambiarse en un conjunto de puntos de probabilidad 0 sin que eso cambie los resultados y la utilidad del concepto en nada esencial. Necesitaremos unos conceptos preliminares. σ-álgebra generada por una v.a. (I) X : (Ω, A, P) −→ (Rk , B(Rk )) v.a. Se define la σ-álgebra generada por X , σ(X ), como la clase de los conjuntos de A que se definen en términos de los valores de X . Formalmente σ(X ) = {X −1 (B) : B ∈ B} Es claro que σ(X ) ⊂ A es una sub-σ-álgebra de A. La idea importante es que, dos v.a. que tienen la misma σ-álgebra asociada son función una de otra: σ-álgebra generada por una v.a. (II) Sean X1 , X2 : (Ω, A, P) → (Rk , B). Sea σ(X1 ) la σ-álgebra generada por X1 en A. Se demuestra que X2 es σ(X1 )-medible (es decir, X2−1 (B) ∈ σ(X1 ), para todo B ∈ B) si y sólo si existe g : Rk → Rk medible tal que X2 = g (X1 ). La dem. es sencilla: Es claro que si X2 = g (X1 ) entonces g (X1 ) es σ(X1 )-medible. Para el recı́proco, recordemos que la clase de funciones medibles (respecto a cualquier σ-álgebra dada) coincide con la mı́nima clase de funciones que contiene a las indicatrices y es cerrada por adición y convergencia puntual. Pero la clase X de funciones que son de la forma g (X1 ) verifican exactamente esta propiedad respecto a σ(X1 ): en efecto, se tiene IA ∈ X , para todo A ∈ σ(X1 ) y X es obviamente cerrada por adición. Por último, tomemos una sucesión gn (X1 ) tal que gn (X1 ) → X2 . Hay que probar que X2 ∈ X . Para verlo definamos el conjunto B = {lim gn existe}. Se tiene que B ∈ B y Ω = {X1 ∈ B}. Definamos ahora g = lim gn en B y g = 0 en B c . σ-álgebra generada por una familia de v.a. Sea Xt , t ∈ I una familia de v.a.’s definidas en (Ω, A, P). Se define σ(Xt , t ∈ I ) = σ (∪t σ(Xt )). Intuitivamente, σ(Xt , t ∈ I ) es el conjunto de sucesos que “pueden definirse en términos de los valores de las Xt ”. Una definición global basada en nociones de teorı́a de la medida Sea Y una v.a. real, definida en (Ω, A, P) y con E(Y ) finita. Dada una sub-σ-álgebra D ⊂ A, se define la esperanza condicionada de Y , dada D como una v.a., denotada por E(Y |D), D-medible tal que Z Z YdP = E(Y |D)dP, ∀D ∈ D. D D I Cuando D = σ(X ), se denota E(Y |D) = E(Y |X ). I Cuando D = σ(Xt , t ∈ I ), se denota E(Y |D) = E(Y |Xt , t ∈ I ). I Cuando Y = IA , para A ∈ A, se denota E(IA |D) = P(A|D). Algunas observaciones a la definición I En general Y 6= E(Y |D), a menos que Y fuera D-medible. I Cuando D = σ(X ) la condición de que E(Y |D) sea D-medible equivale simplemente a decir que E(Y |X ) es función medible de X . I Cuando D = σ(Xt , t ∈ I ) la condición de que E(Y |D) sea D-medible equivale simplemente a decir que E(Y |Xt , t ∈ I ) es una función medible que depende de las Xt . Existencia y unicidad La existencia y la unicidad c.s. (P) está garantizada por el Teorema de Radon-Nikodym aplicado a las medidas en (Ω, D), Z µ2 (D) = YdP D y µ1 (D) = P(D). Obsérvese que µ2 << µ1 (en general, µ2 es una medida signada). La unicidad “esencial” (c.s.) de E(Y |D) significa que si E(Y |D) y E∗ (Y |D) son dos funciones que cumplen la definición (o dos “versiones” de la esperanza condicionada), entonces E(Y |D) = E∗ (Y |D), c.s. Expresiones en el espacio final: Definiciones de E(Y |X = x) y P(A|X = x) (I) Si X es una v.a. con valores en Rk , se puede definir las funciones E(Y |X = x) y P(A|X = x) simplemente utilizandoR el teorema de cambio de espacio de integración para la integral D E(Y |D)dP y recordando que los conjuntos de D son de la forma D = X −1 (B) = {X ∈ B} siendo B un conjunto boreliano Rk . En definitiva, se definen, respectivamente, E(Y |X = x) y P(A|X = x) como funciones de Rk en R que cumplen las siguientes igualdades: Expresiones en el espacio final: Definiciones de E(Y |X = x) and P(A|X = x) (II) Z Z E(Y |X = x)dPX (x), ∀B ∈ B YdP = {X ∈B} (1) B Z P(A ∩ {X ∈ B}) = P(A|X = x)dPX (x), ∀B ∈ B, (2) B donde B denota la σ-álgebra de Borel en Rk . En particular, poniendo B = Rk en (1) y (2), se tiene la fórmula de la esperanza reiterada, Z E(Y ) = E(Y |X = x)dPX (x) y la fórmula de la probabilidad total Z P(A) = P(A|X = x)dPX (x). Propiedades básicas 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. E(Y ) = E(E(Y |D)) Si Y es D-medible entonces Y = E(Y |D), c.s. Linealidad: E(a1 Y1 + a2 Y2 |D) = a1 E(Y1 |D) + a2 E(Y2 |D), c.s. Positividad: Si Y ≥ 0 entonces E(Y |D) ≥ 0, c.s. Conv. monótona: Si 0 ≤ Yn ↑ Y , E(Yn |D) ↑ E(Y |D), c.s. Convergencia dominada: Si |Yn | ≤ Z con E(Z ) < ∞, Yn → Y implica E(Yn |D) → E(Y |D), c.s. Des. de Jensen: Si g es convexa con E(|g (Y )|) < ∞, E(g (Y )|D) ≥ g (E(Y |D)), c.s. Un corolario importante: kE(Y |D)kp ≤ kY kp , para p ≥ 1. “Tower property”: Si D0 ⊂ D E(E(Y |D)|D0 ) = E(Y |D0 ), c.s. “Lo que es conocido sale fuera”: Si Z es D-medible con E|Z | < ∞, E|ZY | < ∞, entonces E(ZY |D) = Z E(Y |D). Si F es independiente de σ(σ(Y ), D), E(Y |σ(D, F)) = E(Y |D), c.s. En particular si σ(Y ) es independiente de D, E(Y |D) = E(Y ), c.s. La esperanza condicionada como proyección Sea Y v.a. real con E(Y 2 ) < ∞ (es decir, Y ∈ L2 (Ω, A, P)). Sea X otra v.a. (real o vectorial). Se verifica E (Y − E(Y |X ))2 = min E (Y − g (X ))2 , g ∈G donde G denota el espacio de las funciones reales medibles tales que E(g 2 (X )) < ∞. Además, la función E(Y |X ) es esencialmente única: si g ∗ es cualquier función de G para la que E (Y − E(Y |X )2 = E (Y − g ∗ (X )2 , entonces g ∗ (X ) = E(Y |X ) c.s. (es decir, con probabilidad 1). Este resultado se puede expresar de manera alternativa (y algo más general) diciendo que E(Y |D) es la proyección de la v.a. Y en el subespacio L2 (D) de L2 = L2 (Ω, A, P) formado por las va.’s D-medibles de cuadrado integrable. La esperanza condicionada como herramienta de predicción. Definición general de proceso de Markov I Predicción.- El anterior razonamiento prueba que E(Y |Xt , t ∈ I ) es la MEJOR APROXIMACIÓN (O “PREDICCIÓN”) DE Y a partir de las Xt , t ∈ I . Esta aplicación es extremadamente importante en las aplicaciones prácticas del cálculo de probabilidades y la estadı́stica en Ciencias Experimentales y Finanzas. La función g (X ) = E(Y |X ) se denomina función general de regresión de Y sobre X . I Procesos de Markov.- Se dice que un proceso estocástico {Xt }t≥0 es de Markov si ∀B y ∀s < t se verifica P(Xt ∈ B|Ds ) = P(Xt ∈ B|Xs ), con Ds = σ(Xu , u ≤ s). Muchos de los procesos estocásticos usuales son markovianos. Éste es, por tanto, un concepto fundamental que se define en términos de esperanza condicionada. Probabilidad condicionada regular (I) Recordemos que P(A|D) = P(A|D)(ω) es una v.a. Si {An } es una sucesión de sucesos disjuntos, la probabilidad condicionada verifica X P(∪An |D) = P(An |D), c.s. (3) n Sin embargo, el conjunto “excepcional” en el que deja de cumplirse (3) depende de la sucesión {An } de modo que puede cumplirse que, dependiendo de la “versión” de la pr. condicionada que hayamos elegido, NO se verifique que, para cada ω fijo P(·|D)(ω) sea una medida de probabilidad. Probabilidad y distribución condicionada regular (II) Dada una v.a. Y estamos especialmente interesados en probabilidades condicionadas de la forma P(Y ∈ B|D). Puede demostrarse que, entre todas las versiones de P(Y ∈ B|D) existe una versión “canónica”, P∗ (Y ∈ B|D), que define llamada distribución condicionada regular, denotada por PY (B|D) = P∗ (Y ∈ B|D), tal que PY (·|D)(ω) es efectivamente una medida de probabilidad en (R, B). Se tiene entonces que, para cualquier v.a. Y con esperanza finita, Z E(Y |D)(ω) = ydPY (y |D)(ω) c.s. (P). R En particular, cuando D = σ(X ), expresando esto con la fórmula de cambio de espacio de integración, Z E(Y |X = x) = ydF (y |X = x), c.s.(PX ). R Ésta es la forma más usual de calcular esperanzas condicionadas en los problemas elementales. Por ej., si hay densidad conjunta f (x, y ), se obtiene la distribución condicionada regular F (y |X = x) como la ) distribución correspondiente a la densidad (en y ) f (y |x) = ff(x,y . 1 (x)