Esperanza condicionada - Universidad Autónoma de Madrid

Anuncio
Esperanza condicionada
Apuntes de clase
Probabilidad II (grupos 31 y 40)
Curso 2010-11
Antonio Cuevas
Departamento de Matemáticas
Universidad Autónoma de Madrid
Probabilidad y esperanza condicionada: recordatorio del
enfoque elemental
Sea X una v.a. X : (Ω, A, P) −→ (Rk , B(Rk )). Recordemos el
enfoque elemental a la idea básica de probabilidad condicionada:
I
En teorı́a de probabilidad elemental, si P(X = x) > 0, y
=x})
A ∈ A se define P(A|X = x) = P(A∩{X
P(X =x)
I
Cuando P(X = x) = 0, se puede obtener, bajo ciertas
condiciones reemplazando P(A|X = x) pot P(A|X ∈ (−, ))
y pasando al lı́mite.
I
Si Y es otra v.a. (con valores reales) se puede definir
F (y |x) = P(Y ≤ y |X = x). En el caso absolutamente
continuo, bajo condiciones relativamente fuertes, se obtenı́a
que F (y |x) es absolutamente continua con densidad
)
f (y |x) = ffX(x,y
(x) , siendo f (x, y ), fRX las densidades de (X , Y ) y
de X . Se define E(Y |X = x) = yf (y |x)dy .
Inconvenientes del enfoque elemental
I
Es difı́cil de implementar cuando se desea condicionar a una
familia (no necesariamente finita) de v.a.’s.
I
Hay que imponer condiciones incómodas y artificiales para
garantizar la existencia del lı́mite que define la probabilidad
condicionada.
El enfoque general, basado en teorı́a de la medida
Nuestro objetivo es dar una definición general, válida bajo
condiciones mı́nimas, de la esperanza condicionada y, como caso
particular, de la probabilidad condicionada.
Esta definición será aplicable al caso en que la información que
condiciona venga dada por una familia cualquiera de variables
aleatorias.
Para obtener este grado de generalidad utilizaremos nociones de
teorı́a de la medida y renunciaremos a definir la esperanza
condicional (o la probabilidad condicional) “punto a punto”. Las
definiremos más bien como funciones cuyos valores pueden
alterarse en conjuntos de medida cero y aún siguen cumpliendo las
condiciones establecidas en la definición.
¿Por qué son importantes la esperanza condicionada y la
probabilidad condicionada?
R
I
Herramientas
de cálculo: P(A) =
R
E(Y ) = E(Y |X = x)dPX (x)
P(A|X = x)dPX (x),
I
Herramientas de predicción: E(Y |X ) es la mejor predicción
(en el sentido del error cuadrático medio) de Y en términos
de X . r (x) = E(Y |X = x) se denomina “función general de
regresión de Y respecto a X ”.
I
Herramientas conceptuales para definir y manejar algunas
ideas naturales y sumamente importantes (procesos
markovianos, martingalas, etc.)
En todas estas aplicaciones, no interesa tanto tener E(Y |X = x)
(o P(A|X = x)) definida para cada x particular, sino más bien
tenerlo definido globalmente como una función medible, que puede
cambiarse en un conjunto de puntos de probabilidad 0 sin que eso
cambie los resultados y la utilidad del concepto en nada esencial.
Necesitaremos unos conceptos preliminares.
σ-álgebra generada por una v.a. (I)
X : (Ω, A, P) −→ (Rk , B(Rk )) v.a. Se define la σ-álgebra generada
por X , σ(X ), como la clase de los conjuntos de A que se definen
en términos de los valores de X . Formalmente
σ(X ) = {X −1 (B) : B ∈ B}
Es claro que σ(X ) ⊂ A es una sub-σ-álgebra de A.
La idea importante es que, dos v.a. que tienen la misma σ-álgebra
asociada son función una de otra:
σ-álgebra generada por una v.a. (II)
Sean X1 , X2 : (Ω, A, P) → (Rk , B). Sea σ(X1 ) la σ-álgebra
generada por X1 en A. Se demuestra que X2 es σ(X1 )-medible (es
decir, X2−1 (B) ∈ σ(X1 ), para todo B ∈ B) si y sólo si existe
g : Rk → Rk medible tal que X2 = g (X1 ).
La dem. es sencilla: Es claro que si X2 = g (X1 ) entonces g (X1 ) es
σ(X1 )-medible. Para el recı́proco, recordemos que la clase de
funciones medibles (respecto a cualquier σ-álgebra dada) coincide
con la mı́nima clase de funciones que contiene a las indicatrices y
es cerrada por adición y convergencia puntual. Pero la clase X de
funciones que son de la forma g (X1 ) verifican exactamente esta
propiedad respecto a σ(X1 ): en efecto, se tiene IA ∈ X , para todo
A ∈ σ(X1 ) y X es obviamente cerrada por adición. Por último,
tomemos una sucesión gn (X1 ) tal que gn (X1 ) → X2 . Hay que
probar que X2 ∈ X . Para verlo definamos el conjunto
B = {lim gn existe}. Se tiene que B ∈ B y Ω = {X1 ∈ B}.
Definamos ahora g = lim gn en B y g = 0 en B c .
σ-álgebra generada por una familia de v.a.
Sea Xt , t ∈ I una familia de v.a.’s definidas en (Ω, A, P).
Se define σ(Xt , t ∈ I ) = σ (∪t σ(Xt )).
Intuitivamente, σ(Xt , t ∈ I ) es el conjunto de sucesos que “pueden
definirse en términos de los valores de las Xt ”.
Una definición global basada en nociones de teorı́a de la
medida
Sea Y una v.a. real, definida en (Ω, A, P) y con E(Y ) finita.
Dada una sub-σ-álgebra D ⊂ A, se define la esperanza
condicionada de Y , dada D como una v.a., denotada por E(Y |D),
D-medible tal que
Z
Z
YdP =
E(Y |D)dP, ∀D ∈ D.
D
D
I
Cuando D = σ(X ), se denota E(Y |D) = E(Y |X ).
I
Cuando D = σ(Xt , t ∈ I ), se denota
E(Y |D) = E(Y |Xt , t ∈ I ).
I
Cuando Y = IA , para A ∈ A, se denota E(IA |D) = P(A|D).
Algunas observaciones a la definición
I
En general Y 6= E(Y |D), a menos que Y fuera D-medible.
I
Cuando D = σ(X ) la condición de que E(Y |D) sea
D-medible equivale simplemente a decir que E(Y |X ) es
función medible de X .
I
Cuando D = σ(Xt , t ∈ I ) la condición de que E(Y |D) sea
D-medible equivale simplemente a decir que E(Y |Xt , t ∈ I ) es
una función medible que depende de las Xt .
Existencia y unicidad
La existencia y la unicidad c.s. (P) está garantizada por el
Teorema de Radon-Nikodym aplicado a las medidas en (Ω, D),
Z
µ2 (D) =
YdP
D
y
µ1 (D) = P(D).
Obsérvese que µ2 << µ1 (en general, µ2 es una medida signada).
La unicidad “esencial” (c.s.) de E(Y |D) significa que si E(Y |D) y
E∗ (Y |D) son dos funciones que cumplen la definición (o dos
“versiones” de la esperanza condicionada), entonces
E(Y |D) = E∗ (Y |D), c.s.
Expresiones en el espacio final: Definiciones de
E(Y |X = x) y P(A|X = x) (I)
Si X es una v.a. con valores en Rk , se puede definir las funciones
E(Y |X = x) y P(A|X = x) simplemente utilizandoR el teorema de
cambio de espacio de integración para la integral D E(Y |D)dP y
recordando que los conjuntos de D son de la forma
D = X −1 (B) = {X ∈ B} siendo B un conjunto boreliano Rk .
En definitiva, se definen, respectivamente, E(Y |X = x) y
P(A|X = x) como funciones de Rk en R que cumplen las
siguientes igualdades:
Expresiones en el espacio final: Definiciones de
E(Y |X = x) and P(A|X = x) (II)
Z
Z
E(Y |X = x)dPX (x), ∀B ∈ B
YdP =
{X ∈B}
(1)
B
Z
P(A ∩ {X ∈ B}) =
P(A|X = x)dPX (x), ∀B ∈ B,
(2)
B
donde B denota la σ-álgebra de Borel en Rk .
En particular, poniendo B = Rk en (1) y (2), se tiene la fórmula
de la esperanza reiterada,
Z
E(Y ) = E(Y |X = x)dPX (x)
y la fórmula de la probabilidad total
Z
P(A) = P(A|X = x)dPX (x).
Propiedades básicas
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
E(Y ) = E(E(Y |D))
Si Y es D-medible entonces Y = E(Y |D), c.s.
Linealidad: E(a1 Y1 + a2 Y2 |D) = a1 E(Y1 |D) + a2 E(Y2 |D), c.s.
Positividad: Si Y ≥ 0 entonces E(Y |D) ≥ 0, c.s.
Conv. monótona: Si 0 ≤ Yn ↑ Y , E(Yn |D) ↑ E(Y |D), c.s.
Convergencia dominada: Si |Yn | ≤ Z con E(Z ) < ∞,
Yn → Y implica E(Yn |D) → E(Y |D), c.s.
Des. de Jensen: Si g es convexa con E(|g (Y )|) < ∞,
E(g (Y )|D) ≥ g (E(Y |D)), c.s. Un corolario importante:
kE(Y |D)kp ≤ kY kp , para p ≥ 1.
“Tower property”: Si D0 ⊂ D E(E(Y |D)|D0 ) = E(Y |D0 ), c.s.
“Lo que es conocido sale fuera”: Si Z es D-medible con
E|Z | < ∞, E|ZY | < ∞, entonces E(ZY |D) = Z E(Y |D).
Si F es independiente de σ(σ(Y ), D),
E(Y |σ(D, F)) = E(Y |D), c.s. En particular si σ(Y ) es
independiente de D, E(Y |D) = E(Y ), c.s.
La esperanza condicionada como proyección
Sea Y v.a. real con E(Y 2 ) < ∞ (es decir, Y ∈ L2 (Ω, A, P)). Sea
X otra v.a. (real o vectorial). Se verifica
E (Y − E(Y |X ))2 = min E (Y − g (X ))2 ,
g ∈G
donde G denota el espacio de las funciones reales medibles tales
que E(g 2 (X )) < ∞.
Además, la función E(Y |X ) es esencialmente única: si g ∗ es
cualquier función de
G para la que
E (Y − E(Y |X )2 = E (Y − g ∗ (X )2 , entonces
g ∗ (X ) = E(Y |X ) c.s. (es decir, con probabilidad 1).
Este resultado se puede expresar de manera alternativa (y algo más
general) diciendo que E(Y |D) es la proyección de la v.a. Y en el
subespacio L2 (D) de L2 = L2 (Ω, A, P) formado por las va.’s
D-medibles de cuadrado integrable.
La esperanza condicionada como herramienta de
predicción. Definición general de proceso de Markov
I
Predicción.- El anterior razonamiento prueba que
E(Y |Xt , t ∈ I ) es la MEJOR APROXIMACIÓN (O
“PREDICCIÓN”) DE Y a partir de las Xt , t ∈ I .
Esta aplicación es extremadamente importante en las
aplicaciones prácticas del cálculo de probabilidades y la
estadı́stica en Ciencias Experimentales y Finanzas.
La función g (X ) = E(Y |X ) se denomina función general de
regresión de Y sobre X .
I
Procesos de Markov.- Se dice que un proceso estocástico
{Xt }t≥0 es de Markov si ∀B y ∀s < t se verifica
P(Xt ∈ B|Ds ) = P(Xt ∈ B|Xs ), con Ds = σ(Xu , u ≤ s).
Muchos de los procesos estocásticos usuales son markovianos.
Éste es, por tanto, un concepto fundamental que se define en
términos de esperanza condicionada.
Probabilidad condicionada regular (I)
Recordemos que P(A|D) = P(A|D)(ω) es una v.a. Si {An } es una
sucesión de sucesos disjuntos, la probabilidad condicionada verifica
X
P(∪An |D) =
P(An |D), c.s.
(3)
n
Sin embargo, el conjunto “excepcional” en el que deja de cumplirse
(3) depende de la sucesión {An } de modo que puede cumplirse
que, dependiendo de la “versión” de la pr. condicionada que
hayamos elegido, NO se verifique que, para cada ω fijo P(·|D)(ω)
sea una medida de probabilidad.
Probabilidad y distribución condicionada regular (II)
Dada una v.a. Y estamos especialmente interesados en probabilidades
condicionadas de la forma P(Y ∈ B|D). Puede demostrarse que, entre
todas las versiones de P(Y ∈ B|D) existe una versión “canónica”,
P∗ (Y ∈ B|D), que define llamada distribución condicionada regular,
denotada por PY (B|D) = P∗ (Y ∈ B|D), tal que PY (·|D)(ω) es
efectivamente una medida de probabilidad en (R, B).
Se tiene entonces que, para cualquier v.a. Y con esperanza finita,
Z
E(Y |D)(ω) =
ydPY (y |D)(ω) c.s. (P).
R
En particular, cuando D = σ(X ), expresando esto con la fórmula de
cambio de espacio de integración,
Z
E(Y |X = x) =
ydF (y |X = x), c.s.(PX ).
R
Ésta es la forma más usual de calcular esperanzas condicionadas en los
problemas elementales. Por ej., si hay densidad conjunta f (x, y ), se
obtiene la distribución condicionada regular F (y |X = x) como la
)
distribución correspondiente a la densidad (en y ) f (y |x) = ff(x,y
.
1 (x)
Descargar