Giraldo, N. (2011) Topicos en Series de Tiempo. Notas de Clase

Anuncio
Tópicos en Series de Tiempo
Propiedades y Estimación QML
TÓPICOS EN SERIES DE TIEMPO
Propiedades y Estimación QML
NORMAN GIRALDO GÓMEZ
Profesor Asociado
Escuela de Estadı́stica
Universidad Nacional de Colombia
Medellı́n
Universidad Nacional de Colombia
Medellín
c
Copyright 2011
Norman Diego Giraldo Gómez.
Notaría 6. Folio 23 de Noviembre 2010
Primera Edición
ISBN 234-067-111-0
No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo
ó de otro tipo excepto para citas cortas, sin el permiso del Autor.
Centro de Documentación Rafael Botero, UN Medellín
Tópicos en Series de Tiempo / Norman Diego Giraldo Gómez.
p. cm.—(Colección Notas de Clase)
“Universidad Nacional de Colombia."
Incluye referencias bibliográficas e ı́ndice.
ISBN 0-000-00000-0 (pbk.)
1. Probabilidades—Teorı́a. 2. Matemáticas
Ciencias—Investigación—Teorı́a. I. Giraldo, Norman D. II. Series.
519.2
G897c
Diagramación en LaTeX.
Impresión:
Editorial ...
Índice general
1. Desigualdades y Modos de Convergencia
3
1.1. Espacio Muestral y Sigma Álgebras . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.5. Propiedades de la Convergencia en Distribución. . . . . . . . . . . . . . . . . .
17
1.6. Sı́mbolos O(·) y o(·) Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.7. Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.8. Propiedades de la Convergencia en Media Cuadrática. . . . . . . . . . . . . . . .
21
1.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2. Procesos Estacionarios
27
2.1. Definición de Proceso Estocástico . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.2. Propiedades de las funciones de Autocovarianza
. . . . . . . . . . . . . . . . .
30
2.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.4. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.5. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
v
vi
2.6. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.7. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . .
39
2.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3. Procesos Estacionarios Estrictos
45
3.1. Procesos Estacionarios Estrictos . . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.2. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.3. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.4. Diferencias Martingalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4. Procesos ARMA
53
4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.2. Análisis de algunos procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . .
56
4.2.1. Procesos MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
4.2.2. Proceso AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.2.3. Proceso ARMA(1,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.3. Estimación Noparamétrica de la Función de Autocorrelación . . . . . . . . . . .
61
4.4. Estimacion de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.4.1. Estimación por el Método Yule-Walker . . . . . . . . . . . . . . . . . .
64
4.4.2. Estimación por el Método de Máxima Verosimilitud . . . . . . . . . . .
64
5. Procesos tipo GARCH
5.1. Introducción
65
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5.2. Caracterı́sticas Empı́ricas de los Rendimientos de Activos Financieros . . . . . .
66
5.3. Modelos para la Distribución de los Rendimientos . . . . . . . . . . . . . . . . .
67
5.3.1. Distribución Normal Inversa Gaussiana NIG . . . . . . . . . . . . . . .
67
5.3.2. Distribución GED Asimétrica . . . . . . . . . . . . . . . . . . . . . . .
68
5.3.3. Distribución t de Student Asimétrica . . . . . . . . . . . . . . . . . . . .
69
5.4. Procesos ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
vii
5.5. Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
5.6. Procesos APARCH y GJR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.7. Procesos EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
5.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
6. Modelos de Volatilidad Estocástica
83
6.1. Modelo de Volatilidad Estocástica Asimétrico . . . . . . . . . . . . . . . . . . .
84
6.2. Relación entre los modelos SV y GARCH . . . . . . . . . . . . . . . . . . . . .
86
7. Estimadores QML
89
7.1. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . .
92
7.1.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
7.1.2. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
7.2. Estimación de Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . .
95
7.3. Estimación de Procesos APARCH . . . . . . . . . . . . . . . . . . . . . . . . .
96
8. Método Generalizado de Momentos
99
8.1. Método de Estimación de Momentos Generalizado(GMM) . . . . . . . . . . . .
99
8.1.1. Condiciones de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.1.2. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.1.3. Eficiencia Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.1.4. Algoritmo para hallar θ̂T . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.1.5. Prueba de Sobreidentificación . . . . . . . . . . . . . . . . . . . . . . . 106
8.2. Estimación GMM de un Modelo de Volatilidad Estocástica Asimétrico . . . . . . 106
8.2.1.
Simulaciones Monte Carlo
. . . . . . . . . . . . . . . . . . . . . . . . 111
9. Método de Momentos Simulados
117
9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2. Condiciones para Consistencia débil del SMM . . . . . . . . . . . . . . . . . . . 118
9.2.1. Condición adicional para Consistencia fuerte del SMM
. . . . . . . . . 120
viii
9.3. Condición para Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . 120
9.4. Algorı́tmo para hallar θ̂T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10. El Metodo Eficiente de Momentos
123
10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.2. El Procedimiento de Estimación EMM . . . . . . . . . . . . . . . . . . . . . . . 124
10.3. Selección del Modelo Auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
10.4. Estimación EMM en el modelo de Volatilidad Estocástica . . . . . . . . . . . . . 129
10.5. Notas sobre GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Bibliografı́a
136
Índice alfabético
136
2
CAPÍTULO
1
Desigualdades y Modos de Convergencia
1.1.
Espacio Muestral y Sigma Álgebras
Definición 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w del experimento
aleatorio de interés, con ω ∈ Ω ⇐⇒ ω es un posible resultado aleatorio .
Definición 1.1.2. Una σ-álgebra F sobre Ω es una colección de subconjuntos de Ω que satisfacen
las siguientes condiciones:
1. Ω ∈ F
2. A ∈ F ⇒ Ac ∈ F
3. Si {A1 , A2 , · · ·} es una sucesión de elementos de F entonces
∞
S
i=1
Ai ∈ F .
Los subconjuntos de Ω que están en F se llaman eventos. Luego A ∈ F equivale a afirmar que A
es un evento y A ⊆ Ω .
Definición 1.1.3. Una probabilidad P(.) es una función P : F −→ [0, 1] que cumple las condiciones:
1. P(Ω) = 1
2. P(φ) = 0
3
4
3. Si {A1 , A2 , · · ·} es una sucesión de eventos mutuamente disjuntos, es decir,
Ai ∩ Aj = φ, para i 6= j, entonces:
!
∞
∞
X
[
P
Ai =
P(Ai).
i=1
i=1
Es preferible referirse a P(.) como la medida de probabilidad asociada a los eventos. Algunas
propiedades de P(.) se enuncian a continuación.
Proposición 1.1.1. Suponga que P es una probabilidad sobre una σ-álgebra F y que toda A es un
evento, entonces las siguientes propiedades son consecuencia de las propiedades en la definición
(1.1.3).
1. P(Ac ) = 1 − P(A).
2. Si A1 ⊂ A2 entonces P(A1 ) ≤ P(A2 ).
S
P∞
3. P ( ∞
i=1 Ai ) ≤
i=1 P(Ai).
4. Si An , n = 1, 2, . . . es una sucesión creciente de eventos, An ⊆ An+1 , entonces se cumple
S
que P ( ∞
i=1 Ai ) = lı́mn→∞ P(An ).
5. Si An , n = 1, 2, . . . es una sucesión decreciente de eventos, An ⊇ An+1 , entonces se cumple
T
que P ( ∞
i=1 Ai ) = lı́mn→∞ P(An ).
Ejemplo 1.1.1. Considere una sucesión de eventos An , n = 1, 2, . . ..
1. El evento que consiste en la ocurrencia de un número infinito de eventos An se denota por
T
S∞
S∞
lı́m supn→∞ An y se define como ∞
n=1 k=n Ak . La sucesión de eventos Bn =
k=n Ak
es decreciente. Luego
P(lı́m sup An ) = lı́m P(Bn ).
(1.1)
n→∞
n→∞
2. El evento que consiste en la ocurrencia de todos menos un número finito de eventos An
S
T∞
se denota por lı́m inf n→∞ An y se define como ∞
n=1 k=n Ak . La sucesión de eventos
T
Cn = ∞
k=n Ak es creciente. Luego
P(lı́m inf An ) = lı́m P(Cn ).
n→∞
(1.2)
n→∞
Lema 1.1.1. (Lemas Borel-Cantelli) Considere una sucesión de eventos An , n = 1, 2, . . ..
(i)
∞
X
j=1
(ii)
∞
X
j=1
P(Aj ) < ∞ ⇒ P(lı́m sup An ) = 0.
(1.3)
n→∞
P(Aj ) = ∞
y los An son independientes ⇒ P(lı́m sup An ) = 1.
n→∞
(1.4)
5
Demostración. (ver Grimmett and Stirzaker (1994), pag. 288)
T
S∞
Para la parte (i). Por la definición lı́m supn→∞ An = ∞
n=1 Bn , con Bn =
k=n Ak sucesión
decreciente. Entonces lı́m supn→∞ An ⊆ Bn , para todo n. Luego P(lı́m supn→∞ An ) ≤ P(Bn ) ≤
P∞
P∞
k=n P(Ak ) → 0, n → ∞, ya que
k=1 P(Ak ) < ∞.
S
T∞
c
Para la parte (ii). Denote Ac = (lı́m supn→∞ An )c . Entonces Ac = ∞
n=1 k=n Ak . La sucesión
Tm
c
k=n Ak , m = n, n + 1, . . . es decreciente en m y por tanto
!
∞
m
\
\
c
P
Ak = lı́m P(
Ack )
m→∞
k=n
=
≤
∞
Y
k=n
∞
Y
k=n
(1 − P(Ak )), por independencia
e−P(Ak ), ya que 1 − x ≤ e−x , x ≥ 0,
= exp −
Por tanto, P(Ac ) ≤
P∞
n=1
k=n
∞
X
k=n
P(Ak )
!
= 0.
T
c
P( ∞
k=n Ak ) = 0, y P(A) = 1.
Los tres elementos (Ω, F , P) se asumen dados con relación a un experimento de interés. Es evidente
que F ⊆ P(Ω), donde P(Ω) es el conjunto de partes de Ω. Sin embargo, la σ-álgebra no se toma
en general igual a P(Ω) sino que se asume que es un conjunto más pequeño, concretamente se
asume que contiene solamente los eventos que interesan con respecto al experimento aleatorio
en consideración. Un conjunto N tal que N ∈ P(Ω) − F no se considera un evento y no tiene
probabilidad asignada.
Definición 1.1.4. Si A ∈ F y P(A) = 0 se dice que A es un evento nulo. Si A ∈ F y P(A) = 1 se
dice que A es un evento casi seguro.
Se asumirá siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A),
se debe cumplir que P(B) = 0.
Ejemplo 1.1.2. Pueden haber varias σ-álgebra sobre un mismo conjunto Ω.
1. Si A ∈ F entonces la colección A1 = {φ, Ω, A, Ac} es una σ-álgebra que está contenida
en F .
2. Si A, B ∈ F la colección
A2 = {φ, Ω, A, B, Ac, B c , A ∪ B, AB, Ac ∪ B c , Ac B c , AcB, Ac ∪ B, AB c , A ∪ B c }
es una σ-álgebra contenida en F
6
Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σ-álgebra que contiene la colección {A}, y A2 es
la menor σ-álgebra que contiene la colección {A, B}.
Teorema 1.1.1. Dada una colección de eventos A = {A, B, · · ·} ⊆ F siempre existe una σálgebra mı́nima que la contiene, la σ-álgebra generada por A, σ(A).
Demostración. Defina el conjunto de todas las σ-álgebras que contienen la colección A como
C(A). No es vacı́o porque P(Ω) está ahı́. Luego como la intersección de una colección cualquiera
de σ-álgebras es de nuevo una σ-álgebra, se puede definir σ(A) como la intersección de todas las
σ-álgebras que contienen a A.
Por ejemplo, si se considera una sucesión de eventos (An , n = 1, 2, . . .), se pueden definir las
S
sigma álgebras Fn = σ( nj=1 Aj ). Entonces se tiene Fn ⊆ Fn+1 , y la sigma-álgebra de interés
S
con relación a todos los eventos definidos con la sucesión (An , n = 1, 2, . . .) es F = σ( ∞
j=1 Aj ).
Definición 1.1.5 ( σ-álgebra de Borel en R ). Si tomamos Ω = R y la colección de subconjuntos es
A = {(−∞, a] : a ∈ R} es decir la colección de todos los semi intervalos cerrados a la derecha,
entonces la σ-álgebra generada por esta colección se denomina σ-álgebra de Borel, y se denota
por B1 = σ ((−∞, a]; a ∈ R)
Nótese que se cumple lo siguiente:
1. R ∈ B1 , φ ∈ B1
2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a, ∞) ∈ B1 y (a, ∞) ∩
(−∞, b] = (a, b] ∈ B1
3. Cualquier intervalo real está en B1
Definición 1.1.6 ( σ-álgebra de Borel en R2 ). Si tomamos Ω = R2 y
A = {(−∞, a] × (−∞, b] : a, b ∈ R}
entonces la σ-álgebra generada por A se llama la σ-álgebra de Borel en R2 y se denota por
B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R).
Tenemos que se cumple: R2 ∈ B2 y también (−∞, a] × R ∈ B2
Definición 1.1.7 ( σ-álgebra de Borel en Rn ). Si tomamos Ω = Rn y
A = {(−∞, a1 ] × · · · × (−∞, an ] : a1 , · · · an ∈ R}
entonces la σ-álgebra generada por A se denomina la σ-álgebra de Borel en Rn y se denota por
Bn = σ ((−∞, a1 ] × · · · × (−∞, an ] : a1 , · · ·an ∈ R).
Se cumple Rn ∈ Bn y además también conjuntos de la forma (−∞, a] × Rn−1 , a ∈ R.
7
1.2.
Variables Aleatorias
Definición 1.2.1. (Variable Aleatoria) Una variable aleatoria es una función X : Ω → R tal que
para cada B ∈ B1 se cumple que X −1 (B) ∈ F .
Si B = (−∞, a] entonces X −1 (B) es el evento {ω ∈ Ω : X(ω) ≤ a} y se indica por (X ≤ a).
Proposición 1.2.1. Si X : Ω → R es una variable aleatoria entonces la colección de eventos
−1
X (B) : B ∈ B1 = X −1 (B1 ) es una σ-álgebra, denotada por σ(X), y se denomina la
información generada por X, y satisface:
1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X −1 (B) = A
2. (X ≤ a)
∈ σ(X) ∀a ∈ R
Demostración Como R ∈ B1 y Ω = X −1 (R) entonces Ω ∈ σ(X). Además, si A ∈ σ(X)
c ) por propiedades de las
existe BA ∈ B1 tal que A = X −1 (BA ), pero entonces Ac = X −1 (BA
imágenes inversas. Luego Ac ∈ σ(X).
Si A1 , A2 , · · · es una sucesión de eventos en σ(X) entonces existe una sucesión de eventos en B1
llamados B1 , B2 , · · · tal que Ai = X −1 (Bi ) , i = 1, 2, · · · y entonces
!
∞
∞
∞
[
[
[
Ai =
X −1 (Bi ) = X −1
Bi = X −1 (B)
i=1
donde B =
S∞
i=1
i=1
Bi ∈ B1 luego
i=1
S∞
i=1
Ai ∈ σ(X).
Definición 1.2.2 (Función de Distribución). Como para cada x ∈ R , (X ≤ x) ∈ F , entonces
puede calcularse su probabilidad, ésta es una función de x, y se denota FX (x) = P(X ≤ x). Esta
función tiene las siguientes propiedades:
1. FX (x) es monótona creciente con FX (x) → 0 , x → −∞ y FX (x) → 1 , x → ∞.
2. FX (x) es continua a la derecha. Significa entonces que
FX (a) = lı́m FX (x) = FX (a+)
x↓a
El lı́mite a izquierda es
lı́m FX (x) = FX (a−) = P(X < a)
x↑a
En general P(X < a) ≤ P(X ≤ a). La función FX (x) frecuentemente toma dos formas:
8
1. FX (x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales
a la diferencia FX (xi) − FX (xi −) = P(X ≤ xi ) − P(X < xi ), y la variable aleatoria se
dice discreta. Los valores de los saltos son las probabilidades P(X = xi ).
Rx
R∞
2. FX (x) = −∞ fX (u)du para una función fX (u) que es positiva e integrable, con −∞ fX (u)du =
0
1. Si fX (u) es continua en x se tiene FX (x) = fX (x).
Definición 1.2.3. Una variable aleatoria bidimensional (X1 , X2 ) es una función
(X1 , X2 ) : Ω → R2
tal que para cada
B ∈ B2
se cumple que (X1 , X2 )−1 (B) ∈ F donde
(X1 , X2)−1 (B) = {ω ∈ Ω : (X1 (ω), X2(ω)) ∈ B2 }
Un conjunto en B2 es B = (−∞, a] × (−∞, b]. Entonces
(X1 , X2 )−1 (B) = {ω ∈ Ω : X1 (ω) ≤ a , X2 (ω) ≤ b}
se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b)
Definición 1.2.4 ( Información generada por (X1, X2)). Es la σ-álgebra generada por la colección
de eventos A = (X1 , X2)−1 (B) : B ∈ B2 y se denota por σ(X1 , X2).
En σ(X1 , X2) están, por ejemplo, todos los eventos de la forma (X1 ≤ a, X2 ≤ b). También
σ(X1 , X2) = (X1 , X2)−1 (B2 ) es la imágen inversa de la σ-álgebra B2 . Además σ(X1 , X2) ⊆ F
y se tiene σ(X1 ) ⊆ σ(X1 , X2) y σ(X2 ) ⊆ σ(X1 , X2 )
Definición 1.2.5 ( La función de distribución conjunta de (X1 , X2) ).
Para (X1 , X2 ) ∈ R2 , el evento (X1 ≤ x1 , X2 ≤ x2 ) está en F y su probabilidad depende de
(x1 , x2 ). La función que se determina al calcular tal probabilidad se denota por
FX1 ,X2 (x1 , x2 ) = P(X1 ≤ x1 , X2 ≤ x2 )
y es la función de distribución conjunta de (X1 , X2).
Definición 1.2.6 (Vector Aleatorio (X1 , X2 , · · · , Xn)).
Un vector Aleatorio (X1 , X2 , · · · , Xn) es una función (X1 , X2 , · · · , Xn) : Ω → Rn que cumple
(X1 , X2, · · · , Xn)−1 (B) ∈ F para cada B ∈ Bn
donde
(X1 , X2 , · · · , Xn)−1 (B) = {ω ∈ Ω : (X1 (ω), X2(ω), · · · , Xn (ω)) ∈ B}
9
Definición 1.2.7 ( Información generada por por (X1 , X2, · · · , Xn) ).
Información generada por (X1 , X2 , · · · , Xn ) es la σ-álgebra generada por la colección de eventos
en F
A = (X1 , X2 , · · · , Xn)−1 (B) : B ∈ Bn
y se denota por σ(X1 , X2 , · · · , Xn).
Note que en esta σ-álgebra están los conjuntos de la forma (X1 ≤ x1 , · · · , Xn ≤ xn ) para
x1 , · · · , xn ∈ R
Definición 1.2.8 ( Función de distribución conjunta de (X1 , X2, · · · , Xn)).
Como (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) es un evento, su probabilidad depende de (x1, x2 , · · · , xn )
y la función ası́ definida se denomina función de distribución conjunta y se denota por
FX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn ) = P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn )
Si X1 , X2, · · · es una sucesión de vectores aleatorios que representa los sucesivos estados de un
sistema, entonces σ(X1 , X2, · · · , Xn) es todo lo que puede suceder hasta n. Es el conjunto de
todos los resultados de interés. Si se tiene una sucesión de vectores aleatorios X1 , X2, · · · , entonces
se cumple que
σ(X1) ⊆ σ(X1, X2 ) ⊆ σ(X1 , X2, X3 ) ⊆ · · ·
Ejemplo 1.2.1. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈
σ(X1 , X2, · · · , X18) Si B = (X10 > 7) entonces B ∈ σ(X1 , X2, · · · , X10 ) pero
B∈
/ σ(X1 , X2 , . . ., X9 )
1.3.
Desigualdades
Las desigualdades son útiles para establecer cotas superiores o inferiores para probabilidades, o
para la solución de un problema de convergencia 1 . Las desigualdades más útiles son las siguientes:
1. Si E(|X|) < ∞ entonces |E(X)| ≤ E(|X|)
2. Desigualdad Triangular
E(|X ± Y |) ≤ E(|X|) + E(|Y |)
además
|E(X) − E(Y )| ≤ E(|X − Y |) ≤ E(|X|) + E(|Y |)
1
Alguien en algún texto anotó que se le atribuye a A.N. Kolmogorov la afirmación: “Detrás de todo gran teorema
hay una desigualdad”
10
3. Desigualdad Triangular General
1
1
1
E(|X + Y |r ) r ≤ E(|X|r) r + E(|Y |r ) r
para
r≥1
para
r>0
también se tiene otra versión de esta desigualdad, dada por
E(|X + Y |r ) ≤ Cr (E(|X|r) + E(|Y |r ))
donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.
4. Desigualdad de Markov
Si para algún r > 0 se tiene E(|X|r ) < ∞ entonces, para todo a > 0 se cumple
P(|X|r ≥ a) ≤
E(|X|r)
a
Demostración. Note que para todo a > 0 se cumple |X|r ≥ aI|X|r >a . Tomando esperanzas
se obtiene la desigualdad.
Ejemplo 1.3.1. Si Y =
N
P
j=1
Xj es suma aleatoria de variables aleatorias independientes
con Xj positivas y N ∈ {0, 1, 2, · · · } entonces
a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total
P(Y ≥ 0) =
∞
X
n=0
P(Y ≥ 0 | N = n)P(N = n)
= p0 +
∞
n
X
X
P
Xj ≥ 0 P(N = n)
n=1
pero
P
n
X
j=1
j=1
Xj ≥ 0 = 1
luego
P(Y ≥ 0) =
∞
X
∀n ≥ 1
pn = 1
n=0
b) Para todo a > 0
P(|Y | ≥ a) = P(Y > a) ≤
luego como E(Y ) = µN µX entonces
P(|Y | ≥ a) ≤
µN µX
a
E(Y )
a
11
5. Desigualdad de Chebyshev
Si V ar(X) < ∞ entonces colocando r = 2, X − E(x) en lugar de X y a2 en lugar de a en
la desigualdad de Markov se obtiene
P(|X − µX | ≥ a) ≤
V ar(X)
,
a2
∀a > 0.
(1.5)
Recuérdese que |x − µX | ≥ a ⇐⇒ x ≤ µX − a ó x ≥ µX + a.
2 ) y a = 1.645 entonces
Ejemplo 1.3.2. Si X ∼ N (µX , σX
P(|X − µX | ≥ 1.645σX ) ≤
2
σX
= 0.369
2
1.6452σX
pero P(|X − µX | ≥ 1.645σX ) = 1 − P(|X − µX | ≤ 1.645σX ) = 1 − 0.95 = 0.05.
6. Desigualdad de Cauchy-Schwarz
|E(XY )| ≤ E(|XY |) ≤
p
p
E(X 2 ) E(Y 2 )
Ejemplo 1.3.3. Como Cov(X, Y ) = E((X − µX )(Y − µY )) entonces
p
p
|Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤ E((X − µX )2 ) E((Y − µY )2 ) = σX σY
luego |ρXY | ≤ 1.
7. Desigualdad de Kolmogorov
Si X1 , . . . , Xn son variables aleatorias independientes de media cero y varianza σ 2 < ∞, y
se define Sk = X1 + . . . + Xk , k ≥ 1, entonces se cumple que para cualquier λ > 0
P( máx |Sk | ≥ λ) ≤ V ar(Xn )/λ2.
1≤k≤n
(1.6)
Demostración. Defina los eventos Ak = (|Sk | ≥ λ, |Si| < λ, i = 1, . . ., k − 1), para
k = 1, . . . , n. Si ocurre el evento Ak es porque en el tiempo k por primera vez el valor
absoluto Sk superó la barrera λ. Por su definición, los Ak son disjuntos. Y además, el evento
S
(máx1≤k≤n |Sk | ≤ λ) ocurre si y solamente si ocurre alguno de los Ak . Es decir, nk=1 Ak =
P
(máx1≤k≤n |Sk | ≤ λ). Como los Ak son disjuntos entonces 0 ≤ nk=1 IAk ≤ 1. Como
E(Sn ) = 0 entonces usando la identidad Sn2 = Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 ,
V ar(Sn) = E(Sn2 ) ≥
≥
n
X
E(Sn2 IAk )
k=1
n
X
k=1
E((Sk2 + 2Sk (Sn − Sk ))IAk )
12
=
n
X
E(Sk2 IAk ) + 2
k=1
=
n
X
E(Sk2 IAk )
k=1
2
n
X
E(Sn − Sk )E(Sk IAk )
k=1
n
X
2
≥λ
2
P(Ak ) = λ P(
k=1
= λ P( máx |Sk | ≥ λ).
n
[
Ak )
k=1
1≤k≤n
8. Desigualdad de Lyapunov
1
1
Si 0 < s ≤ r entonces E(|X|s) s ≤ E(|X|r) r .
Ejemplo 1.3.4. Si X es variable aleatoria en R y s = 1 , r = 2 entonces
1
E(|X|) ≤ [E((X 2 ))] 2 es decir E 2 (|X|) ≤ E(X 2 ) y como |E(X)| ≤ E(|X|) entonces
E 2 (X) ≤ E 2 (|X|) ≤ E(X 2 )
de donde
E(X 2 ) − E 2 (X) = V ar(X) ≥ 0
9. Desigualdad de Jensen
Una función f (x) se dice convexa en [a, b] si la lı́nea que une los puntos (a, f (a)), (b, f (b))
está siempre por encima de la gráfica (x, f (x)). Una condición suficiente para que f sea
convexa es que exista f 00 (x) y cumpla f 00 (x) > 0 en ese intervalo. En este caso, si X es una
variable aleatoria, f es convexa en el rango de X, y E(f (X)) existe, entonces se cumple:
f (E(X)) ≤ E(f (X))
Una función f (x) se dice cóncava en [a, b] si la lı́nea que une los puntos (a, f (a)), (b, f (b))
está siempre por debajo de la gráfica (x, f (x)). Una condición suficiente para que f sea
cóncava es que exista f 00 (x) y cumpla f 00 (x) < 0 en un intervalo. En este caso, si X es una
variable aleatoria, f es cóncava y E(f (X)) existe, entonces se cumple:
E(f (X)) ≤ f (E(X))
Ejemplo 1.3.5. a) Si f (x) = 1/x, x > 0, entonces f 00 (x) = 2/x3 > 0, x > 0. Por
tanto, f es convexa en (0, ∞). Si X es una variable aleatoria con valores en (0, ∞)
aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).
b) Si f (x) = ln(x) entonces f 00 (x) < 0, x > 0. Por tanto, f es cóncava. Si X es una
variable aleatoria con valores en (0, ∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).
13
La siguiente identidad es útil para calcular momentos de una variable aleatoria.
Z ∞
r
E(|X| ) = r
xr−1 P(|X| > x)dx ≤ +∞, r = 1, 2, . . .
0
Ejemplo 1.3.6. Si X es una variable aleatoria en [0, ∞) con fda P(X ≤ x) = 1 −
λ
λ+x
α
, λ>
0 , α > 0, se dice que se distribuye P areto(λ, α). Compruebe que si α > 1 entonces E(X) =
y, si α = 2, entonces E(X 2 ) = +∞.
λ
α−1
Demostración. Usando la identidad anterior con r=2 tenemos:
Z ∞
λ2 x
dx
E(X 2 ) = 2
(λ + x)2
0
(λ + t) ln(λ + t) − (1 + t) ln(λ) − t
= 2λ2 lı́m
= ∞,
t→∞
t+λ
luego E(X 2 ) = +∞.
Ejercicio 1.3.1. Suponga que X1 y X2 son variables aleatorias con medias 0 varianzas 1 y
p
correlación ρ > 0. Comprobar que E(max(X12 , X22 )) ≤ 1 + 1 − ρ2 , utilizando la desigualdad
de Cauchy-Schwarz y las identidades: max(a, b) = 21 (a + b + |a − b|), a2 − b2 = (a + b)(a − b).
Demostración. Aplicando las identidades anteriores tenemos
2E(max(X12, X22)) = E(X12 ) + E(X22 ) + E(|X12 − X22 |)
= E(X12 ) + E(X22 ) + E(|X1 − X2 ||X1 + X2 |)
p
≤ E(X12 ) + E(X22 ) + E((X1 + X2 )2 )E((X1 − X2 )2 )
q
= E(X12 ) + E(X22 ) + E(X12 ) + E(X22 ) + 2E(X1 X2 ).
q
E(X12 ) + E(X22 ) − 2E(X1 X2 )
p
p
= 2 + 2 + 2ρ 2 − 2ρ
p
= 2 + 2 1 − ρ2
p
de donde E(max(X12, X22)) ≤ 1 + 1 − ρ2 .
Luego, para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlación ρ
"
!#
p
X1 − µ1 2
X2 − µ2 2
E max
,
≤ 1 + 1 − ρ2 .
σ1
σ2
Ejercicio 1.3.2. Para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlación
p
ρ y para cualquier λ > 0, P(|X1 − µ1 | ≥ λσ1 ) ∪ ((|X2 − µ2 | ≥ λσ2 ) ≤ λ12 (1 + 1 − ρ2 ).
14
1.4. Modos de Convergencia
Se trata de definir la convergencia de una sucesión de variables aleatorias (Xn)n=0,1,2,···. Hay cinco
modos básicos de convergencia de Xn a un lı́mite X cuando n −→ ∞ que son
1. Con probabilidad 1.
2. En media r , r = 1, 2, · · ·
3. En Media cuadrática.
4. En Probabilidad.
5. En Distribución.
Definición 1.4.1 (Convergencia con Probabilidad Uno ). Xn converge a X casi seguramente ó con
as
probabilidad uno, indicada por Xn −→ X cuando n → ∞ si se cumple que
P( lı́m Xn = X) = 1.
n→∞
(1.7)
Lo anterior significa que para cada ω ∈ Ω, Xn (ω) converge a X(ω) como si fuera una sucesión
de números, excepto, posiblemente, para ω en un cierto evento N que tiene probabilidad cero,
P(N ) = 0. Las letras “as” en la notación se refieren a “almost secure”. Cuando Xn es un estimador
as
θ̂n de un parámetro θ, y se cumple θ̂n −→ θ, se dice que el estimador es “consistente fuerte”.
T
S∞
Para un > 0 cualquiera considere el evento E = ∞
n=1 k=n (|Xk −X| > ). Si ω ∈ E entonces,
para cada n ≥ 1 puede encontrarse al menos un k ≥ n para el cual |Xk (ω) − X(ω)| > . Pero si
Xn converge a X con probabilidad uno entonces debe tenerse P(E) = 0. Por lo tanto, la condición
(1.7) es equivalente a
"∞ ∞
#
\ [
∀ > 0, P
(|Xk − X| > ) = 0
(1.8)
n=1 k=n
Un caso importante de convergencia casi seguramente es el siguiente teorema.
Teorema 1.4.1. (La Ley Fuerte de Grandes Números) Suponga que Xn , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media finita E(|Xn |) < ∞, entonces se cumple que
P
as
X̄n = (1/n) nj=1 Xj → E(X1 ).
Un criterio para convergencia casi seguramente de una sucesión de variables aleatorias es la
siguiente proposición.
P
Proposición 1.4.1. Para todo > 0 arbitrario si ∞
n=1 P(|Xn − X| > ) < ∞, entonces
as
Xn → X, cuando n → ∞.
15
Demostración. Denote An = (|Xn − X| > ) para > 0 dado. Como se cumple la hipótesis
del Lema Borel-Cantelli, (1.1.1), entonces P(lı́m supn→∞ An ) = 0 y se cumple la condición
(1.8).
Definición 1.4.2 ( Convergencia en Media ). Si r es un entero positivo r = 1, 2, 3, · · · se dice que
Xn converge a X en media r, indicado por
r
Xn −→ X
,
n→∞
si se cumple
1. E(|Xn|r ) < ∞ para n = 1, 2, · · ·
2. E(|Xn − X|r ) −→ 0 cuando n → ∞
2
La Convergencia en Media Cuadrática corresponde al caso r = 2, es decir, Xn → X, n → ∞ si
se cumple que E(Xn2 ) < ∞, ∀n ≥ 1 y E((Xn − X)2) → ∞, n → ∞.
Definición 1.4.3 ( Convergencia en Probabilidad ). Xn converge a X en probabilidad, denotada
p
por Xn → X, n → ∞, si
∀ > 0,
P(|Xn − X| ≥ ) → 0
cuando
n → ∞.
p
Cuando Xn es un estimador θ̂n de un parámetro, por ejemplo, θ, y se cumple θ̂n → θ se dice
que el estimador es “consistente débil”. Un caso importante de convergencia en probabilidad es el
siguiente teorema.
Teorema 1.4.2. (La Ley Débil de Grandes Números) Suponga que Xn , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media E(Xn ) = µ y varianza finita V ar(Xn) = σ 2 <
P
p
∞, entonces se cumple que X̄n = (1/n) nj=1 Xj → µ.
P
Demostración. Aplicando la desigualdad de Chebyshev a la variable X̄n = (1/n) nj=1 Xj ,
tenemos que, para > 0, P(|X̄n − µ| ≥ ) ≤ V ar(X̄n )/2 . Pero V ar(X̄n ) = nV ar(X1 )/n2 =
σ 2 /n. Entonces
σ2
=0
lı́m P(|X̄n − µ| ≥ ) ≤ lı́m
n→∞
n→∞ n2
p
es decir, X̄n → µ, n → ∞.
Definición 1.4.4 (Convergencia en Distribución). Xn converge a X en distribución, denotado por
d
Xn −→ X, n → ∞ si para todo x en el cual FX (.) es continua se cumple que
FXn (x) → F (x) n −→ ∞
16
La convergencia en distribución también se denomina “convergencia en ley”, y a veces se denota
L
Xn −→ X, y también se denomina “convergencia débil”. Uno de los casos de mayor interés es
cuando X ∼ N (0, σ 2). Cuando Xn es un estimador θ̂n de un parámetro, por ejemplo, θ, y se
√
d
cumple que n(θ̂n − θ) → N (0, σ 2) se dice que el estimador es “asintóticamente normal”.
En las definiciones anteriores las variables Xn , X son unidimensionales con valores en R. Para el
caso de vectores aleatorios, con Xn ∈ Rk las definiciones se hacen mediante una función distancia
P
en Rk , d(Xn, X), por ejemplo, la distancia euclidiana d(Xn, X) = ( kj=1 (Xn (j) − X(j))2)1/2.
En este caso
as
(i) Xn → X ⇔ P( lı́m d(Xn, X) = 0) = 1,
n→∞
p
(ii) Xn → X ⇔ ∀ > 0, P(d(Xn, X) < ) → 1, n → ∞,
r
(iii) Xn → X ⇔ E([d(Xn, X)]r) → 0, n → ∞.
Proposición 1.4.2. Algunas relaciones entre los modos de convergencia está dado por las siguientes implicaciones. Suponga que Xn , X son vectores.
as
p
p
d
(i) Xn → X ⇒ Xn → X,
(1.9a)
(ii) Xn → X ⇒ Xn → X,
(1.9b)
p
(iii) Xn → X ⇒ existe una sub-sucesión (nk , k = 1, 2, . . .)
as
tal que Xnk → X,
d
(1.9c)
p
r
(iv)Xn → X ⇒ Xn → X,
(1.9d)
p
(v) Xn → c, para c constante ⇒ Xn → c,
(1.9e)
(vi) Xn → X y d(Xn , Yn ) → 0 ⇒ Yn → X.
(1.9f)
p
d
d
T
S∞
as
Demostración.
(i) Si Xn → X entonces para > 0, el evento E() = ∞
n=1 k=n (|Xk −X| >
S
) tiene probabilidad cero. Por tanto la sucesión decreciente Bn () = ∞
k=n (|Xk − X| > )
tiene probabilidad convergente a cero cuando n → ∞. Como (|Xn − X| > ) ⊆ Bn () se
cumple que P(|Xn − X| > ) → 0, si n → ∞.
1
p
(iv) Es fácil comprobar que Xn → X ⇒ Xn → X, utilizando la desigualdad de Markov. Si
> 0 y se asume que E(|Xn − X|) −→ 0 entonces
P(|Xn − X| ≥ ) ≤
p
E(|Xn − X|)
→ 0, cuando n → ∞,
r
p
luego Xn → X. Para el caso r > 1, Xn → X ⇒ Xn → X se comprueba utilizando la
desigualdad de Lyapunov con s = 1 , r > 1: E(|Xn − X|) ≤ [E(|Xn − X|r )]1/r . Luego si
>0
E(|Xn − X|)
[E((Xn − X)r )]1/r
P(|Xn − X| ≥ ) ≤
≤
17
p
de donde si E((Xn − X)r) → 0 entonces Xn → X cuando n → ∞.
Teorema 1.4.3. (Teorema de Convergencia Monótona) Suponga que Xn , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias, monótonas no decrecientes y no negativas con probabilidad uno
as
(as), P(0 ≤ X0 ≤ X1 ≤ X2 ≤ . . .) = 1, tales que Xn → X. Entonces se cumple que
lı́m E(Xn ) = E(X).
n→∞
(1.10)
Un teorema muy útil es un teorema de preservación de la convergencia de una sucesión cuando se
transforma mediante una función continua.
Teorema 1.4.4. (Teorema de mapeo continuo) Suponga que (Xn , n = 0, 1, . . .) es una sucesión de
vectores aleatorios en Rk que converge a una variable aleatoria X, en cualquiera de los modos.
Si g : Rk → Rm es una función continua en cada punto de un conjunto G ⊆ Rk , abierto, tal que
P(X ∈ G) = 1, entonces g(Xn) converge en as, p, d, a g(X).
d
d
p
p
as
as
(i) Xn → X ⇒ g(Xn) → g(X),
(ii) Xn → X ⇒ g(Xn) → g(X),
(iii) Xn → X ⇒ g(Xn) → g(X).
La prueba está en el artı́culo de Mann and Wald (1943).
Teorema 1.4.5. (Teorema de Slutsky) Suponga que (Xn ∈ Rk , n = 0, 1, . . .) es una sucesión de
d
vectores aleatorios tales que Xn → X, y (Yn ∈ R, n = 0, 1, . . .) es una sucesión de variables
p
aleatorias tales que Yn → c. Entonces se cumple
(i)
(ii)
(iii)
1.5.
d
Xn + Yn → X + c,
(1.11a)
Yn Xn → cX,
(1.11b)
Xn /Yn → X/c.
(1.11c)
d
d
Propiedades de la Convergencia en Distribución.
Definición 1.5.1 (Función Generadora de Momentos). Si X es una variable aleatoria, suponga
que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX ), entonces la
correspondiente función de t se denota por MX (t) y es la fgm de X. Luego
X
etj P(X = j) si X es discreta ,
MX (t) =
j
18
=
Z
∞
etx fX (x)dx
si
X
es continua .
−∞
dk MX (t) Es evidente que MX (0) = 1. Además se tiene la propiedad
= E(X k ) k =
dtk t=0
1, 2, · · · . Cuatro ejemplos de funciones generadoras de momentos son los siguientes.
1. Si X ∼ N (µ, σ 2) entonces MX (t) = exp(µt + 12 t2 σ 2 ).
t
2. Si N ∼ P oison(λ), λ > 0, entonces MN (t) = eλ(e −1) .
3. Si N ∼ Bin(n, p), entonces MN (t) = (1 − p + pet )n .
x
α−1 −
e θ
, para x ≥ 0 y MX (t) =
4. Si X ∼ Gamma(α, θ),θ, α > 0 entonces fX (x) = xθk Γ(α)
h
iα
1
para t < θ1 . El caso α = 1 corresponde a X ∼ Exp(θ).
1−tθ
Teorema 1.5.1. Si X1 , X2, · · · , Xn son variables aleatorias independientes con fgm MXj (t) , j =
1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX (t) =
MX1 (t)MX2 (t) · · · MXn (t) e inversamente, si la fgm MX (t) se puede expresar como el producto
de las fgm de las Xj entonces éstas son independientes.
Teorema 1.5.2. Si (Yn )n=1,2,··· es una sucesión de variables aleatorias tales que tienen fgm MYn (t)
para −h < t < h y existe una variable aleatoria Y con fgm MY (t) para |t| ≤ h1 < h tal que
d
MYn (t) → MY (t) cuando n → ∞ entonces Yn → Y cuando n → ∞.
Ejemplo 1.5.1. Suponga que Yn ∼ Bin(n, pn ) tal que pn =
E(etYn )
µ
n para
et )n =
n = 1, 2, · · · donde µ > 0
in
h
t
1 + µ(en−1) . Utilizando
es una constante. Entonces MYn (t) =
= (1 − pn + pn
α n
α
el resultado 1 + n → e cuando n → ∞, se obtiene MYn (t) → exp(µ(et − 1)). Como para
t
d
Y ∼ P oison(µ) se tiene MY (t) = eµ(e −1) entonces Yn → Y cuando n → ∞.
a
a
Por ejemplo, cuando p << 12 y n > 100, se escribe Bin(n, p) ∼ P oisson(np), donde ∼ es
una convención para utilizar la distribución de la variable lı́mite en reemplazo de la distribución
original.
Proposición 1.5.1. (Teorema del Lı́mite Central, TLC) Si (Xn , n = 1, 2, . . .) es una sucesión de
√
variables aleatorias iid con E(Xi) = µ y V ar(Xi) = σ 2 entonces la sucesión Yn = n(X̄n −
P
µ)/σ, donde X̄n = (1/n) nj=1 Xj , converge en distribución a una variable aleatoria Y ∼
d
N (0, 1) es decir Yn → Y, n → ∞.
Demostración. Para la demostración se requiere un resultado auxiliar. Si bn → 0, n → ∞ es
una sucesión infinitesimal, y se define an = (1 + abn )n , para a ∈ R, entonces an → ea cuando
n → ∞.
19
Para la demostración del teorema se asume que la función generadora de momentos de las variables
√
Xn existe en un intervalo (−h, h), h > 0. Se forma la sucesión Yn = n(X̄n − µ)/σ =
P
n
√1
j=1 (Xj − µ)/σ entonces
n
MYn (t) = E e
√t
n
Pn
j=1 (Xj −µ)/σ
n
√t
Y
t
[(Xj −µ)/σ]
n
=
E e
=
M Xj −µ √
n
σ
j=1
j=1
n “
” n
X1 −µ
t
√t
= E e n σ
= M X1 −µ √
n
σ
!#n
"
X1 − µ
t2 X1 − µ 2
t
+
+...
= E 1+ √
n
σ
2n
σ
n
t2
1
= 1+
+o
,
2n
n
n
Y
1
= cn es una sucesión que cumple cn/(1/n) → 0 cuando n → ∞. Como 2n
+t−2 o n1
h
i
n
2
t2
es una sucesión infinitesimal, se cumple que 1 + 2n
+ o n1
→ et /2 , cuando n → ∞, y por
√
d
la Proposición(1.5.2) se concluye que Yn = n(X̄n − µ)/σ → Y, n → ∞
donde o
1.6.
1
n
Sı́mbolos O(·) y o(·) Estocásticos
Definición 1.6.1. Para una sucesión de variables aleatorias (Xn , n = 1, 2, . . .), la notación
Xn = Op(1) equivale a ∀ > 0, ∃M > 0, ∃N > 0 tales que P(|Xn| ≤ M ) ≥ 1 − , ∀n ≥ N .
La notación Xn = Op (1) significa que la sucesión (Xn ) está “acotada en probabilidad”. Es decir,
la probabilidad de estar Xn en un intervalo [−M, M ] es muy alta para todo n. Para otra sucesión
An , aleatoria o no, positiva, la notación Xn = Op(An ) significa que Xn /An = Op(1).
Teorema 1.6.1 (Teorema de Prohorov).
d
(i) Xn → X ⇒ Xn = Op(1),
(ii) Xn = Op (1) ⇒ existe una sub-sucesión (nk , k = 1, 2, . . .)
tal que
as
Xnk → X.
Definición 1.6.2. Para una sucesión de variables aleatorias (Xn , n = 1, 2, . . .), la notación
Xn = op (1) es una forma equivalente de expresar que Xn converge a cero en probabilidad.
20
Proposición 1.6.1. Las reglas para el manejo de los sı́mbolos Op(.), op(.) se expresan a continuación.
op (1) + op (1) = op (1)
(1.12a)
op (1) + Op (1) = Op (1)
(1.12b)
Op (1)op(1) = op (1)
(1.12c)
(1 + op (1))−1 = Op (1)
(1.12d)
op (An ) = An op (1)
(1.12e)
Op (An ) = An op (1)
(1.12f)
op (Op(1)) = op (1).
(1.12g)
La interpretación es similar a la del teorema de Slutsky (1.4.5). Por ejemplo, op (1) + op(1) = op (1)
significa que si Xn y Yn ambas convergen a cero en probabilidad, entonces Xn + Yn también. Este
resultado es una aplicación directa del teorema de mapeo continuo (1.4.4), pag. 17.
1.7. Método Delta
Si g : Rk → Rm una función definida sobre un subconjunto de Rk , con g = (g1 , . . . , gm)0 , y
diferenciable en x0 entonces su diferencial se define como la matriz Dg(x0) ∈ Rm×k dada por
i (x0 )
Dg(x0 )[i, j] = ∂g∂x
, que cumple, para h ∈ Rk ,
j
g(x0 + h) = g(x0 ) + Dg(x0)h + o(||h||), h → 0 ∈ Rk .
(1.13)
La notación o(||h||) indica una función real de ||h|| que cumple limh→0 o(||h||)/||h|| = 0. Es
decir, o(||h||) es una función que tiende a cero más rápido que ||h||.
Teorema 1.7.1 (Método Delta). Sea g : Rk → Rm una función definida sobre un subconjunto
de Rk y diferenciable en x0 . Sean Xn vectores aleatorios con valores en el dominio de g. Si
d
rn (Xn − x0 ) −
→ X, para rn sucesión numérica tal que rn → ∞, entonces
d
rn (g(Xn) − g(x0)) −
→ Dg(x0)X.
(1.14)
d
Demostración. Como rn → ∞ entonces por Teorema de Slutsky (1.4.5), (1/rn)rn (Xn −x0 ) −
→ 0,
y por tanto Xn − x0 converge a cero en probabilidad, por (1.9e). Defina la función φ(h) =
(g(x0 + h) − g(x0 ) − Dg(x0)h)/||h||, para h 6= 0, y φ(0) = 0. Entonces φ(.) es continua en
0 ∈ Rk , es decir, lı́mh→0 φ(h) = φ(0) = 0, por la hipótesis de aproximación lineal (1.13).
p
Aplicando el teorema de mapeo continuo (tmc) (1.4.4) se obtiene φ(Xn − x0 ) −
→ 0. Además, otra
d
vez por el tmc, como la función norma ||.|| es continua, entonces rn ||Xn − x0 || −
→ 0, luego, por
21
p
d
teorema de Slutsky, rn φ(Xn − x0 )||Xn − x0 || −
→ 0. Y por tanto rn φ(Xn − x0 )||Xn − x0 || −
→0
por (1.9e). Ahora
rn φ(Xn − x0 )||Xn − x0 || = rn (g(xn ) − g(x0) − Dg(x0)(Xn − x0 ))
= rn (g(xn ) − g(x0)) − rn (Dg(x0 )(Xn − x0 ))
p
= rn (g(xn ) − g(x0)) − Dg(x0 )(rn(Xn − x0 )) −
→ 0.
Pero la multiplicación matricial es una operación continua, luego por el tmc,
d
Dg(x0 )(rn(Xn − x0 )) −
→ Dg(x0 )X
Por teorema de Slutsky, sumando las dos últimas expresiones, se obtine finalmente
d
rn (g(xn) − g(x0 )) −
→ Dg(x0)X.
√
d
Ejemplo 1.7.1. Suponga dos sucesiones Xn , Yn tales que n(Xn −3)) −
→ X, con X ∼ N (0, 1) y
√
d
n(Yn −2)) −
→ Y , con Y ∼ N (0, 1). Y considere la función g : R2 → R, dada por g(x, y) = xy 3 .
∂g(x,y)
3
2
Entonces, con x0 = (x, y), Dg(x0) = ( ∂g(x,y)
∂x , ∂y ) = (y , 3xy ). Reemplazando x0 = (3, 2)
se obtiene Dg(x0) = (8, 36). Entonces, la aplicación del método delta (1.14) permite concluı́r
que
√
d
n(Xn Yn3 − 24) −
→ Dg(x0 )(X, Y )0 = 8X + 36Y.
d
Teorema 1.7.2. Considere dos sucesiones de vectores aleatorios en Rk , tales que Yn −
→ Y y
k
Xn = Yn + Op (an ), con an → 0. Y sea g : R → R una función con derivadas parciales
continuas, excepto en un subconjunto G ⊆ Rk que cumple lı́mn→∞ P(Yn ∈ G) = 0. Denote el
∂g(x )
∂g(x )
gradiente de g en un punto x0 ∈ G por ∇g(x0) = ( ∂x10 , . . . , ∂xk0 ). Entonces se cumple
g(Xn) = g(Yn ) + ∇g(Yn )(Xn − Yn ) + op (an ), n → ∞.
1.8.
(1.15)
Propiedades de la Convergencia en Media Cuadrática.
Sabemos que
2
Xn −→ X
si
n −→ ∞
⇐⇒ E((Xn − X)2 ) −→ 0
por tanto si
2
1. Xn −→ X
cuando
n −→ ∞ entonces
a) E(Xn ) −→ E(X) cuando n −→ ∞
si
n −→ ∞
22
b) E(Xn2 ) −→ E(X 2 ) cuando n −→ ∞
Demostración.
a) Por Lyapunov con s = 1 , r = 2 tenemos
E(|Xn − X|) ≤
además
p
E(|Xn − X|2 )
|E(Xn ) − E(X)| ≤ E(|Xn − X|) ≤
p
E(|Xn − X|2)
luego como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ se tiene
E(Xn ) −→ E(X)
cuando
n −→ ∞
b) La siguiente desigualdad es válida
0≤
hp
i2
p
E(Xn2 ) − E(X 2 ) ≤ E((Xn − X)2 )
ya que desarrollando ambos miembros de la desigualdad obtenemos
p
E(Xn2 ) + E(X 2 ) − 2 E(Xn2 )E(X 2) ≤ E(Xn2 ) + E(X 2 ) − 2E(Xn X)
que a su vez equivale a
E(Xn X) ≤
la cual es cierta por c. s.
p
E(Xn2 )E(X 2 )
E(Xn X) ≤ E(|XnX|) ≤
p
E(Xn2 )E(X 2 )
2
Nota 1.8.1. Es evidente que Xn −→ X entonces V ar(Xn) −→ V ar(X)
2
2. (ver Parzen (1972) pág. 112 Teo 4B ) Si Xn ∼ N (µn , σn2 ) y Xn −→ X entonces
X ∼ N (µ, σ 2) con µ = lı́m µn y σ 2 = lı́m σn2 .
n→∞
n→∞
Demostración.
2
Si Xn −→ X entonces µn −→ µ = E(X) y σn2 −→ σ 2 = V ar(X) además la fgm de Xn
es
1 2 2
MXn (t) = eµn t+ 2 σn t t ∈ R
23
luego MXn (t) −→ M (t) cuando n −→ ∞ donde
1
M (t) = eµt+ 2 σ
2 t2
,
t∈R
lo cual significa que Xn converge en distribución a una variable aleatoria distribuı́da
N (µ, σ 2). Pero como
2
D
Xn −→ X =⇒ Xn −→ X
ésta variable debe ser X, por tanto X ∼ N (µ, σ 2).
2
3. Si Xn → X cuando n → ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces E(X 2 ) < ∞.
Demostración.
Utilizando la desigualdad triangular general
1
1
1
E(|X + Y |r ) r ≤ E(|X|r) r + E(|Y |r ) r
con Xn = X , Y = X − Xn , r = 2 se tiene
p
E(X 2 ) ≤
p
E(Xn2 ) +
para
r≥1
p
E((X − Xn )2 )
como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces
E(X 2 ) < ∞.
2
2
4. Si Xn → X , Yn → Y entonces E(Xn Yn ) → E(XY ) cuando n −→ ∞
Demostración.
|E(Xn Yn ) − E(XY )| ≤ E(|Xn Yn − XY |) = E(|(Xn − X)Y + (Yn − Y )Xn|)
≤ E(|(Xn − X)Y |) + E(|(Yn − Y )Xn |)
1 1
≤ E((Xn − X)2)E(Y 2 ) 2 + E((Yn − Y )2 )E(Xn2 ) 2
Como E(Y 2 ) < ∞ se cumple que si n −→ ∞ entonces la última expresión tiende a
cero.
2
5. Xn −→ X ⇐⇒ ∃ c ∈ R tal que E(Xn Xm ) −→ c para n , m → ∞
Demostración.
[ ⇐= ]
Si E(Xn Xm ) −→ c entonces
2
E((Xn − Xm )2 ) = E(Xn2 ) + E(Xm
) − 2E(Xn Xm ) → c + c − 2c = 0
24
y (Xn ) es una sucesión de Cauchy en L2
[ =⇒ ]
2
Si Xn → X entonces E(Xn Xm ) → E(X 2 ) = c cuando n → ∞
2
2
2
6. Si Xn −→ X y Yn −→ Y entonces aXn + bYn −→ aX + bY
2
2
7. Si Xn −→ X y an −→ a entonces an Xn −→ aX
1.9. Problemas
1. Suponga que N ∼ P oisson(λ), y δ > 0 es una constante. Se define la variable X =
PN −δj
t
. Utilice el resultado: E(etN ) = eλ(e −1) y la desigualdad de Markov para enconj=0 e
trar una cota superior para la probabilidad P(X > a), a > 0.
2. Suponga una sucesión de variables Normales, Xn ∼ N (0, σn2 ), n = 1, 2, . . ., tales que
σn2 → 0, n → ∞.
2
a) Compruebe que Xn → 0, n → ∞.
b) Si aceptamos que es válida la operación
2
d
Xn
) = σn2 eσn /2 .
dt MXn (t)|t=1 = E(Xn e
d
tXn
)
dt E(e
d tXn
= E( dt
e ), compruebe que
c) Compruebe que keXn − 1 − Xn k/kXnk → 0, n → ∞.(Nota: El desarrollo de Taylor
de orden 1 alrededor de x = 0 de la función f (x) = ex está dado por ex = 1+x+r(x),
donde r(x) es el residuo que cumple lı́mx→0 |r(x)/x| = 0. El problema propuesto
puede verse como una generalización estocástica de este resultado de cálculo).
3.
a) Compruebe que si Y ∼ U (0, 1) entonces

 et −1
t
MY (t) =
 1
para
t 6= 0
para
t=0
b) Encuentre MY (t) si Y ∼ U {0, 1, · · · , 9}
c) Considere (Yn )n=1,2,··· con Yn ∼ iid U {0, 1, 2, · · · , 9} y Xn =
Encuentre
1
1 − et
10n 1 − et10−n
=
1
MXn (t) =
t 6= 0
t=0
n
P
j=1
10−j Yj .
25
d) Compruebe que MXn (t) −→
et − 1
t
lı́m 10n (1 − et10
t 6= 0 recuerde que
−n
n→∞
d
e) Concluya que Xn −→ X
2
1 − eh
= −t
h→0
h
) = t lı́m
X ∼ U (0, 1)
2
4. Suponga que Xn → X y Yn → Y . Si a, b son constantes y (an ) es una sucesión que
converge a a. Compruebe que:
2
a) aXn + bYn → aX + bY . Use la desigualdad triangular.
2
b) an Xn → aX. Use la desigualdad tringular.
c) Corr(Xn , Yn ) → Corr(X, Y ).
5. Suponga el proceso estocástico (Xn , n = 0, 1, . . .), definido por las siguientes condiciones:
√
i) X0 ∼ ExP(1/ 2)
√
ii) Xn |Xn−1 ∼ ExP(Xn−1 / 2), n = 1, 2, . . .
a) Encuentre E(Xn |Xn−1 ). Y luego E(Xn ) en función de E(Xn−1 ). Compruebe que:
E(Xn ) = 2−(n+1)/2
(1.16)
b) Encuentre V ar(Xn|Xn−1 ). Y luego V ar(Xn) en función de V ar(Xn−1 ). Compruebe
que:
V ar(Xn ) = 1 − 2−(n+1)
(1.17)
c) Con los resultados anteriores encuentre E(Xn2 ), y utilı́celo para encontrar una cota
superior para E(X10 X20 ) y una para E((X10 − X20 )2 )
d) Utilice la desigualdad de Markov para comprobar que el proceso converge en probap
bilidad a cero: Xn → 0, n → ∞. Se puede decir que converge en media cuadrática a
2
cero: Xn → 0 ?. Explique.
Descargar