Tópicos en Series de Tiempo Propiedades y Estimación QML TÓPICOS EN SERIES DE TIEMPO Propiedades y Estimación QML NORMAN GIRALDO GÓMEZ Profesor Asociado Escuela de Estadı́stica Universidad Nacional de Colombia Medellı́n Universidad Nacional de Colombia Medellín c Copyright 2011 Norman Diego Giraldo Gómez. Notaría 6. Folio 23 de Noviembre 2010 Primera Edición ISBN 234-067-111-0 No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo ó de otro tipo excepto para citas cortas, sin el permiso del Autor. Centro de Documentación Rafael Botero, UN Medellín Tópicos en Series de Tiempo / Norman Diego Giraldo Gómez. p. cm.—(Colección Notas de Clase) “Universidad Nacional de Colombia." Incluye referencias bibliográficas e ı́ndice. ISBN 0-000-00000-0 (pbk.) 1. Probabilidades—Teorı́a. 2. Matemáticas Ciencias—Investigación—Teorı́a. I. Giraldo, Norman D. II. Series. 519.2 G897c Diagramación en LaTeX. Impresión: Editorial ... Índice general 1. Desigualdades y Modos de Convergencia 3 1.1. Espacio Muestral y Sigma Álgebras . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.5. Propiedades de la Convergencia en Distribución. . . . . . . . . . . . . . . . . . 17 1.6. Sı́mbolos O(·) y o(·) Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7. Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.8. Propiedades de la Convergencia en Media Cuadrática. . . . . . . . . . . . . . . . 21 1.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2. Procesos Estacionarios 27 2.1. Definición de Proceso Estocástico . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2. Propiedades de las funciones de Autocovarianza . . . . . . . . . . . . . . . . . 30 2.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.5. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 v vi 2.6. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . . 39 2.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3. Procesos Estacionarios Estrictos 45 3.1. Procesos Estacionarios Estrictos . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.3. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.4. Diferencias Martingalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4. Procesos ARMA 53 4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2. Análisis de algunos procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.1. Procesos MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2. Proceso AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.2.3. Proceso ARMA(1,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3. Estimación Noparamétrica de la Función de Autocorrelación . . . . . . . . . . . 61 4.4. Estimacion de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.1. Estimación por el Método Yule-Walker . . . . . . . . . . . . . . . . . . 64 4.4.2. Estimación por el Método de Máxima Verosimilitud . . . . . . . . . . . 64 5. Procesos tipo GARCH 5.1. Introducción 65 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2. Caracterı́sticas Empı́ricas de los Rendimientos de Activos Financieros . . . . . . 66 5.3. Modelos para la Distribución de los Rendimientos . . . . . . . . . . . . . . . . . 67 5.3.1. Distribución Normal Inversa Gaussiana NIG . . . . . . . . . . . . . . . 67 5.3.2. Distribución GED Asimétrica . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.3. Distribución t de Student Asimétrica . . . . . . . . . . . . . . . . . . . . 69 5.4. Procesos ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 vii 5.5. Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.6. Procesos APARCH y GJR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.7. Procesos EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6. Modelos de Volatilidad Estocástica 83 6.1. Modelo de Volatilidad Estocástica Asimétrico . . . . . . . . . . . . . . . . . . . 84 6.2. Relación entre los modelos SV y GARCH . . . . . . . . . . . . . . . . . . . . . 86 7. Estimadores QML 89 7.1. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . 92 7.1.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.1.2. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.2. Estimación de Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.3. Estimación de Procesos APARCH . . . . . . . . . . . . . . . . . . . . . . . . . 96 8. Método Generalizado de Momentos 99 8.1. Método de Estimación de Momentos Generalizado(GMM) . . . . . . . . . . . . 99 8.1.1. Condiciones de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 100 8.1.2. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.1.3. Eficiencia Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 8.1.4. Algoritmo para hallar θ̂T . . . . . . . . . . . . . . . . . . . . . . . . . . 104 8.1.5. Prueba de Sobreidentificación . . . . . . . . . . . . . . . . . . . . . . . 106 8.2. Estimación GMM de un Modelo de Volatilidad Estocástica Asimétrico . . . . . . 106 8.2.1. Simulaciones Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 111 9. Método de Momentos Simulados 117 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 9.2. Condiciones para Consistencia débil del SMM . . . . . . . . . . . . . . . . . . . 118 9.2.1. Condición adicional para Consistencia fuerte del SMM . . . . . . . . . 120 viii 9.3. Condición para Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . 120 9.4. Algorı́tmo para hallar θ̂T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 10. El Metodo Eficiente de Momentos 123 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 10.2. El Procedimiento de Estimación EMM . . . . . . . . . . . . . . . . . . . . . . . 124 10.3. Selección del Modelo Auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 10.4. Estimación EMM en el modelo de Volatilidad Estocástica . . . . . . . . . . . . . 129 10.5. Notas sobre GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Bibliografı́a 136 Índice alfabético 136 2 CAPÍTULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral y Sigma Álgebras Definición 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w del experimento aleatorio de interés, con ω ∈ Ω ⇐⇒ ω es un posible resultado aleatorio . Definición 1.1.2. Una σ-álgebra F sobre Ω es una colección de subconjuntos de Ω que satisfacen las siguientes condiciones: 1. Ω ∈ F 2. A ∈ F ⇒ Ac ∈ F 3. Si {A1 , A2 , · · ·} es una sucesión de elementos de F entonces ∞ S i=1 Ai ∈ F . Los subconjuntos de Ω que están en F se llaman eventos. Luego A ∈ F equivale a afirmar que A es un evento y A ⊆ Ω . Definición 1.1.3. Una probabilidad P(.) es una función P : F −→ [0, 1] que cumple las condiciones: 1. P(Ω) = 1 2. P(φ) = 0 3 4 3. Si {A1 , A2 , · · ·} es una sucesión de eventos mutuamente disjuntos, es decir, Ai ∩ Aj = φ, para i 6= j, entonces: ! ∞ ∞ X [ P Ai = P(Ai). i=1 i=1 Es preferible referirse a P(.) como la medida de probabilidad asociada a los eventos. Algunas propiedades de P(.) se enuncian a continuación. Proposición 1.1.1. Suponga que P es una probabilidad sobre una σ-álgebra F y que toda A es un evento, entonces las siguientes propiedades son consecuencia de las propiedades en la definición (1.1.3). 1. P(Ac ) = 1 − P(A). 2. Si A1 ⊂ A2 entonces P(A1 ) ≤ P(A2 ). S P∞ 3. P ( ∞ i=1 Ai ) ≤ i=1 P(Ai). 4. Si An , n = 1, 2, . . . es una sucesión creciente de eventos, An ⊆ An+1 , entonces se cumple S que P ( ∞ i=1 Ai ) = lı́mn→∞ P(An ). 5. Si An , n = 1, 2, . . . es una sucesión decreciente de eventos, An ⊇ An+1 , entonces se cumple T que P ( ∞ i=1 Ai ) = lı́mn→∞ P(An ). Ejemplo 1.1.1. Considere una sucesión de eventos An , n = 1, 2, . . .. 1. El evento que consiste en la ocurrencia de un número infinito de eventos An se denota por T S∞ S∞ lı́m supn→∞ An y se define como ∞ n=1 k=n Ak . La sucesión de eventos Bn = k=n Ak es decreciente. Luego P(lı́m sup An ) = lı́m P(Bn ). (1.1) n→∞ n→∞ 2. El evento que consiste en la ocurrencia de todos menos un número finito de eventos An S T∞ se denota por lı́m inf n→∞ An y se define como ∞ n=1 k=n Ak . La sucesión de eventos T Cn = ∞ k=n Ak es creciente. Luego P(lı́m inf An ) = lı́m P(Cn ). n→∞ (1.2) n→∞ Lema 1.1.1. (Lemas Borel-Cantelli) Considere una sucesión de eventos An , n = 1, 2, . . .. (i) ∞ X j=1 (ii) ∞ X j=1 P(Aj ) < ∞ ⇒ P(lı́m sup An ) = 0. (1.3) n→∞ P(Aj ) = ∞ y los An son independientes ⇒ P(lı́m sup An ) = 1. n→∞ (1.4) 5 Demostración. (ver Grimmett and Stirzaker (1994), pag. 288) T S∞ Para la parte (i). Por la definición lı́m supn→∞ An = ∞ n=1 Bn , con Bn = k=n Ak sucesión decreciente. Entonces lı́m supn→∞ An ⊆ Bn , para todo n. Luego P(lı́m supn→∞ An ) ≤ P(Bn ) ≤ P∞ P∞ k=n P(Ak ) → 0, n → ∞, ya que k=1 P(Ak ) < ∞. S T∞ c Para la parte (ii). Denote Ac = (lı́m supn→∞ An )c . Entonces Ac = ∞ n=1 k=n Ak . La sucesión Tm c k=n Ak , m = n, n + 1, . . . es decreciente en m y por tanto ! ∞ m \ \ c P Ak = lı́m P( Ack ) m→∞ k=n = ≤ ∞ Y k=n ∞ Y k=n (1 − P(Ak )), por independencia e−P(Ak ), ya que 1 − x ≤ e−x , x ≥ 0, = exp − Por tanto, P(Ac ) ≤ P∞ n=1 k=n ∞ X k=n P(Ak ) ! = 0. T c P( ∞ k=n Ak ) = 0, y P(A) = 1. Los tres elementos (Ω, F , P) se asumen dados con relación a un experimento de interés. Es evidente que F ⊆ P(Ω), donde P(Ω) es el conjunto de partes de Ω. Sin embargo, la σ-álgebra no se toma en general igual a P(Ω) sino que se asume que es un conjunto más pequeño, concretamente se asume que contiene solamente los eventos que interesan con respecto al experimento aleatorio en consideración. Un conjunto N tal que N ∈ P(Ω) − F no se considera un evento y no tiene probabilidad asignada. Definición 1.1.4. Si A ∈ F y P(A) = 0 se dice que A es un evento nulo. Si A ∈ F y P(A) = 1 se dice que A es un evento casi seguro. Se asumirá siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A), se debe cumplir que P(B) = 0. Ejemplo 1.1.2. Pueden haber varias σ-álgebra sobre un mismo conjunto Ω. 1. Si A ∈ F entonces la colección A1 = {φ, Ω, A, Ac} es una σ-álgebra que está contenida en F . 2. Si A, B ∈ F la colección A2 = {φ, Ω, A, B, Ac, B c , A ∪ B, AB, Ac ∪ B c , Ac B c , AcB, Ac ∪ B, AB c , A ∪ B c } es una σ-álgebra contenida en F 6 Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σ-álgebra que contiene la colección {A}, y A2 es la menor σ-álgebra que contiene la colección {A, B}. Teorema 1.1.1. Dada una colección de eventos A = {A, B, · · ·} ⊆ F siempre existe una σálgebra mı́nima que la contiene, la σ-álgebra generada por A, σ(A). Demostración. Defina el conjunto de todas las σ-álgebras que contienen la colección A como C(A). No es vacı́o porque P(Ω) está ahı́. Luego como la intersección de una colección cualquiera de σ-álgebras es de nuevo una σ-álgebra, se puede definir σ(A) como la intersección de todas las σ-álgebras que contienen a A. Por ejemplo, si se considera una sucesión de eventos (An , n = 1, 2, . . .), se pueden definir las S sigma álgebras Fn = σ( nj=1 Aj ). Entonces se tiene Fn ⊆ Fn+1 , y la sigma-álgebra de interés S con relación a todos los eventos definidos con la sucesión (An , n = 1, 2, . . .) es F = σ( ∞ j=1 Aj ). Definición 1.1.5 ( σ-álgebra de Borel en R ). Si tomamos Ω = R y la colección de subconjuntos es A = {(−∞, a] : a ∈ R} es decir la colección de todos los semi intervalos cerrados a la derecha, entonces la σ-álgebra generada por esta colección se denomina σ-álgebra de Borel, y se denota por B1 = σ ((−∞, a]; a ∈ R) Nótese que se cumple lo siguiente: 1. R ∈ B1 , φ ∈ B1 2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a, ∞) ∈ B1 y (a, ∞) ∩ (−∞, b] = (a, b] ∈ B1 3. Cualquier intervalo real está en B1 Definición 1.1.6 ( σ-álgebra de Borel en R2 ). Si tomamos Ω = R2 y A = {(−∞, a] × (−∞, b] : a, b ∈ R} entonces la σ-álgebra generada por A se llama la σ-álgebra de Borel en R2 y se denota por B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R). Tenemos que se cumple: R2 ∈ B2 y también (−∞, a] × R ∈ B2 Definición 1.1.7 ( σ-álgebra de Borel en Rn ). Si tomamos Ω = Rn y A = {(−∞, a1 ] × · · · × (−∞, an ] : a1 , · · · an ∈ R} entonces la σ-álgebra generada por A se denomina la σ-álgebra de Borel en Rn y se denota por Bn = σ ((−∞, a1 ] × · · · × (−∞, an ] : a1 , · · ·an ∈ R). Se cumple Rn ∈ Bn y además también conjuntos de la forma (−∞, a] × Rn−1 , a ∈ R. 7 1.2. Variables Aleatorias Definición 1.2.1. (Variable Aleatoria) Una variable aleatoria es una función X : Ω → R tal que para cada B ∈ B1 se cumple que X −1 (B) ∈ F . Si B = (−∞, a] entonces X −1 (B) es el evento {ω ∈ Ω : X(ω) ≤ a} y se indica por (X ≤ a). Proposición 1.2.1. Si X : Ω → R es una variable aleatoria entonces la colección de eventos −1 X (B) : B ∈ B1 = X −1 (B1 ) es una σ-álgebra, denotada por σ(X), y se denomina la información generada por X, y satisface: 1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X −1 (B) = A 2. (X ≤ a) ∈ σ(X) ∀a ∈ R Demostración Como R ∈ B1 y Ω = X −1 (R) entonces Ω ∈ σ(X). Además, si A ∈ σ(X) c ) por propiedades de las existe BA ∈ B1 tal que A = X −1 (BA ), pero entonces Ac = X −1 (BA imágenes inversas. Luego Ac ∈ σ(X). Si A1 , A2 , · · · es una sucesión de eventos en σ(X) entonces existe una sucesión de eventos en B1 llamados B1 , B2 , · · · tal que Ai = X −1 (Bi ) , i = 1, 2, · · · y entonces ! ∞ ∞ ∞ [ [ [ Ai = X −1 (Bi ) = X −1 Bi = X −1 (B) i=1 donde B = S∞ i=1 i=1 Bi ∈ B1 luego i=1 S∞ i=1 Ai ∈ σ(X). Definición 1.2.2 (Función de Distribución). Como para cada x ∈ R , (X ≤ x) ∈ F , entonces puede calcularse su probabilidad, ésta es una función de x, y se denota FX (x) = P(X ≤ x). Esta función tiene las siguientes propiedades: 1. FX (x) es monótona creciente con FX (x) → 0 , x → −∞ y FX (x) → 1 , x → ∞. 2. FX (x) es continua a la derecha. Significa entonces que FX (a) = lı́m FX (x) = FX (a+) x↓a El lı́mite a izquierda es lı́m FX (x) = FX (a−) = P(X < a) x↑a En general P(X < a) ≤ P(X ≤ a). La función FX (x) frecuentemente toma dos formas: 8 1. FX (x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales a la diferencia FX (xi) − FX (xi −) = P(X ≤ xi ) − P(X < xi ), y la variable aleatoria se dice discreta. Los valores de los saltos son las probabilidades P(X = xi ). Rx R∞ 2. FX (x) = −∞ fX (u)du para una función fX (u) que es positiva e integrable, con −∞ fX (u)du = 0 1. Si fX (u) es continua en x se tiene FX (x) = fX (x). Definición 1.2.3. Una variable aleatoria bidimensional (X1 , X2 ) es una función (X1 , X2 ) : Ω → R2 tal que para cada B ∈ B2 se cumple que (X1 , X2 )−1 (B) ∈ F donde (X1 , X2)−1 (B) = {ω ∈ Ω : (X1 (ω), X2(ω)) ∈ B2 } Un conjunto en B2 es B = (−∞, a] × (−∞, b]. Entonces (X1 , X2 )−1 (B) = {ω ∈ Ω : X1 (ω) ≤ a , X2 (ω) ≤ b} se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b) Definición 1.2.4 ( Información generada por (X1, X2)). Es la σ-álgebra generada por la colección de eventos A = (X1 , X2)−1 (B) : B ∈ B2 y se denota por σ(X1 , X2). En σ(X1 , X2) están, por ejemplo, todos los eventos de la forma (X1 ≤ a, X2 ≤ b). También σ(X1 , X2) = (X1 , X2)−1 (B2 ) es la imágen inversa de la σ-álgebra B2 . Además σ(X1 , X2) ⊆ F y se tiene σ(X1 ) ⊆ σ(X1 , X2) y σ(X2 ) ⊆ σ(X1 , X2 ) Definición 1.2.5 ( La función de distribución conjunta de (X1 , X2) ). Para (X1 , X2 ) ∈ R2 , el evento (X1 ≤ x1 , X2 ≤ x2 ) está en F y su probabilidad depende de (x1 , x2 ). La función que se determina al calcular tal probabilidad se denota por FX1 ,X2 (x1 , x2 ) = P(X1 ≤ x1 , X2 ≤ x2 ) y es la función de distribución conjunta de (X1 , X2). Definición 1.2.6 (Vector Aleatorio (X1 , X2 , · · · , Xn)). Un vector Aleatorio (X1 , X2 , · · · , Xn) es una función (X1 , X2 , · · · , Xn) : Ω → Rn que cumple (X1 , X2, · · · , Xn)−1 (B) ∈ F para cada B ∈ Bn donde (X1 , X2 , · · · , Xn)−1 (B) = {ω ∈ Ω : (X1 (ω), X2(ω), · · · , Xn (ω)) ∈ B} 9 Definición 1.2.7 ( Información generada por por (X1 , X2, · · · , Xn) ). Información generada por (X1 , X2 , · · · , Xn ) es la σ-álgebra generada por la colección de eventos en F A = (X1 , X2 , · · · , Xn)−1 (B) : B ∈ Bn y se denota por σ(X1 , X2 , · · · , Xn). Note que en esta σ-álgebra están los conjuntos de la forma (X1 ≤ x1 , · · · , Xn ≤ xn ) para x1 , · · · , xn ∈ R Definición 1.2.8 ( Función de distribución conjunta de (X1 , X2, · · · , Xn)). Como (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) es un evento, su probabilidad depende de (x1, x2 , · · · , xn ) y la función ası́ definida se denomina función de distribución conjunta y se denota por FX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn ) = P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) Si X1 , X2, · · · es una sucesión de vectores aleatorios que representa los sucesivos estados de un sistema, entonces σ(X1 , X2, · · · , Xn) es todo lo que puede suceder hasta n. Es el conjunto de todos los resultados de interés. Si se tiene una sucesión de vectores aleatorios X1 , X2, · · · , entonces se cumple que σ(X1) ⊆ σ(X1, X2 ) ⊆ σ(X1 , X2, X3 ) ⊆ · · · Ejemplo 1.2.1. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈ σ(X1 , X2, · · · , X18) Si B = (X10 > 7) entonces B ∈ σ(X1 , X2, · · · , X10 ) pero B∈ / σ(X1 , X2 , . . ., X9 ) 1.3. Desigualdades Las desigualdades son útiles para establecer cotas superiores o inferiores para probabilidades, o para la solución de un problema de convergencia 1 . Las desigualdades más útiles son las siguientes: 1. Si E(|X|) < ∞ entonces |E(X)| ≤ E(|X|) 2. Desigualdad Triangular E(|X ± Y |) ≤ E(|X|) + E(|Y |) además |E(X) − E(Y )| ≤ E(|X − Y |) ≤ E(|X|) + E(|Y |) 1 Alguien en algún texto anotó que se le atribuye a A.N. Kolmogorov la afirmación: “Detrás de todo gran teorema hay una desigualdad” 10 3. Desigualdad Triangular General 1 1 1 E(|X + Y |r ) r ≤ E(|X|r) r + E(|Y |r ) r para r≥1 para r>0 también se tiene otra versión de esta desigualdad, dada por E(|X + Y |r ) ≤ Cr (E(|X|r) + E(|Y |r )) donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1. 4. Desigualdad de Markov Si para algún r > 0 se tiene E(|X|r ) < ∞ entonces, para todo a > 0 se cumple P(|X|r ≥ a) ≤ E(|X|r) a Demostración. Note que para todo a > 0 se cumple |X|r ≥ aI|X|r >a . Tomando esperanzas se obtiene la desigualdad. Ejemplo 1.3.1. Si Y = N P j=1 Xj es suma aleatoria de variables aleatorias independientes con Xj positivas y N ∈ {0, 1, 2, · · · } entonces a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total P(Y ≥ 0) = ∞ X n=0 P(Y ≥ 0 | N = n)P(N = n) = p0 + ∞ n X X P Xj ≥ 0 P(N = n) n=1 pero P n X j=1 j=1 Xj ≥ 0 = 1 luego P(Y ≥ 0) = ∞ X ∀n ≥ 1 pn = 1 n=0 b) Para todo a > 0 P(|Y | ≥ a) = P(Y > a) ≤ luego como E(Y ) = µN µX entonces P(|Y | ≥ a) ≤ µN µX a E(Y ) a 11 5. Desigualdad de Chebyshev Si V ar(X) < ∞ entonces colocando r = 2, X − E(x) en lugar de X y a2 en lugar de a en la desigualdad de Markov se obtiene P(|X − µX | ≥ a) ≤ V ar(X) , a2 ∀a > 0. (1.5) Recuérdese que |x − µX | ≥ a ⇐⇒ x ≤ µX − a ó x ≥ µX + a. 2 ) y a = 1.645 entonces Ejemplo 1.3.2. Si X ∼ N (µX , σX P(|X − µX | ≥ 1.645σX ) ≤ 2 σX = 0.369 2 1.6452σX pero P(|X − µX | ≥ 1.645σX ) = 1 − P(|X − µX | ≤ 1.645σX ) = 1 − 0.95 = 0.05. 6. Desigualdad de Cauchy-Schwarz |E(XY )| ≤ E(|XY |) ≤ p p E(X 2 ) E(Y 2 ) Ejemplo 1.3.3. Como Cov(X, Y ) = E((X − µX )(Y − µY )) entonces p p |Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤ E((X − µX )2 ) E((Y − µY )2 ) = σX σY luego |ρXY | ≤ 1. 7. Desigualdad de Kolmogorov Si X1 , . . . , Xn son variables aleatorias independientes de media cero y varianza σ 2 < ∞, y se define Sk = X1 + . . . + Xk , k ≥ 1, entonces se cumple que para cualquier λ > 0 P( máx |Sk | ≥ λ) ≤ V ar(Xn )/λ2. 1≤k≤n (1.6) Demostración. Defina los eventos Ak = (|Sk | ≥ λ, |Si| < λ, i = 1, . . ., k − 1), para k = 1, . . . , n. Si ocurre el evento Ak es porque en el tiempo k por primera vez el valor absoluto Sk superó la barrera λ. Por su definición, los Ak son disjuntos. Y además, el evento S (máx1≤k≤n |Sk | ≤ λ) ocurre si y solamente si ocurre alguno de los Ak . Es decir, nk=1 Ak = P (máx1≤k≤n |Sk | ≤ λ). Como los Ak son disjuntos entonces 0 ≤ nk=1 IAk ≤ 1. Como E(Sn ) = 0 entonces usando la identidad Sn2 = Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 , V ar(Sn) = E(Sn2 ) ≥ ≥ n X E(Sn2 IAk ) k=1 n X k=1 E((Sk2 + 2Sk (Sn − Sk ))IAk ) 12 = n X E(Sk2 IAk ) + 2 k=1 = n X E(Sk2 IAk ) k=1 2 n X E(Sn − Sk )E(Sk IAk ) k=1 n X 2 ≥λ 2 P(Ak ) = λ P( k=1 = λ P( máx |Sk | ≥ λ). n [ Ak ) k=1 1≤k≤n 8. Desigualdad de Lyapunov 1 1 Si 0 < s ≤ r entonces E(|X|s) s ≤ E(|X|r) r . Ejemplo 1.3.4. Si X es variable aleatoria en R y s = 1 , r = 2 entonces 1 E(|X|) ≤ [E((X 2 ))] 2 es decir E 2 (|X|) ≤ E(X 2 ) y como |E(X)| ≤ E(|X|) entonces E 2 (X) ≤ E 2 (|X|) ≤ E(X 2 ) de donde E(X 2 ) − E 2 (X) = V ar(X) ≥ 0 9. Desigualdad de Jensen Una función f (x) se dice convexa en [a, b] si la lı́nea que une los puntos (a, f (a)), (b, f (b)) está siempre por encima de la gráfica (x, f (x)). Una condición suficiente para que f sea convexa es que exista f 00 (x) y cumpla f 00 (x) > 0 en ese intervalo. En este caso, si X es una variable aleatoria, f es convexa en el rango de X, y E(f (X)) existe, entonces se cumple: f (E(X)) ≤ E(f (X)) Una función f (x) se dice cóncava en [a, b] si la lı́nea que une los puntos (a, f (a)), (b, f (b)) está siempre por debajo de la gráfica (x, f (x)). Una condición suficiente para que f sea cóncava es que exista f 00 (x) y cumpla f 00 (x) < 0 en un intervalo. En este caso, si X es una variable aleatoria, f es cóncava y E(f (X)) existe, entonces se cumple: E(f (X)) ≤ f (E(X)) Ejemplo 1.3.5. a) Si f (x) = 1/x, x > 0, entonces f 00 (x) = 2/x3 > 0, x > 0. Por tanto, f es convexa en (0, ∞). Si X es una variable aleatoria con valores en (0, ∞) aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X). b) Si f (x) = ln(x) entonces f 00 (x) < 0, x > 0. Por tanto, f es cóncava. Si X es una variable aleatoria con valores en (0, ∞) entonces se cumple E(ln(X)) ≤ ln(E(X)). 13 La siguiente identidad es útil para calcular momentos de una variable aleatoria. Z ∞ r E(|X| ) = r xr−1 P(|X| > x)dx ≤ +∞, r = 1, 2, . . . 0 Ejemplo 1.3.6. Si X es una variable aleatoria en [0, ∞) con fda P(X ≤ x) = 1 − λ λ+x α , λ> 0 , α > 0, se dice que se distribuye P areto(λ, α). Compruebe que si α > 1 entonces E(X) = y, si α = 2, entonces E(X 2 ) = +∞. λ α−1 Demostración. Usando la identidad anterior con r=2 tenemos: Z ∞ λ2 x dx E(X 2 ) = 2 (λ + x)2 0 (λ + t) ln(λ + t) − (1 + t) ln(λ) − t = 2λ2 lı́m = ∞, t→∞ t+λ luego E(X 2 ) = +∞. Ejercicio 1.3.1. Suponga que X1 y X2 son variables aleatorias con medias 0 varianzas 1 y p correlación ρ > 0. Comprobar que E(max(X12 , X22 )) ≤ 1 + 1 − ρ2 , utilizando la desigualdad de Cauchy-Schwarz y las identidades: max(a, b) = 21 (a + b + |a − b|), a2 − b2 = (a + b)(a − b). Demostración. Aplicando las identidades anteriores tenemos 2E(max(X12, X22)) = E(X12 ) + E(X22 ) + E(|X12 − X22 |) = E(X12 ) + E(X22 ) + E(|X1 − X2 ||X1 + X2 |) p ≤ E(X12 ) + E(X22 ) + E((X1 + X2 )2 )E((X1 − X2 )2 ) q = E(X12 ) + E(X22 ) + E(X12 ) + E(X22 ) + 2E(X1 X2 ). q E(X12 ) + E(X22 ) − 2E(X1 X2 ) p p = 2 + 2 + 2ρ 2 − 2ρ p = 2 + 2 1 − ρ2 p de donde E(max(X12, X22)) ≤ 1 + 1 − ρ2 . Luego, para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlación ρ " !# p X1 − µ1 2 X2 − µ2 2 E max , ≤ 1 + 1 − ρ2 . σ1 σ2 Ejercicio 1.3.2. Para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlación p ρ y para cualquier λ > 0, P(|X1 − µ1 | ≥ λσ1 ) ∪ ((|X2 − µ2 | ≥ λσ2 ) ≤ λ12 (1 + 1 − ρ2 ). 14 1.4. Modos de Convergencia Se trata de definir la convergencia de una sucesión de variables aleatorias (Xn)n=0,1,2,···. Hay cinco modos básicos de convergencia de Xn a un lı́mite X cuando n −→ ∞ que son 1. Con probabilidad 1. 2. En media r , r = 1, 2, · · · 3. En Media cuadrática. 4. En Probabilidad. 5. En Distribución. Definición 1.4.1 (Convergencia con Probabilidad Uno ). Xn converge a X casi seguramente ó con as probabilidad uno, indicada por Xn −→ X cuando n → ∞ si se cumple que P( lı́m Xn = X) = 1. n→∞ (1.7) Lo anterior significa que para cada ω ∈ Ω, Xn (ω) converge a X(ω) como si fuera una sucesión de números, excepto, posiblemente, para ω en un cierto evento N que tiene probabilidad cero, P(N ) = 0. Las letras “as” en la notación se refieren a “almost secure”. Cuando Xn es un estimador as θ̂n de un parámetro θ, y se cumple θ̂n −→ θ, se dice que el estimador es “consistente fuerte”. T S∞ Para un > 0 cualquiera considere el evento E = ∞ n=1 k=n (|Xk −X| > ). Si ω ∈ E entonces, para cada n ≥ 1 puede encontrarse al menos un k ≥ n para el cual |Xk (ω) − X(ω)| > . Pero si Xn converge a X con probabilidad uno entonces debe tenerse P(E) = 0. Por lo tanto, la condición (1.7) es equivalente a "∞ ∞ # \ [ ∀ > 0, P (|Xk − X| > ) = 0 (1.8) n=1 k=n Un caso importante de convergencia casi seguramente es el siguiente teorema. Teorema 1.4.1. (La Ley Fuerte de Grandes Números) Suponga que Xn , n = 0, 1, 2 . . . es una sucesión de variables aleatorias i.i.d. con media finita E(|Xn |) < ∞, entonces se cumple que P as X̄n = (1/n) nj=1 Xj → E(X1 ). Un criterio para convergencia casi seguramente de una sucesión de variables aleatorias es la siguiente proposición. P Proposición 1.4.1. Para todo > 0 arbitrario si ∞ n=1 P(|Xn − X| > ) < ∞, entonces as Xn → X, cuando n → ∞. 15 Demostración. Denote An = (|Xn − X| > ) para > 0 dado. Como se cumple la hipótesis del Lema Borel-Cantelli, (1.1.1), entonces P(lı́m supn→∞ An ) = 0 y se cumple la condición (1.8). Definición 1.4.2 ( Convergencia en Media ). Si r es un entero positivo r = 1, 2, 3, · · · se dice que Xn converge a X en media r, indicado por r Xn −→ X , n→∞ si se cumple 1. E(|Xn|r ) < ∞ para n = 1, 2, · · · 2. E(|Xn − X|r ) −→ 0 cuando n → ∞ 2 La Convergencia en Media Cuadrática corresponde al caso r = 2, es decir, Xn → X, n → ∞ si se cumple que E(Xn2 ) < ∞, ∀n ≥ 1 y E((Xn − X)2) → ∞, n → ∞. Definición 1.4.3 ( Convergencia en Probabilidad ). Xn converge a X en probabilidad, denotada p por Xn → X, n → ∞, si ∀ > 0, P(|Xn − X| ≥ ) → 0 cuando n → ∞. p Cuando Xn es un estimador θ̂n de un parámetro, por ejemplo, θ, y se cumple θ̂n → θ se dice que el estimador es “consistente débil”. Un caso importante de convergencia en probabilidad es el siguiente teorema. Teorema 1.4.2. (La Ley Débil de Grandes Números) Suponga que Xn , n = 0, 1, 2 . . . es una sucesión de variables aleatorias i.i.d. con media E(Xn ) = µ y varianza finita V ar(Xn) = σ 2 < P p ∞, entonces se cumple que X̄n = (1/n) nj=1 Xj → µ. P Demostración. Aplicando la desigualdad de Chebyshev a la variable X̄n = (1/n) nj=1 Xj , tenemos que, para > 0, P(|X̄n − µ| ≥ ) ≤ V ar(X̄n )/2 . Pero V ar(X̄n ) = nV ar(X1 )/n2 = σ 2 /n. Entonces σ2 =0 lı́m P(|X̄n − µ| ≥ ) ≤ lı́m n→∞ n→∞ n2 p es decir, X̄n → µ, n → ∞. Definición 1.4.4 (Convergencia en Distribución). Xn converge a X en distribución, denotado por d Xn −→ X, n → ∞ si para todo x en el cual FX (.) es continua se cumple que FXn (x) → F (x) n −→ ∞ 16 La convergencia en distribución también se denomina “convergencia en ley”, y a veces se denota L Xn −→ X, y también se denomina “convergencia débil”. Uno de los casos de mayor interés es cuando X ∼ N (0, σ 2). Cuando Xn es un estimador θ̂n de un parámetro, por ejemplo, θ, y se √ d cumple que n(θ̂n − θ) → N (0, σ 2) se dice que el estimador es “asintóticamente normal”. En las definiciones anteriores las variables Xn , X son unidimensionales con valores en R. Para el caso de vectores aleatorios, con Xn ∈ Rk las definiciones se hacen mediante una función distancia P en Rk , d(Xn, X), por ejemplo, la distancia euclidiana d(Xn, X) = ( kj=1 (Xn (j) − X(j))2)1/2. En este caso as (i) Xn → X ⇔ P( lı́m d(Xn, X) = 0) = 1, n→∞ p (ii) Xn → X ⇔ ∀ > 0, P(d(Xn, X) < ) → 1, n → ∞, r (iii) Xn → X ⇔ E([d(Xn, X)]r) → 0, n → ∞. Proposición 1.4.2. Algunas relaciones entre los modos de convergencia está dado por las siguientes implicaciones. Suponga que Xn , X son vectores. as p p d (i) Xn → X ⇒ Xn → X, (1.9a) (ii) Xn → X ⇒ Xn → X, (1.9b) p (iii) Xn → X ⇒ existe una sub-sucesión (nk , k = 1, 2, . . .) as tal que Xnk → X, d (1.9c) p r (iv)Xn → X ⇒ Xn → X, (1.9d) p (v) Xn → c, para c constante ⇒ Xn → c, (1.9e) (vi) Xn → X y d(Xn , Yn ) → 0 ⇒ Yn → X. (1.9f) p d d T S∞ as Demostración. (i) Si Xn → X entonces para > 0, el evento E() = ∞ n=1 k=n (|Xk −X| > S ) tiene probabilidad cero. Por tanto la sucesión decreciente Bn () = ∞ k=n (|Xk − X| > ) tiene probabilidad convergente a cero cuando n → ∞. Como (|Xn − X| > ) ⊆ Bn () se cumple que P(|Xn − X| > ) → 0, si n → ∞. 1 p (iv) Es fácil comprobar que Xn → X ⇒ Xn → X, utilizando la desigualdad de Markov. Si > 0 y se asume que E(|Xn − X|) −→ 0 entonces P(|Xn − X| ≥ ) ≤ p E(|Xn − X|) → 0, cuando n → ∞, r p luego Xn → X. Para el caso r > 1, Xn → X ⇒ Xn → X se comprueba utilizando la desigualdad de Lyapunov con s = 1 , r > 1: E(|Xn − X|) ≤ [E(|Xn − X|r )]1/r . Luego si >0 E(|Xn − X|) [E((Xn − X)r )]1/r P(|Xn − X| ≥ ) ≤ ≤ 17 p de donde si E((Xn − X)r) → 0 entonces Xn → X cuando n → ∞. Teorema 1.4.3. (Teorema de Convergencia Monótona) Suponga que Xn , n = 0, 1, 2 . . . es una sucesión de variables aleatorias, monótonas no decrecientes y no negativas con probabilidad uno as (as), P(0 ≤ X0 ≤ X1 ≤ X2 ≤ . . .) = 1, tales que Xn → X. Entonces se cumple que lı́m E(Xn ) = E(X). n→∞ (1.10) Un teorema muy útil es un teorema de preservación de la convergencia de una sucesión cuando se transforma mediante una función continua. Teorema 1.4.4. (Teorema de mapeo continuo) Suponga que (Xn , n = 0, 1, . . .) es una sucesión de vectores aleatorios en Rk que converge a una variable aleatoria X, en cualquiera de los modos. Si g : Rk → Rm es una función continua en cada punto de un conjunto G ⊆ Rk , abierto, tal que P(X ∈ G) = 1, entonces g(Xn) converge en as, p, d, a g(X). d d p p as as (i) Xn → X ⇒ g(Xn) → g(X), (ii) Xn → X ⇒ g(Xn) → g(X), (iii) Xn → X ⇒ g(Xn) → g(X). La prueba está en el artı́culo de Mann and Wald (1943). Teorema 1.4.5. (Teorema de Slutsky) Suponga que (Xn ∈ Rk , n = 0, 1, . . .) es una sucesión de d vectores aleatorios tales que Xn → X, y (Yn ∈ R, n = 0, 1, . . .) es una sucesión de variables p aleatorias tales que Yn → c. Entonces se cumple (i) (ii) (iii) 1.5. d Xn + Yn → X + c, (1.11a) Yn Xn → cX, (1.11b) Xn /Yn → X/c. (1.11c) d d Propiedades de la Convergencia en Distribución. Definición 1.5.1 (Función Generadora de Momentos). Si X es una variable aleatoria, suponga que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX ), entonces la correspondiente función de t se denota por MX (t) y es la fgm de X. Luego X etj P(X = j) si X es discreta , MX (t) = j 18 = Z ∞ etx fX (x)dx si X es continua . −∞ dk MX (t) Es evidente que MX (0) = 1. Además se tiene la propiedad = E(X k ) k = dtk t=0 1, 2, · · · . Cuatro ejemplos de funciones generadoras de momentos son los siguientes. 1. Si X ∼ N (µ, σ 2) entonces MX (t) = exp(µt + 12 t2 σ 2 ). t 2. Si N ∼ P oison(λ), λ > 0, entonces MN (t) = eλ(e −1) . 3. Si N ∼ Bin(n, p), entonces MN (t) = (1 − p + pet )n . x α−1 − e θ , para x ≥ 0 y MX (t) = 4. Si X ∼ Gamma(α, θ),θ, α > 0 entonces fX (x) = xθk Γ(α) h iα 1 para t < θ1 . El caso α = 1 corresponde a X ∼ Exp(θ). 1−tθ Teorema 1.5.1. Si X1 , X2, · · · , Xn son variables aleatorias independientes con fgm MXj (t) , j = 1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX (t) = MX1 (t)MX2 (t) · · · MXn (t) e inversamente, si la fgm MX (t) se puede expresar como el producto de las fgm de las Xj entonces éstas son independientes. Teorema 1.5.2. Si (Yn )n=1,2,··· es una sucesión de variables aleatorias tales que tienen fgm MYn (t) para −h < t < h y existe una variable aleatoria Y con fgm MY (t) para |t| ≤ h1 < h tal que d MYn (t) → MY (t) cuando n → ∞ entonces Yn → Y cuando n → ∞. Ejemplo 1.5.1. Suponga que Yn ∼ Bin(n, pn ) tal que pn = E(etYn ) µ n para et )n = n = 1, 2, · · · donde µ > 0 in h t 1 + µ(en−1) . Utilizando es una constante. Entonces MYn (t) = = (1 − pn + pn α n α el resultado 1 + n → e cuando n → ∞, se obtiene MYn (t) → exp(µ(et − 1)). Como para t d Y ∼ P oison(µ) se tiene MY (t) = eµ(e −1) entonces Yn → Y cuando n → ∞. a a Por ejemplo, cuando p << 12 y n > 100, se escribe Bin(n, p) ∼ P oisson(np), donde ∼ es una convención para utilizar la distribución de la variable lı́mite en reemplazo de la distribución original. Proposición 1.5.1. (Teorema del Lı́mite Central, TLC) Si (Xn , n = 1, 2, . . .) es una sucesión de √ variables aleatorias iid con E(Xi) = µ y V ar(Xi) = σ 2 entonces la sucesión Yn = n(X̄n − P µ)/σ, donde X̄n = (1/n) nj=1 Xj , converge en distribución a una variable aleatoria Y ∼ d N (0, 1) es decir Yn → Y, n → ∞. Demostración. Para la demostración se requiere un resultado auxiliar. Si bn → 0, n → ∞ es una sucesión infinitesimal, y se define an = (1 + abn )n , para a ∈ R, entonces an → ea cuando n → ∞. 19 Para la demostración del teorema se asume que la función generadora de momentos de las variables √ Xn existe en un intervalo (−h, h), h > 0. Se forma la sucesión Yn = n(X̄n − µ)/σ = P n √1 j=1 (Xj − µ)/σ entonces n MYn (t) = E e √t n Pn j=1 (Xj −µ)/σ n √t Y t [(Xj −µ)/σ] n = E e = M Xj −µ √ n σ j=1 j=1 n “ ” n X1 −µ t √t = E e n σ = M X1 −µ √ n σ !#n " X1 − µ t2 X1 − µ 2 t + +... = E 1+ √ n σ 2n σ n t2 1 = 1+ +o , 2n n n Y 1 = cn es una sucesión que cumple cn/(1/n) → 0 cuando n → ∞. Como 2n +t−2 o n1 h i n 2 t2 es una sucesión infinitesimal, se cumple que 1 + 2n + o n1 → et /2 , cuando n → ∞, y por √ d la Proposición(1.5.2) se concluye que Yn = n(X̄n − µ)/σ → Y, n → ∞ donde o 1.6. 1 n Sı́mbolos O(·) y o(·) Estocásticos Definición 1.6.1. Para una sucesión de variables aleatorias (Xn , n = 1, 2, . . .), la notación Xn = Op(1) equivale a ∀ > 0, ∃M > 0, ∃N > 0 tales que P(|Xn| ≤ M ) ≥ 1 − , ∀n ≥ N . La notación Xn = Op (1) significa que la sucesión (Xn ) está “acotada en probabilidad”. Es decir, la probabilidad de estar Xn en un intervalo [−M, M ] es muy alta para todo n. Para otra sucesión An , aleatoria o no, positiva, la notación Xn = Op(An ) significa que Xn /An = Op(1). Teorema 1.6.1 (Teorema de Prohorov). d (i) Xn → X ⇒ Xn = Op(1), (ii) Xn = Op (1) ⇒ existe una sub-sucesión (nk , k = 1, 2, . . .) tal que as Xnk → X. Definición 1.6.2. Para una sucesión de variables aleatorias (Xn , n = 1, 2, . . .), la notación Xn = op (1) es una forma equivalente de expresar que Xn converge a cero en probabilidad. 20 Proposición 1.6.1. Las reglas para el manejo de los sı́mbolos Op(.), op(.) se expresan a continuación. op (1) + op (1) = op (1) (1.12a) op (1) + Op (1) = Op (1) (1.12b) Op (1)op(1) = op (1) (1.12c) (1 + op (1))−1 = Op (1) (1.12d) op (An ) = An op (1) (1.12e) Op (An ) = An op (1) (1.12f) op (Op(1)) = op (1). (1.12g) La interpretación es similar a la del teorema de Slutsky (1.4.5). Por ejemplo, op (1) + op(1) = op (1) significa que si Xn y Yn ambas convergen a cero en probabilidad, entonces Xn + Yn también. Este resultado es una aplicación directa del teorema de mapeo continuo (1.4.4), pag. 17. 1.7. Método Delta Si g : Rk → Rm una función definida sobre un subconjunto de Rk , con g = (g1 , . . . , gm)0 , y diferenciable en x0 entonces su diferencial se define como la matriz Dg(x0) ∈ Rm×k dada por i (x0 ) Dg(x0 )[i, j] = ∂g∂x , que cumple, para h ∈ Rk , j g(x0 + h) = g(x0 ) + Dg(x0)h + o(||h||), h → 0 ∈ Rk . (1.13) La notación o(||h||) indica una función real de ||h|| que cumple limh→0 o(||h||)/||h|| = 0. Es decir, o(||h||) es una función que tiende a cero más rápido que ||h||. Teorema 1.7.1 (Método Delta). Sea g : Rk → Rm una función definida sobre un subconjunto de Rk y diferenciable en x0 . Sean Xn vectores aleatorios con valores en el dominio de g. Si d rn (Xn − x0 ) − → X, para rn sucesión numérica tal que rn → ∞, entonces d rn (g(Xn) − g(x0)) − → Dg(x0)X. (1.14) d Demostración. Como rn → ∞ entonces por Teorema de Slutsky (1.4.5), (1/rn)rn (Xn −x0 ) − → 0, y por tanto Xn − x0 converge a cero en probabilidad, por (1.9e). Defina la función φ(h) = (g(x0 + h) − g(x0 ) − Dg(x0)h)/||h||, para h 6= 0, y φ(0) = 0. Entonces φ(.) es continua en 0 ∈ Rk , es decir, lı́mh→0 φ(h) = φ(0) = 0, por la hipótesis de aproximación lineal (1.13). p Aplicando el teorema de mapeo continuo (tmc) (1.4.4) se obtiene φ(Xn − x0 ) − → 0. Además, otra d vez por el tmc, como la función norma ||.|| es continua, entonces rn ||Xn − x0 || − → 0, luego, por 21 p d teorema de Slutsky, rn φ(Xn − x0 )||Xn − x0 || − → 0. Y por tanto rn φ(Xn − x0 )||Xn − x0 || − →0 por (1.9e). Ahora rn φ(Xn − x0 )||Xn − x0 || = rn (g(xn ) − g(x0) − Dg(x0)(Xn − x0 )) = rn (g(xn ) − g(x0)) − rn (Dg(x0 )(Xn − x0 )) p = rn (g(xn ) − g(x0)) − Dg(x0 )(rn(Xn − x0 )) − → 0. Pero la multiplicación matricial es una operación continua, luego por el tmc, d Dg(x0 )(rn(Xn − x0 )) − → Dg(x0 )X Por teorema de Slutsky, sumando las dos últimas expresiones, se obtine finalmente d rn (g(xn) − g(x0 )) − → Dg(x0)X. √ d Ejemplo 1.7.1. Suponga dos sucesiones Xn , Yn tales que n(Xn −3)) − → X, con X ∼ N (0, 1) y √ d n(Yn −2)) − → Y , con Y ∼ N (0, 1). Y considere la función g : R2 → R, dada por g(x, y) = xy 3 . ∂g(x,y) 3 2 Entonces, con x0 = (x, y), Dg(x0) = ( ∂g(x,y) ∂x , ∂y ) = (y , 3xy ). Reemplazando x0 = (3, 2) se obtiene Dg(x0) = (8, 36). Entonces, la aplicación del método delta (1.14) permite concluı́r que √ d n(Xn Yn3 − 24) − → Dg(x0 )(X, Y )0 = 8X + 36Y. d Teorema 1.7.2. Considere dos sucesiones de vectores aleatorios en Rk , tales que Yn − → Y y k Xn = Yn + Op (an ), con an → 0. Y sea g : R → R una función con derivadas parciales continuas, excepto en un subconjunto G ⊆ Rk que cumple lı́mn→∞ P(Yn ∈ G) = 0. Denote el ∂g(x ) ∂g(x ) gradiente de g en un punto x0 ∈ G por ∇g(x0) = ( ∂x10 , . . . , ∂xk0 ). Entonces se cumple g(Xn) = g(Yn ) + ∇g(Yn )(Xn − Yn ) + op (an ), n → ∞. 1.8. (1.15) Propiedades de la Convergencia en Media Cuadrática. Sabemos que 2 Xn −→ X si n −→ ∞ ⇐⇒ E((Xn − X)2 ) −→ 0 por tanto si 2 1. Xn −→ X cuando n −→ ∞ entonces a) E(Xn ) −→ E(X) cuando n −→ ∞ si n −→ ∞ 22 b) E(Xn2 ) −→ E(X 2 ) cuando n −→ ∞ Demostración. a) Por Lyapunov con s = 1 , r = 2 tenemos E(|Xn − X|) ≤ además p E(|Xn − X|2 ) |E(Xn ) − E(X)| ≤ E(|Xn − X|) ≤ p E(|Xn − X|2) luego como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ se tiene E(Xn ) −→ E(X) cuando n −→ ∞ b) La siguiente desigualdad es válida 0≤ hp i2 p E(Xn2 ) − E(X 2 ) ≤ E((Xn − X)2 ) ya que desarrollando ambos miembros de la desigualdad obtenemos p E(Xn2 ) + E(X 2 ) − 2 E(Xn2 )E(X 2) ≤ E(Xn2 ) + E(X 2 ) − 2E(Xn X) que a su vez equivale a E(Xn X) ≤ la cual es cierta por c. s. p E(Xn2 )E(X 2 ) E(Xn X) ≤ E(|XnX|) ≤ p E(Xn2 )E(X 2 ) 2 Nota 1.8.1. Es evidente que Xn −→ X entonces V ar(Xn) −→ V ar(X) 2 2. (ver Parzen (1972) pág. 112 Teo 4B ) Si Xn ∼ N (µn , σn2 ) y Xn −→ X entonces X ∼ N (µ, σ 2) con µ = lı́m µn y σ 2 = lı́m σn2 . n→∞ n→∞ Demostración. 2 Si Xn −→ X entonces µn −→ µ = E(X) y σn2 −→ σ 2 = V ar(X) además la fgm de Xn es 1 2 2 MXn (t) = eµn t+ 2 σn t t ∈ R 23 luego MXn (t) −→ M (t) cuando n −→ ∞ donde 1 M (t) = eµt+ 2 σ 2 t2 , t∈R lo cual significa que Xn converge en distribución a una variable aleatoria distribuı́da N (µ, σ 2). Pero como 2 D Xn −→ X =⇒ Xn −→ X ésta variable debe ser X, por tanto X ∼ N (µ, σ 2). 2 3. Si Xn → X cuando n → ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces E(X 2 ) < ∞. Demostración. Utilizando la desigualdad triangular general 1 1 1 E(|X + Y |r ) r ≤ E(|X|r) r + E(|Y |r ) r con Xn = X , Y = X − Xn , r = 2 se tiene p E(X 2 ) ≤ p E(Xn2 ) + para r≥1 p E((X − Xn )2 ) como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces E(X 2 ) < ∞. 2 2 4. Si Xn → X , Yn → Y entonces E(Xn Yn ) → E(XY ) cuando n −→ ∞ Demostración. |E(Xn Yn ) − E(XY )| ≤ E(|Xn Yn − XY |) = E(|(Xn − X)Y + (Yn − Y )Xn|) ≤ E(|(Xn − X)Y |) + E(|(Yn − Y )Xn |) 1 1 ≤ E((Xn − X)2)E(Y 2 ) 2 + E((Yn − Y )2 )E(Xn2 ) 2 Como E(Y 2 ) < ∞ se cumple que si n −→ ∞ entonces la última expresión tiende a cero. 2 5. Xn −→ X ⇐⇒ ∃ c ∈ R tal que E(Xn Xm ) −→ c para n , m → ∞ Demostración. [ ⇐= ] Si E(Xn Xm ) −→ c entonces 2 E((Xn − Xm )2 ) = E(Xn2 ) + E(Xm ) − 2E(Xn Xm ) → c + c − 2c = 0 24 y (Xn ) es una sucesión de Cauchy en L2 [ =⇒ ] 2 Si Xn → X entonces E(Xn Xm ) → E(X 2 ) = c cuando n → ∞ 2 2 2 6. Si Xn −→ X y Yn −→ Y entonces aXn + bYn −→ aX + bY 2 2 7. Si Xn −→ X y an −→ a entonces an Xn −→ aX 1.9. Problemas 1. Suponga que N ∼ P oisson(λ), y δ > 0 es una constante. Se define la variable X = PN −δj t . Utilice el resultado: E(etN ) = eλ(e −1) y la desigualdad de Markov para enconj=0 e trar una cota superior para la probabilidad P(X > a), a > 0. 2. Suponga una sucesión de variables Normales, Xn ∼ N (0, σn2 ), n = 1, 2, . . ., tales que σn2 → 0, n → ∞. 2 a) Compruebe que Xn → 0, n → ∞. b) Si aceptamos que es válida la operación 2 d Xn ) = σn2 eσn /2 . dt MXn (t)|t=1 = E(Xn e d tXn ) dt E(e d tXn = E( dt e ), compruebe que c) Compruebe que keXn − 1 − Xn k/kXnk → 0, n → ∞.(Nota: El desarrollo de Taylor de orden 1 alrededor de x = 0 de la función f (x) = ex está dado por ex = 1+x+r(x), donde r(x) es el residuo que cumple lı́mx→0 |r(x)/x| = 0. El problema propuesto puede verse como una generalización estocástica de este resultado de cálculo). 3. a) Compruebe que si Y ∼ U (0, 1) entonces et −1 t MY (t) = 1 para t 6= 0 para t=0 b) Encuentre MY (t) si Y ∼ U {0, 1, · · · , 9} c) Considere (Yn )n=1,2,··· con Yn ∼ iid U {0, 1, 2, · · · , 9} y Xn = Encuentre 1 1 − et 10n 1 − et10−n = 1 MXn (t) = t 6= 0 t=0 n P j=1 10−j Yj . 25 d) Compruebe que MXn (t) −→ et − 1 t lı́m 10n (1 − et10 t 6= 0 recuerde que −n n→∞ d e) Concluya que Xn −→ X 2 1 − eh = −t h→0 h ) = t lı́m X ∼ U (0, 1) 2 4. Suponga que Xn → X y Yn → Y . Si a, b son constantes y (an ) es una sucesión que converge a a. Compruebe que: 2 a) aXn + bYn → aX + bY . Use la desigualdad triangular. 2 b) an Xn → aX. Use la desigualdad tringular. c) Corr(Xn , Yn ) → Corr(X, Y ). 5. Suponga el proceso estocástico (Xn , n = 0, 1, . . .), definido por las siguientes condiciones: √ i) X0 ∼ ExP(1/ 2) √ ii) Xn |Xn−1 ∼ ExP(Xn−1 / 2), n = 1, 2, . . . a) Encuentre E(Xn |Xn−1 ). Y luego E(Xn ) en función de E(Xn−1 ). Compruebe que: E(Xn ) = 2−(n+1)/2 (1.16) b) Encuentre V ar(Xn|Xn−1 ). Y luego V ar(Xn) en función de V ar(Xn−1 ). Compruebe que: V ar(Xn ) = 1 − 2−(n+1) (1.17) c) Con los resultados anteriores encuentre E(Xn2 ), y utilı́celo para encontrar una cota superior para E(X10 X20 ) y una para E((X10 − X20 )2 ) d) Utilice la desigualdad de Markov para comprobar que el proceso converge en probap bilidad a cero: Xn → 0, n → ∞. Se puede decir que converge en media cuadrática a 2 cero: Xn → 0 ?. Explique.