Capı́tulo 2 Ley de los números grandes 2.1. La ley débil de los números grandes Los juegos de azar, basan su sistema de ganancias, fundamentalmente en la estabilidad a largo plazo garantizada por las leyes de la probabilidad. Consideremos el juego de la ruleta americana. Esta consiste en una rueda en posición horizontal, por donde puede circular una pequeña bola. La rueda está subdividida en 38 zonas enumeradas, cada una de las cuales subtiende un ángulo de la misma magnitud. Al estabilizarse el movimiento de la bola, ésta permanece quieta en una de las zona. En un juego tı́pico, el jugador paga 1 dólar por apostar la salida de uno de los 38 números. En caso de ganar, se le devuelve el dólar más 35 dólares adicionales. En caso de perder, pierde un dólar. Suponiendo que la probabilidad de salida de los números es uniforme, el valor esperado de la ganancia X del jugador serı́a 1 37 + 35 × = −0,05263 38 38 Podrı́amos preguntarnos que importancia tiene este cálculo. La ley de los números grandes, descubierta por Jacob Bernoulli en el siglo 18 nos da la respuesta. E(X) = −1 × Teorema 2.1. (Ley débil de los números grandes: versión con momentos de orden 2). Consideremos una sucesión {Xn : n ≥ 1} de variables aleatorias i.i.d. de cuadrado integrable. Luego, para todo ǫ > 0 se tiene Pn k=1 Xk lı́m P − E(X) ≥ ǫ = 0. n→∞ n El adjetivo débil ha sido introducido para distinguir este resultado de la llamada ley fuerte de los números grandes, que establece que en realidad la convergencia del promedio empı́rico a la esperanza es casi segura. En términos del juego de la ruleta americana, la ley de los números grandes nos indica que el valor promedio de la ganancia de la casa de apuestas por jugador tiende a −E(X) = 0,05263, y por lo tanto es positivo. Es decir, aunque de vez en cuando aparecerán jugadores afortunados que ganarán 35 dólares, la ley de los números grandes establece siempre existirá una cantidad suficientemente grande de apuestas a partir de las cuales el balance para la casa es favorable. La demostración de la ley débil de los números grandes es sencilla, y se basa en la siguiente observación. Lema 2.2. Sean X1 , . . . , Xn variables aleatorias centradas no correlacionadas de a pares. Luego 29 30 CAPÍTULO 2. LEY DE LOS NÚMEROS GRANDES V ar(X1 + · · · + Xn ) = V ar(X1 ) + · · · + V ar(Xn ). Demostración. (Prueba de la ley débil de los números grandes). Sea ǫ > 0. Por la desigualdad de Tchebytschev y el lema anterior 1 V ar(X1 ) . ǫ2 n Claramente el miembro izquierdo tiende a 0 cuando n tiende a ∞. P (|X̄1 + · · · + X̄n |/n > ǫ) ≤ La ley débil de los números grandes sigue siendo válida si suponemos sólo que la sucesión de variables aleatorias es integrable. Veremos este resultado como un caso particular de la ley fuerte de los números grandes. Por otra parte, una variación del Lemma 2.2, demostrada por Bengt von Bahr y Carl-Gustav Esseen, permite fácilmente generalizar el Teorema 2.6. Lema 2.3. (Desigualdad de von Bahr-Esseen). Sea {Xn : n ≥ 1} una sucesión de variables aleatorias independientes y centradas. Luego para todo 1 ≤ r ≤ 2 se tiene que r n n X X E Xk ≤ 4 E(|Xk |r ). (2.1) k=1 k=1 Observación. Este resultado fue publicado en 1965 en The Annals of Statistics. El 4 que aparece en el lado derecho de (2.1) se puede mejorar por un 2. El primer paso para probar la desigualdad de von Bahr-Esseen, es el siguiente resultado de Clarkson de 1936, introducido para el estudio de espacios uniformemente convexos. Lema 2.4. (Desigualdad de Clarkson). Si 1 ≤ r ≤ 2, entonces para todo par de reales x e y se tiene que |x + y|r + |x − y|r ≤ 2(|x|r + |y|r ). Demostración. La desigualdad es trivialmente cierta para y = 0 o para r = 1. Luego, como ambos miembros de la desigualdad son funciones pares, basta suponer que x ≥ y > 0 y r > 1. Definimos t = y/x. Luego tenemos que probar que (1 + t)r + (1 − t)r ≤ 2(1 + tr ). Si f (r) = (1 + t)r + (1 − t)r y g(r) = 2(1 + tr ), notemos que g′ (r) = 2tr ln t ≤ 0. Además f ′ (r) = (1 + t)r ln(1 + t) + (1 − t)r ln(1 − t). Como f (2) = g(2), es suficiente demostrar que f ′ (r) ≥ 0. Ahora notemos que f ′′ (r) = (1 + t)r (ln(1 + t))2 + (1 − t)r (ln(1 − t))2 ≥ 0. Luego, basta probar que f ′ (1) ≥ 0. Pero f ′ (1) = (1 + t) ln(1 + t) + (1 − t) ln(1 − t) ≥ 0. 2.1. LA LEY DÉBIL DE LOS NÚMEROS GRANDES 31 En efecto, basta notar la segunda derivada de la función g(x) = x ln x, es positiva, y por lo tanto es una función convexa. Luego f ′ (r) ≥ 0. Necesitamos un lema antes de probar la desigualdad de von Bahr-Esseen. En lo que sigue, dada una variable aleatoria X, designaremos por X ′ a una variable aleatoria independiente de X pero con la misma distribución. Lema 2.5. Sean X e Y variables aleatorias centradas e independientes. Supongamos que para algún r ≥ 1 se tiene que E|X|r < ∞ y E|Y |r < ∞. Luego E|X|r ≤ E|X + Y |r . Demostración. Por la desigualdad de Jensen para esperanza condicional E|X|r = E(|E(X + Y |X)|r ) ≤ E(E(|X + Y |r |X)) = E|X + Y |r . Demostración. (Prueba de la desigualdad de von Bahr-Esseen). Si X e Y son variables aleatorias arbitrarias, la desigualdad de Clarkson implica que E|X + Y |r + E|X − Y |r ≤ 2(E|X|r + E|Y |r ). (2.2) E|X − X ′ |r ≤ 4E|X|r . (2.3) Luego Supongamos ahora que la distribución de Y condicionada a X es simétrica. Luego E|X + Y |r = E|X − Y |r , y de (2.2) tenemos que E|X − Y |r ≤ E|X|r + E|Y |r . (2.4) Demostraremos la desigualdad de von Bahr-Esseen ocupando un argumento de inducción. Claramente la desigualdad se satisface para n = 1. Supongamos ahora que es cierta para n ≤ m. Luego ′ E|Sm+1 |r = E|Sm + Xm+1 |r ≤ E|Sm + Xm+1 − Xm+1 |r ′ |r ≤ E|Sm |r + 4E|Xm+1 |r , ≤ E|Sm |r + E|Xm+1 − Xm+1 donde en la primera desigualdad hemos ocupado el Lemma 2.5, en la segunda la desigualdad (2.4) y en la tercera la desigualdad (2.3). Por lo tanto es cierta para n = m + 1, lo que termina la demostración. Teorema 2.6. (Ley débil de los números grandes: versión con momentos de orden r > 1). Consideremos una sucesión {Xn : n ≥ 1} de variables aleatorias i.i.d. con momentos de orden r finitos, y r > 1. Luego, para todo ǫ > 0 se tiene Pn k=1 Xk − E(X) ≥ ǫ = 0. lı́m P n→∞ n 32 CAPÍTULO 2. LEY DE LOS NÚMEROS GRANDES Proseguimos con una generalizaciónes de la ley débil. La primera debilita la condición de integrabilidad. Teorema 2.7. (Ley débil de los números grandes generalizada). Sea {Xn : n ≥ 1} una sucesión de variables aleatorias i.i.d. en un espacio de probabilidad (Ω, M, P ). Luego las siguientes condiciones son equivalentes. (i) Existe una sucesión {an : n ≥ 1} tal que para todo ǫ > 0, (ii) lı́mn→∞ nP (|X| ≥ n) = 0. Pn k=1 Xk − an ≥ ǫ = 0. lı́m P n→∞ n Además, si (i) se satisface, necesariamente an = E(X1|X|≤n ). Demostración. Primero probamos que (ii) implica (i). Definimos Xn′ = Xn 1|Xn |≤n . Por la desigualdad de Tchebychev, para cada ǫ > 0 Pn k=1 Xk 1 ′ P − E(Xn ) ≥ ǫ ≤ 2 E((Xn′ )2 ) + nP (|X1 | ≥ n). (2.5) n ǫ n Pero R 2 dF (x) = n2 (F (n) − F (−n)) − 2 n xF (x)dx x X X X X1 1 1 1 −n −n Rn 2 = −n (FX1 (−n) − FX1 (n)) + 2 0 x(FX1 (−x) − FX1 (x))dx Rn = −n2 (FX1 (−n) + 1 − FX1 (n)) + 2 0 x(FX1 (−x) + 1 − FX1 (x))dx Rn = −n2 P (|X1 | ≥ n) + 2 0 xP (|X1 | ≥ x)dx. E((Xn′ )2 ) = Rn (2.6) Esto prueba que el primer término del lado derecho de la desigualdad (2.5) tiende a 0 cuando n tiende a ∞. Corolario 2.8. Sea {Xn : n ≥ 1} una sucesión de variables aleatorias i.i.d. simétricas en un espacio de probabilidad (Ω, M, P ). Luego las siguientes condiciones son equivalentes. (i) Para todo ǫ > 0, (ii) lı́mn→∞ nP (|X| ≥ n) = 0. Pn k=1 Xk lı́m P ≥ ǫ = 0. n→∞ n Ejemplo. El teorema anterior muestra que la ley débil de los números grandes se puede satisfacer aunque la distribución común de la sucesión no sea integrable. Por ejemplo, tomemos FX definida por 1 − FX (x) = 1 . x ln x 2.1. LA LEY DÉBIL DE LOS NÚMEROS GRANDES 33 La siguiente generalización de la ley débil de los números grandes, muestra que incluso la hipótesis de independencia no es necesaria. Definición 2.9. (Arreglo triangular). Un arreglo triangular de variables aleatorias es un conjunto {Xn,k } de variables aleatorias indexadas por n ≥ 1 y 1 ≤ k ≤ n. Teorema 2.10. Consideremos un arreglo triangular {Xn,k } de variables aleatorias integrables en un espacio de probabilidad (Ω, M, P ). Luego, las siguientes condiciones son equivalentes. (i) Para todo ǫ > 0, lı́m P n→∞ ! n n 1 X 1X Xn,k − E(Xn,k ) > ǫ = 0. n n k=1 (ii) k=1 ! P ( nk=1 (Xn,k − E(Xn,k )))2 = 0. P n2 + ( nk=1 (Xn,k − E(Xn,k )))2 lı́m E n→∞ Demostración. Para probar que (ii) implica (i) basta ocupar la desigualdad de Tchebychev con la función x2 /(n2 + x2 ). Ahora notemos que si Y es una variable aleatoria arbitraria, se tiene que para tod ǫ > 0, P (|Y | ≥ ǫ) ≥ Eligiendo Y = Pn ( ) k=1 (Xn,k −E(Xn,k )) Pn n2 +( ) E x2 dFY (x) − ǫ2 . 1 + x2 2 k=1 (Xn,k −E(Xn,k )) Z 2 , vemos que esto implica que Y2 1+Y2 ≤ ǫ2 + P (|Y | ≥ ǫ). Como ǫ > 0 es arbitrario, esto muestra que (i) implica (ii). Tenemos el siguiente corolario con una condición más explı́cita. Corolario 2.11. Sea {Xn,k } un arreglo triangular de variables aleatorias de cuadrado integrable en un espacio de probabilidad (Ω, M, P ). Supongamos que las siguientes condiciones se satisfacen: (i) Pn k=1 V ar(Xn,k ) = o(n2 ). (ii) lı́mn→∞ supk,j:|k−j|≥n Cov(Xn,k , Xn,j ) = 0, Luego, para todo ǫ > 0 se tiene que ! n n 1 X X 1 Xn,k − E(Xn,k ) > ǫ = 0. lı́m P n→∞ n n k=1 k=1 Pero la condición (ii) implica que los dos términos del lado derecho convergen a 0 cuando n tiende a ∞. 34 CAPÍTULO 2. LEY DE LOS NÚMEROS GRANDES Demostración. Por el Teorema 2.10, vemos que basta probar que !2 n X 1 E (Xn,k − E(Xn,k )) = 0. lı́m n→∞ n2 k=1 La esperanza en esta expresión se puede escribir como n X V ar(Xn,k ) + X Cov(Xn,k , Xn,j ). 1≤k,j≤n k=1 Por la hipótesis (i), basta probar que 1 n→∞ n2 lı́m X Cov(Xn,k , Xn,j ) = 0. 1≤k,j≤n p Ahora, Cov(Xn,k , Xn,j ) ≤ V ar(Xn,k )V ar(Xn,j ) ≤ V ar(Xn,k ) + V ar(Xn,j ). Luego, sólo tenemos que probar que para todo δ > 0 existe un m tal que lı́m sup n→∞ 1 n2 X Cov(Xn,k , Xn,j ) ≤ δ. 1≤k,j≤n:|k−j|≥m Pero esto es evidentemente cierto porque el término del lado izquierdo de esta exresión es menor o igual a supk,j:|k−j|≥m Cov(Xn,k , Xn,j ) que tiende a 0 por la condición (ii). Una aplicación interesante de la ley de los números grandes para demostrar una versión del teorema de aproximaciı́on de Weierstrass. Teorema 2.12. (Teorema de Bernstein). Consideremos una función continua f en el intervalo [0, 1]. Luego, los polinomios de Bernstein Bn (x) = n X k=0 f (k/n) n k xk (1 − x)n−k , aproximan uniformemente a f en [0, 1]. 2.2. Una versión elemental de la ley fuerte de los números grandes La convergencia en probabilidad, en la ley débil de los números grandes, se puede fácilmente transformar en convergencia casi segura, si le exigimos más a la sucesión de variables aleatorias i.i.d. Teorema 2.13. (Versión elemental de la ley fuerte de los números grandes). Consideremos una sucesión {Xn : n ≥ 1} de variables aleatorias i.i.d. con momentos de orden 4 finitos. Luego Pn k=1 Xk = E(X1 ) = 1. P lı́m n→∞ n