Capítulo 8 CADENAS DE MARKOV por Jorge Yazlle Un proceso estocástico es una familia arbitraria de variables aleatorias {Xt }t∈T , en donde cada Xt es una función del espacio muestral en algún conjunto E (el espacio de estados). Se distinguen diferentes casos, según T sea un conjunto continuo (generalmente R) o discreto (en general N), y según la cardinalidad de E. Es usual interpretar a t como el tiempo transcurrido desde el instante inicial (t = 0), y que en cada instante t ∈ T se lleva a cabo un experimento de cuyo resultado queda determinado el valor de Xt . Principalmente, interesa saber con qué probabilidad cada Xt asume valores en ciertos subconjuntos de E, y también si esta probabilidad está influenciada de alguna manera por los valores observados en los instantes de tiempo anteriores (la historia del proceso). Nos interesa aquí el caso en que T = N = {0, 1, 2, 3, . . .} y E es un conjunto a lo sumo numerable. Definición 8.1. Sea E un conjunto a lo sumo numerable (de estados) y {Xn }n∈N un proceso estocástico a valores en E. Se dice que el proceso satisface la propiedad markoviana si para todo entero n ≥ 0 y todos j, in , . . . , i0 ∈ E, se cumple: P (Xn+1 = j | Xn = in , . . . , X0 = i0 ) = P (Xn+1 = j | Xn = in ) Una cadena de Markov es un proceso estocástico que satisface la condición markoviana. Es decir, en una cadena de Markov el conocimiento de los valores de X0 , . . . , Xn−1 no agrega información a lo que puede esperarse como valor de Xn+1 si se sabe el valor de Xn . Si X0 = e, se dice que la cadena empezó en e. Si Xn = e, decimos que, en el instante n, la cadena está en e, o que la cadena visita e. Si X0 = i0 , X1 = i1 , . . ., Xn = in , decimos que la sucesión de estados i0 , i1 , . . . , in es una historia completa de la cadena hasta el instante n. La propiedad markoviana establece que la probabilidad de que en el instante n + 1 la cadena pase al estado j habiendo ocurrido una historia completa i0 , . . . , in sólo depende del estado in . Notar que, en general, P (Xn+1 = j | Xn = i) podría depender no sólo de i y de j, sino también de n. Aquellas cadenas en las que P (Xn+1 = j | Xn = i) depende sólo de i y de j constituyen una importante clase. Definición 8.2. Una cadena de Markov se dice homogénea si para todo n ≥ 0 y todos i, j ∈ E, es P (Xn+1 = j | Xn = i) = P (X1 = j | X0 = i). En este caso, el número P (Xn+1 = j | Xn = i) es denotado mediante pij , y se denomina matriz de transición de la cadena a la matriz P = (pij )i,j∈E . Aquí trabajaremos sólo con cadenas homogéneas. En estos casos, es usual interpretar a E como el conjunto de estados en que puede estar un sistema dinámico discreto (es decir, un sistema que cambia a intervalos de tiempo igualmente espaciados), y a Xn como el estado del sistema al momento n, de modo que pij representa la probabilidad de cambiar al estado j en la próxima etapa, suponiendo que en la etapa actual el sistema está en el estado i. Una buena representación para una cadena homogénea es a través de un grafo cuyos vértices son los estados de E, habiendo arista desde i ∈ E hasta j ∈ E si, y sólo si, pij > 0. De haber arista de i a j, se le asocia el valor numérico pij , y representa la probabilidad de transición (en un paso) del estado i al estado j. A su vez, una interpretación conveniente para este grafo es que los vértices son ciudades, las aristas son autopistas entre ellas (habiendo a lo sumo una autopista entre dos 119 120 8. CADENAS DE MARKOV ciudades, y pudiendo una autopista empezar y finalizar en una misma ciudad), y un automóvil recorre esta red yendo de ciudad en ciudad día tras día, de modo que, estando en alguna ciudad, debe elegir alguna de las autopistas que salen de esa ciudad, de manera aleatoria, de acuerdo a las probabilidades que las aristas tienen asignadas. La ciudad en la que el auto se encuentra al día n equivaldría al estado del sistema en el instante n. La propiedad markoviana establece que la siguiente ciudad visitada depende sólo de cuál es la ciudad actual, ignorando completamente la sucesión de ciudades anteriormente visitadas. En este grafo, la probabilidad de recorrer un camino i0 i1 i2 · · · in−1 in que va desde la ciudad i0 a la in , sabiendo que empezamos en i0 , es pi0 i1 pi1 i2 · · · pin−1 in . Si estamos en una ciudad i y queremos saber por la probabilidad de que n días más tarde estemos en la ciudad j, debemos sumar las probabilidades de todos los caminos de longitud n desde i hasta j. Surgen entonces preguntas naturales respecto de la evolución del sistema: Dado que la evolución es aleatoria, no se espera saber exactamente el estado del sistema al momento n, pero sí probabilísticamente: ¿cuál es la que probabilidad de que el sistema, al instante n, se encuentre en un cierto estado i? Suponiendo que en el instante 0 el estado del sistema es i ∈ E, ¿cuánto tarda, en promedio, en retornar al estado i en algún instante posterior, si es que eso ocurre? O bien, ¿cuánto tarda, en promedio, en pasar a un cierto estado j? Ejemplo 8.3. Una moneda honesta se revolea reiteradamente y se asigna a Xn el valor mostrado por la cara superior de la moneda en el n-ésimo tiro. Entonces, {Xn }n≥0 es una cadena de Markov con E = {C, X} (cara, cruz), teniendo que pCX = pCC = pXC = pXX = 1/2, por lo que para este proceso es 1/2 1/2 P = 1/2 1/2 Ejemplo 8.4. Un dado honesto se arroja repetidamente y valores salidos hasta el n-ésimo tiro. Entonces, {Xn }n≥0 es {1, 2, 3, 4, 5, 6}, teniendo la siguiente matriz de transición: 1/6 1/6 1/6 1/6 1/6 0 1/3 1/6 1/6 1/6 0 1/2 1/6 1/6 0 P = 0 0 2/3 1/6 0 0 0 0 0 5/6 0 0 0 0 0 se asigna a Xn el máximo de los una cadena de Markov con E = 1/6 1/6 1/6 1/6 1/6 1 Ejemplo 8.5. Una compañía con sedes en Tucumán y Salta alquila autos por día, con la siguiente modalidad: un cliente alquila un auto en alguna de las dos ciudades, y lo devuelve al día siguiente en una de esas dos ciudades, a su propia elección. La compañía posee 2000 autos, disponiendo inicialmente 1000 en cada ciudad. De los registros históricos, se determina que, de los autos alquilados en Salta, el 60 % es devuelto en Salta, y el 40 % en Tucumán; y de los autos alquilados en Tucumán, el 70 % es devuelto en Tucumán, y el 30 % restante en Salta. Se desea analizar cómo varía la proporción de los autos que la compañía tiene en ambas ciudades. Ese análisis puede hacerse considerando itinerarios de un auto promedio, que va recorriendo las dos ciudades (E = {S, T }), asignando a Xn la ciudad en que el auto está al n-ésimo día (con P (X0 = S) = P (X0 = T ) = 1/2, ya que la compañía arranca con iguales cantidades de autos en ambas ciudades). {Xn }n≥0 es una cadena de Markov con matriz de probabilidades de transición dada por: pSS = 0,6, pST = 0,4, pT S = 0,3, pT T = 0,7. Ejemplo 8.6. (Paseo aleatorio) Un caminante se encuentra sobre la recta numérica Z (originalmente en 0) y tiene una moneda honesta. En cada unidad de tiempo la revolea; si sale cara, 8. CADENAS DE MARKOV 121 se mueve una unidad en el sentido positivo, y en caso contrario una unidad en sentido negativo. Interesa saber qué posiciones de la recta visita. Llamando Xn a la posición en el instante n, se tiene que {Xn }n≥0 es una cadena de Markov con E = Z y matriz de transición como sigue: .. . 0 1/2 0 1/2 0 · · · ··· 0 P = · · · 0 1/2 0 1/2 0 0 · · · 0 0 ··· · · · 1/2 0 1/2 0 .. . (Comparar con el ejemplo 7.2.) Este ejemplo muestra que E podría ser un conjunto infinito. La intuición seguramente indica al lector que, en relación al ejemplo 8.3, la probabilidad de que Xn = C es 1/2, independientemente de n. En relación al ejemplo 8.4, para un n grande es de sospechar que P (Xn = 1) es pequeña y P (Xn = 6) es cercana a 1. A no afligirse si, en relación al ejemplo 8.5, la intuición no arroja pistas sobre la probabilidad de que un auto, al día 50, esté en Tucumán. Más adelante veremos cómo, en muchos casos, los interrogantes que se plantean respecto de la evolución del sistema pueden responderse mediante manipulación algebraica de la correspondiente matriz de transición. Observación 8.7. La matriz de transición de un proceso de Markov es una matriz estocástica, lo cual quiere decir que es una matriz a valores no negativos (pues corresponden a probabilidades de paso de un estado a otro) y que la suma de los elementos de cualquier fila da 1: para cualquier i ∈ E, tenemos ! X X [ pij = P (X1 = j | X0 = i) = P X1 ∈ j | X0 = i j∈E j∈E j∈E P (X1 ∈ E, X0 = i) P (X0 = i) = = =1 P (X0 = i) P (X0 = i) Queda como ejercicio mostrar que cualquier potencia natural de una matriz estocástica es otra matriz estocástica. La condición markoviana se refiere a probabilidades de cambios de estado que involucran historias completas de la cadena. Veremos ahora una condición equivalente pero que tiene que ver con historias incompletas, mostrando que, de alguna manera, las probabilidades de cambios hacia nuevos estados están influenciadas sólo por el último estado conocido de la historia. Lema 8.8. Sean {Xn }n≥0 una cadena de Markov, n0 , n1 , . . . , nk (k ≥ 0) enteros tales que 0 ≤ n0 < n1 < · · · < nk , e in0 , in1 , . . . , ink , j estados cualesquiera. Entonces, P (Xnk +1 = j | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 ) = P (Xnk +1 = j | Xnk = ink ) Demostración. Llamemos F al conjunto de instantes que faltan para completar la historia hasta el momento nk , es decir, F = {x ∈ Z : 0 ≤ x ≤ nk } − {nk , . . . , n1 , n0 } y veamos, por inducción en la cantidad de elementos de F , el cumplimiento de la proposición. Si |F | = 0, es F = ∅ y el enunciado es verdadero pues corresponde a la condición markoviana. Ahora supongamos F 6= ∅. Sea n∗ un elemento de F , debiendo ser n∗ < nk . Usando el hecho de que P ((A ∩ B) | C) = P (A | (B ∩ C)) P (B | C), resulta que P (Xnk +1 = j | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 ) = = = P P e∈E e∈E P (Xnk +1 = j , Xn∗ = e | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 ) P (Xnk +1 = j | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 , Xn∗ = e) · P (Xn∗ = e | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 ) 122 8. CADENAS DE MARKOV Por hipótesis inductiva, tenemos que, para cualquier e ∈ E, P (Xnk +1 = j | Xnk = ink , . . . , Xn0 = in0 , Xn∗ = e ) = P (Xnk +1 = j | Xnk = ink ) y, por lo tanto, P (Xnk +1 = j | Xnk = ink , . . . , Xn0 = in0 ) = = P e∈E P (Xnk +1 = j | Xnk = ink ) P (Xn∗ = e | Xnk = ink , . . . , Xn0 = in0 ) = P (Xnk +1 = j | Xnk = ink ) P e∈E P (Xn∗ = e | Xnk = ink , . . . , Xn0 = in0 ) = P (Xnk +1 = j | Xnk = ink ) P (Xn∗ ∈ E | Xnk = ink , . . . , Xn0 = in0 ) = P (Xnk +1 = j| Xnk = ink ) según queríamos demostrar. Teorema 8.9. El proceso estocástico {Xn }n≥0 es una cadena de Markov si, y sólo si, para cualquier sucesión finita de enteros 0 ≤ n0 < n1 < · · · < nk , cualquier entero m ≥ 1 y cualquier selección de estados in0 , in1 , . . . , ink , j ∈ E, se cumple que P (Xnk +m = j | Xnk = ink , . . . , Xn1 = in1 , Xn0 = in0 ) = P (Xnk +m = j | Xnk = ink ) Demostración. Primero veamos la ida por inducción en m ≥ 1. El caso m = 1 es el lema 8.8. Suponiendo ahora la propiedad válida para m, tenemos: P (Xnk +m+1 = j | Xnk = ink , . . . , Xn0 = in0 ) = = P = P = P = = P P e∈E e∈E P (Xnk +m+1 = j , Xnk +m = e | Xnk = ink , . . . , Xn0 = in0 ) P (Xnk +m+1 = j | Xnk +m = e, Xnk = ink , . . . , Xn0 = in0 ) · P (Xnk +m = e | Xnk = ink , . . . , Xn0 = in0 ) e∈E P (Xnk +m+1 = j | Xnk +m = e) P (Xnk +m = e | Xnk = ink ) e∈E P (Xnk +m+1 = j | Xnk +m = e, Xnk = ink ) P (Xnk +m = e | Xnk = ink ) e∈E P (Xnk +m+1 = j, Xnk +m = e | Xnk = ink ) = P (Xnk +m+1 = j | Xnk = ink ) con lo que queda demostrada la ida. Para la vuelta, supongamos válida la condición, y consideremos dados n ≥ 0, j, in , . . . , i0 ∈ E; tomando m = 1, nk = n, . . ., n1 = 1, n0 = 0, y reemplazando en la condición, queda la propiedad markoviana, completando así la demostración del teorema. En lo sucesivo, {Xn }n≥0 representará una cadena de Markov con conjunto de estados E (a lo sumo numerable) y matriz de transición P . 0.3. Las Ecuaciones de Chapman-Kolmogorov. Para lo que sigue, δij representará el delta de Kronecker, es decir, δii = 1, y δij = 0 para i 6= j. Suponiendo que una cadena de Markov homogénea está en un estado i en el instante m ≥ 0, interesa conocer cuál es la probabilidad de que, n unidades de tiempo después, esté en un dado estado j. Designaremos por pij (n) a esta probabilidad, es decir, pij (n) = P (Xm+n = j | Xm = i) 8. CADENAS DE MARKOV 123 y por Pn a la matriz con índices en E cuya posición i, j es pij (n). Por la suposición de homogeneidad, P (Xm+n = j | Xm = i) no depende de m (su demostración queda de ejercicio) así que pij (n) está bien definida, y se cumple que pij (n) = P (Xn = j | X0 = i). Obviamente, se cumple que pij (0) = δij y que P1 = P . Por otro lado, para cualquier n ≥ 1 y cualesquiera i, j ∈ E, tenemos que, de acuerdo al teorema 8.9, (Pn+1 )ij = pij (n + 1) = P (Xn+1 = j | X0 = i) X P (Xn+1 = j, Xn = e | X0 = i) = e∈E = X e∈E = X e∈E = X P (Xn+1 = j | Xn = e, X0 = i) P (Xn = e | X0 = i) P (Xn+1 = j | Xn = e) P (Xn = e | X0 = i) pie (n) pej = (Pn P )ij e∈E y, por lo tanto, Pn+1 = Pn P (producto matricial de Pn y P ). De aquí se puede ver que, para cualquier n ≥ 1, es Pn = P n (la n-ésima potencia de la matriz P ) y, en consecuencia, para todos m, n ≥ 1, es Pm+n = Pm Pn . Estas dos últimas expresiones son las denominadas ecuaciones de Chapman-Kolmogorov, claves para el entendimiento de la evolución del sistema. Observación 8.10. Con las ecuaciones, es directo ver que pij (m + n) ≥ pik (m) pkj (n) cualesquiera sean i, j, k ∈ E, m, n ≥ 1, pues X pij (m + n) = (Pm+n )ij = (Pm Pn )ij = pie (m) pej (n) ≥ pik (m) pkj (n) e∈E Más generalmente, pij (m1 + m2 + · · · + mr ) ≥ pik1 (m1 ) pk1 k2 (m2 ) · · · pkr−1 j (mr ) cualesquiera sean los enteros m1 , m2 , . . . , mr ≥ 1 y los estados i, j, k1 , k2 , . . . , kr−1 . En muchos sistemas, es conocido el estado del mismo en el instante 0 (en el cual comienza el proceso). En otros, sólo se conoce la distribución de X0 . Designemos por µ(0) al correspondiente (0) vector de distribución, es decir, µi = P (X0 = i). Más generalmente, designemos µ(n) al vector (n) de distribución de Xn , vale decir, µi = P (Xn = i). Lema 8.11. Para todo n ≥ 1, se tiene que µ(n) = µ(0) Pn . Demostración. Para cualquier j ∈ E, X X " (0) (n) n µ(0) P (Xn = j | X0 = e) P (X0 = e) = µj = P (Xn = j) = e Pej = µ Pn j e∈E e∈E Una cuestión central es saber si µ(n) converge a algo cuando n tiende a infinito. Para ello, nos preguntamos si Pn converge a alguna matriz fija. Habrá casos en que no. Por ejemplo, para la matriz estocástica 0 1 P = 1 0 tenemos que 0 1 1 0 P2k+1 = P2k = 1 0 0 1 Para la matriz P del ejemplo 8.3, es Pn = P , cualquiera sea n. Para la matriz P del ejemplo 8.5, tenemos las siguientes aproximaciones: 0,428571 0,571429 0,428575 0,571425 0,42996 0,57004 P14 = P10 = P5 = 0,428571 0,571429 0,428569 0,571431 0,42753 0,57247 124 8. CADENAS DE MARKOV y para n ≥ 14, Pn está estabilizada (dentro de esas aproximaciones). A fin de obtener condiciones para la convergencia de Pn , es necesario desarrollar nuevas herramientas, tarea que llevaremos a cabo en las próximas dos secciones. 0.4. Clasificación de estados. Un estado e ∈ E se dice persistente (o recurrente) si, con probabilidad 1, la cadena vuelve a e habiendo empezado en e; es decir, si P (Xn = e para algún n ≥ 1 | X0 = e) = 1. Esto es lo mismo que decir que P ((X1 = e ∨ X2 = e ∨ . . .) | X0 = e) = 1. Un estado que no es persistente se denomina transitorio. Ejemplo 8.12. Sea E = {i, j}, y tomemos pii = 0,25, pij = 0,75, pji = 0, pjj = 1. Verifiquemos por inducción en n ≥ 1 que pii (n) = 4−n : pii (1) = pii = 4−1 y, suponiendo que vale para n, pii (n + 1) = Piin+1 = (P n P )ii = Piin Pii + Pijn Pji = 4−n 4−1 + Pijn · 0 = 4−n−1 Ahora mostremos que el estado i es transitorio: P ((X1 = i ∨ X2 = i ∨ . . .) | X0 = i) ≤ Por otro lado, el estado j es persistente, pues ∞ X n=1 P (Xn = i | X0 = i) = ∞ X 4−n < 1 n=1 1 ≥ P ((X1 = j ∨ X2 = j ∨ . . .) | X0 = j) ≥ P (X1 = j | X0 = j) = pjj = 1 resultando entonces P ((X1 = j ∨ X2 = j ∨ . . .) | X0 = j) = 1. Buscamos ahora criterios para caracterizar a los estados persistentes y transitorios. Definición 8.13. Para i, j ∈ E y n ≥ 1, fij (n) denota a P(Xn = j, Xn−1 6= j, . . . , X1 6= j| X0 = i). Es decir, fij (n) es la probabilidad de que la cadena, habiendo empezado en el estado i, en el instante n esté en el estado j por primera vez (sin considerar el instante inicial). Convenimos que fij (0) = 0 cualesquiera sean i, j ∈ E. Designamos fij a la probabilidad de que la cadena, habiendo empezado en i, visite j en algún instante posterior. Es decir, ∞ X fij (n) fij = n=1 (por nuestra convención, la suma puede empezar desde 0). Se tiene que j es persistente si, y sólo si, fjj = 1: el evento X1 = j ∨ X2 = j ∨ · · · es equivalente al evento [ (X1 6= j, . . . , Xn−1 6= j, Xn = j) n≥1 en donde la unión es disjunta, y entonces j es persistente si, y sólo si, ∞ ∞ X X fjj (n) = fjj P (X1 6= j, . . . , Xn−1 6= j, Xn = j| X0 = j) = 1= n=1 n=1 Dados i, j ∈ E, designaremos Pij (x) a la función generatriz de la sucesión {pij (n)}n≥0 , y Fij (x) a la de {fij (n)}n≥0 . Es decir, Pij (x) = ∞ X n=0 Nótese que Fij (1) = fij . pij (n) xn Fij (x) = ∞ X fij (n) xn n=0 Lema 8.14. Para todos i, j ∈ E, Pij (x) = δij + Fij (x) Pjj (x) (donde el producto de series es el que se definió en el capítulo de funciones generadoras, siguiendo la idea de la distributividad del producto de polinomios). 8. CADENAS DE MARKOV 125 Demostración. Para n ≥ 1, designemos por An al evento {Xn = j} y por Bn al evento {Xn = j, Xn−1 6= j, . . . , XS1 6= j}. La familia de los Bn es dos a dos disjunta. El evento An es equivalente al evento An ∩ nr=1 Br , por lo que, por propiedades de las probabilidades condicionales y por la propiedad markoviana, resulta ! n n [ X (An ∩ Br ) | X0 = i = P (An | Br , X0 = i) P (Br | X0 = i) P (An | X0 = i) = P r=1 n X = r=1 n X = r=1 es decir, pij (n) = Pn Pij (x) = δij + r=1 ∞ X n=1 r=1 P (Xn = j | Xr = j) P (Xr = j, Xr−1 6= j, . . . , X1 6= j | X0 = i) pjj (n − r) fij (r) pjj (n − r) fij (r). Por lo tanto, ∞ X n X n pjj (n − r) fij (r) xn = δij + Pjj (x) Fij (x) pij (n) x = δij + n=1 r=1 según deseábamos demostrar. P∞ Teorema 8.15. Un estado j es persistente P∞si, y sólo si, n=1 pjj (n) = ∞. Consecuentemente, un estado j es transitorio si, y sólo si, n=1 pjj (n) < ∞. Demostración. Usaremos, sin demostrarlo, el Lema de Abel: Si {an }n∈N es una sucesión de reales no negativos tal que lı́m sup n→∞ ∞ ∞ P P n entonces lı́m− an x = an . x→1 n=0 √ n an ≤ 1, n=0 Notar que, siendo 0 ≤ fjj (n) ≤ 1 y 0 ≤ pjj (n) ≤ 1, se cumplen para ambas sucesiones las hipótesis del Lema de Abel, por lo que ∞ ∞ X X n fjj (n) fjj (n) x = lı́m− Fjj (x) = lı́m− x→1 lı́m Pjj (x) = x→1− x→1 lı́m x→1− n=0 n=0 ∞ X ∞ X n=0 pjj (n) xn = pjj (n) n=0 Para la ida del teorema, supongamos j persistente. Entonces, por propiedad demostrada P anteriormente, es fjj = 1, es decir, ∞ f n=0 jj (n) = 1. Luego lı́mx→1− Fjj (x) = 1. Del lema 8.14, se tiene que 1 Pjj (x) = 1 − Fjj (x) P∞ − así que lı́mx→1 Pjj (x) = ∞, por lo que n=0 pjj (n) = ∞. La afirmación recíproca se obtiene de manera análoga. Corolario 8.16. Sean i, j ∈ E. P 1. Si j es persistente y fij > 0, P entonces ∞ n=0 pij (n) = ∞. ∞ 2. Si j es transitorio, entonces n=0 pij (n) < ∞. Demostración. Del lema 8.14, tenemos que ∞ ∞ X X pjj (n) pij (n) = Pij (1) = δij + Fij (1) Pjj (1) = δij + fij n=0 n=1 126 8. CADENAS DE MARKOV P∞ P∞Si j es persistente y fij > 0, se tiene, por el teorema 8.15, que n=1 pjj (n) = ∞, y entonces n=0 pij (n) = ∞. P∞ P Si j es transitorio, entonces ∞ n=0 pij (n) < ∞. n=1 pjj (n) < ∞, de donde Corolario 8.17. Cualquier cadena de Markov con cantidad finita de estados posee al menos un estado persistente. Demostración. Supongamos que todos los estados de la cadena son transitorios. Entonces, P∞ p (n) < ∞ para todos i, j ∈ E (corolario 8.16). Consideremos i ∈ E fijo. Ocurriría que ij Pn=0 P ∞ p (n) < ∞. Sin embargo, esto no puede ser pues Pn es una matriz estocástica j∈E n=0Pij P P∞ P P∞ P P∞ y entonces j∈E n=0 pij (n) = ∞ n=0 j∈E pij (n) = n=0 j∈E (Pn )ij = n=0 1 = ∞. La contradicción proviene de suponer que no hay estados persistentes. Cada estado persistente de una cadena cae en una de dos categorías de acuerdo al tiempo promedio que tarda la cadena en regresar a ese estado, suponiendo que empezó en él. Definición 8.18. Dado e ∈ E, el tiempo de la de los enteros positivos n tales que Xn = e, con n. En símbolos, mı́n {n ≥ 1 : Xn = e} Te = ∞ primera visita a e, denotado Te , es el menor la convención de que Te = ∞ si no existe tal si existe n tal que Xn = e si no Es decir, Te es lo que demora la cadena en visitar a e en un instante posterior al del inicio de la cadena (la cadena podría o no empezar en e). Por supuesto, Te es una variable aleatoria, por lo que podemos preguntarnos por su valor medio si suponemos que la cadena empieza en e. Definición 8.19. El tiempo medio de retorno a e, denotado Re , se define mediante P∞ n=0 nfee (n) si e es persistente Re = E (Te | X0 = e) = ∞ si e es transitorio Obsérvese que, aún siendo e persistente, la suma infinita podría divergir a infinito. Por esta razón, distinguiremos dos clases de estados persistentes. Definición 8.20. Un estado persistente e se dice nulo si Re = ∞, y positivo (o no nulo) si Re < ∞. Más adelante (observación 8.26) enunciaremos un criterio para decidir si un estado persistente es positivo o nulo, en términos de la matriz P . 0.5. Comunicación de estados. Veremos ahora una importante relación de equivalencia en el conjunto de estados de una cadena de Markov, en función de las probabilidades de pasar de un estado a otro. Posteriormente, deduciremos propiedades fundamentales de las respectivas clases de equivalencia. Definición 8.21. Dados i, j ∈ E, decimos que i se comunica con j (denotado i → j) si existe n ≥ 0 tal que pij (n) > 0, es decir, si la cadena visita j (con probabilidad positiva) habiendo empezado en i. Si i → j y j → i, decimos que i se intercomunica con j, y escribimos i ↔ j. Se tiene que ↔ es una relación de equivalencia en E, quedando como ejercicio la demostración de este hecho. Proposición 8.22. Si i ↔ j, entonces son ambos transitorios o ambos persistentes. Demostración. Supongamos que i ↔ j. Tomemos m y n tales que pij (m) > 0 y pji (n) > 0. Designemos α = pij (m) pji (n) > 0. Sea k cualquier entero mayor o igual que 0. Tenemos que pii (m + k + n) ≥ pij (m) pjj (k) pji (n) = αpjj (k) P (observación 8.10), y simétricamente P pjj (m + k + n) ≥ αpii (k). En consecuencia, las series k≥0 pii (k) y k≥0 pjj (k) son ambas convergentes, o bien ambas divergentes, y el resultado se sigue del teorema 8.15. 8. CADENAS DE MARKOV 127 Definición 8.23. El período de un estado e, denotado d (e), es el máximo común divisor de todos los enteros positivos n tales que el retorno de e a e en n pasos tiene probabilidad positiva: d (e) = mcd {n ≥ 1 : pee (n) > 0} (si ∀n ≥ 1, pee (n) = 0, se define d (e) = ∞). En el caso en que d (e) = 1, e se dice aperiódico. Si e es persistente positivo y aperiódico, se dice que e es ergódico. De la definición, vemos que pee (n) = 0 si n no es múltiplo de d (e) (aunque podría ser pee (n) = 0 aún siendo n múltiplo de d (e)). Proposición 8.24. Si i ↔ j, entonces d (i) = d (j). Demostración. Sean m, n tales que pij (m) > 0 y pji (n) > 0. Designemos por R (i) al conjunto {k ∈ N : pii (k) > 0}, y similarmente R (j) = {k ∈ N : pjj (k) > 0}, siendo entonces d (i) = mcd (R (i)) y d (j) = mcd (R (j)). Notemos que pjj (m + n) ≥ pji (n) pij (m) > 0, por lo que m + n ∈ R (j), de donde d (j) divide a m + n. Además, sea k ∈ R (i) cualquiera. Se tiene que pjj (m + k + n) ≥ pji (n) pii (k) pij (m) > 0. Luego m+k +n ∈ R (j), y entonces d (j) divide también a m + k + n. Por lo tanto, d (j) divide a k. Ya que k se eligió arbitrariamente en R (i), vemos que d (j) es divisor común de todos los elementos de R (i), y, por lo tanto, d (j) ≤ d (i). Análogamente, d (i) ≤ d (j) y, en consecuencia, d (i) = d (j). Un subconjunto C ⊂ E se dice irreducible si todos sus estados están intercomunicados. Si E es irreducible, la cadena se dice irreducible (y a su correspondiente matriz de transición se le llama también irreducible). Por nuestro resultado anterior, en una cadena irreducible todos los estados tienen igual período. Una cadena aperiódica es una que tiene todos sus estados aperiódicos; en tal caso, decimos también que su matriz es aperiódica. Como es de esperarse, una cadena irreducible que tiene todos sus estados persistentes positivos y aperiódicos se dice ergódica. Un subconjunto C ⊂ E se dice cerrado si pij = 0 para todos i ∈ C, j ∈ / C. Si juntamos nuestras dos proposiciones anteriores, tenemos el siguiente resultado, conocido como el Teorema de la Descomposición. Teorema 8.25. El conjunto E de estados de una cadena de Markov se puede particionar de manera única como E = T ∪ C1 ∪ C2 ∪ · · · en donde T es el conjunto de estados transitorios de la cadena, y C1 , C2 , . . . son conjuntos irreducibles y cerrados de estados persistentes. Demostración. De la Proposición 8.22, resulta E = T ∪ R, donde T es el conjunto de estados transitorios y R el de estados recurrentes. Sean C1 , C2 , . . . las clases de equivalencia (definidas de manera única) de la relación de intercomunicación cuyos estados son persistentes. Entonces R = C1 ∪ C2 ∪ · · · , por lo que sólo resta probar que cada Ck es cerrado. Supongamos que existen i ∈ Ck y j ∈ / Ck tales que pij > 0. No puede ser que j → i (pues i y j no están intercomunicados), así que P (X2 = i ∨ X3 = i ∨ . . . | X1 = j, X0 = i) ≤ = = ∞ X n=2 ∞ X n=2 ∞ X n=2 De allí, P (Xn = i | X1 = j, X0 = i) P (Xn = i | X1 = j) pji (n − 1) = 0 P (X2 6= i, X3 6= i, . . . | X1 = j, X0 = i) = 1 128 8. CADENAS DE MARKOV y entonces P (X1 = i ∨ X2 = i ∨ X3 = i ∨ . . . | X0 = i) = = 1 − P (X1 6= i, X2 6= i, X3 6= i, . . . | X0 = i) ≤ 1 − P (X1 = j, X2 6= i, X3 6= i, . . . | X0 = i) = 1 − P (X2 6= i, X3 6= i, . . . | X1 = j, X0 = i) P (X1 = j | X0 = i) = 1 − pij < 1 contradiciendo que el estado i es persistente. Observación 8.26. Aunque no lo haremos aquí, es posible probar que si i ↔ j y j es periódico de período finito d, entonces lı́mn→∞ pij (n) = d/Rj . Luego, un estado persistente j es nulo si, y sólo si, lı́mn→∞ pjj (n) = 0, y, si esto se cumple, entonces lı́mn→∞ pij (n) = 0 para todo i ∈ E. Usando el resultado de la observación anterior, queda de ejercicio probar que una cadena con cantidad finita de estados no tiene estados persistentes nulos. 0.6. Distribuciones estacionarias y comportamiento límite. Definición 8.27. Sea v un vector con índices P en E. Se dice que v es un vector de distribución si para todo i ∈ E, 0 ≤ vi ≤ 1 y i∈E vi = 1. Un vector de distribución v es una distribución estacionaria para una cadena de Markov si vP = v, donde P es la matriz de transición de la cadena. ¿Por qué se denomina estacionario a tal vector, si es que existe? Porque supongamos que µ(0) = v. Entonces, por el lema 8.11, tenemos que µ(1) = µ(0) P = vP = v µ(2) = µ(0) P 2 = (vP ) P = vP = v y, en general, µ(n) = v. Como vemos, en ese caso es lı́mn→∞ µ(n) = v, es decir que para cualquier j ∈ E tenemos lı́mn→∞ P (Xn = j) = vj . Hay cadenas que no admiten una distribución estacionaria, como es el caso de la del ejemplo 8.6 (ejercicio). Hay también cadenas que poseen más de una; por ejemplo si E = {i, j} con pii = pjj = 1 y pij = pji = 0, cualquier vector de distribución es una distribución estacionaria para la cadena. El siguiente resultado nos da una condición suficiente para que una cadena admita distribución estacionaria única, garantizando que µ(n) siempre converge a esa distribución (independientemente de la distribución inicial). Teorema 8.28. Sea {Xn }n∈N una cadena de Markov irreducible y aperiódica con matriz de transición P , con todos sus estados persistentes positivos. Para cada estado j, hagamos vj = 1/Rj , y consideremos v = (vj )j∈E . Entonces, v es la única distribución estacionaria que posee la cadena. Demostración. Sin pérdida de generalidad, y para simplificar notación, podemos suponer que E = N (y si E fuese finito, considerar pij = 0 si i ≥ |E| o j ≥ |E|). Por hipótesis, y de acuerdo a la observación 8.26, para cualquier j ∈ E, lı́mn→∞ pij (n) = vj , independientemente del estado i. Consideremos j arbitrario en E. Nótese que, para cualquier M ∈ E, M X j=0 vj = M X j=0 lı́m pij (n) = lı́m n→∞ n→∞ M X j=0 pij (n) ≤ lı́m n→∞ ∞ X j=0 pij (n) = 1 8. CADENAS DE MARKOV 129 P∞ así que j=0 vj ≤ 1. Por otra parte, para cualesquiera i, M ∈ E y n ≥ 0, pij (n + 1) = P∞ PM e=0 pie (n) pej ≥ e=0 pie (n) pej , de modo que vj = lı́m pij (n) = lı́m pij (n + 1) ≥ lı́m n→∞ n→∞ n→∞ M X pie (n) pej = e=0 M X pej lı́m pie (n) = n→∞ e=0 M X ve pej e=0 P∞ de donde vj ≥ e=0 ve pej , cualquiera sea j ∈ E. Para mostrar que esta desigualdad es en realidad una igualdad, supongamos que fuese estricta para algún j ∈ E. Tendríamos entonces ∞ ∞ ∞ ∞ ∞ X ∞ X X X X X ve pej = ve ve pej = vj > e=0 j=0 e=0 j=0 e=0 j=0 P lo cual es una contradicción.P Luego, cualquiera sea j ∈ E, es vj = ∞ e=0 ve pej . Si definimos el ∞ vector u mediante uj = vj / e=0 ve , vemos que se cumple P∞ ∞ ∞ X X vj vk pkj k=0 vk pkj P P P uj = ∞ = = = uk pkj = (uP )j ∞ ∞ e=0 ve e=0 ve e=0 ve k=0 k=0 y que ∞ X uj = j=0 ∞ X j=0 P∞ j=0 vj P∞ = P∞ =1 e=0 ve e=0 ve vj mostrando así que u es vector de distribución estacionaria, es decir, la cadena admite una distribución estacionaria. Ahora sea w cualquier distribución estacionaria vimos que esto implica P∞para la cadena.PYa M n que wP = w cualquiera sea n ≥ 1. Luego, wj = e=0 we pej (n) ≥ e=0 we pej (n) cualesquiera sean j, M ∈ E y n ≥ 1, y, por lo tanto, wj ≥ lı́m n→∞ para todo M , de donde M X we pej (n) = e=0 M X we lı́m pej (n) = n→∞ e=0 wj ≥ v j ∞ X M X wj = we pej (n) = wj ≤ lı́m n→∞ we pej (n) + M X we = v j e=M +1 e=0 we pej (n) + ∞ X we = e=M +1 we e=0 ∞ X e=0 e=0 así que M X M X e=0 e=0 Pero también, para cualquier n ≥ 1 y M ∈ E, ∞ X we vj = vj M X we pej (n) ≤ we vj + ∞ X M X we pej (n) + w e = vj we e=M +1 e=0 e=M +1 e=0 ∞ X M X e=0 we + ∞ X we e=M +1 cualquiera sea M ∈ E. Por lo tanto, haciendo tender M a ∞, y teniendo en cuenta que P ∞ e=0 we = 1, tenemos que wj ≤ vj lı́m M →∞ M X e=0 we + lı́m M →∞ M X we = v j e=0 Hemos probado entonces que wj = vj , es decir, que la cadena posee una única distribución estacionaria, que es v. Por lo tanto, para una cadena irreducible y aperiódica con estados persistentes positivos, la matriz Pn converge a una matriz cuyas filas son idénticas, e iguales al vector de distribución estacionaria. Esto proporciona un método para encontrar la distribución estacionaria en tales 130 8. CADENAS DE MARKOV cadenas: multiplicar por sí misma la matriz un número de veces suficientemente grande, y observar cualquiera de sus filas. 0.7. Una aplicación de cadenas de Markov. La página web de Google es famosa, entre otras cosas, por su motor de búsqueda de información en Internet. Al realizar allí una búsqueda mediante palabras clave, se devuelve una lista con una serie de sitios web que contienen las palabras clave, y resulta sorprendente la “inteligencia” en la enumeración: generalmente, las primeras páginas de la lista devuelta siempre son más relevantes que las otras, en relación al tópico buscado. Esto es porque los sitios web de Internet que Google reconoce están rankeados, y ese ranking es el que se utiliza para confeccionar el orden de las páginas devueltas como resultado de la búsqueda. Lo asombroso es que el ranking es elaborado automáticamente –sin intervención humana– por un software de Google en base a una cadena de Markov, como explicaremos a continuación. Aclaremos primero que Google lleva un registro de direcciones web que se actualiza periódicamente (a través de programas robot que tienen la misión de buscar automáticamente e incorporar páginas al registro, o a solicitud expresa del dueño de un sitio web). Las búsquedas ordenadas por un usuario se hacen en las páginas cuyas direcciones figuran en este registro, y no en todas las páginas web existentes. Digamos que el registro de Google posee las direcciones de N sitios (actualmente, N vale del orden de miles de millones). Google asocia entonces biyectivamente, a cada página web registrada en su base de datos, un número desde 1 hasta N , y se construye un grafo G con conjunto de vértices E = {0, 1, . . . , N } y aristas de acuerdo a lo siguiente: No hay aristas desde un nodo hacia ese mismo nodo. Hay una única arista desde 0 hasta cada i ∈ {1, . . . , N }. Hay una única arista desde cada i ∈ {1, . . . , N } hasta 0. Para i, j positivos y distintos, hay una única arista de i a j si, y sólo si, en la página web i hay algún enlace referenciando a la página web j. Como puede verse, en G hay a lo sumo una arista entre dos nodos. Para i ∈ E, se define S (i) como la cantidad de aristas que salen del vértice i en G. Es decir, S (i) es una unidad mayor que la cantidad de páginas web a las que puede accederse por enlace desde la página i, siendo, por definición de G, S (0) = N . Obsérvese que S (i) ≥ 1 para todo i ∈ E. A continuación, se selecciona un parámetro de amortiguamiento p entre 0 y 1 (por ejemplo, p = 0,75) y se define la matriz P con índices en E del siguiente modo: Para todo i ∈ E, Pii = 0. Para todo i ∈ {1, . . . , N }, P0i = 1/N . Para todo i ∈ {1, . . . , N }, 1 si S (i) = 1 Pi0 = 1 − p si S (i) > 1 Para todos i, j ∈ {1, . . . , N } con i 6= j, p si hay arista de i a j en G S(i)−1 Pij = 0 en caso contrario (Por supuesto, Google no necesita construir el grafo, sino sólo la matriz P en base a los enlaces entre las páginas.) La matriz P así definida es estocástica, y corresponde a una cadena de Markov irreducible y aperiódica (¿por qué?) que tiene todos sus estados persistentes positivos, de donde, por teorema 8.28, admite una única distribución estacionaria v. Google interpreta a vj como el ranking de la página j, ya que supone que, cuanto más relevante es la página, mayor es la cantidad de visitas a ella en un recorrido aleatorio largo por el grafo G (empezando en cualquier nodo y escogiendo cada arista en cada paso de acuerdo a su probabilidad), siendo la frecuencia de esas visitas medida por vj . 8. CADENAS DE MARKOV 131 Cabe destacar que la distribución estacionaria v no se encuentra resolviendo la ecuación vectorial vP = v (pues esto llevaría a un sistema de N × N , con N enorme) sino calculando P n para n suficientemente grande y observando su primera fila (teorema 8.28). Esto es, computacionalmente, mucho más rápido que resolver la ecuación. Además, la construcción de v no se efectúa cada vez que un usuario ordena una búsqueda, sino periódicamente, después de dar de alta a nuevas páginas en los registros y de actualizar la matriz P , de modo que el ranking ya está disponible cuando se ordena una búsqueda.