PROFESOR: LUIS E. NIETO BARAJAS 4. Principio de utilidad esperada máxima Los axiomas de coherencia son la base de una teoría bien fundamentada, la Teoría de decisión Bayesiana. IMPLICACIONES de los axiomas de coherencia. Para poder asimilar y acatar los axiomas de coherencia, es necesario introducir una notación formal: En general, toda opción di se puede escribir como todas sus posibles consecuencias dados los sucesos inciertos, es decir, { } d i = c ij E ij , j = 1,K, m i . Tanto las consecuencias como los sucesos inciertos pueden verse como casos particulares de opciones: Consecuencias: c ~ dc = {c Ω}, donde Ω es el evento seguro. { } Eventos inciertos: E ~ dE = c* E, c* E c , donde c* y c* son “la mejor” y “la peor” consecuencias. { } Eventos de referencia: R ~ dR = c* R , c* R c . CUANTIFICACIÓN DE LAS CONSECUENCIAS: Sabemos entonces que, { ~ d = {c } ∅}. c* ~ d∅= c* ∅, c* Ω c* Ω * Ω, c* Si R1 y R2 son dos regiones, R1 es más creíble que R2 si 30 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Área(R1) > Área(R2), por lo tanto, si { = {c } R } d R1 = c* R 1 , c* R 1c d R2 * R 2 , c* c 2 sucede que d R 2 < d R1 . Entonces, “graduando” R se tiene que para cualquier c tal que c*≤c≤c*, existe esa R tal que { } c ∼ dR = c * R , c * R c . Finalmente, una forma de cuantificar las consecuencias es tomando, u(c)=Área(R). Nota: u(c*)=0 y u(c*)=1. EJEMPLO 6: Utilidad del dinero. Supongamos que la peor y la mejor consecuencias al jugar un juego de azar son: c* = $0 (la peor) c* = $1,000 (la mejor) ¡Lotería! La idea es determinar una función de utilidad para cualquier consecuencia c tal que c*≤c≤c*. 31 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 1) Una primera opción es asignar una función lineal: u(c) 1 c 0 0 1,000 ¿Será cierto que entre más dinero se tenga más utilidad se produce en forma lineal? 2) Una segunda forma de asignar la utilidad es siguiendo el razonamiento sugerido por los axiomas: Sabemos que u(c*)=0 y u(c*)=1, se comparan las siguientes loterías: ¿Cuál prefieres? Ganar c* con probabilidad p o Ganar c* con probabilidad 1-p Ganar seguro c dc = {c Ω} { } dp = c * p, c * 1 − p ó Por el axioma 1, es posible determinar si dc<dp, dc~dp ó dc>dp. La idea es encontrar el valor de p que haga que dc~dp. En este caso, se satisface necesariamente que E{u(dc)}=E{u(dp)}, 32 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS pero como E{u(dc)}=u(c), porque c es una consecuencia segura y E{u(dp)} = u(c*)p + u(c*) (1-p) = (1)p + (0)(1-p) = p. Por lo tanto, u(c) = p. Finalmente se aplica este mismo procedimiento a cada una de las consecuencias, digamos, c*<c1<c2<c3<c4<c*. Si el número de consecuencias es muy grande o incluso infinito la función de utilidad se puede aproximar por un modelo obteniéndose la siguiente forma, u(c) 1 Aversión al riesgo c 0 0 1,000 ¡Entre más dinero se tiene el incremento en utilidad es menor! 33 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS CUANTIFICACIÓN DE LOS EVENTOS INCIERTOS: Siguiendo la misma idea, si { } dE = c * E , c * E c , existe un evento de referencia R tal que { } dE ~ dR = c * R , c * R c , de manera que E es igualmente creíble que R. Como la credibilidad de R se mide con su área, la credibilidad de E también, es decir, P(E) = Área(R). EJEMPLO 7: ¿Cómo asignar una probabilidad al evento A?. Se consideran las siguientes loterías: ¿Cuál prefieres? Ganar c* con probabilidad p o Ganar c* con probabilidad 1-p Ganar c* si ocurre A o Ganar c* si no ocurre A { dA = c * A , c * A c } ó { } dp = c * p, c * 1 − p Por el axioma 1, es posible determinar si dA<dp, dA~dp ó dA>dp. La idea es encontrar el valor de p que haga que dA~dp. En este caso, se satisface necesariamente que E{u(dA)}=E{u(dp)}, pero como E{u(dA)} = u(c*)P(A) + u(c*)P(Ac) = (1)P(A) + (0)P(Ac) 34 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS = P(A) y E{u(dp)} = u(c*)p + u(c*) (1-p) = (1)p + (0)(1-p) =p Por lo tanto, P(A) = p. Finalmente se aplica este mismo procedimiento a cada una de los eventos inciertos, digamos, E1,E2,...,Ek. Si el número de eventos inciertos es muy grande o incluso infinito la función de probabilidad se puede aproximar por un modelo (discreto o continuo) obteniéndose la siguiente forma, P(θ) Modelo continuo Si Eθ={θ} ⇒ E={θ | θ∈[a,b]} θ a b 35 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS DERIVACIÓN DE LA UTILIDAD ESPERADA: Recordemos que en general cualquier opción d se puede escribir como d = {c1 E1 ,c 2 E 2 ,K, c k E k } {{ ∼ {c } ∼ c* R 1 , c* R 1c E1 , c 2 E 2 ,K, c k E k M * } R 1 ∩ E1 , c* R 1c ∩ E1 , c 2 E 2 ,K, c k E k { ∼ c* B, c* B c } } donde, B = (R 1 ∩ E1 ) ∪ (R 2 ∩ E 2 ) ∪ L ∪ (R k ∩ E k ) . Si d1 y d2 son dos opciones, entonces existen B1 y B2 tales que { ∼ {c } B } d1 ∼ c* B1 , c* B1c d2 * B 2 , c* c 2 por lo tanto, d1 < d2 solo si B2 es más probable que B1. Finalmente, B2 es más probable que B1 solo si ∑ u (c1i )P(E i ) < ∑ u (c 2i )P(E i ) , es decir, E{u (d1 )} < E{u (d 2 )}. ⇓ Principio de la Utilidad Esperada Máxima 36 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS PRINCIPIO DE UTILIDAD ESPERADA MÁXIMA (criterio de decisión Bayesiano). Consideres el problema de decisión definido por D = {d1,...,dk} donde, di = {cij | Eij, j=1,...,mi}. Sea P(Eij) la probabilidad de que suceda Eij y sea u(cij) la utilidad de la consecuencia di que la ocurrencia de Eij da lugar. Entonces, la utilidad esperada de la decisión di es mi E{u (d i )} = ∑ u (c ij )P(E ij ) j=1 y la decisión óptima es aquella que maximiza la utilidad esperada de todas las opciones posibles en D. RESUMIENDO: Si se aceptan los axiomas de coherencia, necesariamente se debe proceder de la siguiente manera: 1) Asignar la utilidad u(c) para toda c en C. 2) Asignar la probabilidad P(E) para toda E en E. 3) Elegir la opción (óptima) que maximiza la utilidad esperada. Se ha considerado el caso de un problema de decisión discreto y finito, i.e., D = {d1,...,dk} y E = {E1,...,Em}. ¿Qué pasa si D tiene un número infinito de opciones? Tendríamos que: 1) Encontrar la expresión de E{u (d )} = g(d ) (como función de d) y 37 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 2) Maximizar g(d) sobre el espacio D. ¿Qué pasaría si E tiene un número infinito de elementos? Por ejemplo, si E = {θ | θ∈[a,b]}, y un elemento es de la forma Eθ={θ} para cada θ∈[a,b]. En este caso, b 1) E{u (d )} = ∫ u (d, θ)f (θ)dθ (Caso continuo) a 2) Maximizar E{u(d)} sobre el espacio D. En la práctica resulta a veces más natural medir la utilidad en unidades de tiempo, dinero, años de vida, número de clientes, etc. Si en lugar de utilizar la función de utilidad u(c), se utiliza una transformación lineal de ella, digamos, u ' (c) = au (c) + b donde a y b son constantes. Entonces, la nueva utilidad esperada sería E{u ' (d )} = ∑ u ' (c )P(E) = ∑ {au (c) + b}P(E ) = ∑ au (c)P(E) + ∑ bP(E) = a ∑ u (c)P(E) + b = aE{u (d )} + b Si a > 0 (positiva): Maximizar E{u ' (d )} es equivalente a Maximizar E{u (d )} Por lo tanto, u ' (c ) es otra función de utilidad equivalente a u(c) (medida en unidades diferentes). 38 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Si a < 0 (negativa): Minimizar E{u ' (d )} es equivalente a Maximizar E{u (d )} ⇒ u ' (c ) no es una función de utilidad, pero puede interpretarse como una función de pérdida. Por lo tanto, u ' (c ) es una función de pérdida equivalente a la función de utilidad u(c). 39 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 5. Información inicial Como ya se vio anteriormente, es necesario cuantificar los sucesos inciertos pertenecientes al espacio E. A la cuantificación (inicial) de los eventos inciertos se le conoce como información inicial. Una forma de realizar la cuantificación es siguiendo un procedimiento coherente dado por los axiomas mediante la comparación de opciones equivalentes y el uso de “loterías”. Otra forma de realizar la cuantificación de los eventos inciertos es asignando una distribución de probabilidades directamente sobre los eventos, de tal manera que refleje nuestro conocimiento inicial. Consideremos el caso más sencillo: Supongamos que el espacio de eventos E es un conjunto discreto (posiblemente infinito), es decir, E = {E1,...,Em}. Sea θ una cantidad aleatoria que toma valores θ=1,2,..., de tal manera que P(Ei) = P(θ=i). Entonces, en lugar de asignar una probabilidad directamente sobre E, resulta más sencillo asignar una probabilidad sobre θ. La distribución de θ describe entonces la información sobre el valor de θ que inicialmente se posee. Esta distribución recibe el nombre de distribución inicial de θ. 40 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Como θ es una cantidad aleatoria discreta, su distribución de probabilidad puede ser descrita mediante su función de densidad fθ(i) = P(θ=i) = pi, i=1,2,... Las probabilidades pi pueden ser determinadas mediante relaciones entre ellas dadas por el decisor. EJEMPLO 8: Diagnóstico. Las consecuencias de un determinado tratamiento dependen de la enfermedad del paciente. Se considera que existen 5 enfermedades θ1, θ2, θ3, θ4 y θ5 compatibles con los síntomas observados. ¿Qué enfermedad tendrá? Los médicos expertos determinan que existen las siguientes relaciones entre ellas P(θ1 U θ 2 ) = P(θ3 U θ 4 U θ5 ) , P(θ 2 ) = P(θ 4 ) = 4P(θ3 ) y creen muy remota la posibilidad de que se trate de la enfermedad θ5. Determinar la correspondiente distribución inicial. 41 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Sean pi = P(θi), i=1,2,...,5. Con la información inicial dada por los médicos construimos el siguiente sistema: p1 + p 2 = p 3 + p 4 + p 5 1 0 p2 = p4 ⇔ p 4 = 4p 3 0 p1 + p 2 + p 3 + p 4 + p 5 = 1 1 p1 − 1 − 1 − 1 0 p 2 1 0 − 1 0 0 p3 = 0 −4 1 0 0 p 4 1 1 1 1 1 p5 1 El sistema anterior es un sistema de 4 ecuaciones con 5 incógnitas por lo que existirán múltiples soluciones. Para poder resolver el sistema de una forma más sencilla, sea p5 = δ un número pequeño pero mayor a cero. Tomando a δ como una cantidad conocida, el sistema queda de la siguiente forma: − 1 − 1 p1 δ 0 − 1 p 2 0 = 0 − 4 1 p 3 0 1 1 1 p 4 1 − δ 1 0 0 1 1 1 con 4 ecuaciones y 4 incógnitas. Por lo tanto la solución “única” a este nuevo sistema (en términos de δ) es p1 = 1 (1 + 8δ) , p 2 = p 4 = 4 (1 − 2δ) , p 3 = 1 (1 − 2δ) . 10 10 10 En particular, si se juzga 20 veces más probable que θ5 no sea la causa de la dolencia a que sí lo sea, tendríamos (1 − δ) = 20 ⇔ δ δ = 0.048 Por lo tanto, 42 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS P(θ = θ1 ) = 0.138 , P(θ = θ 2 ) = 0.362 , P(θ = θ3 ) = 0.090 , P(θ = θ 4 ) = 0.362 , P(θ = θ5 ) = 0.048 . Obsérvese que δ puede ser tan pequeño como se quiera, pero debe de ser mayor que cero a menos que pueda garantizarse que la enfermedad θ5 es prácticamente imposible que sea la causa de dichos síntomas. Si el número de elementos de E es grande o incluso infinito, una forma de hacer la cuantificación es siguiendo el procedimiento dado por los axiomas para ciertos elementos de E y encontrar la cuantificación de los demás elementos ajustando un modelo continuo. Otra posibilidad para realizar la cuantificación de E (o de θ) es empezar directamente con un modelo, averiguando primero algunas características cualitativas de la información que posee el “tomador de decisiones”. Por ejemplo, se le puede preguntar: ¿Tu crees que el modelo tiene una sola moda? ¿Tu crees que el modelo es simétrico con respecto a esa moda? Si la respuesta es afirmativa en ambas preguntas, se podría usar un modelo de la forma 43 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS ¡Normal! Normal Distribution 0.4 Mean,Std. dev. 0,1 density 0.3 0.2 0.1 θ 0 -5 -3 -1 1 3 5 x Considerando algunas propiedades del modelo propuesto, y con la ayuda del tomador de decisiones se puede especificar el modelo de manera completa. Por ejemplo, en el caso de la Normal se sabe que ¡Distribución Normal! Normal Distribution 0.4 Mean,Std. dev. 0,1 density 0.3 95% N(µ,σ2) 0.2 0.1 0 -5 -3 -1 1 µx µ-2σ 3 5 µ+2σ µ ¿Dónde está la moda? ¿Entre qué valores crees que se encuentre aproximadamente el 95% de probabilidad? σ 44 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS EJEMPLO 9: Cantidad de tirosina. Las consecuencias de un determinado medicamento pueden determinarse a partir de la cantidad de tirosina contenida en la orina. La información inicial sobre la cantidad de tirosina θ contenida en la orina de una determinada paciente puede describirse de tal manera que se encuentre alrededor de 39mg./24hrs. y que el porcentaje de veces que la cantidad de tirosina exceda 49mg./24hrs. sea de 25%. Determinar la correspondiente distribución inicial. ¿Me das una muestra de orina? ¿Cuánta tirosina tendrá? De acuerdo con la información proporcionada, se puede concluir que una distribución normal modela adecuadamente el comportamiento inicial, entonces ( ) θ ∼ N µ, σ 2 , donde µ=E(θ)=media y σ2=Var(θ)=varianza. Además µ=39 Cantidad de tirosina (θ) alrededor de 39 σ=14.81 P(θ > 49) = 0.25 45 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS ¿Cómo? 49 − 39 P(θ > 49 ) = P Z > = 0.25 σ ⇒ Z 0.25 = ⇔ σ= 49 − 39 , como Z0.25 = 0.675 (valor de tablas) σ 10 0.675 Por lo tanto, θ ∼ N(39, 219.47). Una vez determinada la distribución inicial deben calcularse algunas probabilidades a partir de ella. Esto por dos razones: 1) Permite comprobar si las probabilidades calculadas son consistentes con nuestra información inicial y 2) Si la familia elegida permite una buena descripción de la información inicial. EJEMPLO 9: Cantidad de tirosina (continuación...). El tomador de decisiones opina que es muy poco probable que la cantidad de tirosina sea menor a 10mg./24hr. Verificar que la distribución inicial es consistente con esta afirmación. 10 − 39 P(θ < 10 ) = P Z < = P(Z < −1.95) = P(Z > 1.95) = 0.0256 , 14.81 lo cual es consistente con la afirmación. 46 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 6. Teorema de Bayes (El proceso de aprendizaje) 6.1. Conceptos básicos de probabilidad Sean A y B dos eventos de un mismo espacio muestral Ω, entonces PROBABILIDAD CONDICIONAL: P(A B) = P(A I B) , si P(B) ≠ 0 P(B) ⇒ P(A I B) = P(A B)P(B) Por otro lado, P(B A ) = P(B I A ) , si P(A ) ≠ 0 P(A ) ⇒ P(B I A ) = P(B A )P(A ) Como P(A I B) = P(B I A ) entonces, P(A B)P(B) = P(B A )P(A ) , por lo tanto, P(A B) = P(B A )P(A ) P(B) 47 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS INDEPENDENCIA: A y B son independientes si, P(A B) = P(A ) ó P(B A ) = P(B) es decir, ⇔ P(A I B) P(B I A ) = P(A ) ó = P(B) P(B) P(A ) por lo tanto, A y B son independientes si P(A I B) = P(A )P(B) ¡La ocurrencia de B no afecta la ocurrencia o la no ocurrencia de A! ó ¡La ocurrencia de A no afecta la ocurrencia o la no ocurrencia de B! 6.2. El proceso de aprendizaje La reacción natural de cualquiera que tenga que tomar una decisión cuyas consecuencias dependen de la ocurrencia de eventos inciertos (E ó θ), es intentar reducir su incertidumbre obteniendo más información sobre E ó θ. 48 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS LO IDEAL sería recolectar o adquirir información que elimine por completo la incertidumbre, pero eso es muy caro o imposible de obtener. LA IDEA es entonces recolectar información que reduzca la incertidumbre de los eventos inciertos, o equivalentemente, que mejore el conocimiento que se tiene sobre E. Esta información generalmente se trata de muestras producto de encuestas, estudios previos, experimentos, etc. El problema central de la inferencia estadística es el de proporcionar una metodología que permita asimilar la información accesible con el objeto de mejorar nuestro conocimiento inicial. Sea Z la información adicional que de alguna manera se pudo obtener sobre el evento E. ¿Cómo utilizar Z para mejorar el conocimiento sobre E? Recordemos que la información que inicialmente se tiene sobre E se representa mediante una probabilidad P(E), el objetivo es derivar la probabilidad de ocurrencia del mismo evento E dada la información disponible Z, i.e., P(E ) ¿? P(E Z) 49 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS LA FORMA de hacerlo es la siguiente: E: evento incierto Z: información adicional P(E Z ) = P(Z E ) P(E ) P (Z ) P(E): probabilidad inicial de E P(Z | E): verosimilitud P(Z): probabilidad marginal de Z P(E | Z): probabilidad final de E Alternativamente, la probabilidad final de E se puede escribir como P(E Z) ∝ P(Z | E )P(E ) P(Z) es llamada constante de proporcionalidad!. En general, se tiene más de un suceso incierto sobre el cuál se quiere mejorar su conocimiento, esto nos da pie al siguiente teorema. TEOREMA DE BAYES: Sean E1,...,Ek una partición finita (eventos ajenos y exhaustivos) del espacio Ω y sea Z información adicional sobre cada uno de los Ei, i=1,...,k. Entonces, P(E i Z ) = P(Z E i )P(E i ) , P (Z ) i =1,2,...,k. Como 50 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS k k ∑ P(Z E i )P(E i ) i =1 P (Z ) 1 = ∑ P(E i Z) = i =1 , entonces k P(Z ) = ∑ P(Z E i )P(E i ) . i =1 Finalmente, P(E i Z ) = P(Z E i )P(E i ) ∑ P(Z E j )P(E j ) k , i=1,2,...,k. j=1 ¿Para qué nos sirve reducir la incertidumbre de los eventos inciertos? Consideremos el siguiente problema de decisión: E11 c11 E12 c12 E21 c21 E22 c22 E31 c31 E32 c32 d1 d2 d3 51 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Se cuenta con lo siguiente: P(E ij ) : cuantificación inicial de los eventos inciertos u (c ij ) : cuantificación de las consecuencias Z: información adicional sobre los eventos inciertos Teo. Bayes P(E Z) P(E ) Se tienen dos situaciones: 1) Situación inicial (a-priori): P(E ij ) , u (c ij ) , ∑ u (cij )P(E ij ) j 2) Situación final (a-posteriori): P(E ij Z ) , u (c ij ) , ∑ u (cij )P(E ij Z) j Utilidad esperada inicial Utilidad esperada final ¿Qué pasa si de alguna manera se obtiene aún más información adicional acerca del evento E?. Se obtiene Z1 (información adicional acerca de E) y posteriormente se obtiene Z2 (también información adicional acerca de E). Existen dos caminos para actualizar la información que se tiene sobre E: 1) Actualización secuencial: Se cuenta con un conocimiento inicial P(E); usando Z1, actualizar el conocimiento para obtener P(E|Z1). Posteriormente, usar P(E|Z1) como conocimiento inicial y utilizar Z2 para obtener P(E|Z1,Z2). En otras palabras, 52 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS P(E Z1 ) P(E ) P(E Z1 , Z 2 ) Z1 Z2 ¿Cómo se hace? Paso 1: P(E Z1 ) = P(Z1 E )P(E ) , P(Z1 ) Paso 2: P(E Z1 , Z 2 ) = P(Z 2 Z1 , E )P(E Z1 ) . P(Z 2 Z1 ) 2) Actualización simultánea: Se cuenta con un conocimiento inicial P(E); usando Z1 y Z2 actualizar el conocimiento (simultáneamente) para obtener P(E | Z1,Z2). En otras palabras, P(E ) Z1,Z2 P(E Z1 , Z 2 ) ¿Cómo se hace? Paso único: P(E Z1 , Z 2 ) = P(Z1 , Z 2 E )P(E ) . P(Z1 , Z 2 ) ¿Serán equivalentes ambas formas de actualización? P(E Z1 , Z 2 ) = P(Z 2 Z1 , E )P(E Z1 ) P(Z 2 Z1 ) 53 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS P(Z1 , Z 2 , E ) P(Z1 , E ) P(Z1 , E ) P(Z1 ) = P(Z1 , Z 2 ) P(Z1 ) = P(Z1 , Z 2 , E ) P(Z1 , Z 2 ) = P(Z1 , Z 2 E )P(E ) P(Z1 , Z 2 ) ∴ ¡Ambas formas de actualización son equivalentes! EJEMPLO 10: Un paciente va al médico con algún padecimiento y quiere que el médico le de un diagnóstico. Muy Frec. Rel. Frec. Poco Frec. Supongamos que la enfermedad del paciente cae en alguna de las siguientes tres categorías: E1 = enfermedad muy frecuente E2 = enfermedad relativamente frecuente E3 = enfermedad poco frecuente 54 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS El médico sabe por experiencia que P(E1)=0.6, P(E2)=0.3, P(E3)=0.1 (probabilidades iniciales) El médico observa y obtiene información adicional (Z = síntomas) acerca de la posible enfermedad del paciente. De acuerdo con los síntomas el doctor dictamina que P(Z | E1)=0.2, P(Z | E2)=0.6, P(Z | E3)=0.6 (verosimilitud) Combinando la información inicial con la verosimilitud mediante el Teorema de Bayes se obtiene ( ) P(Z ) = ∑ P Z E j P(E j ) = (0.2)(0.6) + (0.6)(0.3) + (0.6)(0.1) = 0.36 3 j=1 P(E1 Z ) = (0.2)(0.6) = 0.33 0.36 P(E 2 Z) = (0.6)(0.3) = 0.5 0.36 P(E 3 Z ) = (0.6)(0.1) = 0.17 0.36 (probabilidades finales) Por lo tanto, es más probable que el paciente tenga una enfermedad relativamente frecuente (E2). EJEMPLO 11. Juan (mexicano) se propone viajar a Caracas, donde espera entrevistarse con el Sr. Fernández, un hombre de negocios radicado en esa ciudad, para proponerle la compra de Tequila mexicano. Si consigue su objetivo ganará una comisión de $40,000. Ahora bien, Juan considera que existe una probabilidad de 0.5 de que el Sr. Fernández tenga que salir de Caracas en el último momento y por tal razón no sea posible realizar la venta. Aún en el caso de que se produzca la entrevista, Juan considera que 55 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS la probabilidad de efectuar la venta es de 0.4. El viaje le costaría $8,000 independientemente de que pueda realizar la entrevista. a) ¿Es conveniente que Juan viaje a Caracas? b) Un servicio de información secreta ofrece sus servicios a Juan. Le ofrece informarle si el Sr. Fernández estará en Caracas antes de que Juan emprenda el viaje. El registro de aciertos de esta compañía indica que si la persona está en Caracas, lo encuentran el 80% de las veces; por otro lado si la persona no está en Caracas, aciertan el 90% de las veces. Si el servicio de información secreta cuesta $100, ¿le conviene a Juan contratar el servicio?. ¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández no va a estar?. Resolvamos primero el inciso (a): o D = {d1,d2} donde, d1 = viajar d2 = no viajar 56 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS o E = {NE, SE, NV, SV} donde, NE = no está SE = sí está NV = no realizar la venta SV = sí realizar la venta La cuantificación de la verosimilitud de cada unos de estos sucesos inciertos es P(NE) = 0.5 P(SE) = 0.5 ¿P(NV) = 0.6? ó ¿P(NV | SE) = 0.6? ¿P(SV) = 0.4 ? ó ¿P(SV | SE) = 0.4? o C = {c1, c2, c3, c4} donde, c1 = c(d1,NE) = -8000 c2 = c(d1,SE,NV) = -8000 c3 = c(d1,SE,SV) = 40000-8000=32000 c4 = c(d2) = 0 Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij P(NE)=0.5 -$8000 NE P(NV|SE)=0.6 d1 P(SE)=0.5 NV P(SV|SE)=0.4 SE SV d2 -$8000 $32000 P(Ω)=1 $0 57 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 1) Optimista: d1 (viajar) 2) Pesimista: d2 (no viajar) 3) Consecuencia más probable: d2 (no viajar) 4) Utilidad esperada: d1 ó d2 (son equivalentes) Las utilidades esperadas son: E{u (d 1 )} = −8000(0.5) − 8000(0.5)(0.6) + 32000(0.5)(0.4) = 0 E{u (d 2 )} = 0(1) = 0 ¡Le da “igual” si viaja o no viaja!. Resolvamos ahora el inciso (b): o D = {d1,d2,a1,a2} donde, d1 = viajar d2 = no viajar a1 = contratar el servicio secreto a2 = no contratar el servicio secreto o E = {NE, SE, NV, SV, DN, DS} donde, NE = no está SE = sí está NV = no realizar la venta SV = sí realizar la venta DN = que el servicio diga que no está DS = que el servicio diga que sí está La cuantificación de la verosimilitud de cada unos de estos sucesos inciertos se vuelve un poco más complicada, veamos: 58 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Necesitamos, Rama 1: P(DN), P(NE|DN), P(SE|DN), P(NV|SE,DN), P(SV|SE,DN). Rama 2: P(DS), P(NE|DS), P(SE|DS), P(NV|SE,DS), P(SV|SE,DS). Rama 3: P(NE), P(SE), P(NV|SE), P(SV|SE). La información inicial proporcionada por Juan es, P(NE) = 0.5, P(SE) = 0.5, P(NV | SE) = 0.6, P(SV | SE) = 0.4 y P(DS | SE) = 0.8, P(DN | NE) = 0.9 Las probabilidades de la Rama 3 son las mismas que las que se obtuvieron para el árbol anterior. Para calcular las probabilidades de las otras dos Ramas se usan reglas de probabilidad condicional obteniéndose, P(SE ) = 1 − P(NE ) = 1 − 0.5 = 0.5 P(DN ) = P(DN NE )P(NE ) + P(DN SE )P(SE ) = (0.9 )(0.5) + (0.2 )(0.5) = 0.55 P(DS) = 1 − P(DN ) = 1 − 0.55 = 0.45 Rama 1: P(NE DN ) = P(DN NE )P(NE ) P(DN ) = (0.9)(0.5) = 0.818 0.55 P(SE DN ) = 1 − P(NE DN ) = 1 − 0.818 = 0.182 P(NV SE, DN ) = P(NV SE ) = 0.6 P(SV SE, DN ) = P(SV SE ) = 0.4 Rama 2: P(NE DS) = P(DS NE )P(NE ) P(DS) = (0.1)(0.5) = 0.112 0.45 59 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS P(SE DS) = 1 − P(NE DS) = 1 − 0.112 = 0.888 P(NV SE, DS) = P(NV SE ) = 0.6 P(SV SE, DS) = P(SV SE ) = 0.4 o C = {c1, c2, c3, c4, c5, c6, c7, c8, c9, c10, c11, c12} donde, c1 = c(a1,DN,d1,NE) = -8000 –100 = -8100 c2 = c(a1,DN,d1,SE,NV) = -8000 –100 = -8100 c3 = c(a1,DN,d1,SE,SV) = 40000 –8000 –100 = 31900 c4 = c(a1,DN,d2) = -100 c5 = c(a1,DS,d1,NE) = -8000 –100 = -8100 c6 = c(a1,DS,d1,SE,NV) = -8000 –100 = -8100 c7 = c(a1,DS,d1,SE,SV) = 40000 –8000 –100 = 31900 c8 = c(a1,DS,d2) = -100 c9 = c(a2,d1,NE) = -8000 c10 = c(a2,d1,SE,NV) = -8000 c11 = c(a2,d1,SE,SV) = 40000 –8000 =32000 c12 = c(a2,d2) = 0 Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij. La solución al problema de acuerdo con cada uno de los criterios es: 1) Optimista: a2 y d1 (no contratar el servicio y viajar) 2) Pesimista: a2 y d2 (no contratar el servicio y no viajar) 3) Consecuencia más probable: a2 y d2 (no contratar el servicio y no viajar) 4) Utilidad esperada: d1 (viajar) 60 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Las utilidades esperadas son: Si contrata el servicio y dice que no va a estar: d2 E{u (a 1 , DN, d 1 )} = −8100(0.818) − 8100(0.182)(0.6) + 31900(0.182)(0.4) = −5188 E{u (a 1 , DN, d 2 )} = −100(1) = −100 ¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández no va a estar?. R = d2 (no viajar). Si contrata el servicio y dice que sí va a estar: d1 E{u (a 1 , DS, d 1 )} = −8100(0.112) − 8100(0.888)(0.6) + 31900(0.888)(0.4) = 6108 E{u (a 1 , DS, d 2 )} = −100(1) = −100 ¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández sí va a estar?. R = d1 (viajar). Si no contrata el servicio: d1 ó d2 E{u (a 2 , d 1 )} = −8000(0.5) − 8000(0.5)(0.6) + 32000(0.5)(0.4) = 0 E{u (a 2 , d 2 )} = 0(1) = 0 Finalmente, E{u (a 1 )} = −100(0.55) + 6188(0.45) = 2693.6 E{u (a 2 )} = 0(1) = 0 ¿le conviene a Juan contratar el servicio? R = a1 (sí contrata). 61 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Árbol de decisión NE -$8100 P(NE|DN)=0.818 NV SE d1 -$8100 P(NV|SE,DN)=0.6 P(SE|DN)=0.182 DN SV $31900 P(SV|SE,DN)=0.4 P(DN)=0.55 d2 -$100 P(Ω)=1 NE P(NE|DS)=0.112 a1 P(SE|DS)=0.888 DS NV P(NV|SE,DS)=0.6 SE d1 -$8100 SV P(SV|SE,DS)=0.4 -$8100 $31900 P(DS)=0.45 d2 -$100 P(Ω)=1 NE P(NE)=0.5 a2 SE d1 P(SE)=0.5 -$8000 NV P(NV|SE)=0.6 SV P(SV|SE)=0.4 P(Ω)=1 62 Módulo 3: Estadística Bayesiana -$8000 $32000 $0