Análisis del juego televisivo “¿QUIÉN QUIERE SER MILLONARIO?”r Justo Puerto* Federico Perea MaMaEuSch** Management Mathematics for European Schools 94342 - CP - 1 - 2001 - DE - COMENIUS - C21 * Universidad de Sevilla Este proyecto ha sido desarrollado con ayuda parcial de la Unión Europea dentro del marco del programa Sócrates. El contenido no refleja necesariamente la posición de la Unión Europea ni implica ninguna responsabilidad por parte de la Unión Europea. ** 0 1. Introducción Este trabajo versa sobre el popular juego televisivo “¿Quién quiere ser millonario?”r . Formularemos un modelo matemático del juego y encontraremos la estrategia óptima de un participante del juego. Cuando se escribió este trabajo habı́a 45 versiones del programa en 71 paı́ses. En más de 100 paı́ses, diferentes cadenas de televisión habı́an comprado la licencia y emitirı́an el programa antes o después. “¿Quién quiere ser millonario?”r debutó en el Reino Unido en Septiembre de 1998 y tuvo un gran éxito. Después se extendió por todo el mundo, llegando a España en el verano del año 2000, donde fue emitido por la cadena de televisión Telecinco. Aunque las reglas del juego son similares en todos los paı́ses, en este trabajo nos referiremos a las reglas seguidas en la versión española del juego. Se elige a un candidato de entre 10, y éste tiene la oportunidad de ganar un premio de 50 millones de pesetas (en adelante las cifras serán dadas en Euros). Para alcanzar dicha cantidad debe responder correctamente a 15 preguntas de respuesta múltiple seguidas. El concursante puede abandonar el juego y mantener sus ganancias. En cada etapa le proponen una pregunta y cuatro posibles respuestas antes de decidir si juega o no. Una vez que ha decidido seguir jugando, tiene que responder correctamente a dicha pregunta para poder seguir en el juego. Cada pregunta tiene un cierto valor monetario, dados en la siguiente tabla en Euros. El dinero que el concursante puede ganar si contesta correctamente a cada una de las preguntas viene dado en la tabla 1. Hay tres estados (“puntos de seguridad”) donde el dinero se acumula y no se puede perder aunque el concursante responda incorrectamente a una de las preguntas. Esas tres cantidades de seguridad son: 1800, 18000 y 300000 Euros. No hay tiempo lı́mite para responder a una pregunta. Si el tiempo se agota con un jugador concreto, el siguiente programa continuará con el mismo jugador. En cualquier momento el concursante puede usar uno o más “comodines”. Estos son: Opción del 50 %: la computadora elimina dos de las cuatro posibles respuestas, dejando sólo la correcta y una de las incorrectas. Teléfono: el concursante puede consultar la pregunta por teléfono a un amigo o familiar, con un tiempo máximo de llamada de 30 segundos. Público: cada miembro del público tiene la opción de elegir la respuesta que considere correcta presionando un botón en su asiento. Los resultados de las elecciones del público se muestran al concursante en porcentajes. 1 pregunta no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 valor monetario 150 300 450 900 1800 2100 2700 3600 4500 9000 18000 36000 72000 144000 300000 Cuadro 1: Recompensas inmediatas En adelante nos referiremos a esos comodines como: comodı́n 1 para el “50 %”, comodı́n 2 para el “Teléfono”, comodı́n 3 para el “Público”. Cada concursante puede usar cada comodı́n sólo una vez durante el juego completo. El principal objetivo de este trabajo es mostrar como un problema real de toma de decisión “difı́cil” puede ser modelado y resuelto “fácilmente” mediante herramientas básicas de la Investigación Operativa, en nuestro caso mediante Programación Dinámica Discreta. Este objetivo se alcanzará después de tres fases: 1. modelado, 2. formulación matemática, 3. simulación del proceso real. 2 En la fase de modelado identificamos los elementos que describen el problema y los asociamos con elementos matemáticos. En la fase de formulación proponemos una descripción del problema como un proceso de decisión Markoviano, resuelto mediante programación matemática discreta. Se presentarán dos modelos que guiarán a los jugadores a encontrar estrategias óptimas que maximicen su ganancia esperada, modelo llamado estrategia de máxima esperanza, y estrategias óptimas que maximicen la probabilidad de alcanzar una cantidad de dinero fijada, estrategia llamada estrategia de máxima probabilidad. Al hacer esto estableceremos dos modelos matemáticos del juego, y encontraremos estrategias óptimas para un concursante cualquiera. Esto se consigue mediante la descripción matemática del juego como un proceso de decisión Markoviano discreto y su resolución mediante programación matemática discreta. El resto del trabajo se organiza de la siguiente forma: la segunda sección está dedicada a mostrar el modelo matemático general (estados, posibles acciones, recompensas, función de transición, probabilidades de contestar correctamente y sus estimaciones). En la tercera sección presentamos la descripción del primer modelo (estrategia de máxima esperanza). También en esta sección se presenta el caso en el que queremos maximizar la probabilidad de ganar una cierta cantidad de dinero (estrategia de máxima probabilidad), comenzando en un estado de partida. Después de esto, presentamos simulaciones de cómo jugar a este juego de forma dinámica. 2. El modelo general El juego real requiere que el participante tome decisiones cada vez que contesta a una pregunta correctamente. El horizonte es finito, es decir, tenemos N = 16 posibles estados, donde el 16o estado corresponde a la situación después de contestar correctamente la pregunta número 15. Para tomar una decisión, el concursante tiene que conocer el número de la pregunta en la que está y el número de comodines que ha usado hasta ese momento. La historia del juego se resume con esa información. Definimos S como el conjunto de vectores de estado s = (k, l1 , l2 , l3 ), donde k es el ı́ndice de la pregunta en la que nos encontramos y ( 1 si el comodı́n i no ha sido utilizado, li = 0 si el comodı́n i ha sido utilizado en una pregunta anterior. En cualquier estado s ∈ S siendo A(s) el conjunto de posibles acciones en ese estado. Si suponemos que estamos en el estado s = (k, l1 , l2 , l3 ), A(s) dependerá del ı́ndice de la pregunta en la que estemos y de los comodines que nos queden por usar. Si k = 16 el juego se ha terminado y no hay posibles acciones. Si k ≤ 15, el concursante tiene varias posibilidades: 3 r0 r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11 r12 r13 r14 r15 r0∗ r1∗ r2∗ r3∗ r4∗ r5∗ r6∗ r7∗ r8∗ r9∗ ∗ r10 ∗ r11 ∗ r12 ∗ r13 ∗ r14 ∗ r15 0 150 300 450 900 1800 2100 2700 3600 4500 9000 18000 36000 72000 144000 300000 0 0 0 0 0 1800 1800 1800 1800 1800 9000 9000 9000 9000 9000 300000 Cuadro 2: Recompensas inmediatas y dinero asegurado Responder a la pregunta sin usar comodines. Responder a la pregunta utilizando uno o más comodines, si le queda alguno. En ese caso, el concursante debe especificar el comodı́n que va a usar. Plantarse y abandonar el juego Si el jugador decide no contestar, la recompensa inmediata que recibe es el valor monetario de la última pregunta contestada. Si decide contestar, la recompensa inmediata es una variable aleatoria y depende de la probabilidad de contestar correctamente. Si al responder lo hace incorrectamente, la recompensa inmediata es el último punto de seguridad alcanzado antes de fallar. Si el concursante contesta correctamente, no hay recompensa inmediata, pues pasará a la siguiente pregunta. Denotemos rk la recompensa inmediata que obtiene el concursante si decide dejar el juego después de responder correctamente la pregunta k-ésima, es decir, si decide pararse en el estado s = (k + 1, l1 , l2 , l3 ), y denotemos por rk∗ la recompensa inmediata si fallase en el estado s = (k + 1, l1 , l2 , l3 ). Ver la tabla 2. 4 Después de tomar una decisión nos encontraremos en un nuevo estado del proceso. Si el concursante decide plantarse o falla la pregunta, el juego se termina. Si decide seguir jugando y responde correctamente, hay una transición a otro estado t(s, a) = (k 0 , l10 , l20 , l30 ) ∈ S, donde el ı́ndice k 0 de la pregunta es igual a k + 1 y los indicadores de los comodines li0 son: ( li − 1 si el concursante usa el comodı́n i en esa pregunta, li0 = li en otro caso. El hecho de contestar correctamente viene definido por su probabilidad, dependiendo de la pregunta en la que estemos, siendo esas probabilidades iguales para todos los candidatos. Además supondremos que en dichas probabilidades influyen los comodines que usemos, que se supone que nos ayudan, es decir, aumentan la probabilidad de contestar correctamente. Denotemos por pas la probabilidad de contestar correctamente en el estado s ∈ S si llevamos a cabo la acción a ∈ A(s). Nuestro análisis tiene en cuenta la posible habilidad del participante. Por ello, dividiremos a los concursantes en cuatro grupos, A, B, C, D. El hecho de que un concursante pertenezca a uno de los grupos quiere decir que sus probabilidades “a priori” de responder correctamente pas se modifican por un factor, que es diferente para cada grupo. Matemáticamente quiere decir que dichas probabilidades se multiplican por un factor de corrección hG , G ∈ {A, B, C, D}, que las modifica de la siguiente forma: hG paS , G ∈ {A, B, C, D}, donde hA = 1, hB = 0,9, hC = 0,8, hD = 0,7. Esto significa que cuanto menor es la habilidad del participante, menores son sus probabilidades de responder correctamente una pregunta. Uno de los principales problemas en la resolución del problema real es la obtención de una buena estimación de las probabilidades en el proceso de decisión. Para una estimación realista, se necesitarı́an datos de cada pregunta y cada posible combinación de comodines utilizados, un número de concursantes que contestaron correctamente y un número de concursantes que fallaron en cada pregunta y con cada combinación de comodines. Además, dicho número deberı́a ser suficientemente grande para estimar las probabilidades. Como se mencionó antes, sólo hay disponibles datos reales de unos cuarenta programas y, por lo tanto, no tenemos observaciones reales para la mayorı́a de las combinaciones de 5 preguntas y comodines. Aún ası́, tenemos información suficiente para poder estimar las probabilidades de contestar correctamente sin utilizar comodines y utilizando un único comodı́n. Y con esa información, y ciertas suposiciones que ahora enunciaremos, podemos resolver el problema de la estimación de probabilidades. Sea p∗k la probabilidad de contestar correctamente sin usar comodines. Supongamos que existe una relación multiplicativa entre, la probabilidad de fallar una pregunta en un cierto estado utilizando el comodı́n i y la probabilidad de fallarla sin utilizar comodines. Esta relación es tal que la probabilidad de equivocarse disminuye por un factor ci , 0 < ci < 1, i = 1, 2, 3, o en otras palabras: pik = 1 − (1 − p∗k )cik , (1) donde pik es la probabilidad de contestar correctamente la pregunta número k utilizando el comodı́n i−ésimo (conocemos tanto pk como pik para todo (k, i)). Además suponemos que la combinación de varios comodines modifica las probabilidades originales (1 − p∗k ) multiplicando por las diferentes constantes ‘c’. Esta simplificación nos permite dar una expresión heurı́stica de las probabilidades, lo que se puede justificar porque no tenı́amos suficientes datos para dar una estimación real para cada combinación de comodines. Con esta suposición, podemos usar la información que tenemos sobre los concursantes para estimar sus probabilidades de contestar correctamente con toda combinación posible de comodines. Ahora estimaremos las probabilidades de contestar correctamente sin usar comodines y las constantes cik a partir de los datos disponibles. Para toda pregunta k, consideramos los concursantes que no emplearon comodines y los que emplearon solo uno. Entonces, para cada uno de esos grupos de concursantes, tendremos en cuenta el número de ellos que contestaron correctamente esta pregunta y aquellos que la fallaron. Esas probabilidades se estiman mediante las frecuencias observadas en los datos, y son las que se muestran en la tabla 3. Sea p∗k la probabilidad de responder correctamente la k-ésima pregunta sin utilizar comodines, p1k la probabilidad de responder correctamente utilizando el comodı́n 1 (comodı́n del 50 %), p2k la probabilidad de responder correctamente utilizando el comodı́n 2 (telefonear a un amigo) y p3k la probabilidad de responder correctamente utilizando el comodı́n 3 (consultar al público). En la tabla 3 tenemos las probabilidades de responder correctamente (dadas en %)1 . 1 valor original 100 % reemplazado por 99 % 6 pregunta no k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 p∗k 97 95 92 86 80 79 76 63 51 43 39 38 40 37 36 p1k 99† 99† 99† 93 91 99† 87 70 67 58 57 54 54 50 52 p2k 99† 99† 99† 99† 98 99† 90 78 70 66 68 64 60 62 60 p3k 99† 99† 99† 95 93 99† 88 69 65 52 50 49 47 48 45 Cuadro 3: Estimación de las probabilidades de responder correctamente En nuestro modelo utilizamos la ecuación (1) para estimar los valores de las constantes ‘c’. Por lo tanto, para cada pregunta k el factor cik modifica la probabilidad de acertar cuando se usa el comodı́n i de la siguiente forma: cik 1 − pik . = 1 − p∗k La tabla 4 presenta los diferentes factores. 3. Formulación matemática En esta sección presentamos dos modelos diferentes. El primero está pensado para encontrar la estrategia que maximiza la recompensa esperada, y el segundo la que maximice la probabilidad de alcanzar una pregunta determinada. Ambos, además de dar la máxima probabilidad y la recompensa esperada, nos darán también las estrategias óptimas a seguir. 7 k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 c1k 0.3333 0.2 0.125 0.5 0.45 0.0476 0.5416 0.8108 0.6734 0.7368 0.7049 0.7419 0.7666 0.7936 0.75 c2k 0.3333 0.2 0.125 0.0714 0.1 0.0476 0.4166 0.5945 0.6122 0.5964 0.5245 0.5806 0.6666 0.6031 0.625 c3k 0.3333 0.2 0.125 0.3571 0.35 0.0476 0.5 0.8378 0.7142 0.8421 0.8196 0.8225 0.8833 0.8253 0.8593 Cuadro 4: Factores de corrección 3.1. Modelo 1: recompensa esperada Sea pas la probabilidad de responder correctamente si en el estado s ∈ S se lleva a cabo la acción a ∈ A(s). Supongamos que las probabilidades pas sólo dependen del ı́ndice de la pregunta en la que estemos y de los comodines utilizados. Sea f (s) la recompensa máxima esperada que se puede obtener desde el estado s. Podemos evaluar f (s) de la siguiente forma: La máxima recompensa esperada a partir de s será el máximo de todas las recompensas esperadas que se pueden obtener eligiendo las diferentes acciones posibles en el juego a ∈ A(s). En ese punto, podemos o bien abandonar el juego, con lo que nos aseguraremos rk−1 , o ir a la siguiente pregunta (supondremos que viene indexada por k). En el último caso, si elegimos la acción a ∈ A(s), entonces contestaremos correctamente con probabilidad pas y fallaremos con probabilidad (1 − pas ). La recompensa obtenida cuando fallamos una pregunta viene dada por las recompensas aseguradas citadas anteriormente, en ∗ nuestro caso, para la pregunta k, es decir, rk−1 . Por otro lado, si contestamos correctamente a la pregunta k se produce una transición a la siguiente pregunta con los comodines no utilizados. Denotemos por t(s, a) a la función de transición que nos da el nuevo estado en el que nos encontramos si se elige la acción a en el estado s. Entonces, a partir de ese punto la 8 Estado f (Estado) 15,1,1,1 224976.5 15,0,0,1 144000 15,0,1,0 183600 15,0,1,1 199968.75 15,1,1,0 212700 15,1,0,1 179962.5 15,1,0,0 160320 15,0,0,0 144000 Cuadro 5: Probabilidades en el estado de partida. recompensa esperada es f (t(s, a)). En resumen, la recompensa esperada bajo la acción ‘a’ es: ∗ pas f (t(s, a)) + (1 − pas )rk−1 . Por tanto, ∗ f (s) = máx {rk−1 , pas f (t(s, a)) + (1 − pas )rk−1 }. a∈A(s) Para obtener la máxima recompensa esperada tenemos que evaluar f (estado inicial). Si el concursante comienza desde la pregunta número 1 con los tres comodines, tenemos que calcular f (1, 1, 1, 1). Los valores de f se pueden calcular recursivamente mediante inducción inversa, ya que conocemos el valor de f en cada estado factible del estado final. En la tabla 5 se muestran dichos valores, calculados de forma sencilla. Por lo tanto, mediante la inducción inversa y a partir de los datos de la tabla 5, obtenemos f (1, 1, 1, 1) y las estrategias óptimas. En este proceso utilizamos las probabilidades estimadas y las constantes obtenidas en la sección 2. Todos los cálculos se realizaron mediante un programa informático desarrollado con MAPLE. La solución hallada por el programa es f (1, 1, 1, 1) = 2490,89, y la estrategia a seguir para obtener esa ganancia esperada es la que se muestra en la tabla 6. 3.2. Modelo 2: alcanzar una pregunta En esta sección abordamos una nueva situación. Hemos encontrado en la sección 3.1 la estrategia óptima a seguir si quisiéramos maximizar la recompensa esperada, y cuál es la 9 Pregunta 1 2 3 4 5 6 7 8 9 10 11 12 13 Recompensa esperada Estrategia Sin comodines Sin comodines Sin comodines Sin comodines Público Sin comodines Sin comodines Sin comodines 50 % Teléfono Sin comodines Sin comodines Parar 2490.89 Cuadro 6: Solución del modelo 1. recomoensa máxima esperada. Ahora queremos encontrar la estrategia óptima a seguir si queremos maximizar la probabilidad de alcanzar una pregunta determinada y responderla correctamente. Además, también damos la probabilidad de conseguirlo si se sigue la estrategia óptima. Definamos el nuevo problema. Recordar que un estado s viene definido como un vector de cuatro componentes, como antes: s = (k, l1 , l2 , l3 ). Sea k ∗ = 1, 2, · · · , 15, un número fijo. Nuestro objetivo es responder correctamente la pregunta número k ∗ . Denotamos por f (s) la máxima probabilidad de llegar a la pregunta k ∗ y contestarla correctamente, comenzando desde el estado s. Evaluamos f (s) de la siguiente forma: La máxima probabilidad de alcanzar y contestar correctamente la pregunta número k ∗ , comenzando en el estado s que es el máximo de entre las probabilidades de contestar correctamente la pregunta actual, dependiendo de la acción a ∈ A(s) elegida, multiplicado por la máxima probabilidad de alcanzar nuestro objetivo desde el estado t(a, s), a ∈ A(s), donde t(a, s) es el estado en el que nos encontraremos si elegimos la acción a en s y respondemos correctamente. 10 Es decir, tenemos que: f (k, l1 , l2 , l3 ) = máx {pk,g1 ,g2 ,g3 · f (k + 1, l1 − g1 , l2 − g2 , l3 − g3 )}, 0 ≤ gi ≤ li gi ∈ Z, ∀i donde pk,g1 ,g2 ,g3 es la probabilidad de contestar correctamente la k-ésima pregunta utilizando los comodines indicados, donde gi = 1, i = 1, 2, 3 si se utiliza el i-ésimo comodı́n y 0 en caso contrario. La función f es un funcional recursivo, por lo tanto para obtener sus valores por inducción inversa necesitamos conocer su valor en todos los estados de la etapa final. Notar que el objetivo en esta formulación es alcanzar el estado k. Por lo tanto, la probabilidad de haberlo hecho si estamos en el estado k + 1 es claramente 1. Ası́ pues, tenemos que f (k + 1, l1 , l2 , l3 ) = 1 ∀li ∈ {0, 1}, i = 1, 2, 3. Una vez que tenemos los valores de la función en la etapa final, la solución de este modelo es el cálculo de f (estado inicial). Si comenzamos desde la primera pregunta y tenemos todos los comodines, el estado de salida es (1,1,1,1). Pero si comenzamos en la tercera pregunta y solo tenemos el comodı́n del 50 % y el del público, el estado de salida serı́a (3,1,0,1). De cualquier modo, el algoritmo que proponemos resuelve el problema comenzando desde cualquier posible estado y teniendo como objetivo cualquier nivel del juego. Desarrollamos un programa informático en MAPLE en el que, utilizando las constantes ci calculadas antes, evaluamos el valor de la función f y encontramos las estrategias óptimas. En este modelo no tenemos una única solución, sino 15, ya que podemos tener 15 posibles objetivos: las quince preguntas del juego. Por motivos de brevedad, solo mostraremos la solución obtenida si partimos del estado (1,1,1,1) y queremos alcanzar y responder correctamente las preguntas 5,10,13 y 15. En la tabla 7 aparecen las estrategias óptimas y las probabilidades de alcanzar y contestar correctamente las preguntas mencionadas antes. La última fila de dicha tabla representa la probabilidad de alcanzar el objetivo propuesto. 4. Otras consideraciones del análisis del juego Hemos resuelto el problema de una forma estática, es decir, todas las probabilidades venı́an determinadas “a priori”, sin conocer realmente ni el enunciado de las preguntas, ni sus 11 Pregunta Objetivo: 5 1 Sin comodines 2 Sin comodines 3 50 % 4 Público 5 Teléfono 6 7 8 9 10 11 12 13 14 15 Probabilidad 0.85 Objetivo: 10 Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Público Sin comodines Sin comodines 50 % Teléfono Objetivo: 13 Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Público Sin comodines Teléfono 50 % Sin comodines 0.12 0.01 Cuadro 7: Estrategias óptimas en el modelo 2. 12 Objetivo:15 Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Teléfono Sin comodines Sin comodines Público 50 % 0.001 posibles respuestas. En el concurso real, el juego se desarrolla de forma que las probabilidades de contestar una pregunta correctamente se modifican cada vez que el concursante lee su enunciado y ve las posibles respuestas. Por ejemplo, estando en la cuarta pregunta se puede estimar la probabilidad de acertarla sabiendo realmente cuál es esa pregunta. Lo que haremos será cambiar la probabilidad de acertar la pregunta y mantener las estimaciones realizadas para los siguientes estados. Este análisis quiere decir que el jugador modifica, en cada estado k, la probabilidad p∗k de contestar correctamente de acuerdo con su conocimiento de la pregunta. Esto serı́a una forma realista de jugar al juego dinámicamente. Esta caracterı́stica ha sido incorporada a nuestro programa informático, por lo que en cada estado el jugador puede cambiar la probabilidad de responder correctamente la pregunta a la que se enfrenta en ese momento. Notar que este argumento no modifica nuestro análisis recursivo del problema. Sólo significa que permitimos cambiar la probabilidad p∗k en cada etapa del análisis. 4.1. Simulación Como ilustración de nuestro análisis del juego realizaremos una simulación del proceso para comprobar el comportamiento de las estrategias ganadoras propuestas en los modelos. Como mencionamos en la sección 2, clasificamos a los participantes en cuatro grupos de la siguiente forma: Los jugadores del grupo A tienen las probabilidades originales descritas con anterioridad. Las probabilidades de contestar correctamente para los jugadores del grupo B son las del grupo A multiplicadas por 0.9. Las probabilidades de contestar correctamente para los jugadores del grupo C son las del grupo A multiplicadas por 0.8. Los jugadores del grupo D tienen unas probabilidades de acertar que son las del grupo A multiplicadas por 0.7. Ahora presentamos dos tablas (tabla 8) con las estrategias que deben seguir los participantes, dependiendo del grupo al que pertenezcan, para maximizar su ganancia esperada (Modelo 1) y la probabilidad de ganar o al menos, la máxima ganancia esperada (Modelo 2). Por ejemplo, la última fila en la columna del participante “A” en el Modelo 1 muestra el dinero esperado que conseguirı́a siguiendo la estrategia descrita en dicha columna, y la última fila en el Modelo 2 es la probabilidad de ganar, al menos, dicha cantidad de dinero. Es decir, como para ganar al menos 2490.9 euros tenemos que contestar correctamente la pregunta número 7, nuestro 13 objetivo será alcanzar y contestar correctamente la pregunta número 7. Los otros casos son análogos. En ambas tablas, la última fila muestra la máxima recompensa esperada, en la columna del Modelo 1, o la probabilidad de tener éxito con la estrategia descrita en el Modelo 2. Para terminar esta sección vamos a mostrar una simulación del Modelo 1 del juego jugado dinámicamente. Es decir, supondremos que en cada pregunta la probabilidad de contestarla correctamente se modifica una vez que hemos leı́do su enunciado y las cuatro posibles respuestas. Supongamos que el concursante se enfrenta ahora a la pregunta k th . Tiene que decidir si la contesta, y en ese caso cómo, o no la contesta, dependiendo del grado de dificultad de la pregunta real. El modelo supone que las probabilidades de contestar correctamente las siguientes preguntas, es decir, de k + 1 en adelante, son las que estimamos originalmente. En la tabla 9 las estrategias de utilizar el comodı́n del 50 %, el Teléfono o el Público se denotan por 50, T y P respectivamente. Para simplificar la simulación supondremos que las probabilidades de contestar correctamente pueden ser: 1 si el concursante conoce la respuesta correcta. 0.5 si el concursante duda entre dos posibles respuestas. 0.33 si lo único que sabe es que una de las respuestas es incorrecta. 0.25 si no tiene ni idea de cuál de las respuestas puede ser la correcta. El lector puede notar que se puede incoporar al modelo cualquier tipo de información probabilı́stica “a priori”, basada en el conocimiento del jugador. Esta incorporación se realiza mediante el cálculo “posterior” de las probabilidades usando la regla de Bayes. Está claro que las estrategias cambian dependiendo de las probabilidades de contestar correctamente la pregunta en la que estemos en este momento, que han sido elegidas aleatoriamente utilizando diferentes funciones de probabilidad para cada pregunta. El primer número en cada celda es la probabilidad real de contestar correctamente la correspondiente pregunta. Como se puede observar, dependiendo de la probabilidad simulada, las estrategias pueden variar, desde parar en la quinta pregunta hasta seguir jugando hasta la duodécima. 14 Pregunta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 R.E / Prob Pregunta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 R.E / Prob Grupo A Modelo 1 Modelo 2 Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines Teléfono Público 50 % Sin comodines Público Sin comodines Parar 50 % Teléfono Sin comodines Sin comodines Parar 2490.9 0.622 Grupo C Modelo 1 Modelo 2 Sin comodines Sin comodines Sin comodines Público 50 % 50 % Público Teléfono Teléfono Parar Sin comodines Sin comodines Sin comodines Parar 747.5 0.482 Grupo B Modelo 1 Modelo 2 Sin comodines Sin comodines Sin comodines Sin comodines Sin comodines 50 % Público Público Teléfono Teléfono Sin comodines Parar Sin comodines Sin comodines Sin comodines 50 % Sin comodines Sin comodines Parar 1289.4 0.557 Grupo D Modelo 1 Modelo 2 Sin comodines Sin comodines Sin comodines Sin comodines 50 % 50 % Público Público Teléfono Teléfono Sin comodines Parar Sin comodines Parar 421.1 0.475 Cuadro 8: Soluciones óptimas dependiendo de la habilidad del concursante 15 Pregunta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 P1 1/SC 0.5/50 1/SC 1/SC 0.5/T 0.5/P 0.5/SC 1/SC 0.33/Parar P2 1/SC 0.5/T 0.33/P 0.5/50 0.25/Parar P3 0.5/50-P 1/SC 0.5/T 0.5/SC 0.5/SC 0.33/SC 1/SC 0.5/SC 0.33/Parar P4 0.5/50-P 0.33/ T 1/SC 1/SC 0.33/SC 0.5/SC 0.5/SC 0.5/SC 0.33/Parar P5 0.5/50-P 1/SC 1/SC 0.5/T 0.5/SC 1/SC 0.33/SC 1/SC 0.25/Parar P6 1/SC 1/SC 0.33/50 1/SC 1/SC 0.5/P 1/SC 0.5/SC 1/SC 0.25/T 0.25/SC 0.25/Parar Cuadro 9: Simulación Referencias [1] Chlond M.J. (2001), ”The Travelling Space Telescope Problem,”INFORMS Transactions on Education 2:1 (58-60). [2] Cochran J.J. (2001), ”Who Wants To Be A Millionairer : The Classroom Edition,”INFORMS Transactions on Education 1:3 (112-116). [3] Rump C.M. (2001), ”Who Wants to See a $Million Error?. A Neglected Educational Resource,”INFORMS Transactions on Education 1:3 (102-111). [4] Heyman D. and Sobel M. (1984), Stochastic Models in Operations Research. Vol 2, McGraw-Hill, New York. [5] Sniedovich M. (2003), .A Neglected Educational Resource,”INFORMS Transactions on Education 2:3, 86-95. [6] Sniedovich M. (2002), ”Towers of Hanoi,”INFORMS Transactions on Education 3:1 (3451). 16 [7] Sniedovich M. (2000), Çounterfeit Coin Problem”. INFORMS Transactions on Education 3:2 (32-41). [8] Tijms H.C. (1986), Stochastic modeling and analysis. A computational approach. WILEY, New York. 17