Análisis del juego televisivo “¿QUI´EN QUIERE SER MILLONARIO?”

Anuncio
Análisis del juego televisivo “¿QUIÉN
QUIERE SER MILLONARIO?”r
Justo Puerto*
Federico Perea
MaMaEuSch**
Management Mathematics for European Schools
94342 - CP - 1 - 2001 - DE - COMENIUS - C21
*
Universidad de Sevilla
Este proyecto ha sido desarrollado con ayuda parcial de la Unión Europea dentro del marco del programa Sócrates. El contenido no refleja necesariamente la posición de la Unión Europea ni implica ninguna
responsabilidad por parte de la Unión Europea.
**
0
1.
Introducción
Este trabajo versa sobre el popular juego televisivo “¿Quién quiere ser millonario?”r .
Formularemos un modelo matemático del juego y encontraremos la estrategia óptima de un
participante del juego.
Cuando se escribió este trabajo habı́a 45 versiones del programa en 71 paı́ses. En más
de 100 paı́ses, diferentes cadenas de televisión habı́an comprado la licencia y emitirı́an el
programa antes o después.
“¿Quién quiere ser millonario?”r debutó en el Reino Unido en Septiembre de 1998 y tuvo
un gran éxito. Después se extendió por todo el mundo, llegando a España en el verano del
año 2000, donde fue emitido por la cadena de televisión Telecinco. Aunque las reglas del juego
son similares en todos los paı́ses, en este trabajo nos referiremos a las reglas seguidas en la
versión española del juego.
Se elige a un candidato de entre 10, y éste tiene la oportunidad de ganar un premio de 50
millones de pesetas (en adelante las cifras serán dadas en Euros). Para alcanzar dicha cantidad
debe responder correctamente a 15 preguntas de respuesta múltiple seguidas. El concursante
puede abandonar el juego y mantener sus ganancias. En cada etapa le proponen una pregunta
y cuatro posibles respuestas antes de decidir si juega o no. Una vez que ha decidido seguir
jugando, tiene que responder correctamente a dicha pregunta para poder seguir en el juego.
Cada pregunta tiene un cierto valor monetario, dados en la siguiente tabla en Euros. El
dinero que el concursante puede ganar si contesta correctamente a cada una de las preguntas
viene dado en la tabla 1.
Hay tres estados (“puntos de seguridad”) donde el dinero se acumula y no se puede perder
aunque el concursante responda incorrectamente a una de las preguntas. Esas tres cantidades
de seguridad son: 1800, 18000 y 300000 Euros.
No hay tiempo lı́mite para responder a una pregunta. Si el tiempo se agota con un jugador
concreto, el siguiente programa continuará con el mismo jugador.
En cualquier momento el concursante puede usar uno o más “comodines”. Estos son:
Opción del 50 %: la computadora elimina dos de las cuatro posibles respuestas, dejando
sólo la correcta y una de las incorrectas.
Teléfono: el concursante puede consultar la pregunta por teléfono a un amigo o familiar,
con un tiempo máximo de llamada de 30 segundos.
Público: cada miembro del público tiene la opción de elegir la respuesta que considere
correcta presionando un botón en su asiento. Los resultados de las elecciones del público
se muestran al concursante en porcentajes.
1
pregunta no
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
valor monetario
150
300
450
900
1800
2100
2700
3600
4500
9000
18000
36000
72000
144000
300000
Cuadro 1: Recompensas inmediatas
En adelante nos referiremos a esos comodines como:
comodı́n 1 para el “50 %”,
comodı́n 2 para el “Teléfono”,
comodı́n 3 para el “Público”.
Cada concursante puede usar cada comodı́n sólo una vez durante el juego completo.
El principal objetivo de este trabajo es mostrar como un problema real de toma de decisión
“difı́cil” puede ser modelado y resuelto “fácilmente” mediante herramientas básicas de la
Investigación Operativa, en nuestro caso mediante Programación Dinámica Discreta. Este
objetivo se alcanzará después de tres fases:
1. modelado,
2. formulación matemática,
3. simulación del proceso real.
2
En la fase de modelado identificamos los elementos que describen el problema y los asociamos
con elementos matemáticos. En la fase de formulación proponemos una descripción del problema como un proceso de decisión Markoviano, resuelto mediante programación matemática
discreta. Se presentarán dos modelos que guiarán a los jugadores a encontrar estrategias óptimas que maximicen su ganancia esperada, modelo llamado estrategia de máxima esperanza, y
estrategias óptimas que maximicen la probabilidad de alcanzar una cantidad de dinero fijada,
estrategia llamada estrategia de máxima probabilidad.
Al hacer esto estableceremos dos modelos matemáticos del juego, y encontraremos estrategias óptimas para un concursante cualquiera. Esto se consigue mediante la descripción
matemática del juego como un proceso de decisión Markoviano discreto y su resolución mediante programación matemática discreta.
El resto del trabajo se organiza de la siguiente forma: la segunda sección está dedicada
a mostrar el modelo matemático general (estados, posibles acciones, recompensas, función
de transición, probabilidades de contestar correctamente y sus estimaciones). En la tercera
sección presentamos la descripción del primer modelo (estrategia de máxima esperanza). También en esta sección se presenta el caso en el que queremos maximizar la probabilidad de ganar
una cierta cantidad de dinero (estrategia de máxima probabilidad), comenzando en un estado
de partida. Después de esto, presentamos simulaciones de cómo jugar a este juego de forma
dinámica.
2.
El modelo general
El juego real requiere que el participante tome decisiones cada vez que contesta a una
pregunta correctamente. El horizonte es finito, es decir, tenemos N = 16 posibles estados,
donde el 16o estado corresponde a la situación después de contestar correctamente la pregunta
número 15. Para tomar una decisión, el concursante tiene que conocer el número de la pregunta
en la que está y el número de comodines que ha usado hasta ese momento. La historia del
juego se resume con esa información. Definimos S como el conjunto de vectores de estado
s = (k, l1 , l2 , l3 ), donde k es el ı́ndice de la pregunta en la que nos encontramos y
(
1 si el comodı́n i no ha sido utilizado,
li =
0 si el comodı́n i ha sido utilizado en una pregunta anterior.
En cualquier estado s ∈ S siendo A(s) el conjunto de posibles acciones en ese estado.
Si suponemos que estamos en el estado s = (k, l1 , l2 , l3 ), A(s) dependerá del ı́ndice de la
pregunta en la que estemos y de los comodines que nos queden por usar. Si k = 16 el juego se
ha terminado y no hay posibles acciones. Si k ≤ 15, el concursante tiene varias posibilidades:
3
r0
r1
r2
r3
r4
r5
r6
r7
r8
r9
r10
r11
r12
r13
r14
r15
r0∗
r1∗
r2∗
r3∗
r4∗
r5∗
r6∗
r7∗
r8∗
r9∗
∗
r10
∗
r11
∗
r12
∗
r13
∗
r14
∗
r15
0
150
300
450
900
1800
2100
2700
3600
4500
9000
18000
36000
72000
144000
300000
0
0
0
0
0
1800
1800
1800
1800
1800
9000
9000
9000
9000
9000
300000
Cuadro 2: Recompensas inmediatas y dinero asegurado
Responder a la pregunta sin usar comodines.
Responder a la pregunta utilizando uno o más comodines, si le queda alguno. En ese
caso, el concursante debe especificar el comodı́n que va a usar.
Plantarse y abandonar el juego
Si el jugador decide no contestar, la recompensa inmediata que recibe es el valor monetario
de la última pregunta contestada. Si decide contestar, la recompensa inmediata es una variable
aleatoria y depende de la probabilidad de contestar correctamente. Si al responder lo hace
incorrectamente, la recompensa inmediata es el último punto de seguridad alcanzado antes de
fallar. Si el concursante contesta correctamente, no hay recompensa inmediata, pues pasará a
la siguiente pregunta.
Denotemos rk la recompensa inmediata que obtiene el concursante si decide dejar el juego
después de responder correctamente la pregunta k-ésima, es decir, si decide pararse en el
estado s = (k + 1, l1 , l2 , l3 ), y denotemos por rk∗ la recompensa inmediata si fallase en el
estado s = (k + 1, l1 , l2 , l3 ). Ver la tabla 2.
4
Después de tomar una decisión nos encontraremos en un nuevo estado del proceso.
Si el concursante decide plantarse o falla la pregunta, el juego se termina.
Si decide seguir jugando y responde correctamente, hay una transición a otro estado
t(s, a) = (k 0 , l10 , l20 , l30 ) ∈ S, donde el ı́ndice k 0 de la pregunta es igual a k + 1 y los
indicadores de los comodines li0 son:
(
li − 1 si el concursante usa el comodı́n i en esa pregunta,
li0 =
li
en otro caso.
El hecho de contestar correctamente viene definido por su probabilidad, dependiendo de
la pregunta en la que estemos, siendo esas probabilidades iguales para todos los candidatos.
Además supondremos que en dichas probabilidades influyen los comodines que usemos, que
se supone que nos ayudan, es decir, aumentan la probabilidad de contestar correctamente.
Denotemos por pas la probabilidad de contestar correctamente en el estado s ∈ S si llevamos
a cabo la acción a ∈ A(s).
Nuestro análisis tiene en cuenta la posible habilidad del participante. Por ello, dividiremos
a los concursantes en cuatro grupos, A, B, C, D. El hecho de que un concursante pertenezca
a uno de los grupos quiere decir que sus probabilidades “a priori” de responder correctamente
pas se modifican por un factor, que es diferente para cada grupo. Matemáticamente quiere decir
que dichas probabilidades se multiplican por un factor de corrección hG , G ∈ {A, B, C, D},
que las modifica de la siguiente forma:
hG paS ,
G ∈ {A, B, C, D},
donde hA = 1, hB = 0,9, hC = 0,8, hD = 0,7. Esto significa que cuanto menor es la habilidad
del participante, menores son sus probabilidades de responder correctamente una pregunta.
Uno de los principales problemas en la resolución del problema real es la obtención de una
buena estimación de las probabilidades en el proceso de decisión.
Para una estimación realista, se necesitarı́an datos de cada pregunta y cada posible combinación de comodines utilizados, un número de concursantes que contestaron correctamente
y un número de concursantes que fallaron en cada pregunta y con cada combinación de comodines. Además, dicho número deberı́a ser suficientemente grande para estimar las probabilidades. Como se mencionó antes, sólo hay disponibles datos reales de unos cuarenta programas y, por lo tanto, no tenemos observaciones reales para la mayorı́a de las combinaciones de
5
preguntas y comodines. Aún ası́, tenemos información suficiente para poder estimar las probabilidades de contestar correctamente sin utilizar comodines y utilizando un único comodı́n.
Y con esa información, y ciertas suposiciones que ahora enunciaremos, podemos resolver el
problema de la estimación de probabilidades.
Sea p∗k la probabilidad de contestar correctamente sin usar comodines. Supongamos que
existe una relación multiplicativa entre, la probabilidad de fallar una pregunta en un cierto
estado utilizando el comodı́n i y la probabilidad de fallarla sin utilizar comodines. Esta relación
es tal que la probabilidad de equivocarse disminuye por un factor ci , 0 < ci < 1, i = 1, 2, 3,
o en otras palabras:
pik = 1 − (1 − p∗k )cik ,
(1)
donde pik es la probabilidad de contestar correctamente la pregunta número k utilizando el
comodı́n i−ésimo (conocemos tanto pk como pik para todo (k, i)). Además suponemos que la
combinación de varios comodines modifica las probabilidades originales (1 − p∗k ) multiplicando
por las diferentes constantes ‘c’.
Esta simplificación nos permite dar una expresión heurı́stica de las probabilidades, lo que
se puede justificar porque no tenı́amos suficientes datos para dar una estimación real para cada
combinación de comodines. Con esta suposición, podemos usar la información que tenemos
sobre los concursantes para estimar sus probabilidades de contestar correctamente con toda
combinación posible de comodines.
Ahora estimaremos las probabilidades de contestar correctamente sin usar comodines y
las constantes cik a partir de los datos disponibles.
Para toda pregunta k, consideramos los concursantes que no emplearon comodines y los
que emplearon solo uno. Entonces, para cada uno de esos grupos de concursantes, tendremos
en cuenta el número de ellos que contestaron correctamente esta pregunta y aquellos que la
fallaron. Esas probabilidades se estiman mediante las frecuencias observadas en los datos, y
son las que se muestran en la tabla 3.
Sea p∗k la probabilidad de responder correctamente la k-ésima pregunta sin utilizar comodines, p1k la probabilidad de responder correctamente utilizando el comodı́n 1 (comodı́n del
50 %), p2k la probabilidad de responder correctamente utilizando el comodı́n 2 (telefonear a un
amigo) y p3k la probabilidad de responder correctamente utilizando el comodı́n 3 (consultar al
público). En la tabla 3 tenemos las probabilidades de responder correctamente (dadas en %)1 .
1
valor original 100 % reemplazado por 99 %
6
pregunta no k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
p∗k
97
95
92
86
80
79
76
63
51
43
39
38
40
37
36
p1k
99†
99†
99†
93
91
99†
87
70
67
58
57
54
54
50
52
p2k
99†
99†
99†
99†
98
99†
90
78
70
66
68
64
60
62
60
p3k
99†
99†
99†
95
93
99†
88
69
65
52
50
49
47
48
45
Cuadro 3: Estimación de las probabilidades de responder correctamente
En nuestro modelo utilizamos la ecuación (1) para estimar los valores de las constantes
‘c’. Por lo tanto, para cada pregunta k el factor cik modifica la probabilidad de acertar cuando
se usa el comodı́n i de la siguiente forma:
cik
1 − pik
.
=
1 − p∗k
La tabla 4 presenta los diferentes factores.
3.
Formulación matemática
En esta sección presentamos dos modelos diferentes. El primero está pensado para encontrar la estrategia que maximiza la recompensa esperada, y el segundo la que maximice
la probabilidad de alcanzar una pregunta determinada. Ambos, además de dar la máxima
probabilidad y la recompensa esperada, nos darán también las estrategias óptimas a seguir.
7
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
c1k
0.3333
0.2
0.125
0.5
0.45
0.0476
0.5416
0.8108
0.6734
0.7368
0.7049
0.7419
0.7666
0.7936
0.75
c2k
0.3333
0.2
0.125
0.0714
0.1
0.0476
0.4166
0.5945
0.6122
0.5964
0.5245
0.5806
0.6666
0.6031
0.625
c3k
0.3333
0.2
0.125
0.3571
0.35
0.0476
0.5
0.8378
0.7142
0.8421
0.8196
0.8225
0.8833
0.8253
0.8593
Cuadro 4: Factores de corrección
3.1.
Modelo 1: recompensa esperada
Sea pas la probabilidad de responder correctamente si en el estado s ∈ S se lleva a cabo
la acción a ∈ A(s). Supongamos que las probabilidades pas sólo dependen del ı́ndice de la
pregunta en la que estemos y de los comodines utilizados.
Sea f (s) la recompensa máxima esperada que se puede obtener desde el estado s. Podemos
evaluar f (s) de la siguiente forma: La máxima recompensa esperada a partir de s será el
máximo de todas las recompensas esperadas que se pueden obtener eligiendo las diferentes
acciones posibles en el juego a ∈ A(s). En ese punto, podemos o bien abandonar el juego, con lo
que nos aseguraremos rk−1 , o ir a la siguiente pregunta (supondremos que viene indexada por
k). En el último caso, si elegimos la acción a ∈ A(s), entonces contestaremos correctamente
con probabilidad pas y fallaremos con probabilidad (1 − pas ). La recompensa obtenida cuando
fallamos una pregunta viene dada por las recompensas aseguradas citadas anteriormente, en
∗
nuestro caso, para la pregunta k, es decir, rk−1
. Por otro lado, si contestamos correctamente
a la pregunta k se produce una transición a la siguiente pregunta con los comodines no
utilizados. Denotemos por t(s, a) a la función de transición que nos da el nuevo estado en el
que nos encontramos si se elige la acción a en el estado s. Entonces, a partir de ese punto la
8
Estado f (Estado)
15,1,1,1 224976.5
15,0,0,1
144000
15,0,1,0
183600
15,0,1,1 199968.75
15,1,1,0
212700
15,1,0,1 179962.5
15,1,0,0
160320
15,0,0,0
144000
Cuadro 5: Probabilidades en el estado de partida.
recompensa esperada es f (t(s, a)). En resumen, la recompensa esperada bajo la acción ‘a’ es:
∗
pas f (t(s, a)) + (1 − pas )rk−1
.
Por tanto,
∗
f (s) = máx {rk−1 , pas f (t(s, a)) + (1 − pas )rk−1
}.
a∈A(s)
Para obtener la máxima recompensa esperada tenemos que evaluar f (estado inicial). Si
el concursante comienza desde la pregunta número 1 con los tres comodines, tenemos que
calcular f (1, 1, 1, 1). Los valores de f se pueden calcular recursivamente mediante inducción
inversa, ya que conocemos el valor de f en cada estado factible del estado final. En la tabla
5 se muestran dichos valores, calculados de forma sencilla.
Por lo tanto, mediante la inducción inversa y a partir de los datos de la tabla 5, obtenemos
f (1, 1, 1, 1) y las estrategias óptimas. En este proceso utilizamos las probabilidades estimadas y
las constantes obtenidas en la sección 2. Todos los cálculos se realizaron mediante un programa
informático desarrollado con MAPLE.
La solución hallada por el programa es f (1, 1, 1, 1) = 2490,89, y la estrategia a seguir para
obtener esa ganancia esperada es la que se muestra en la tabla 6.
3.2.
Modelo 2: alcanzar una pregunta
En esta sección abordamos una nueva situación. Hemos encontrado en la sección 3.1 la
estrategia óptima a seguir si quisiéramos maximizar la recompensa esperada, y cuál es la
9
Pregunta
1
2
3
4
5
6
7
8
9
10
11
12
13
Recompensa esperada
Estrategia
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Público
Sin comodines
Sin comodines
Sin comodines
50 %
Teléfono
Sin comodines
Sin comodines
Parar
2490.89
Cuadro 6: Solución del modelo 1.
recomoensa máxima esperada. Ahora queremos encontrar la estrategia óptima a seguir si
queremos maximizar la probabilidad de alcanzar una pregunta determinada y responderla
correctamente. Además, también damos la probabilidad de conseguirlo si se sigue la estrategia
óptima.
Definamos el nuevo problema. Recordar que un estado s viene definido como un vector de
cuatro componentes, como antes:
s = (k, l1 , l2 , l3 ).
Sea k ∗ = 1, 2, · · · , 15, un número fijo. Nuestro objetivo es responder correctamente la
pregunta número k ∗ . Denotamos por f (s) la máxima probabilidad de llegar a la pregunta k ∗
y contestarla correctamente, comenzando desde el estado s.
Evaluamos f (s) de la siguiente forma: La máxima probabilidad de alcanzar y contestar
correctamente la pregunta número k ∗ , comenzando en el estado s que es el máximo de entre
las probabilidades de contestar correctamente la pregunta actual, dependiendo de la acción
a ∈ A(s) elegida, multiplicado por la máxima probabilidad de alcanzar nuestro objetivo desde
el estado t(a, s), a ∈ A(s), donde t(a, s) es el estado en el que nos encontraremos si elegimos
la acción a en s y respondemos correctamente.
10
Es decir, tenemos que:
f (k, l1 , l2 , l3 ) =
máx
{pk,g1 ,g2 ,g3 · f (k + 1, l1 − g1 , l2 − g2 , l3 − g3 )},
0 ≤ gi ≤ li
gi ∈ Z, ∀i
donde pk,g1 ,g2 ,g3 es la probabilidad de contestar correctamente la k-ésima pregunta utilizando
los comodines indicados, donde gi = 1, i = 1, 2, 3 si se utiliza el i-ésimo comodı́n y 0 en caso
contrario.
La función f es un funcional recursivo, por lo tanto para obtener sus valores por inducción
inversa necesitamos conocer su valor en todos los estados de la etapa final. Notar que el
objetivo en esta formulación es alcanzar el estado k. Por lo tanto, la probabilidad de haberlo
hecho si estamos en el estado k + 1 es claramente 1. Ası́ pues, tenemos que
f (k + 1, l1 , l2 , l3 ) = 1 ∀li ∈ {0, 1}, i = 1, 2, 3.
Una vez que tenemos los valores de la función en la etapa final, la solución de este modelo es
el cálculo de f (estado inicial). Si comenzamos desde la primera pregunta y tenemos todos los
comodines, el estado de salida es (1,1,1,1). Pero si comenzamos en la tercera pregunta y solo
tenemos el comodı́n del 50 % y el del público, el estado de salida serı́a (3,1,0,1). De cualquier
modo, el algoritmo que proponemos resuelve el problema comenzando desde cualquier posible
estado y teniendo como objetivo cualquier nivel del juego.
Desarrollamos un programa informático en MAPLE en el que, utilizando las constantes ci
calculadas antes, evaluamos el valor de la función f y encontramos las estrategias óptimas.
En este modelo no tenemos una única solución, sino 15, ya que podemos tener 15 posibles
objetivos: las quince preguntas del juego. Por motivos de brevedad, solo mostraremos la solución obtenida si partimos del estado (1,1,1,1) y queremos alcanzar y responder correctamente
las preguntas 5,10,13 y 15. En la tabla 7 aparecen las estrategias óptimas y las probabilidades
de alcanzar y contestar correctamente las preguntas mencionadas antes. La última fila de
dicha tabla representa la probabilidad de alcanzar el objetivo propuesto.
4.
Otras consideraciones del análisis del juego
Hemos resuelto el problema de una forma estática, es decir, todas las probabilidades
venı́an determinadas “a priori”, sin conocer realmente ni el enunciado de las preguntas, ni sus
11
Pregunta
Objetivo: 5
1
Sin comodines
2
Sin comodines
3
50 %
4
Público
5
Teléfono
6
7
8
9
10
11
12
13
14
15
Probabilidad
0.85
Objetivo: 10
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Público
Sin comodines
Sin comodines
50 %
Teléfono
Objetivo: 13
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Público
Sin comodines
Teléfono
50 %
Sin comodines
0.12
0.01
Cuadro 7: Estrategias óptimas en el modelo 2.
12
Objetivo:15
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Sin comodines
Teléfono
Sin comodines
Sin comodines
Público
50 %
0.001
posibles respuestas. En el concurso real, el juego se desarrolla de forma que las probabilidades
de contestar una pregunta correctamente se modifican cada vez que el concursante lee su
enunciado y ve las posibles respuestas. Por ejemplo, estando en la cuarta pregunta se puede
estimar la probabilidad de acertarla sabiendo realmente cuál es esa pregunta. Lo que haremos
será cambiar la probabilidad de acertar la pregunta y mantener las estimaciones realizadas
para los siguientes estados.
Este análisis quiere decir que el jugador modifica, en cada estado k, la probabilidad p∗k de
contestar correctamente de acuerdo con su conocimiento de la pregunta. Esto serı́a una forma
realista de jugar al juego dinámicamente. Esta caracterı́stica ha sido incorporada a nuestro
programa informático, por lo que en cada estado el jugador puede cambiar la probabilidad
de responder correctamente la pregunta a la que se enfrenta en ese momento. Notar que este
argumento no modifica nuestro análisis recursivo del problema. Sólo significa que permitimos
cambiar la probabilidad p∗k en cada etapa del análisis.
4.1.
Simulación
Como ilustración de nuestro análisis del juego realizaremos una simulación del proceso
para comprobar el comportamiento de las estrategias ganadoras propuestas en los modelos.
Como mencionamos en la sección 2, clasificamos a los participantes en cuatro grupos de la
siguiente forma:
Los jugadores del grupo A tienen las probabilidades originales descritas con anterioridad.
Las probabilidades de contestar correctamente para los jugadores del grupo B son las
del grupo A multiplicadas por 0.9.
Las probabilidades de contestar correctamente para los jugadores del grupo C son las
del grupo A multiplicadas por 0.8.
Los jugadores del grupo D tienen unas probabilidades de acertar que son las del grupo
A multiplicadas por 0.7.
Ahora presentamos dos tablas (tabla 8) con las estrategias que deben seguir los participantes,
dependiendo del grupo al que pertenezcan, para maximizar su ganancia esperada (Modelo 1)
y la probabilidad de ganar o al menos, la máxima ganancia esperada (Modelo 2). Por ejemplo,
la última fila en la columna del participante “A” en el Modelo 1 muestra el dinero esperado
que conseguirı́a siguiendo la estrategia descrita en dicha columna, y la última fila en el Modelo
2 es la probabilidad de ganar, al menos, dicha cantidad de dinero. Es decir, como para ganar
al menos 2490.9 euros tenemos que contestar correctamente la pregunta número 7, nuestro
13
objetivo será alcanzar y contestar correctamente la pregunta número 7. Los otros casos son
análogos.
En ambas tablas, la última fila muestra la máxima recompensa esperada, en la columna
del Modelo 1, o la probabilidad de tener éxito con la estrategia descrita en el Modelo 2.
Para terminar esta sección vamos a mostrar una simulación del Modelo 1 del juego jugado
dinámicamente. Es decir, supondremos que en cada pregunta la probabilidad de contestarla
correctamente se modifica una vez que hemos leı́do su enunciado y las cuatro posibles respuestas. Supongamos que el concursante se enfrenta ahora a la pregunta k th . Tiene que decidir
si la contesta, y en ese caso cómo, o no la contesta, dependiendo del grado de dificultad de
la pregunta real. El modelo supone que las probabilidades de contestar correctamente las
siguientes preguntas, es decir, de k + 1 en adelante, son las que estimamos originalmente.
En la tabla 9 las estrategias de utilizar el comodı́n del 50 %, el Teléfono o el Público se
denotan por 50, T y P respectivamente. Para simplificar la simulación supondremos que las
probabilidades de contestar correctamente pueden ser:
1 si el concursante conoce la respuesta correcta.
0.5 si el concursante duda entre dos posibles respuestas.
0.33 si lo único que sabe es que una de las respuestas es incorrecta.
0.25 si no tiene ni idea de cuál de las respuestas puede ser la correcta.
El lector puede notar que se puede incoporar al modelo cualquier tipo de información probabilı́stica “a priori”, basada en el conocimiento del jugador. Esta incorporación se realiza mediante el cálculo “posterior” de las probabilidades usando la regla de Bayes. Está claro que
las estrategias cambian dependiendo de las probabilidades de contestar correctamente la pregunta en la que estemos en este momento, que han sido elegidas aleatoriamente utilizando
diferentes funciones de probabilidad para cada pregunta. El primer número en cada celda es
la probabilidad real de contestar correctamente la correspondiente pregunta. Como se puede
observar, dependiendo de la probabilidad simulada, las estrategias pueden variar, desde parar
en la quinta pregunta hasta seguir jugando hasta la duodécima.
14
Pregunta
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
R.E / Prob
Pregunta
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
R.E / Prob
Grupo A
Modelo 1
Modelo 2
Sin comodines Sin comodines
Sin comodines Sin comodines
Sin comodines Sin comodines
Sin comodines Sin comodines
Sin comodines
Teléfono
Público
50 %
Sin comodines
Público
Sin comodines
Parar
50 %
Teléfono
Sin comodines
Sin comodines
Parar
2490.9
0.622
Grupo C
Modelo 1
Modelo 2
Sin comodines Sin comodines
Sin comodines
Público
50 %
50 %
Público
Teléfono
Teléfono
Parar
Sin comodines
Sin comodines
Sin comodines
Parar
747.5
0.482
Grupo B
Modelo 1
Modelo 2
Sin comodines Sin comodines
Sin comodines Sin comodines
Sin comodines
50 %
Público
Público
Teléfono
Teléfono
Sin comodines
Parar
Sin comodines
Sin comodines
Sin comodines
50 %
Sin comodines
Sin comodines
Parar
1289.4
0.557
Grupo D
Modelo 1
Modelo 2
Sin comodines Sin comodines
Sin comodines Sin comodines
50 %
50 %
Público
Público
Teléfono
Teléfono
Sin comodines
Parar
Sin comodines
Parar
421.1
0.475
Cuadro 8: Soluciones óptimas dependiendo de la habilidad del concursante
15
Pregunta
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
P1
1/SC
0.5/50
1/SC
1/SC
0.5/T
0.5/P
0.5/SC
1/SC
0.33/Parar
P2
1/SC
0.5/T
0.33/P
0.5/50
0.25/Parar
P3
0.5/50-P
1/SC
0.5/T
0.5/SC
0.5/SC
0.33/SC
1/SC
0.5/SC
0.33/Parar
P4
0.5/50-P
0.33/ T
1/SC
1/SC
0.33/SC
0.5/SC
0.5/SC
0.5/SC
0.33/Parar
P5
0.5/50-P
1/SC
1/SC
0.5/T
0.5/SC
1/SC
0.33/SC
1/SC
0.25/Parar
P6
1/SC
1/SC
0.33/50
1/SC
1/SC
0.5/P
1/SC
0.5/SC
1/SC
0.25/T
0.25/SC
0.25/Parar
Cuadro 9: Simulación
Referencias
[1] Chlond M.J. (2001), ”The Travelling Space Telescope Problem,”INFORMS Transactions
on Education 2:1 (58-60).
[2] Cochran J.J. (2001), ”Who Wants To Be A Millionairer : The Classroom Edition,”INFORMS Transactions on Education 1:3 (112-116).
[3] Rump C.M. (2001), ”Who Wants to See a $Million Error?. A Neglected Educational
Resource,”INFORMS Transactions on Education 1:3 (102-111).
[4] Heyman D. and Sobel M. (1984), Stochastic Models in Operations Research. Vol 2,
McGraw-Hill, New York.
[5] Sniedovich M. (2003), .A Neglected Educational Resource,”INFORMS Transactions on
Education 2:3, 86-95.
[6] Sniedovich M. (2002), ”Towers of Hanoi,”INFORMS Transactions on Education 3:1 (3451).
16
[7] Sniedovich M. (2000), Çounterfeit Coin Problem”. INFORMS Transactions on Education
3:2 (32-41).
[8] Tijms H.C. (1986), Stochastic modeling and analysis. A computational approach. WILEY,
New York.
17
Descargar