“Algoritmos de búsqueda heurística en tiempo real. Aplicación a la

Anuncio
34ª Jornadas Argentinas de Inform ática e Investigación Operativa
“Algorit mos de búsqued a heurística en tiempo real.
Aplicación a la naveg a ción en los juegos de vídeo”
Autor:
Fernández, Martín Osvaldo
e- mail:
martinosvaldofern a n d e z@g m ail.com
Director:
Felice, Laura
e- mail:
lfelice@exa.unicen.edu.ar
Categoría:
Trabajos de Cátedra
Área:
Algoritmos, Lenguajes y Programación
Asignatura:
Análisis y diseño de algoritmos II
2º año de la carrera de Ingeniería de Sistemas
Facultad de Ciencias Exactas
Universidad Nacional del Centro de la Provincia de Buenos Aires
Tandil
Algoritmos de búsqueda heurística en tiempo real.
Aplicación a la navegación en los juegos de vídeo.
Resumen
Este trabajo se inició en el marco de un curso de intro d u cción al análisis y
diseño de algorit m o s, dictado en el 2º año de una carrera de infor m á tica. La
motivación fue estudiar cómo se extien de n los concep to s básicos de búsq ue d a
para adapta rlos a los requeri mien t o s de los siste ma s de tiemp o real. Como
caso de estudio se eligió la navegación en los juegos de vídeo, por ser un
proble m a que se resuelve natural m e n t e median t e la búsq ue d a. Se consideran
los juegos en tiempo real en los que el entorn o es dema siad o grande o el
terreno
es diná mico, de modo que las estrategias básicas de búsq ue d a
resulta n inadecua da s. En este contexto, se analiza n e imple me n t a n algorit m o s
de búsq ue da heurística en tiem p o real los cuales fueron concebidos para
resolver problem a s con estas características.
1. Introducción
La consta n te evolución de los juegos de vídeo ha llevado a que la inteligencia artificial
constit uya uno de los aspectos más impo rta n t e s; es fund a m e n t al que los agente s
(entida de s
autóno m a s)
controla dos
por
la comp u t a d o r a
se comp o r te n
en
forma
inteligente. Un proble ma característico es la navegación , que consiste en deter min a r el
camino más conveniente entre una posición inicial y una posición de destin o. Si bien el
planteo del proble ma es sencillo, el mis mo está lejos de ser trivial debido a la creciente
complejida d de los entor nos simulado s y los requeri mie n t o s de tiemp o real de los juegos
moder n os [Nareyek - 04 ].
La búsque da es una de las técnicas más utilizada s para resolver los proble ma s de
pathfinding 1 o planificación que se presen ta n en la inteligencia artificial en los juegos de
vídeo. En particular, la búsque da es utiliza da para resolver el proble m a de la navegación.
De los distintos tipos de algorit m os de búsq ue d a (figura 1 ), los algorit m o s búsq ue d a
heurística completa se encuentr a n amplia me n te difun did o s. Sin dudas, el algorit m o A* es
el algorit m o de búsque da heurística más popular [Stout - 96 ].
1 Es importante mencionar una ambigüeda d en la utilización del término pathfinding en la bibliografía referenciada.
Pathfinding se utiliza para hacer referencia tanto al problema general de encontrar una serie de pasos para llegar a un estado
objetivo partiendo de un estad o inicial, en el contexto de un problema cualquiera, como al problema específico de la
navegación.
Los algorit m o s heurísticos tradicionales mues tra n limitacione s impor ta n t e s cuan do el
espacio
de
búsque da
es demasia d o
grande
o existen
factores
diná micos.
En la
navegación, de los juegos de vídeo en tiemp o real, este proble ma aparece cuan d o las
rutas a deter mina r son muy largas, el terreno es modificable o existen muc ho s objeto s
móviles. Bajo esas condiciones, los algorit m o s de búsq ue d a básicos no puede n respo n d e r
en el tiempo requerido y resulta n inadecua d o s. De esta forma, surge la necesida d de
desarrollar nuevas estrat egias de búsq u e d a, que se adap te n a los requeri mie n t o s de
tiempo real de los juegos de vídeo y resuelvan adecua d a m e n t e caminos en condiciones
de incertidu m b r e sobre terre nos de gran extensió n [Laird,Pottinger - 00 ].
Actual me nt e existen dos clases de algorit m o s de búsq u e d a que se adecua n a la
resolución
de
problem a s
con
las
características
mencion a d a s:
los
algorit mo s
de
búsqueda heurística incre me ntales y los algorit m o s de búsqueda heurística en tiempo
real . Los algorit m o s increme n t ales utilizan infor mació n de búsq ue d a s previas para
encont ra r soluciones a proble ma s similares posiblem en t e más rápido que realizan d o
cada búsque d a partie ndo de cero [Koenig - 04 ]. Por otra parte, los algorit m o s de búsq ue d a
en tiempo real alternan planificación y ejecución del plan y restring en la planificación a
la parte del domi nio inmediata al estado actual del agente [Koenig - 01 ].
Aunque ambas técnicas se adapta n a los reque ri mie n t o s de los juegos en tiem p o real,
la idea de dividir la planificación en etapas de duració n limita da parece ser la más
difundi da. Esto se debe a que los algorit m o s de tiemp o real se basan en las estrat egias de
búsque da
de profun di d a d
limitada
utiliza d a s
en los proble ma s
de juegos de dos
jugadores como el ajedre z, las dama s y el Othello [Brockington - 00 ].
Este trabajo se desarr olla considera n d o los algorit m o s de búsq ue d a heurís tica en
tiempo real. En la sección 2 se presenta n los fun da m e n t o s de la búsq ue d a en tiemp o real.
Esta discusión es carácter general y no se habla de ningún algorit mo en particular. En la
sección
3 se describen
los algorit m o s
imple me n t a d o s;
además,
se presen t a n
los
resulta do s de las prueba s realizada s para analizar experi me n t al m e n t e el comp o r ta mie n t o
de estos algorit mo s, en un entor no similar al de los juegos de vídeo en tiem po real. Una
parte esencial del proyecto consistió en el desarrollo de la aplicación que proporcio nó la
platafor m a
de prueba
para
los algorit m o s.
Todas
las imágene s
de los ejemplo s
present a d o s en las figuras fueron generad a s con la misma. Los detalles del diseño y la
imple me n t ación de esta aplicación se encuen tr a n en el apén dice. Finalmen te en la sección
4 se encue ntra n las conclusiones y come n ta rios finales.
2. Fundamentos de la búsqueda en tiempo real
La búsque da es una técnica para resolver proble ma s cuya solución consiste en una serie
de pasos que frecuente m e n t e deben deter min a r s e media n te la prueba siste m á tica de las
alter na tivas. Desde los inicios de la Inteligencia Artificial, la búsq ue d a se ha aplicado en
diversas clases de proble ma s como juegos de dos jugadore s, proble m as de satisfacción
de restricciones y proble ma s de pathfin ding de un único agente [Korf- 00 ].
En la figura 1 , se presenta una clasificación de los algorit m o s de búsq u e d a, hacien do
hincapié en su modo de operación, y se incluyen los algorit m o s más represe n t a tivos de
cada clase [Bender - 96 ].
Búsqueda
Parcial – Tiempo Real
on-line
Completa
off-line
Real-Time A* (RTA*)
Learning Real-Time A* (LRTA*)
Min-max LRTA*
Simple
Heurística
Breadth first search
Depth first search
Iterative deepening search
Best first search
A star search (A*)
Iterative deepening A star search (IDA*)
Figura 1: Clasificación de los algoritmos de búsqueda.
Los algorit m os de búsque d a completa 2 tradicionales se caracteriz a n por su modo de
operación off - line , que deter mina que debe encont ra r s e la solución entera en una única
etapa de planificación, antes de comen z a r la ejecución de los pasos o acciones que la
compo ne n (figura 2 ). Es posible utilizar este esque m a de búsq u e d a si se cuenta con la
infor m ación suficiente sobre el proble m a y el tamañ o del espacio de búsq u e d a permite el
cálculo de la solución con los recursos comp u t acion ales dispo nibles.
Planificación
Ejecución
Figura 2: Modo de operación off- line.
2 La búsqueda completa puede realizarse sin información o utilizan do conocimiento del dominio del problema, lo que da
lugar a los algoritmo s de búsqued a simple y búsq ue da heurística respectivamen te.
Hacia fines de los 80' se comen z ó a utilizar concep to s de la búsq ue d a aplicada a
juegos de dos jugadore s en el desarrollo de estrategias para resolver problem a s de
pathfindi ng de un único agente. La idea funda m e n t al que se tomó fue la de intercalar
etapas de planificación (donde se realizan búsq u e d a s de profu n d i d a d limitad a) con
etapas de ejecución (figura 3 ). Este modo de operación se deno min a on- line y da lugar
los algorit m os de búsque da de tiem p o real 3 . Estos algorit m o s de búsq u e d a general son
capaces de respond e r a los requeri mien t o s de las aplicaciones de tiemp o real sobre
espacios de búsque da grande s y en condiciones de incertid u m b r e. Algunos algorit mo s
desarrolla dos con estas características son el Real- Time A*, el Learning Real- Time A* y
el Min- Max Learning Real- Time A*.
Planificación
Ejecución
Planificación
Ejecución
...
Planificación
Ejecución
Figura 3: Modo de operación on- line.
2.1. Descripción de las fases de la búsqueda heurística en tiempo real
De la discusión anterior se ve que el proceso de búsq ue d a en tiem p o real se lleva a cabo
alter na n do
dos
modos
de
operación
bastan te
distinto s.
El primer
modo
es
de
planificación, donde se simulan los movimien to s del agente para evaluar los resulta d o s
de las acciones inmediata s. Luego de termin a r la búsq u e d a, en este espacio acotad o de
posibilida de s,
el agente
pasa
al mod o
de
ejecución
y realiza
efectivamen te
un
movimiento. El proceso continúa altern a n d o fases de planificación y ejecución hasta que
se alcanz a el estado objetivo [Korf - 90 ].
2.1.1. La fase de planificación
Durante la etapa de planificación, es funda m e n t a l restringir la profu n di d a d de búsq u e d a
para poder respon de r dentr o de los límites de tiemp o impues t o s. Si bien el tiempo de
ejecución de los algorit m os de búsq u e d a es exponen cial respecto a la frontera de
búsque da, la mis ma está acota da por una consta n t e y por lo tanto también lo está el
tiempo de ejecución. Dado que la profu n di d a d de búsq u e d a es limita da, es necesario
contar con un métod o
para evaluar los estad os
no - objetivos. Es esencial para el
funciona mie nt o de esta estra tegia la utilización de heurís ticas que permi ta n estima r el
costo de alcanz ar un objetivo desde un estad o inter me dio.
3 Los algoritmos de búsq ueda en tiempo real también se conocen como algoritmos de búsq ueda de profun didad limitada,
algoritmos de búsq ue da parcial o local. No existe aún un término común para denominar a estos algoritmo s, aunque
reciente mente se ha prop u esto el de “búsqued a centrada en el agente” [Koenig - 01 ] (que abarca a todos los algoritmos que
intercalan búsqued a y ejecución, incluyend o aquellos que no respon den en tiempo constante que es el requerimiento de los
algoritmos de tiempo real).
Utilizando una función heurística, extendida median te búsq u e d a, es posible constr uir
una función de evaluación de estad o s que incluya el costo para alcan za r un esta do
deter mi na d o así como una aproximación sobre el costo para encontra r el objetivo desde
ese estado (figura 4 ). Se definen los siguientes costos:
•
f(n)
es el costo heurístico asociado a un estado n
•
g(n)
es el costo real para alcanza r un estado n a partir del estado actual 4
•
h(n)
es el costo heurístico para alcanza r un objetivo desde el estado n
La relación que existe entre los costos es:
f(n) = g(n) + h(n)
Una función heurística h es admisible si las estimacio ne s arroja da s nunca sobresti m a n
los valores
reales
de los estados
evalua do s.
La admisibilida d
es una
propied a d
impor ta n te de la función heurística, y frecuen te m e n t e es requeri da por los algorit mo s de
control para garanti zar un funciona mie n t o correcto.
f = g + h = 5,23
1
1
Estado
Inicial
1
h = 2,23
g=3
Estado
Evaluado
distancia real: 8
Estado
Objetivo
Figura 4: Los componen tes de la función de evaluación de estados para un ejemplo sencillo
Los gráficos corresponden a los estados alcanzad os mediante los movi me n tos simulados.
La heurística utilizada es la distancia euclídea y la profundidad de búsqueda es 3.
Al diseñar el algorit m o de planificación se deben realizar concesiones entre los
recurso s compu t a cionale s invertidos y la precisión de las evaluaciones devueltas. La
función heurística h en conjunto con la búsq ue d a de profu n di d a d limitada se consideran
una
sola función
heurística
f . La precisión
de los valores
obtenido s
dura n te
la
planificación aumen ta al incre me nt a r la profu n di d a d búsq u e d a, pero al mis mo tiemp o el
costo de ejecución aume nt a exponencialm e n t e. De esta forma, se obtiene toda una gama
de funciones de evaluación heurísticas que interca m bia n precisión por costo [Korf- 00 ].
4 En general, el costo entre dos estados vecinos puede ser fijado arbitrariamen te. En adelante se supon d rá un costo de una
unidad para pasar de un estado a cualq uier estado vecino.
2.1.2. La fase de ejecución
Uno de los principios más importa n t e s de la búsq ue d a en tiem p o real es la utilización de
la estrategia del menor compr o mi s o para los movimien t o s. Es decir, la inform ación
obtenida en cada etapa de planificación sólo se utilizará para deter mi n ar el próximo
movimiento. La razón es que luego de ejecutar la acción, se supo ne que la fronter a de
búsque d a se expan dirá, lo cual puede llevar a una elección para el segun d o movimien t o
diferente a que la que arrojó la primera búsq u e d a.
Sin embargo, para realizar una secuencia de decisiones no es suficiente con la
infor m ación devuelta por el algorit m o de planificación. La estrategia básica de repetir el
algorit m o
de
planificación
para
cada
decisión
resulta
inadecua d a
al
ignorar
la
infor m ación relaciona da con los estado s anteriore s. El proble m a radica en que, al volver a
un estado previa me n te visitado, se entrará en un ciclo infinito. Esto es algo que sucederá
con frecuencia, debido a que las decisiones se basan en infor mació n limita da y por lo
tanto direcciones que al principio parecían favorables puede n resulta r equivocadas al
reunir más inform ación durant e la exploración. En general, se desea evitar entrar en
ciclos infinitos y a la vez permitir volver a estados ya visitados cuand o parezca favorable.
El principio para resolver el problem a del control de la etapa de ejecución es: sólo se
debería regresar a un estado visitado cuando la estimación de resolver el proble m a desde
ese estado más el costo de volver al mis mo es menor que el costo estimado de seguir hacia
adelante desde el estado actual . Los primero s algorit m o s en imple me n t a r esta solución
fueron el Real- Time A* y una variante llamad a Learning Real - Time A* [Korf - 90].
3. Análisis e implementación de los algoritmos RTA* y LRTA*
El estudio se centró en el análisis e imple me n t a ción de los dos algorit m o s más conocidos
para el control búsque da de tiem po real, el Real- Time A* (RTA* ) y el Learning Real- Time
A* (LRTA* ); como la función de evaluación o algorit m o de planificación se implem en t ó el
algorit m o Minimin . Con este fin, se desarrolló una aplicación que propo rcio na un entor n o
similar al de un juego en tiempo real. El entorn o de navegación consiste en un espacio
discreto de dos dimensione s en forma de grilla, deno mi n a d o gridworld . Al utilizar un
entor no tan simple se evita el análisis de terreno , que consiste en la extracción de
infor m ación útil y manejable de un modelo complejo de terren o [Pottinger - 00 ].
3.1. Los algoritmos utilizados
En esta sección se describen y prese n t a n las caracterís ticas principales de los algorit mo s
que se utilizaron para la planificación y el control de la navegación.
3.1.1. El algoritmo de planificación: Minimin
Minimin [Korf - 90 ] es un algorit m o búsq ue d a de profu n di d a d limitada que se emplea
dura nt e la etapa de planificación. La búsq ue d a se hace a partir del estado actual hasta
una profun di da d deter mi na d a y en los nodos de la fronter a se aplica la función de
evaluación f . El valor de cada nodo intern o es el míni mo de los valores de los nodos de la
frontera del subárbol debajo del nodo (figura 5 ).
5,23
∞
5,23
∞
5,23
g=3
h = 2,23
5,23
g=3
h=3
6
profundidad de búsqueda: 3
Figura 5: Ejemplo de la asignación de valores a los estados intermedios realizada por el algoritmo Minimin.
Los gráficos corresponden a los estados alcanzad os mediante los movi me n tos simulados.
La heurística utilizada y el estado objetivo son los mismos que los del ejemplo de la figura 4.
Si la función heurística h es monót o n a no decreciente, es posible aplicar branch - and bound . El algorit m o resulta nt e se deno min a poda alfa por analogía con el algorit m o alfa beta . De esta forma, se añade un pará me t r o alfa que será el mínimo valor f de los nodos
de la fronter a evaluados hasta el mome n t o. Cuando se genera cada nodo interno se
calcula su valor f , si el mis mo iguala o supera el valor de alfa se termina la rama de
búsque da corres pon die n te. Es más, si se ordenan los esta do s expan did o s de mod o que
los
mejores
nodos
de
la fronte ra
sean
evalua do s
primero,
considerable me n t e la búsque da al mejorar la eficiencia de la poda.
será
posible
reducir
3.1.2 Los algoritmos de control de la ejecución
•
Real- Time A*
RTA* [Korf- 90 ] es un algorit m o de para controlar la fase de ejecución de la búsq ue d a
en tiempo real, y es indepen die nt e del algorit m o de planificación. El algorit m o guarda
el valor de cada estado visitado duran te la etapa de ejecución en una tabla de hash. A
medida
que la búsque da
avanza
se actualiza n
estos
valores utilizan d o
técnicas
derivadas de la progra m a ción diná mica [Koenig - 01 ].
El proceso de búsque da que realiza el algorit m o es el siguien te:
•
A los estados que no fueron visitados se les aplica la función de evaluación
heurística, posibleme nte extendida mediante una búsqueda.
•
Para los estados que se encuentra n en la tabla se utiliza el valor heurístico h
guardado en ella.
•
El vecino con el menor valor f es elegido para ser el nuevo estado actual y la
acción para alcanz ar ese estado es ejecutada.
•
El anterior estado actual se guarda en la tabla y se le asocia el segundo mejor
valor f de los vecinos más el costo para regresar al mis mo desde la nueva
posición.
La propieda d más importa n t e de RTA* es que, en espacios finitos y si el estado
objetivo se puede alcanz a r, se garanti za que se encontra r á una solución. Además, el
espacio requeri do es lineal respecto al nú mero de movimien to s realizad o s, ya que sólo
lleva una lista de los estados previame n t e visitado s. El tiemp o de ejecución también es
lineal respecto a los movimien tos ejecuta d o s. Esto se debe a que, aunq u e el tiemp o de
planificación es exponencial respecto a la profu n di d a d de búsq u e d a, el tiemp o esta
acotado por una consta n te al limitar la profu n di d a d de búsq u e d a.
•
Learning Real- Time A*
LRTA* [Korf- 90 ] es una versión del RTA* con apren di z aje. LRTA* es un algorit m o
eficiente para resolver proble m a s de búsq u e d a donde el estado objetivo es el mismo. El
algorit m o tiene la propieda d de que con las sucesivas resolucione s de un proble m a los
valores heurísticos convergira n a los valores exactos de los caminos óptim o s.
LRTA* se compor t a en forma similar que RTA*, sólo cambia la forma en la que se
guarda n los valores en la tabla (figura 6 ). En vez de guarda r el segun d o mejor valor f , la
tabla se actualiza con el mejor valor f . Entonces, cuando un proble m a es resuelto, se
guarda n los valores heurísticos y estos se convierten en los valores iniciales para la
próxima instancia del proble ma
Fig u ra 6 : Com para ción d e la form a en qu e se a ctu a liz a n
los v alores h eu rísticos, a l rea liz a rse la tra n sición d e
estados, en los alg oritm os RTA * y LRTA *.
f1
f2
Estado
Actual
f4
Segundo
mejor
f3
Mejor
LRTA*
RTA*
f1
f2
Estado
Anterior
f3 + 1
f1
Segundo mejor f + 1
f3
f2
Estado
Actual
Estado
Anterior
f4 + 1
Mejor f + 1
f3
Estado
Actual
A qu í se m u estra com o fu n cion a n los a lg oritm os RTA * y LRTA * p a ra la resolv er d el ca m in o d el ejem p lo qu e se v ien e
desarrollan do. Los n ú m eros celestes son los v a lores h eu rísticos a sig n a d os a la s p osicion es p or el a lg oritm o Min im in d u ran te
la etapa de plan ifica ción . Los n ú m eros n eg ros son los v a lores h eu rísticos g u a rd a d os en la ta b la p a ra la s p osicion es v isitadas
du ran te la ejecución d e los m ov im ien tos.
RTA*
LRTA*
3.2. Detalles de la implementación del control de la navegación
Al diseñar la aplicación, se decidió modelar en forma separa d a los comp o n e n t e s lógicos y
los compone n t e s que los controlan (ver apéndice ). La clase Simple_Token describe los
element o s lógicos con la capacida d de moverse y la clase Simple_Controller define un
tipo de controla dor, que le per mite a la comp u t a d o r a dirigir el proceso de navegación de
los element os asociados (figura 7 ).
La clase Simple_Controller toma las decisiones de más alto nivel en el proceso de
navegación: deter mina una posición de destino y le orde na al elemen t o asociado que se
mueva en una dirección deter mi na da. Este proceso se imple me n t a en el méto d o update
que será llamado periódica m e n t e (figura 8 ). La elección del movimien t o se realiza a
través de un pathfinder o buscador , indepe n di z a n d o al controla d o r de la estrategia de
búsque da elegida.
El proceso de búsque da en tiempo real está imple me n t a d o en la clase Pathfinder . Los
buscadore s mantiene n las estruc t u r a s de los algorit m o s de ejecución y realizan la
planificación. El método get_move imple me n t a los algorit m o s RTA* y LRTA* (figura 9 ). El
método mini min imple me n t a el algorit m o de búsq ue d a Minimin con poda alfa, que se
utiliza
para
la
evaluación
de
estado s
(figura
10 ). Un
aspecto
relevante
de
la
imple me n t ación de estos métodos es la forma en la se utilizan los valores heurís tico s
guarda d os, que difiere un poco a lo descrip to en la sección anterior. La tabla de hash
h_values es actualiza da en el método get_move , pero es en el méto d o mini min que se
utilizan sus valores en reem pla z o de la función heurística siem p re que sea posible.
Figura 7: Diagra m a de clases de los componentes de la aplicación que implementa n el control de la navegación
void Simple_Controller::update (void) {
// si no hay un objetivo, elegir como nuevo objetivo aquel que se encuentre más cerca
if current_goal == 0
min = ∞
for each: goal in: goals
d = distance (token->get_x(), token->get_y(), goal->get_x (), goal->get_y ())
if d < min
min = d
current_goal = goal
if current_goal != 0
pathfinder.set_current_goal (current_goal)
if current_goal != 0
// verificar si se alcanzó la posición de algún objetivo
isgoal = false
for each: goal in: goals
if is_goal (token->get_x(), token->get_y(), goal->get_x(), goal->get_y())
isgoal = true
current_goal = goal
if isgoal
// si se alcanzó un objetivo se destruye el mismo
current_goal->destroy ()
current_goal = 0
else
// sino, se ejecuta un nuevo movimiento en la dirección del objetivo actual
move = pathfinder.get_move ()
token->perform_action (move)
}
Figura 8: Pseudocódigo del método Simple_Controller::update que imple me n ta el control global del proceso de navegación.
string Pathfinder::get_move (void){
action = ""
best = second_best = alpha = ∞
position = new Position (token->get_x(), token->get_y())
visited.insert (position)
get_ordered_moves (moves)
for each: move in: moves
token->perform_action (move)
f = minimin (0, alpha, visited)
token->undo_action (move)
if f < best
second_best = best
best = f
action = move
else
if f < second_best
second_best = f
if RTA*
p.h = second_best + 1
else // LRTA*
p.h = best + 1
h_values.erase (p)
h_values.insert (p)
return action
}
Figura 9: Pseudocódigo del método Pathfinder:: get_move que impleme nta los algoritmos de control RTA* y LRTA*
float Pathfinder::minimin (float g, float & alpha, hash_set<Position> & visited){
if Simple_Controller::is_goal (token->get_x(), token->get_y(), goal->get_x(), goal->get_x())
if g < alpha
alpha = g
return g
else
position = new Position (token->get_x(), token->get_y())
pos = h_values.find (position)
if pos != h_values.end ()
if pos->h + g < alpha
alpha = pos->h + g
return pos->h + g
else
h=Simple_Controller::distance(token->get_x(),token->get_y(),goal->get_x(),goal->get_y())
if (g >= depth) || (h + g >= alpha)
if h + g < alpha
alpha = h + g
return h + g
else
minimum = ∞
visited.insert (position)
get_ordered_moves (moves)
for each: move in: moves
token->perform_action (move)
neighbor = new Position (token->get_x (), token->get_y ())
if visited.find (neighbor) == visited.end ()
f = minimin (g + 1, alpha, visited)
if f < minimum
minimum = f
token->undo_action (move)
visited.erase (position)
return minimum
}
Figura 10: Pseudocódigo del método Pathfin der::mini min que imple me nta el algoritmo de planificación Minimin
3.3. Análisis del comportamiento de los algoritmos
El análisis consistió
en la observación
del compo r t a mie n t o
de los algorit m o s
en
laberintos genera dos mediante la aplicación. Los laberint o s son de distin to s tamañ o s e
incluyen obstáculos estáticos y móviles, y pueden ser modificado s diná mica m e n t e. Tanto
el RTA* como el LRTA* fueron proba d o s con distin to s límites de profu n di d a d para el
algorit m o Minimin y utilizan d o la distancia euclídea como función heurística.
Se realizó una compara ción entre el RTA* y la primera instancia de resolución del
LRTA* en varios laberint os. En general se vió que el RTA* tiene un desem p e ñ o mucho
mejor. Esto se debe a que el LRTA* guarda valores meno res para los estado s visitado s y
por lo tanto tiende a volver a ellos con más frecuencia.
Por otra parte, la calidad de las soluciones de LRTA* tiende n a mejorar notable me n t e
en pocas repeticiones de la resolución del mismo camino. Esto no se da siem p re ya que,
cuando
la frontera
de búsque da
es peque ñ a
y los laberin to s
son
relativa me n te
complicados, el costo de las soluciones tarda varios ciclos en estabilizars e cerca del
óptimo.
Respecto a la variación de la profu n d i d a d de búsq ue d a se tuviero n resulta d o s que van
en contra de lo que se esperaba. Al aumen ta r la profu n di d a d de búsq ue d a y contar con
evaluaciones
más
precisas
mejoran
alguno s
aspecto s
del
compo r ta m ie n t o
de
la
navegación, pero no siempre aume nt a la calidad de la solución. En general, depen dien d o
del laberinto y el camino a resolver, contar con una función de evaluación más precisa no
lleva a que el RTA* o una primera instancia del LRTA* ejecute menos movimien t o s.
El proble ma es que el agente vuelve a posiciones ya visitadas con mucha frecuencia,
aunq ue la dirección que llevaba era la correcta. Un primer análisis per mitió observar que
los valores heurísticos guarda do s son parte de la función evaluación de estad os, y que la
única forma en la que los algorit m o s
básicos puede n
actualizar
estos valores es
visitándolos otra vez. Cuando las evaluaciones iniciales están por debajo de los valores
exactos el proceso de búsque d a se vuelve prope n s o a regresar a esos estados. Así se
recorrerá n zonas ya visitadas sólo para subir los valores heurísticos asignad o s y ajustar
la diferencia. Como ya se señaló, el algorit m o LRTA* guarda valores heurístico s menore s,
en compa ración con el RTA*, y por lo tanto sufre mucho más de este problem a.
Después de una investigación más profu n d a del proble m a, se encont ró un trabajo en
el que se aplica la búsque da en tiemp o real a la navegación y búsq u e d a de objetivos
móviles [Ishida - Korf- 95 ]. Allí se discu te el proble ma
expues to
y se lo denomina
“depresión heurística”. El proble m a de la depresión heurística consiste en la for mación
de regiones que son asigna da s valores heurísticos meno res que los exactos y queda n
limitadas
por regiones de valores más elevados. Cuando
se forma
una depresió n
heurística, el proceso de búsq ue d a queda estanca d o mome n t á n e a m e n t e en las posicione s
de esta región, hasta que los valores asignado s a las mism as iguala a los valores del
límite de la depre sión. Una forma de solucionar el proble ma es identificar la formació n
de una depresión y actualiz ar los valores de la región median te una búsq ue d a off- line.
Por otra parte, se compr obó una mejora muy importa n t e en la perfor m a n c e del
algorit m o Minimin con poda alfa, respecto a la versión sin poda (figura 11 ). Esta
optimi za ción, en conjunto con el orde na mie n t o de los nodos, es de extre ma impor ta ncia
para tener buenos tiempos de respue s t a, sin sacrificar demasia da precisión en las
evaluaciones.
Sin pod a
Con poda alfa
Figura 11 : Comparación de los estados expandidos durante la planificación por el algoritmo Minimin, sin realizar podas y
utilizando branch - and - bound o poda alfa y ordena miento de nodos. La frontera de búsqueda es 10.
Las prueba s
en entor nos
diná micos
fueron
bastan t e
satisfactorias
con
ambos
algorit m os. La estrategia de tener en cuenta sólo los cambios más cercano s al estado
actual parece ser basta nte buena, sobre todo en entorn o s dond e hay una cantidad elevada
de element o s diná micos. En general, si los obstáculos móviles no son extre ma d a m e n t e
difíciles de sortear, los movimient o s
realiza d o s
eventual m e n t e
se coordina n
para
supera rlos.
En la figura 12 se compa ra n los algorit m o s RTA* y LRTA* utilizan d o distin ta s
profun di da d e s.
En este caso particular, es posible ver algunos
de los resulta d o s
present a d o s. En este ejemplo, se muest ra n las posiciones que visita cada algorit m o junto
con los valores heurís ticas asigna dos, y se indica aproxima d a m e n t e la máxima extensión
que alcanza la zona de depre sión heurística en los casos donde es posible observar el
fenómeno con claridad.
Profundidad 0 – Movimientos 102
Profundidad 0 – Movimientos 104
Profundidad 5 – Movimientos 74
Profundidad 5 – Movimientos 410
Profundidad 10 – Movimientos 116
Profundidad 10 – Movimientos 398
RTA*
LRTA*
Figura 12 : Valores asignados a las posiciones visitadas para la mism a búsqueda utilizando la profundidad de búsqueda y
realizando el número de movi mientos indicados. El nú mero de movi mientos óptimo es 46. La posición de salida es siempre la
esquina superior izquierda y el destino es el casillero con el marco rojo. La heurística utilizada es la distancia euclídea.
En los casos que corresponde, se indica aproxim ad a m e n te la máxim a extensión de la zona de depresión heurística.
4. Conclusiones
La experiencia de implem e n t a r los algorit m o s y el análisis realiza do per mitió ganar una
compre n sió n mucho mayor del tema de búsq ue d a en general y, por sup ue s t o, de los
algorit m os de búsque da en tiem po real. Con la infor m ació n recopilad a dura n te el estu dio
de las técnicas de búsque da y los juegos de vídeo, y junto con los resulta d o s obtenid o s
dura nt e los experime n t o s realizados, se puede concluir que los algorit m o s de búsq ue d a
en tiempo real constit uyen una alterna tiva viable para la navegación en el context o de los
juegos de vídeo en tiempo real. Sin embargo, se ve son necesarias técnicas y estrategias
adicionales para poder obtener solucione s de la calidad requerid a por este tipo de
aplicaciones.
En muchos casos el compor ta mi e n t o de los algorit m o s implem e n t a d o s fue aceptable.
En particular, la navegación en entorn o s dinámicos resultó satisfacto ria. Sin embarg o, se
observó
que
impor ta n te
los
algorit m os
lo constituye
presen ta n
la formació n
alguno s
inconvenie n te s.
de regiones
El proble ma
de depresió n
heurística.
más
Este
fenóme no lleva a que la búsque d a se estan q u e en una región dura n te un tiemp o
considerable. Lo peor es que esto sucede con frecuencia, sobre todo cuando se utiliza el
algorit m o LRTA*. Una alterna tiva para de solució n es la utilización de búsq ue d a s off line, que eviten la necesidad de regresar innecesaria m e n t e a regiones ya visita das. En el
contexto de la navegación en los juegos de vídeo, el comp o r t a m ie n t o de los algorit m o s
puede
ser mejora do
considerable m e n t e.
En este
sentido,
muchas
de las técnicas
utiliza da s para mejorar el dese m pe ñ o de los algorit m o s tradicionales como el A* [Pinter 01 ] podrían ser adapta d a s para que funcione n con el RTA* y el LRTA*.
Es impor te mencionar que la aplicación desarrollad a, en la cual se encue nt ra n
imple me n t a d o s los algorit m o s estudia d o s, se convirtió en un proyecto open source. En
realidad, esta fue una idea que surgió al comien z o del proyecto y se decidió llevar
adelante debido a los resulta do s resulta d o s satisfacto rio s obtenid o s con la misma para
demos t r a r el funciona mie n t o de la búsq u e d a en tiem po real. El proyecto se encuen t ra en
SourceForge.net bajo el nombre de “Simple Real Time Search for Pathfinding ”. El enlace
es: sourceforge.net / p r ojects / r ts - simple . Además de subir el código, se planea incluir
docu m e n t ación relaciona da y hacer disponibles todas las extensio ne s que se realicen
sobre este trabajo.
Apéndice – Diseño e implementación de la aplicación
A.1. La arquitectura
La aplicación
fue
desarrollada
tenien d o
como
premisas
principales
de diseño
la
flexibilida d y expansibilidad. Para conseguirlo se crearon una serie de clases que abstrae n
las características y compor t a mi e n t o comú n de los
juegos en tiemp o real que se
desarrollan en laberint os de dos dimensio n e s. Este conju n to de clases describe n una
arquitect ur a para la aplicación muy simple que se describe a contin uació n.
Lo primero que se identificó fue la existencia de comp o n e n t e s que concept u al me n t e
son indepe n die n te s. Los compo ne n t e s principales que se consider an son los elemen t o s
que constit uye n la lógica (por ejemplo el jugado r, los enemigos, las parede s del laberinto,
etc) y los element os visuales (como las animacione s y efectos). Además, como parte de la
lógica se distingue n los elemento s lógicos pro pia m e n t e dichos y los comp o n e n t e s que
deter mi na n su compor ta m ie n t o y los controla n (como los mód ulos de la inteligencia
artificial). Todos
estos
compo ne nt e s
estan
relaciona d o s
ya que deben
trabajar
en
conjun to; sin embargo es deseable que exista cierta indepe n d e n cia entre ellos. Esto se
consigue modelan d o la lógica, el control y la visualización en forma separa d a. La clase
Base_Token modela los atribut os y compo r t a m ie n t o de estado comú n que poseen estos
compo ne n t e s, e imple me nt a un mecanis mo para comu nica rlos a través de los méto d o s
del patrón observador [Gam m a - 94 ]. La intención es definir a partir de esta clase a el
resto de las clases que modelan la lógica, control y visualización.
Figura A.1: La clase base los elementos lógicos, los controladores y los elementos visuales
La arquitect ur a incluye los compon e n t e s funda m e n t a les que constit uyen la lógica del
juego. A través de las clases Logic_Token y Action se logra desaco plar de los elemen t o s
lógicos los coman do s o acciones median t e los cuales modifican su estad o o el estado de
su entor no (este mecanis m o constituye el patró n coman d o [Gam m a - 94 ]). La clase Space
represe nt a a una estruc t ur a que per mite el acceso a los elemen to s lógicos a través de su
posición.
Figura A.2: Los componen tes de la lógica modelados en el fra mew ork
La visualización fue un aspecto secun d a rio y esto llevó a que sólo se añadiera un
sopor te míni mo para la visualización de animacio nes a través de la clase Anima tion . Sin
embargo, extende r esta parte del siste m a debería ser fácil porq ue el resto de los
compo ne n t e s son indepe ndie nt e s de la represe n tación gráfica.
Figura A.3: Los componentes de la visualización modelados en el frame work
A.2. La aplicación
El desarrollo de la aplicación consistió funda m e n t al m e n t e en comple tar la definición de
las clases abstracta s introd uci das en la arquitect u ra general descrip ta. De esta forma se
introd uje r on varias clases que definen el comp o r ta mi e n t o y atribu t o s de los elemen t o s
lógicos (Simple_Token), de control (Automove /Player /Si m p le_Cont r oller) y visualización
(Simple_Anima tion) específicos.
Figura A.4: Los clases introducidas por la aplicación para instanciar el fra mework
En lo que respecta a la lógica es impor ta n t e remarcar que objeto s lógicos tan diversos
como
los
enemigos,
las
parede s
y diama n t e s
Simple_Token . Esto se debe a que los atribu t o s
son
todos
estáticos
instancias
de
la clase
(como la posición) son
esencialme nt e los mismos para todos. Lo que cambia es el compo r ta mi e n t o y esto se
modela mediante la asociación diná mica de las acciones y los controla d o re s.
Hay muchas ventajas al trabajar con el bajo nivel de acopla mie n t o presen t e entre los
compo ne n t e s
lógicos, el control y la visualizació n. En la aplicación esto per mitió
imple me n t a r un siste m a de configuración median te script s muy flexible.
A.3. Detalles de la implementación
El lenguaje de progra m ación en el que se desarr olló la aplicación es C+ + stan da r d. La
idea es que la aplicación corra en varias platafor m a s, por eso todas las librerías
utiliza da s son multi - platafor m a. El compila do r utiliza d o es el de la Gcc (versión 3.x.x),
pero deberían poder utilizarse otros sin necesidad de realizar modificaciones al código.
Las platafor m a s
probada s
hasta el mo me n t o
son Linux (que es la platafor m a
de
desarrollo principal) y todas la versiones de Windows (9x y NT) (utilizan d o el port de la
Gcc provisto por la MinGW).
Las librerías que se utilizan son:
•
Lua: Motor de scripting.
www.lua.org
•
SDL (Simple Media Layer): Multime dia (video, sonido, entra da, eventos, thread s).
www.libsdl.org
•
STLport : Impleme n t a ción portable de la STL (Standar d Template Library) de C++.
www.stlpor t.or g
Bibliografía
[Bender - 96]
“Mathe m a tical Methods in Artificial Intelligence ”
Edward A. Bender (IEEE Comp u te r Society Press and John Wiley –
Enero 1996)
[Brockinton - 00]
“Pawns Captures Wyvern: How Computer Chess Can Improve Your
Pathfinding ”
Mark Brockingto n (Game Developer Conference – 2000)
[Gamma - 94 ]
“Design Patterns. Elements of Reusable Object - Oriented Software ”
Erich Gamma, Richad Helm, Ralph Johnso n, John Vlissides
(Adisson - Wesley – 1994)
[Ishida,Korf - 95]
“Moving - Target Search: A Real- Time Search for Changing goals ”
Toru Ishida, Richard E. Korf (IEEE Transaction s on Pattern Analisys
and Machine Intelligence, 17 – Junio 1995)
[Koenig - 01]
“Agent - Centered Search ”
Sven Koenig (Artificial Intelligence Magazine, 22 – 2001)
[Koenig - 04]
“Incre me ntal Heuristic Search in Artificial Intelligence ”
Sven Koenig, Maxim Likhachev, Yaxin Liu, David Furci (Artificial
Intelligence Magazine – 2004)
[Korf - 90]
“Real- Time Heuristic Search ”
Richard E. Korf (Artificial Intelligence, 42 – Marzo 1990)
[Korf - 00]
“Artificial Intelligence Search Algorith m s ”
Richard E. Korf (Agosto 2000)
[Laird,Pottinger - 00]
“Game AI: The State of the Industry, Part Two ”
John E. Laird, Dave C. Pottinger (Gamasu t r a – Noviemb re 2000)
[Nareyek - 04]
“AI in Computer Games ”
Alexander Nareyek (Game Develop me n t Vol 1, 10 - Febrero 2004)
[Pinter - 01]
“Toward More Realistic Pathfinding ”
Marco Pinter (Gamasu t r a – Marzo 2001)
[Pottinger - 00]
“Terrain Analysis in Realtime Games ”
Dave C. Pottinger (Game Developer Conference – 2000)
[Stout - 96]
“Smart Moves: Intelligent Pathfinding ”
Bryan Stout (Game Developer Magazine – Octubre 1996)
[Underger - 01]
“Real- Time Edge Follow: A New Paradig m to Real- Time Search ”
Cagatay Underger, Faruk Polat, Ziya Ipekkan (2001)
Links
www.gamas ut r a.co m
www.gamedev.net
www- cs - studen t s.s t a nfo r d.e du / ~ a m i t p / g a m e p r o g. h t m l
Descargar