Mejora paramétrica de la interacción lateral en computación

Anuncio
Mejora paramétrica de la interacción lateral en
computación acumulativa
Javier Martı́nez-Cantos1 , Enrique Carmona1 , Antonio Fernández-Caballero2 y
Marı́a T. López2
2
1
Departamento de Inteligencia Artificial
E.T.S.I. Informática, U.N.E.D, 28040-Madrid, España
javiermc@info-ab.uclm.es,ecarmona@dia.uned.es
Instituto de Investigación en Informática de Albacete (I3A) y
Escuela Politécnica Superior de Albacete
Universidad de Castilla-La Mancha, 02071-Albacete, España
{caballer,mlopez}@info-ab.uclm.es
Resumen El problema de la segmentación de objetos en movimiento
en secuencias de vı́deo ha sido abordado desde varias aproximaciones.
Aumenta un grado la dificultad cuando los objetos monitorizados poseen
una apariencia deformable. El método usado en este documento utiliza
una red neuronal, explotando la mecánica de la computación acumulativa
en conjunción con la interacción lateral recurrente. A pesar de los
resultados contrastados en anteriores trabajos, realizamos en este artı́culo
un estudio para mejorar la segmentación sin recurrir a conocimiento de
alto nivel. Los módulos propuestos incluyen un filtrado de los objetos
según caracterı́sticas de tamaño y compacidad y un algoritmo genético
capaz de aprender los parámetros que se comportan de un modo mejor.
1.
Introducción
El análisis del movimiento visual a partir de imágenes cambiantes en el tiempo
es un área importante en visión por computador [2] y en procesamiento de
imágenes [10]. Se trata de un único problema con múltiples aplicaciones, al que
se destina mucha investigación [9],[10],[4],[1],[13] y que ya ha dado buenos frutos.
En particular, los estudios sobre detección de objetos no rı́gidos están entre los
de mayor importancia en análisis del movimiento [4].
Según el enfoque que se utilice en el desarrollo de estos métodos, es posible
distinguir entre métodos basados en modelos y métodos guiados por datos. Los
primeros, de tipo descendente (“top-down”), utilizan conocimiento especı́fico
sobre el dominio para construir modelos de aquello que se espera aparezca
en la imagen. Luego, se intenta hacer encajar esos modelos con los datos que
se presentan en la imagen. El otro tipo de métodos se corresponde con una
arquitectura ascendente (“bottom-up”). Éstos son apropiados cuando no existe
conocimiento sobre qué tipo de objetos pueden aparecer, o bien cuando la
A. Fernández-Caballero, M.G. Manzano, E. Alonso & S. Miguel (Eds.): CMPI-2006, pp. 262-273, 2006.
© Universidad de Castilla-La Mancha, Departamento de Sistemas Informáticos, Albacete (España).
Mejora paramétrica de la ILCA
263
diversidad puede ser muy amplia, complicando excesivamente el diseño de un
modelo. Estas técnicas operan en tres pasos: preprocesan la imagen para realzar
los datos de interés y suprimir el ruido, segmentan los objetos agrupando pı́xeles
pertenecientes a las mismas estructuras en regiones y finalmente interpretan la
escena basándose en las caracterı́sticas obtenidas.
La interacción lateral en computación acumulativa [5],[6],[7] (de aquı́ en
adelante, ILCA), es un método conducido por datos, capaz de obtener con
bastante claridad los objetos deformables presentes en una secuencia de imágenes
indefinida, independientemente del tipo de movimiento. La ILCA se implementa
como una red neuronal multicapa inspirada en dos modelos: la computación
acumulativa local [8] y la interacción lateral recurrente [11]. El método es
orientado al pı́xel y no a regiones, por lo que es más apropiado para ciertos
problemas como las oclusiones (ambigüedad del movimiento de los objetos sobre
el fondo).
Ahora bien, en un aspecto práctico, tanto las condiciones ambientales,
como las distorsiones introducidas por el propio equipo de captación o el tipo
de elementos presentes en la escena hacen variar mucho los resultados. La
adaptación a estas circunstancias depende de la calibración de los parámetros
del sistema. Dicha labor no es automática y requiere un experto que la realice,
es decir, un agente externo que interprete la escena a priori y ajuste el sistema
para detectar aquello que le interesa. La propuesta presentada en este artı́culo
pretende lograr la autoconfiguración, prescindiendo de conocimiento de alto
nivel. Para ello se introducen dos módulos: el primero orientado a mejorar la
salida a partir de la incorporación de nuevos parámetros y el segundo dirigido
a la realimentación del sistema para aprender los parámetros más adecuados
mediante un algoritmo genético al estilo de otros trabajos [3],[14].
2.
Breve descripción del método ILCA
Basado en el proceso de visión artificial descrito por Mira y Delgado [12], el
sistema se compone de una red neuronal multicapa hacia delante de cuatro
capas. Cada pı́xel en el fotograma de entrada alimenta una neurona en la capa
inferior. La capa superior del modelo produce otra imagen de idéntico tamaño,
donde se observan un conjunto de siluetas. El método ILCA se ofrece de un
modo resumido, ya que puede consultarse en extenso en [7].
2.1.
Capa 0: Segmentación por bandas de nivel de gris
Se segmenta la imagen de entrada (en niveles de gris N G) separando en diversas
bandas (k) de niveles de gris (BN G) los pı́xeles que pertenecen a cada una de
ellas (ver ecuación 1). Por cada fotograma de la secuencia habrá tantas imágenes
como bandas de niveles de gris. El número de bandas de gris n constituye el
primero de los parámetros que ofrece la ILCA. Estas bandas tienen el mismo
tamaño y no se produce solapamiento entre ellas.
+ 1 = k, ∀k ∈ [0, n − 1]
1, si N G[x,y,t]
256
(1)
BN Gk (x, y, t) =
−1, en caso contrario
264
2.2.
J. Martı́nez-Cantos y otros
Capa 1: Interacción lateral para la computación acumulativa
En esta capa se centra la atención sobre los pı́xeles que consigan un nivel
suficiente de carga de permanencia (CP ) calculada a partir de la detección de
movimiento a lo largo del tiempo. Denominamos a este método computación
acumulativa (ecuación 2). Para ello se recorren todas las bandas, pı́xel a pı́xel.
Un pı́xel con carga se identifica como un pı́xel donde se ha detectado movimiento
recientemente. Un pı́xel donde se acaba de detectar movimiento en el instante
actual es cargado al valor de máxima carga o valor de saturación (vsat ).
Contrariamente, cuando en un pı́xel no se detecta movimiento, éste se descarga
al valor mı́nimo de carga o valor de descarga (vdes ). Los pı́xeles con cierta
carga, y en los que se mantiene detección de movimiento, van descargándose
gradualmente en un valor vdm de descarga debida al movimiento.
⎧
vdes , si BN Gk (x, y, t) = −1
⎪
⎪
⎨
vsat , si (BN Gk (x, y, t) = 1)&(BN Gk (x, y, t − t) = −1)
CPk (x, y, t) =
máx(CPk (x, y, t − t) − vdm , vdes ),
⎪
⎪
⎩
si (BN Gk (x, y, t) = 1)&(BN Gk (x, y, t − t) = 1)
(2)
Esta capa dispone de una estructura modular en forma de malla, donde
todos los elementos se encuentran interconectados, vertical y horizontalmente,
pudiendo comunicarse cada neurona con sus vecinas hasta una distancia de l1
pı́xeles a través de canales de entrada y salida. Hablamos de interacción lateral.
Un pı́xel en proceso de descarga puede mantenerse dentro de la silueta del objeto
al que pertenece a través de una recarga por vecindad (vrv ), pues los pı́xeles con
máxima carga actúan como iniciadores de una interacción lateral, que transcurre
a través de todos los pı́xeles cuya carga no sea absoluta (ni vsat , ni vdes ). Por eso,
se dice que se comportan como estructuras transparentes. Del mismo modo, los
pı́xeles con carga mı́nima paran el avance: son estructuras opacas. La ecuaciones
3 y 4 describen este comportamiento.
CPk (x, y, t) = min(CPk (x, y, t) + · vrv , vsat )
(3)
donde
⎧
1, si ∃(i ≤ l1 )|∀(1 ≤ j ≤ i) ⎪
⎪
⎪
⎪
((CPk (x + i, y, t)) = vsat (CPk (x + j, y, t)) = vdes
⎪
⎪
⎪
⎪ (CPk (x − i, y, t)) = vsat (CPk (x − j, y, t)) = vdes
⎨
(CPk (x, y + i, t)) = vsat (CPk (x, y + j, t)) = vdes
=
⎪
⎪
(CPk (x, y − i, t)) = vsat (CPk (x, y − j, t)) = vdes )
⎪
⎪
⎪
⎪
⎪
⎪
⎩
0, en caso contrario
(4)
Por último, se aplica un valor umbral denominado valor mı́nimo de mancha
por banda de nivel de gris (θper ). Con todo ello, se obtiene el valor de
permanencia final.
265
Mejora paramétrica de la ILCA
2.3.
Capa 2: Interacción lateral para la obtención de elementos de
siluetas
Los valores de permanencia calculados por la capa 1 son ofrecidos a esta capa
(ahora las cargas de permanencia pasan a denominarse C), donde de nuevo se
presenta una estructura modular en forma de malla. En esta etapa, la carga es
repartida entre todos los pı́xeles (en una distancia máxima l2 ) que forman una
silueta, entendiendo como tal al conjunto de los pı́xeles vecinos, dentro de la
misma banda, que tengan carga no nula. La interacción lateral se encargará de
delimitar esos repartos y de repartir uniformemente la carga dentro de cada
mancha. Ası́ se definen las siluetas de los objetos, se diluye el movimiento del
fondo y se obtiene cierta aproximación a la clasificación de los objetos basándose
en el color de las manchas (ver ecuación 5). En esta capa también existe un
umbral final que restringe la salida a la siguiente capa, a saber, el valor mı́nimo
de mancha para la fusión de objetos (θcar ).
Ck (x, y, t) +
l2
l2
δx+i,y+j · Ck (x + i, y + j, t)
i=−l2 i=−l2
l2
Ck (x, y, t) =
,
δx+i,y+j
1+
i=−l2
∀(i, j) = (0, 0)
donde
2.4.
(5)
δα,β =
1, si Ck (α, β, t) > vdes
0, en caso contrario
(6)
Capa 3: Interacción lateral para la fusión de objetos en
movimiento
Por último, se reúnen de nuevo todas las subcapas para generar la imagen final
S, según muestra la fórmula 7.
S(x, y, t) = max(Ck (x, y, t)), ∀k ∈ [0, 255]
(7)
Se procede, aplicando a cada pı́xel de la imagen final el valor máximo
entre los correspondientes a las mismas coordenadas, en cada subcapa anterior.
Posteriormente, se realiza la media de cada punto con los vecinos del
entorno (de nuevo, mediante la interacción lateral hasta una distancia de l3
pı́xeles)(ecuaciones 8 y 9). Finalmente, se aplica el último de los umbrales (θobj ),
llamado valor mı́nimo de detección de siluetas.
S(x, y, t) +
S(x, y, t) =
l3
l3
δx+i,y+j · S(x + i, y + j, t)
i=−l3 i=−l3
l3
1+
∀(i, j) = (0, 0)
i=−l3
,
δx+i,y+j
(8)
266
J. Martı́nez-Cantos y otros
donde
3.
δα,β =
1, si S(α, β, t) > vdes
0, en caso contrario
(9)
Mejora paramétrica de la ILCA
En esta sección se presenta un marco de trabajo que incluye el método ILCA
(en sus cuatro capas) y añade unos módulos externos a la misma para la mejora
paramétrica del método. Dicha mejora tendrá en cuenta la escena especı́fica
tratada. El marco completo del sistema de segmentación se muestra en la figura
1.
Como se ha visto, la ILCA produce conjuntos de siluetas para cada fotograma
de la secuencia que procesa. El módulo “discriminación de objetos”filtra las
siluetas, según criterios del usuario, y, dependiendo de la escena especı́fica, para
obtener sólo los objetos de interés en cada una de las imágenes. El módulo
“refinamiento de parámetros”manipula los parámetros de la ILCA basándose
en el número de objetos detectados frente a los realmente de interés (dato
indicado por el usuario). La composición de los parámetros se realiza aplicando
un algoritmo genético.
Sm
R(x,y,t)
Sd(t)
amax, amin,
hmax, hmin,
cmax, cmin
Discriminación de objetos
Refinamiento de parámetros
S(x,y,t)
Tobj
Interacción lateral para la fusión de
objetos en movimiento
...
Ck(x,y,t)
Tcar
Interacción lateral para la obtención de
elementos de siluetas
...
CPk(x,y,t)
vsat, vdes, Tper
Interacción lateral para la computación
acumulativa
...
BNGk(x,y,t)
n
Segmentación por bandas de nivel de gris
NG(x,y,t)
Secuencia de imágenes
Figura 1. Marco de trabajo para la solución propuesta
Mejora paramétrica de la ILCA
3.1.
267
Discriminación de objetos
El conjunto de siluetas resultante del proceso de ILCA es filtrado por medio de
los criterios de “tamaño “compacidad”. Cada escena especı́fica monitorizada
marca en qué márgenes se encuentran los objetos de interés (en pı́xeles): anchura
máxima (amax ), anchura mı́nima (amin ), altura máxima (hmax ) y altura mı́nima
(hmin ). Otro factor que puede actuar en conjunción es el porcentaje que ocupan
los objetos dentro de la caja (bounding box) que los rodea: hablamos de la
compacidad máxima (cmax ) y de la compacidad mı́nima (cmin ). La escena
resultante de todo el proceso es almacenada junto con la contabilización, en
cada fotograma, del número de objetos detectados (Sd). Este módulo reduce la
rigurosidad con que debe ser configurada la ILCA, pues puede filtrar algunos
objetos no buscados o ruido.
2
3.2.
Refinamiento de parámetros
La estructura de la ILCA corresponde a una red neuronal y, por tanto, conlleva
un sistema de aprendizaje de la misma. Tratamos de dotar de algún mecanismo
que realimente el ciclo, desde la capa inferior, permitiendo modificar los
parámetros de configuración. Se utiliza un algoritmo genético, por su idoneidad
en la búsqueda de soluciones en problemas de optimización donde el espacio de
búsqueda es tan amplio que no permite un recorrido exhaustivo. El usuario debe
orientar al algoritmo genético, indicando cuántos objetos en movimiento hay en
la imagen, o más correctamente, cuántos le interesan.
El algoritmo genético asistirá al sistema en la búsqueda no supervisada de
parámetros adecuados según el usuario establezca: tamaño (T ) de la población
(conjunto de soluciones), puntos de recombinación crossover en la reproducción,
probabilidad de mutación, número de generaciones (N ) y número de objetos
esperados (Sm). Ası́ el algoritmo genético procesará la secuencia original
T +N ∗(T /2) veces, con los parámetros que vayan determinando los individuos de
la población. La ILCA es configurada en base a seis parámetros distintos (vistos
con anterioridad) que formarán los cromosomas de los individuos: número de
bandas de nivel de gris (n), descarga debida al movimiento (vdm ), recarga debida
a la vecindad (vrv ), valor mı́nimo de mancha por banda de nivel de gris (θper ),
valor mı́nimo de mancha para la fusión de objetos (θcar ) y valor mı́nimo de
detección de siluetas (θobj ).
Según la regla de los bloques de construcción, es recomendable situar en
genes consecutivos los parámetros relacionados entre sı́. El número de bandas
de nivel de gris (n), aparentemente, no tiene relación con el resto. Descarga
debida al movimiento (vdm ) y recarga por vecindad (vrv ) sı́ que parecen mucho
más afines y consecuentemente deberı́an ir uno junto al otro. Los tres últimos
parámetros citados son umbrales (θper , θcar , θobj ). Aunque en principio parecen
no guardar una relación directa, puede ser interesante reunirlos, pues todos ellos
representan umbrales que determinan qué valores pasan a la capa siguiente. En
consecuencia, la población se codificará en el orden (n, vdm , vrv , θper , θcar , θobj ).
La función de evaluación seleccionada (E) pretende minimizar el error producido
268
J. Martı́nez-Cantos y otros
por el número de objetos detectados en cada instante (Sd(t)) respecto al número
de objetos esperados por el usuario (Sm), para una secuencia de k fotogramas,
conforme se observa en la ecuación 10:
E=
k−1
t=0
|Sd(t) − Sm|
|t − k2 | + 1
(10)
Ası́ pues, esta función de adaptación o fitness considera en cada fotograma
la diferencia entre el número de objetos detectados y los esperados, dotando
de mayor importancia a los fotogramas centrales de la secuencia, ya que
habitualmente al comienzo y al final de las secuencias no se visualizan todos los
objetos o es difı́cil detectarlos, además de que al principio, el algoritmo requiere
de algunos fotogramas para converger.
4.
Datos y resultados
Por último, se realiza un análisis de los resultados producidos según se manipulen
los módulos de “discriminación de objetos de “refinamiento de parámetros”.
Para ello se utiliza una secuencia formada por 49 fotogramas, en 256 niveles de
escala de gris y con dimensiones 128x128 pı́xeles. Se trata de una escena sencilla,
donde aparece un humano desplazándose a lo largo de una habitación (ver figura
2).
2
t=8
t=14
t=20
t=26
Figura 2. Algunas tramas de la secuencia de entrada
Como ya se ha mencionado, la ILCA ofrece resultados aceptables cuando los
parámetros están bien configurados [7]. El número de parámetros del método
ILCA es elevado y su ajuste es complicado. Por ello, históricamente se suele
acudir a un mismo conjunto cuyo comportamiento es satisfactorio en muchas
escenas. Tı́picamente se vienen utilizando 8 bandas de nivel de gris, 63 como valor
de descarga debida al movimiento, 31 como valor de recarga debida a la vecindad
y 150 para cada uno de los umbrales, es decir, valor mı́nimo de mancha por banda
de nivel de gris, valor mı́nimo de mancha para la fusión de objetos y valor mı́nimo
de detección de siluetas, respectivamente. Según la descripción ofrecida acerca
del “refinamiento de parámetros”, el cromosoma tı́pico que configura la ILCA es
Mejora paramétrica de la ILCA
269
(8, 63, 31, 150, 150, 150). En la figura 3 aparece el resultado del procesamiento
de la secuencia ejemplo con este cromosoma.
Efectivamente se obtiene la silueta del objeto en movimiento; sin embargo
alrededor de ella aparece mucha información extraña. La inclusión de ruido en
cantidad es uno de los principales problemas que se derivan de la aplicación
de unos parámetros poco efectivos. A pesar de no ser percibible visualmente,
en cada fotograma existen alrededor de 500 objetos detectados. Esto dificulta
el tratamiento de la información por capas de software de más alto nivel que
utilicen la ILCA como base. Además, la silueta es confusa, pues unido a los
contornos del objeto que se desplaza, existen otros contornos que pertenecen a
elementos del fondo de la imagen o incluso a su propia sombra.
Figura 3. Procesado con parámetros tı́picos (f itness = 2754 41)
Los resultados se acompañan de la medida de fitness para poder comparar
los diversos métodos de un modo más riguroso. En este caso la medida es muy
alta, considerando que un valor cero representa que se detectaron únicamente
los objetos indicados: en el ejemplo buscamos sólo un objeto (Sm = 1), es decir,
al humano.
4.1.
Resultados tras la “discriminación de objetos”
Hemos indicado anteriormente que el filtrado de objetos puede realizarse según
dos criterios: compacidad y tamaño. En el primero de los casos, el usuario se
encarga de establecer la proporción de espacio que un objeto puede ocupar
dentro de la caja que lo delimita. La figura 4a muestra el resultado de procesar
la secuencia con el mismo cromosoma pero con una limitación de compacidad
máxima del 95 %.
Se observa con claridad cómo ha desaparecido de los fotogramas mucho
ruido. Aunque no consta en los fotogramas presentados, este factor también
tiene efecto beneficioso sobre el proceso de convergencia de la secuencia, pues
evita la detección de movimiento en el primer fotograma debido a la carga inicial
de todos los pı́xeles. La mejorı́a es visible y ası́ lo indica la reducción del fitness
en más de siete veces su valor anterior. Por su parte, el establecimiento del valor
menor de compacidad también es importante. Sobre la secuencia procesada con
270
J. Martı́nez-Cantos y otros
el cromosoma tı́pico aplicamos ahora un lı́mite mı́nimo de compacidad del 40 %,
sin imponer un máximo.
(a)
(b)
(c)
(d)
Figura 4. Mejora por compacidad y tamaño. (a) Compacidad máxima 95 % (f itness =
377 45). (b) Compacidad mı́nima 40 % (f itness = 2721 21). (c) Altura 60-100 y
anchura 25-90 (f itness = 0 167). (d) . Compacidad 40-95 %, altura 60-100 y anchura
25-90 (f itness = 4 854)
En la figura 4b aparece el resultado. En este punto queda de manifiesto
la relevancia de una configuración acertada en los parámetros de la ILCA.
Anteriormente se visualizaba en todos los fotogramas el objeto en movimiento,
además de otros tantos no deseados. Ahora, por la acción de la compacidad
mı́nima, la persona queda filtrada en algunas imágenes. Esto se debe a que
los objetos no son detectados con exactitud y con frecuencia son encerrados en
grandes cajas junto con otros elementos extraños, formando una única silueta.
Por este motivo, sucede que algunas cajas contienen al humano y éste ni tan
siquiera ocupa el 40 % de ese espacio.
Aunque el resultado no es demasiado bueno, se opta por mantener este
parámetro de compacidad a dicha cantidad pues la pretensión es obtener siluetas
que comprendan mayoritariamente al objeto que representan. El otro tipo de
filtrado restringe el tamaño de estas cajas. Según la aplicación deberán medirse
los objetos monitorizados, en pı́xeles, para especificar a partir de qué tamaño un
Mejora paramétrica de la ILCA
271
objeto es interesante. Ası́ será posible evitar la interferencia de pequeños objetos
y en general de ruido. De forma análoga, será conveniente establecer el tamaño
máximo. La figura 4c presenta el resultado para cajas de anchuras entre 25 y 90
pı́xeles, y alturas entre 60 y 100 pı́xeles, sin restricciones de compacidad.
Ahora, el resultado ha mejorado ostensiblemente. El ruido ha desaparecido
por completo y el fitness presenta una medida muy buena. También desaparece
el efecto de la convergencia. Sin embargo, sólo se ha limpiado el resultado del
procesado original. Las siluetas representan claramente la posición del objeto
en movimiento, mostrando incluso algunos de sus contornos principales, pero
continúan existiendo bandas unidas al objeto que no forman parte de él. Ha
sido posible extraer aquellos objetos de interés de entre los generados, pero sigue
siendo necesario un modo de mejorarlos. En adelante aplicaremos ambos métodos
de discriminación de un modo conjunto, aunque dificulten a priori la detección
de objetos, tal como se observa en la figura 4d y sobre todo en su fitness: en
algunos fotogramas el objeto de interés es filtrado por efecto de la compacidad
mı́nima.
4.2.
Resultados tras el “Refinamiento de parámetros”
El algoritmo genético es el medio idóneo para obtener buenas configuraciones
para la ILCA. Limitando la compacidad entre 40 y 95 %, la altura entre 60 y 100
pı́xeles, y la anchura entre 25 y 90 pı́xeles, se ha ejecutado en varias ocasiones
este módulo. Generalmente, las poblaciones utilizadas fueron de 16 individuos
o cromosomas, con crossover de 3 puntos y probabilidad de mutación del 8 %
por gen. El algoritmo ha sido ejecutado durante 14 generaciones, calculando un
total de 128 individuos cada vez. En algunas de estas ejecuciones se introdujeron
en la población inicial determinados cromosomas para sesgar la evolución, por
ejemplo, el cromosoma tı́pico (8, 63, 31, 150, 150, 150). A excepción de esos
cromosomas, la población inicial es generada al azar: todos los parámetros varı́an
entre 0 y 255, menos el número de bandas por nivel de gris (n) que sólo toma
valores 2, 4, 8 o 16 por motivos de eficiencia.
En la figura 5 aparecen algunos fotogramas caracterı́sticos de los cromosomas
obtenidos de este modo. A pesar de no haber producido muchas generaciones,
el algoritmo genético ofrece algunos resultados interesantes. Se han alcanzado
medidas de fitness relativamente bajas y, exceptuando algunos fotogramas donde
se pierde el objeto debido a las restricciones del módulo de discriminación, los
resultados son satisfactorios. Dependiendo del cromosoma utilizado, la silueta se
presenta más o menos definida, pero siempre suavizada y sólida. Debe observarse
que en algunos fotogramas donde antes se perdı́a el objeto (figura 4d, t = 20 y
t = 26), ahora no ocurre, pues la silueta producida es más perfecta y no presenta
contornos del fondo unidos a ella.
5.
Conclusiones
La monitorización con cámaras fijas se caracteriza por vigilar espacios cuyas
condiciones ambientales están controladas y son poco variables. Bajo estas
272
J. Martı́nez-Cantos y otros
(a)
(b)
(c)
Figura 5. Resultados con distintos cromosomas. (a) (4, 63, 106, 99, 150, 36) (f itness =
2 753). (b) (8, 30, 46, 105, 173, 31) (f itness = 2 197). (c) (8, 102, 200, 37, 210, 14)
(f itness = 0 8781)
condiciones, la ILCA dispone de capacidad suficiente para adaptarse a las
pequeñas variaciones que puedan producirse en tal situación, siempre y cuando
se parta de una buena configuración.
Entonces, el problema es encontrar un conjunto de parámetros adecuado
para el escenario elegido. El modelo propuesto configura automáticamente el
sistema tomando una secuencia captada en el lugar donde vaya a implantarse.
Además, añade un mecanismo para relajar la rigurosidad del proceso, pues
se efectúan post-procesados para suprimir objetos indeseados. El algoritmo
genético muestra un panorama alentador, pues con pequeñas pruebas genera
resultados esperanzadores. Parece interesante continuar en el mismo camino,
probando con otras configuraciones de ambos módulos, para conocer un tanto
mejor la composición de los cromosomas. También conviene intentar conducir las
ejecuciones, combinando varios cromosomas de buen comportamiento y obtener
poblaciones más refinadas.
Agradecimientos
Este trabajo ha sido parcialmente financiado por los proyectos CICYT TIN200407661-C02-01 y TIN2004-07661-C02-02.
Mejora paramétrica de la ILCA
273
Referencias
1. Aggarwal, J.K., Nandhakumar, N.: On the computation of motion from sequences
of images - A review. Proceedings of the IEEE (1988) 917–935
2. Bathe, K.: Finite Element Procedures in Engineering. Prentice-Hall (1982)
3. Chiu, P., Girgensohn, A., Polak, W., Rieffel, E.G., Wilcox, L., Bennett, F.H. III: A
genetic segmentation algorithm for image data streams and video. Proceedings of
the Genetic and Evolutionary Computation Conference (2000) 666–673
4. Faugeras, O.D., Lustman, F., Toscani, G.: Motion and structure from motion
from point and line matches. Proceedings of the 1st International Conference on
Computer Vision (1987) 25–34
5. Fernández-Caballero, A., Mira, J., Fernández, M.A., López, M.T.: Segmentation
from motion of non-rigid objects by neuronal lateral interaction. Pattern
Recognition Letters 22:14 (2001) 1517–1524
6. Fernández-Caballero, A., Mira, J., Delgado, A.E., Fernández, M.A.: Lateral
interaction in accumulative computation - A model for motion detection.
Neurocomputing 50C (2003) 341–364
7. Fernández-Caballero, A., Fernández, M.A., Mira, J., Delgado, A.E.: Spatio-temporal
shape building from image sequences using lateral interaction in accumulative
computation. Pattern Recognition 36:5 (2003) 1131–1142
8. Fernández, M.A., Mira, J.: Permanence memory - A system for real time motion
analysis in image sequences. Proceedings of the IAPR Workshop on Machine Vision
Applications (1992) 249–252
9. Horn, B.K.P., Schunck, B.G.: Determining optical flow. Artificial Intelligence 17
(1981) 185–203
10. Jain, A.K.: Fundamentals of Digital Image Processing. Prentice-Hall (1989)
11. Mira, J., Delgado, A.E., Manjarrés, A., Ros, S., Alvarez, J.R.: Cooperative
processes at the symbolic level in cerebral dynamics - Reliability and fault tolerance.
Brain Processes Theories and Models, MIT Press, Cambridge, MA (1996) 244–255
12. Mira, J., Delgado, A.E., Boticario, J.G., Dı́ez, F.J.: Aspectos básicos de la
inteligencia artificial. Editorial Sanz y Torres, S. L. Madrid (1995)
13. Mitiche, A., Bouthemy, P.: Computation and analysis of image motion - A synopsis
of current problems and methods. International Journal of Computer Vision 19:1
(1996) 29–55
14. Ramos, V., Muge, F.: Image colour segmentation by genetic algorithms.
Proceedings of the 11th Portuguese Conference on Pattern Recognition (2000) 125–
129
Descargar