Vision Artificial - Percepcion de Profundidad

Anuncio
“Visión Artificial: Percepción de Profundidad”
Opción I: Tesis Profesional
Autor: Mario Gonzalo Chirinos Colunga
Asesor: José Ramón Atoche Enseñat
Departamento de Ingeniera Electrónica.
Instituto Tecnológico de Mérida.
Noviembre 2004
A la memoria de mi abuelo.
Agradecimientos
Este trabajo es la culminación de mis estudios de licenciatura, los cuales
aproveche plenamente gracias a la formación que me dieron mis padres y a su
empeño en que esta fuera más allá de lo aprendido en la escuela.
Mi interés por la visión por computadora surgió gracias a mi profesor y asesor de
tesis así como de otros proyectos José Ramón Atoche Enseñat, del cual he
aprendido mucho.
Los resultados de este trabajo mejoraron ampliamente gracias a los consejos de
los doctores Luís Alberto Muñoz Ubando, Arturo Espinosa Romero y Ricardo
Legarda Sáenz y a sus discusiones y platicas en las juntas de lunes dentro de la
facultad de matemáticas.
A mis tíos Dra. Patricia Colunga y Dr. Daniel Zizumbo, gracias por sus consejos
sobre la forma de redactar textos científicos así como su paciencia para revisar y
corregir parte de este documento.
Y muchas gracias a toda mi familia por toda su confianza y apoyo.
INDICE
1. Introducción.
1
1.1. Hipótesis.
5
1.2. Justificación.
5
2. Fundamento Teórico.
6
2.1. Formatos de Imagen.
6
2.2. Almacenamiento.
7
2.3. Filtros Lineales.
8
2.4. Tratamiento y Mejoramiento de Imagen.
9
2.4.1. Escala de Grises.
10
2.4.2. Contraste y Brillo.
10
2.4.3. Tolerancia Binaria.
11
2.4.4. Filtros Pasa Bajas (Eliminación de Ruido).
12
2.4.5. Filtros Pasa Altas (Detección de Contornos).
14
2.4.6. Filtro Pasa Bandas.
18
2.4.7. Histograma.
19
2.5. Percepción de Profundidad.
20
2.5.1. Geometría Epipolar.
23
2.5.2. Rectificación de Imágenes.
25
2.5.3. Algoritmos de Apareamiento Estereoscopio.
27
3. Procedimiento.
33
3.1. Introducción.
33
3.2. Algoritmo.
35
3.2.1. Apareamiento.
37
3.2.2. Mapa de Disparidad.
41
3.2.3. Mapa de Disparidad en Sub-pixel.
43
3.2.4. Filtro Iterativo de Mediana Condicional.
45
3.2.5. Oclusiones.
45
4. Resultados.
47
5. Conclusiones y Trabajos Futuros
52
6. Referencias.
53
Anexos.
56
Apéndice A. Algoritmos en C++.
56
Visión Artificial: Percepción de Profundidad
Introducción
1. Introducción.
El término “visión por computadora” dentro del campo de la Inteligencia Artificial
puede considerarse como el conjunto de todas aquellas técnicas y modelos
que nos permitan el procesamiento, análisis y explicación de cualquier tipo de
información obtenida a través de imágenes digitales. Desde sus inicios, los
desarrollos de la visión por computadora han estado inspirados en el estudio
del sistema visual humano, el cual sugiere la existencia de diferentes tipos de
tratamiento de la información visual dependiendo de metas u objetivos
específicos, es decir, la información percibida es procesada en distintas formas
con base en las características particulares de la tarea a realizar; así como en
psicología se estudian y desarrollan teorías sobre la percepción visual, la visión
por computadora propone varias técnicas y teorías que permiten obtener una
representación del mundo a partir del análisis de imágenes obtenidas desde
cámaras de video.
Debido a que la información visual es una de las principales fuentes de datos
del mundo real, resulta útil el proveer a una computadora digital del sentido de
la vista, que junto con otros mecanismos como el aprendizaje hagan de esta
una herramienta capaz de detectar y ubicar objetos en el espacio.
La meta de la visión por computadora es modelar y automatizar el proceso de
reconocimiento visual, esto es, “distinguir entre objetos con importantes
diferencias entre ellos”, como diferenciar un automóvil y una bicicleta en una
fotografía así como separar aves en vuelo del fondo en un video, o seguir la
trayectoria de objetos en imágenes aéreas.
El campo de la visión artificial esta aun en desarrollo, es una frontera
intelectual. Como cualquier otra frontera del conocimiento es excitante y a la
Instituto Tecnológico de Mérida 2004
1
Visión Artificial: Percepción de Profundidad
Introducción
vez desorganizada. Muchas veces no hay una autoridad en el campo a la cual
se pueda acudir o hacer referencia, por lo que es necesario desarrollar
métodos innovadores. Algunas ideas muy útiles, por su simpleza u obviedad
carecen de sustento teórico y al mismo tiempo algunas teorías bien
desarrolladas
son
imprácticas
en
muchos
casos
por
el
tiempo
de
procesamiento requerido, el cual impide que el análisis se haga en tiempo real.
Este es uno de los principales problemas, pues el análisis de imágenes utiliza
muchos recursos, por lo que cada vez se necesita de equipo más veloz para
lograr analizar la imagen en el tiempo requerido, es decir, antes de que la
siguiente imagen sea capturada, de forma que, dependiendo de la aplicación
existirán sistemas en los cuales el tiempo de análisis no sea tan prioritario
como en otros que necesiten procesar treinta imágenes por segundo, por
ejemplo el tiempo en la identificación de una huella digital no requiere ser tan
corto como el requerido para el análisis de imágenes en un sistema de rastreo
de objetos en movimiento.
La visión por computadora tiene una amplia variedad de aplicaciones, típicas
como inspección industrial o inteligencia militar y nuevas como interacción
humana, recuperación de imágenes de bibliotecas digitales, análisis de
imágenes médicas y la generación de escenas en graficas por computadora,
muy utilizadas en los videojuegos. El estudio de la visión por computadora así
como el desarrollo de nuevos métodos y teorías no siempre requiere del uso de
matemáticas profundas, pero si requiere de tener facilidad y estar abierto a una
muy amplia variedad de ideas matemáticas.
Uno de los tipos de información visual mas importante es la percepción de
profundidad, la cual percibimos gracias a la visión estereoscópica; ella nos
Instituto Tecnológico de Mérida 2004
2
Visión Artificial: Percepción de Profundidad
Introducción
permite interactuar en un mundo tridimensional al juzgar las dimensiones de los
objetos que nos rodean.
Por medio de la visión por computadora podemos procesar la información
obtenida en un par de imágenes estereoscópicas, pues estas contienen una
gran cantidad de información geométrica de la escena capturada, y con ella
generar información útil para sistemas de navegación, robots, mapas
topográficos, modelos tridimensionales etc.
Auque existen otros métodos para obtener la profundidad de una escena, la
visón estereoscópica es un proceso de captura rápido, y un método no invasivo
pues a diferencia de los demás métodos no requiere de enviar una señal y
analizar la señal de regreso, con esto se logra una invasión mínima en el
ambiente que se desea recrear, el hardware involucrado es barato y fácil de
utilizar ya que solo involucra al aparato estereoscópico formado por las dos
cámaras para capturar la escena que se quiere reconstruir [1].
Alguno de los métodos utilizados para la obtención de profundidad son:
Dispositivos ultrasónicos: El principal problema con estos dispositivos es que la
medición obtenida es afectada por fenómenos extraños e impredecibles como
reflexiones múltiples de las ondas ultrasónicas sobre varios objetos lo que lleva
a una estimación errónea del tiempo de reflexión.
Dispositivos láser: Son aplicados a la medición y reconstrucción de objetos
relativamente pequeños y navegación autónoma. Estos sistemas son en
extremo precisos pero sufren de los mismos problemas que los dispositivos
ultrasónicos, son usados para un rango especifico de distancias y pueden ser
caros y algunas veces peligrosos.
Instituto Tecnológico de Mérida 2004
3
Visión Artificial: Percepción de Profundidad
Introducción
Luz estructurada. Es método activo que emplea cámaras para adquirir la
imagen de un objeto iluminado por un patrón regular de luz, requiere de
dispositivos auxiliares como un emisor láser o un proyector, para proyectar un
patrón o patrones de luz en el objeto. Se utiliza para la medición precisa de
superficies de objetos en un rango cercano y de poca textura. La necesidad de
un proyector auxiliar hace que este método sea poco flexible, las mediciones
obtenidas por dispositivos activos pueden ser afectadas por reflexiones
inesperadas o interferencia y necesitan ser usadas con extremo cuidado.
El utilizar un aparato estereoscópico formado por dos cámaras de video, nos
permite obtener de una forma sencilla y no invasiva, la información necesaria
para la recreación tridimensional de la escena sin necesidad de aditamentos
externos que elevan el costo y reducen la flexibilidad del instrumento.
Para recuperar la mayor cantidad posible de información en una escena
estereoscópica se requiere de un método que logre generar un mapa de
profundidad detallado y sin ruidos, el cual es el objetivo de este trabajo, pues
los algoritmos que encuentran un mapa suave, sin errores que generen saltos
bruscos de profundidad, tienden a perder detalle y aquellos que obtienen un
mapa detallado tienden a ser ruidosos.
Para el desarrollo de este trabajo fue necesario aprender sobre técnicas
básicas en visión artificial. En el fundamento teórico se explican técnicas para
la manipulación de imágenes, su almacenamiento en memoria y filtros lineales,
y en al apéndice A se incluye su código fuente en C++. En la segunda parte del
fundamento teórico se explican los principios de la visión estereoscópica y sus
propiedades geométricas. En la parte final del fundamento teórico se describen
las clases de algoritmos de apareamiento estereoscópico y los resultados
Instituto Tecnológico de Mérida 2004
4
Visión Artificial: Percepción de Profundidad
Introducción
obtenidos mediante su implementación. EL resto del documento describe el
método de apareamiento estereoscópico desarrollado, el cual genera mapas de
disparidad detallados y sin ruido. Seguido de los resultados obtenidos para
imágenes estereoscópicas reales y sintéticas.
El método desarrollado permite generar mapas densos de disparidad
detallados y sin ruido, mediante la modificación varias de técnicas como suma
de diferencias al cuadrado, ventana de correlación adaptativa, filtros de
mediana y obtención de disparidades en sub-píxel. La eficacia del algoritmo se
demuestra por la calidad de los mapas de disparidad obtenidos.
1.1 Hipótesis.
Por medio del perfeccionamiento de técnicas de apareamiento estereoscópico,
como son la correlación con ventana adaptativa y el refinamiento de mapas de
disparidad, se puede mejorar el detalle obtenido por los métodos actuales de
apareamiento estereoscópico.
1.2 Justificación.
Una de las principales motivaciones para la realización de este trabajo fue la
necesidad de la comunidad de oceanógrafos de recrear el modelo del suelo
marino y arrecifes para estudiarlo y obtener medidas precisas a partir de videos
submarinos, sin embargo, esta no es la única aplicación, las técnicas de
apareamiento estereoscópico son útiles para la generación de modelos
tridimensionales, manipulación de objetos con robots, mapas topográficos,
sistemas de navegación autónoma y otros.
Instituto Tecnológico de Mérida 2004
5
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2. Fundamento Teórico
Para lograr el objetivo de esta tesis es necesario tener conocimiento básico de las
técnicas utilizadas en visión por computadora, como la forma de almacenar las
imágenes para su posterior análisis, los filtros básicos para el tratamiento de
imágenes y los métodos actuales de apareamiento estereoscópico.
2.1 Formatos de Imagen
El estándar para imágenes de colores son palabras de 24 bits, tres palabras juntas
de ocho bits cada una, las cuales representan los tres colores primarios [2], rojo
verde y azul (RGB por sus siglas en ingles). De forma que para el negro se tiene la
ausencia de color y se representa por: 0x00-0x00-0x00, el blanco contiene todas
las frecuencias y se expresa: 0xFF-0xFF-0xFF, el color rojo puro es: 0xFF-0x00x00, y así para el verde y azul, la combinación de los tres colores puede formar
una gama de 16,777,216 colores.
Formalmente se define como el uso las longitudes primarias, 564.16nm para el
rojo, 526.32nm para el verde y 444,44nm para el azul.
Existe otro estándar de colores para imágenes digitales, HSL (Hue, Saturation &
Light) [2] el cual indica el tono de color, su saturación y su brillantes, de igual
manera son tres palabras cada una con valores del 0 al 255, pero no todos los
filtros diseñados para estándar RGB responden de la misma manera para HSL.
Instituto Tecnológico de Mérida 2004
6
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
RGB
HSL
Figura 2.1: Diferencia entre los canales de formato RGB y el HSL
2.2 Almacenamiento
Para poder manipular una imagen es necesario almacenar los datos en la
memoria de la computadora; una imagen digital es una matriz enorme en donde
cada casilla representa un píxel en la imagen y su valor contiene el color del píxel
correspondiente, por lo que la imagen se almacenara en forma de un arreglo
bidimensional de las mismas dimensiones de la imagen.
El primer código en el apéndice A genera un arreglo dinámico bidimensional en el
cual se almacena la imagen en memoria, las direcciones del arreglo pueden ser
accesadas de manera aleatoria.
Instituto Tecnológico de Mérida 2004
7
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.3 Filtros Lineales [2].
Los filtros para el tratamiento de imágenes
digitales se basan en la convolución de la
imagen con un patrón de píxeles llamado
“Kernel”, máscara o ventana.
Para los filtros lineales este proceso es un
sistema lineal e invariante al desplazamiento.
Invariante al desplazamiento por que el núcleo o máscara se desplaza a través de
toda la imagen y el resultado de la convolución de la imagen con la máscara
depende del patrón en la máscara y no de la posición de esta. Sistema lineal por
que la convolución para la suma de dos imágenes, es la misma que la suma del
resultado de aplicar la convolución a las dos imágenes independientemente.
La mayoría de los sistemas lineales de imágenes cumplen tres importantes
propiedades.
Superposición: La respuesta a la suma de los estímulos es la suma de la
respuesta individual de cada estimulo.
R( f + g ) = R( f ) + R( g )
Escalamiento: La respuesta a un impulso nulo es cero. Con esto y la
superposición, tenemos que la respuesta a un estimulo multiplicado por una
constante es la respuesta del estimulo original multiplicada por la constante:
R(kf ) = kR( f )
El tener la propiedad de superposición y la de escalamiento, lo hace un
sistema lineal.
Instituto Tecnológico de Mérida 2004
8
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Invariante al desplazamiento: la respuesta a un estimulo desplazado es
solo el traslado de la respuesta al estimulo. Esto significa que si por
ejemplo, la vista de una pequeña luz apuntando al centro de la cámara, es
un pequeño punto brillante, entonces si la luz es movida en la periferia,
debemos de ver el mismo punto brillante solo desplazado.
La respuesta de estos sistemas es obtenida por una convolución discreta en dos
dimensiones y se expresa de la siguiente forma:
R ( h)( x, y ) = ∑ ∑ g ( x − x ' , y − y ')h( x ' , y ') = ( g ⋅ ⋅h )( x, y )
x
y
Lo anterior representa la convolución de el núcleo o máscara (h(x,y), respuesta a un
impulso unitario) y la imagen (estimulo), los dos son arreglos en dos dimensiones,
que representan la estructura de los píxeles en la imagen.
2.4 Tratamiento y Mejoramiento de Imagen [3]
Uno de los primeros pasos en las aplicaciones de visión artificial es mejorar la
calidad de la imagen obtenida; en las imágenes con poca luz se observa
generalmente un granulado o ruido que cubre toda la imagen, en algunas
aplicaciones es útil el resaltar los bordes o las superficies uniformes de los objetos,
algunas aplicaciones biométricas como el análisis de radiografías o de huellas
digitales requieren de resaltar ciertas componentes de frecuencia y otras eliminar
o resaltar colores específicos, también es útil mejorar la iluminación o el contraste
de la imagen.
Instituto Tecnológico de Mérida 2004
9
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.4.1 Escala de Grises.
En ciertas ocasiones es útil pasar una imagen a color (24 bits) a escala de grises
(8 bits) ya sea solo por estética o por que se requiere trabajar con menos memoria
utilizando palabras de solo ocho bits en vez de palabras de 24 bits, para agilizar el
tiempo de procesamiento al realizar operaciones binarias mas cortas. Para lograr
esto se requiere fusionar los tres canales de colores en uno solo que indique el
tono de gris de la imagen. Esto se hace promediando los tres valores de cada
píxel en la imagen original y poniendo el resultado en una imagen de 8 bits de un
solo canal que indica el nivel de gris de la imagen. En el apéndice A se encuentra
el código desarrollado para esta función.
Figura 2.2: Imagen a color (izquierda). Imagen en escala de grises (Derecha)
2.4.2. Contraste y Brillo.
Al modificar por igual el valor de cada canal de color en una imagen se aumenta o
disminuye su luminosidad, al modificar el contraste se separan más los valores de
colores en la imagen en base a un punto de balance, los valores por debajo del
punto de balance se toman como obscuros, y los que están sobre el como claros,
Instituto Tecnológico de Mérida 2004
10
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
el contraste hace que los tonos claros tengan mas brillo y las partes obscuras lo
sean mas.
El código para contraste y brillo en el apéndice A modifica el brillo y el contraste de
una imagen de entrada en una imagen destino, con base al los paramentos de
entrada, contraste, brillo y punto de balance. Se modifica el valor de cada píxel en
cada canal de color, aumentando o disminuyendo la separación del color al punto
de balance y aumentando o disminuyendo brillo. El parámetro de contraste se
introduce en términos de porcentaje y el de brillo es un valor de –255 a +255 que
determina el valor que se sumara por igual a cada canal de color.
Figura 2.3: Modificar el brillo y contraste en una imagen es útil cuando se quiere separar
del fondo los objetos que se encuentran en la imagen.
2.4.3 Tolerancia Binaria
Este filtro convierte la imagen en una imagen binaria, se parte la imagen mediante
un valor de tolerancia, cualquier valor por debajo del valor de tolerancia es tomado
como 0 y cualquier por arriba de este es tomado como 255, en el caso de escala
de grises como negro o blanco y en una imagen a color cada canal de color a cero
o a 255. EL condigo en C++ para este filtro se encuentra en el apéndice A
Instituto Tecnológico de Mérida 2004
11
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Figura 2.4: Imagen en escala de grises e Imagen binaria resultante
Figura 2.5: Imagen RGB e Imagen binarizada resultante en 8 colores.
2.4.4 Filtros Pasa Bajas (Difuminado - Eliminación de Ruido)
Generalmente una imagen tiene la propiedad de que el valor de un píxel es similar
el valor de sus vecinos, aunque la imagen sea afectada por el ruido podemos
asumir que esta propiedad se mantiene. El ruido puede hacer que haya
ocasionalmente píxeles faltantes o que un número aleatorio pueda ser añadido al
valor de los píxeles, para corregir esto se puede sustituir el valor de este píxel por
el valor promedio de sus píxeles vecinos.
Para hacer esto se realiza la convolución de una máscara redonda de radio r con
la imagen haciendo un promedio de los valores dentro del área de la máscara.
Un mejor modelo para el difuminado, consiste en hacer que la importancia de los
píxeles que conforman la máscara disminuya conforme se alejan de su centro.
Instituto Tecnológico de Mérida 2004
12
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Este filtro tiene una mejor respuesta, pues si bien un píxel es similar a sus vecinos
esta similitud disminuye con la distancia. Si se le da a la máscara la forma de una
campana gaussiana [2], la importancia de los píxeles vecinos para el promedio de
valores tendrá la forma de esta y mientras mas cerca del centro de la máscara el
efecto de difuminado será mayor pues el peso de los píxeles vecinos no caerá tan
rápido con la distancia.
El código de difuminado en el apéndice A es un filtro que difumina la imagen de
entrada, mediante la convolución con una máscara de radio igual al parámetro de
entrada “Kernel” en píxeles y el resultado lo almacena en una imagen destino. Al ir
desplazando la máscara, se promedia el valor de todos los píxeles en ella y se
remplaza el valor del píxel central con el promedio de los valores, entre mayor sea
el radio de la máscara el difuminado será mas intenso, este filtro produce el efecto
de que en apariencia la cámara esta desenfocada.
Figura 2.6: Reducción de ruido gaussiano mediante un filtro de difuminado por promedio.
Instituto Tecnológico de Mérida 2004
13
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.4.5 Filtros Pasa Altas. (Detección de Contornos)
En una imagen se puede utilizar un filtro de paso alto para resaltar sus bordes,
pues estos son cambios bruscos de color y corresponden a altas frecuencias en la
imagen, esto es un método basado en las primeras derivadas. En este método
primero se miden los cambios de intensidad en todos los puntos de la imagen,
haciendo uso de la primera derivada, después se seleccionan como puntos de
bordes aquellos puntos en los que el cambio de intensidad rebasa algún umbral
preestablecido.
Una imagen puede representarse matemáticamente por una función f cuyo valor
en el punto (x, y) representa la iluminación existente en ese punto, el cambio de
iluminación de un punto en la imagen esta representado gráficamente por la
pendiente que allí tiene la superficie que representa a f, y normalmente resulta
diferente según sea la dirección considerada, la dirección en la que el cambio es
más intenso esta dada por el vector gradiente en ese punto.
El vector gradiente indica la dirección y magnitud del cambio máximo en la imagen
y esta dado por la primera derivada:
⎡ ∂I ⎤
⎢ ∂x ⎥
⎡Gx ⎤
∆I = ⎢ ⎥ = ⎢ ⎥
⎣Gy ⎦ ⎢ ∂I ⎥
⎢ ⎥
⎣ ∂y ⎦
El cálculo del gradiente, por tanto, se basa en obtener las derivadas parciales para
cada píxel. En la figura 2.7 se pueden ver los operadores de Roberts, Prewitt,
Sobel y Frei-Chen para determinar las derivadas parciales. El requisito básico de
un operador de derivación es que la suma de los coeficientes de la máscara sea
Instituto Tecnológico de Mérida 2004
14
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
nula, para que la derivada de una zona uniforme de la imagen sea cero. Como en
todos los métodos que utilizan máscaras, el procedimiento es realizar el producto
de los elementos de la máscara por el valor correspondiente a los píxeles de la
imagen encerrados por la máscara.
Figura2.7 Operadores de derivación.
Otro metodo para encontrar los contornos en una imagen es el SUSAN (“Smallest
Univalue Segment Assimilating Nucleus”) [4], del cual se presenta un desarrollo
mas a fondo por ser el que genera mejores resultados. En este modelo se hace la
convolución R(r0) entre la imagen y una máscara circular para asegurar una
respuesta isotropica, la máscara se centra en cada píxel de la imagen. En cada
caso se compra cuantos del los píxeles dentro del área de la máscara tiene un
valor similar, con una tolerancia t, al del píxel central c(r,r0), cada píxel similar se
marca con un 1 y los otros con un 0. Si el total de píxeles similares al píxeles
central n(r0) (área USAN) es aproximadamente del 50% (g tolerancia geométrica),
del área total de la máscara entonces el píxel central se encuentra en un borde
R(r0), y el píxel central se marca como borde en una nueva imagen, la respuesta a
Instituto Tecnológico de Mérida 2004
15
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
los bordes será mayor si el área USAN es pequeña, este es el principio del
algoritmo SUSAN:
⎧⎪1 si I (r ) − I (r0 ) ≤ t
⎧ g − n(r0 ) si n(r0 ) < g
c(r , r0 ) = ⎨
, n(r0 ) = ∑ c(r , r0 ) , R(r0 ) = ⎨
⎪⎩0 si I (r ) − I (r0 ) > t
r
⎩0 otro
Figura 2.8:Si el píxel central de la mascar esta en un borde, el área USAN será de alrededor del
50%.
Un valor de 25 en la tolerancia t, es adecuado para la mayoría de las imágenes
reales, para la supresión de ruido es conveniente hacer que la tolerancia
geométrica g, sea mayor del 50% del área total, un valor de ¾ es adecuado para
este propósito, se puede encontrar esquinas en lugar de bordes reduciendo el
área USAN a un 25%.
El algoritmo SUSAN para la detección de contornos se pude resumir en los
siguientes pasos [5]:
1. Use una máscara circular centrada en cada píxel de la imagen.
2. Cuente el número de píxeles con intensidad similar al píxel del núcleo.
3. Reste el área USAN de la tolerancia geométrica para detectar bordes.
Instituto Tecnológico de Mérida 2004
16
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
4. Calcule el momento del área USAN para determinar la dirección del los
bordes.
La dirección de el contorno se encuentra con la perpendicular a la línea entre el
centro de gravedad del área USAN y el núcleo de la máscara.
Figura 2.9: Imagen obtenida después de pasar un filtro SUSAN para la detección bordes.
El algoritmo SUSAN para la detección de esquinas se pude resumir en los
siguientes pasos:
1. Use una máscara circular centrada en cada píxel de la imagen.
2. Cuente el número de píxeles con intensidad similar al píxel del núcleo.
3. Reste el área USAN de la tolerancia geométrica para detectar esquinas.
4. Buscar los falsos positivos calculando cada centroide USAN y sus
contiguos.
Instituto Tecnológico de Mérida 2004
17
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.4.6. Filtros Pasa Bandas.
Los filtros pasa bandas se utilizan para resaltar características en la imagen que
estén en determinado rango de frecuencias.
Una de sus aplicaciones es el mejoramiento de imágenes de huellas dactilares, en
las imágenes de abajo se muestra el mejoramiento de una huella digital por medio
de un filtro pasa bandas Grabor, este filtro permite resaltar los surcos de la huella
introduciendo como parámetros del filtro pasa bandas, la orientación y frecuencia
de estos [6].
Figura 2.10: La imagen de una huella digital puede ser mejorada mediante un filtro Grabor
con la orientación y frecuencia de los surcos.
Figura 2.11: Imagen original de círculos concéntricos (izquierda), Ruido añadido a la
imagen original (Centro). Imagen recuperada mediante el filtro Grabor (Derecha).
Instituto Tecnológico de Mérida 2004
18
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.4.7 Histograma
El histograma proporciona información acerca de la distribución de los canales de
color en la imagen (rojo, verde y azul). El eje horizontal representa la luminosidad
de la imagen de negro a blanco (0 a 255) para una imagen en escala de gris y la
intensidad de cada canal para una imagen a color, el eje vertical indica el numero
de píxeles en la imagen que contienen el tondo de color indicado en el eje
horizontal. Cuando hay un muchos píxeles con la misma intensidad, aparecerá un
pico en la grafica en el valor correspondiente, donde hay pocos píxeles con la
misma intensidad la grafica estará cercana al eje horizontal. En imágenes
obscuras, la mayoría de los píxeles están agrupados del lado izquierdo, si la
imagen es muy clara los píxeles se agrupan a la derecha. Esta información es útil
para determinar los valores de entrada de los filtros, de esta manera los filtros
pueden determinar sus valores de entrada de manera autónoma.
El algoritmo para obtener el histograma es fácil de implementar, solo se requiere
explorar toda la imagen e incrementar la aparición de cada intensidad de color en
una variable que contenga 3 vectores, uno por cada canal de color y 255 casillas
para cada una de las tonalidades en cada canal.
Figura 2.12: En el histograma (derecha) se observan que los picos corresponden a los
colores característicos de la imagen (izquierda).
Instituto Tecnológico de Mérida 2004
19
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.5 Percepción de Profundidad
A través de la visión binocular, somos capaces de interactuar en un mundo
tridimensional al apreciar las distancias y volúmenes en el entorno que nos rodea.
Nuestros ojos, debido a su separación, obtienen dos imágenes con pequeñas
diferencias entre ellas, a lo que denominamos disparidad. Nuestro cerebro
procesa las diferencias entre ambas imágenes y las interpreta de forma que
percibimos la sensación de profundidad, lejanía o cercanía de los objetos que nos
rodean. Este proceso se denomina estereopsis. La distancia interpupilar más
habitual es de 65 mm, pero puede variar desde los 45 a los 75 mm [7].
En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos
muy lejanos, los ejes ópticos de nuestros ojos son paralelos. Cuando observamos
un objeto cercano, nuestros ojos giran para que los ejes ópticos estén alineados
sobre él, es decir, converjan. A su vez se produce la acomodación o enfoque para
ver nítidamente el objeto. Este proceso conjunto se llama fusión. No todo el mundo
tiene la misma capacidad de fusionar un par de imágenes en una sola
tridimensional. Alrededor de un 5% de la población tiene problemas de fusión. La
agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis,
detalles situados en planos diferentes y a una distancia mínima. Hay una distancia
límite a partir de la cual no somos capaces de apreciar la separación de planos, y
que varía de unas persona a otras. Así, la distancia límite a la que dejamos de
percibir la sensación estereoscópica puede variar desde unos 60 metros hasta
cientos de metros.
La figura 2.13 ilustra una situación simplificada en dos dimensiones.
Instituto Tecnológico de Mérida 2004
20
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Figura 2.13: El punto mas cercano es enfocado por los ojos, y se proyecta en el centro de sus
retinas, sin disparidad, .Las dos imágenes del punto lejano se desvían de la posición central en
diferente cantidad.
Si l y r denotan el ángulo (en sentido antihorario) entre los planos de simetría
vertical de los dos ojos y los dos rayos pasando a través de el mismo punto en la
escena, entonces denotamos sus disparidades correspondientes como d = r - l y
por lo tanto como se puede demostrar por trigonometría d = D - F, donde D es el
ángulo entre estos rayos y F es el ángulo entre los rayos que pasan por el punto
de enfoque. Los puntos con disparidad cero caen en el círculo Vieth-Muller que
pasa por el punto enfocado y los centros focales de los ojos. Los puntos que se
encuentran adentro del círculo tienen una disparidad positiva (o convergente), los
que están fuera del circulo tienen una disparidad negativa (o divergente), y la
posición de todos los puntos que tienen una disparidad dada d, forman, d como
variable, un circulo que pasa a través de los dos centros focales. Esta propiedad
es claramente suficiente para ordenar por orden de disparidad los puntos que
están cerca del punto de enfoque,
Instituto Tecnológico de Mérida 2004
21
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Sin embargo también es claro que los ángulos entre el plano medio vertical de
simetría de la cabeza y los dos rayos de enfoque se deben conocer para poder
reconstruí la posición absoluta de los puntos en la escena.
El caso tridimensional es un poco mas complicado, la posición para los puntos de
disparidad cero se convierte en una superficie, horopter, pero la conclusión
general es la misma, una posición absoluta requiere de los ángulos.
Como fue demostrado por A Wundt y Helmholtz [8] hay evidencia clara de que
estos ángulos no pueden ser evaluados con precisión por nuestro sistema
nervioso. Por lo tanto se puede argumentar razonablemente que la salida del
esteropsis humana consiste en un mapa de profundidad relativa. Transmitiendo un
orden parcial de profundidad ente los puntos [9]. En este contexto el papel
principal de el movimiento de los ojos en la estereopsis es poder traer las
imágenes dentro del área de fusión, un disco pequeño en el centro de la retina
donde la fusion puede ocurrir [9] (se pueden percibir puntos para disparidades
mucho mas grandes pero aparecerán como imágenes dobles, un fenómeno
conocido como diplopía).
Un factor que interviene directamente en la estereopsis es la separación
interocular. A mayor separación entre los ojos, mayor es la distancia a la que
apreciamos el efecto de relieve. Esto se aplica por ejemplo en los prismáticos, en
los que, mediante prismas, se consigue una separación interocular efectiva mayor
que la normal, con lo que se consigue apreciar en relieve objetos distantes que en
condiciones normales no seríamos capaces de separar del entorno. También se
aplica en la fotografía aérea, en la que se obtienen pares estereoscópicos con
separaciones de cientos de metros y en los que es posible apreciar claramente el
Instituto Tecnológico de Mérida 2004
22
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
relieve del terreno, lo que con la visión normal y desde gran altura sería imposible.
El efecto obtenido con una separación interocular mayor que la habitual es el de
que los objetos parecen más pequeños de lo normal (liliputismo), y la técnica se
denomina hiperestereoscopia.
El efecto contrario se consigue con la hipoestereoscopia, es decir, con la
reducción de la distancia interocular, imprescindible para obtener imágenes
estereoscópicas de pequeños objetos (macrofotografías), o incluso obtenidas por
medio de microscopios
2.5.1 Geometría epipolar [2]
La geometría epipolar describe las relaciones geométricas de las imágenes
formadas en dos o más cámaras enfocadas en un mismo punto o polo.
Los elementos más importantes de este sistema geométrico (figura 2.14) son: El
plano epipolar, formado por el polo (P) y los dos centros ópticos (O y O’) de dos
cámaras. Los epipolos (e y e’) que son la imagen virtual del centro óptico (O’ y O)
de una cámara en otra. La línea base, la cual une los dos centros ópticos. Y las
líneas epipolares (l y l’), formadas por las intersecciónes del plano epipolar con los
planos de las imagenes (Π y Π’), esta une el epipolo con la imagen del punto
observado (p, p’).
La línea epipolar es fundamental en la visión estereoscópica, pues una de las
partes mas difíciles en el análisis estereoscópico es establecer la correspondencia
entre dos imágenes, apareamiento estero, decidiendo que punto en la imagen
derecha corresponde a cual en la izquierda.
Instituto Tecnológico de Mérida 2004
23
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
La restricción epipolar :(figura 2.15) “Si p y p’ son imágenes del mismo punto P,
entonces p’ debe encontrarse en la línea epipolar l’ asociada con p”, nos permite
reducir la búsqueda de la correspondencia estereoscópica, de dos dimensiones
(toda la imagen) a una búsqueda en una dimensión sobre la línea epipolar.
Figura 2.14. Geometría epipolar, el punto P, los centros ópticos O y O’, las dos imágenes p y p’ de
P, todos se encuentran sobre el mismo plano [2].
Figura 2.15. Restricción epipolar: el conjunto de posibles apareamientos para el punto p se
restringe a estar sobre la línea epipolar l’ [2].
Instituto Tecnológico de Mérida 2004
24
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.5.2 Rectificación de Imágenes.
Una forma de simplificar aun más los cálculos asociados con los algoritmos
estereoscópicos es rectificar las imágenes, esto consiste en remplazar las
imágenes por sus proyecciones equivalentes sobre un plano común paralelo a la
línea base (Figura 2.16).
Se proyecta la imagen, eligiendo un apropiado sistema de coordenadas, las líneas
epipolares rectificadas son paralelas a la línea base y se convierten en una sola
línea de exploración.
Existen dos grados de libertad involucrados en la selección del plano de
rectificación [10]:
(1) La distancia entre el plano y la línea base, este es irrelevante pues al
modificarlo solo se cambia la escala de las imágenes rectificadas, su
efecto se balancea fácilmente haciendo un escalamiento inverso.
(2) La dirección del plano rectificado normal en el plano perpendicular a la
línea base, la elección natural incluye escoger un plano paralelo a la línea
donde las dos retinas originales se intersectan y minimizar la distorsión
asociada con el proceso de proyección
Para el caso de las imágenes rectificadas (figura 2.17) dados dos puntos p y p’
localizados en la misma línea de exploración de la imagen izquierda y derecha,
con coordenadas (u, v) y (u’, v’), la disparidad es dada como la diferencia d = u’-u.
Si B es la distancia entre los centros ópticos, también llamada línea base, es fácil
demostrar que la profundidad de P es z = − B / d [2].
Instituto Tecnológico de Mérida 2004
25
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Figura 2.16: Un Par de imágenes rectificadas: los dos planos de la imagen Π y Π’ son proyectados
en un plano común Π = Π ' paralelo a la línea base. Las líneas epipolares l y l’ asociadas con los
puntos p y p’ en las dos imágenes tiene la línea epipolar común l = l ' también paralela a la línea
base y pasa a través de los puntos p y p ' [2].
Figura 2.17: Triangulación para imágenes rectificadas: los rayos asociados con dos puntos p y p’
en la misma línea de exploración se intersectan en el punto P. La profundidad de P relativa al
sistema de coordenadas de la cámara izquierda es inversamente proporcional a la disparidad d =
u-u’ [2].
Instituto Tecnológico de Mérida 2004
26
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
2.6 Algoritmos de Apareamiento Estereoscopio.
Los algoritmos de apareamiento estereoscópico reproducen el proceso de
estereopsis humana para que una maquina pueda percibir la profundidad de cada
punto en la escena observada y así poder manipular objetos, evitarlos o recrear
modelos tridimensionales.
Para un par de imágenes estereoscópicas la meta principal de estos algoritmos es
encontrar para cada píxel en una imagen su correspondiente en la otra imagen
(apareamiento) con el fin de obtener un mapa de disparidad que contienga la
diferencia de posición para cada píxel entre las dos imágenes la cual es
proporcional a la profundidad. Para conocer la profundidad real de la escena es
necesario conocer la geometría de sistema estereoscópico en el cual feron
tomadas las imágenes, para obtener un mapa de profundidad métrico
Principalmente existen dos tipos de algoritmo de apareamiento estereoscópico:
Basados en características: Encuentran los apareamientos solo de las
principales características en la imagen como contornos de los objetos.
Requieren mucho menos tiempo de proceso pues al solo utilizar algunas
características de la imagen la información de entrada es menor.
Tienen la desventaja de que no pueden encontrar las profundidades que
cambian suavemente y producen mapas de disparidad dispersos.
Por correlación: Producen mapas densos de disparidad, en los cuales se
encuentra la disparidad para cada píxel en la imagen.
Como aparear un solo píxel es casi imposible, cada píxel es representado
por una pequeña región que lo contiene, llamada ventana de correlación,
Instituto Tecnológico de Mérida 2004
27
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
realizando asi la correlación entre la ventana de una imagen y de otra
utilizando el color de los píxeles dentro de ellas.
Uno de los métodos basados en contornos titulado: “Stereo by intra and InterSacanline Search Using Dinamic Programing” [11] fue el primero analizado e
implementado para la realización de este trabajo de investigación
En el se presenta un algoritmo de apareamiento estereoscópico usando la técnica
de programación dinámica. La búsqueda de correspondencia que se realiza dentro
de líneas de exploración “intra-scanline” es tratada como el problema de encontrar
un camino de apareo en un espacio de búsqueda de dos dimensiones, cuyos ejes
son las líneas de exploración derecha e izquierda, los contornos conectados
verticalmente en la imagen proveen la restricción de consistencia a través de los
planos de búsqueda. La búsqueda entre líneas de exploración “Inter-scanline” en
un espacio tridimensional (el cual es una pila de todos los planos de búsqueda) es
necesaria para utilizar esta restricción. El algoritmo usa intervalos delimitados por
contornos como los elementos a ser apareados, y utiliza las dos búsquedas antes
mencionadas: una es entre líneas de exploración “Inter-scanline” para posibles
correspondencias entre contornos conectados en la imagen derecha e izquierda y
la otra dentro de la línea de exploración “intra-scanline” para correspondencias de
intervalos delimitados por contornos en cada par de líneas de exploración. Se
utiliza la programación dinámica para ambas búsquedas, las cuales proceden
simultáneamente: la primera provee la restricción de consistencia para la siguiente
mientras esta provee el puntaje de apareamiento para la inicial. Una medición de
similitud entre los intervalos es usada para obtener el puntaje.
Instituto Tecnológico de Mérida 2004
28
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
El método genera un mapa de disparidad disperso y obtiene la información faltante
interpolando la profundidad de los contornos encontrados. Es muy susceptible al
ruido en la imagen y el mapa obtenido presenta muchos saltos que aparecen
como líneas horizontales de disparidad continua.
El resultado para un par de imágenes sintéticas mediante la implementación del
algoritmo de programación dinámica se muestra a continuación.
Figura 2.18: Mapa de disparidad (derecha) resultado de la implementación del algoritmo
[11], para un par de imágenes estereoscópicas sintéticas (izquierda).
Otro método Analizado “Maximum Likelihood Stereo Algorithm” [12] también
basado en programación dinámica genera un mapa de disparidad denso mediante
el mismo principio realizando la comprobación para cada píxel en lugar de para
cada segmento entre contornos [12], sin embargo aunque obtiene un mejor
resultado que el anterior basado en contornos al poder encontrar las disparidades
que cambian suavemente entre los contornos de un objeto, genera los mismos
errores en forma de líneas horizontales de disparidad continua.
Instituto Tecnológico de Mérida 2004
29
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
Figura 2.19: Mapa de disparidad obtenido para el par de imágenes estereoscópicas del pentágono
mediante “Maximum Likelihood Stereo Algorithm” [12]
Figura 2.20: Mapa de disparidad obtenido mediante “A Cooperative Algorithm For Stereo, Matching
And Occlusion Detection” [13](izquierda). Mapa de disparidad obtenido por “Fast Stereo Vision for
Mobile Robots by Global Minima of Cost Functions” [14] (drecha)
Algunos métodos basados en correlación utilizan un paso complementario de
refinamiento para todos los valores obtenidos por las correlaciones evaluadas,
para reducir el tiempo de proceso utilizan una ventana de comparación pequeña y
después mejoran el resultado [13] [14]. La figura 2.19 y 2.20 muestra los
resultados obtenidos para el par de imágenes estereoscópicas del pentágono las
cuales son muy utilizadas para comparar resultados entre los métodos de
apareamiento estereoscópico. La imagen de la figura 2.20 izquierda presenta el
resultado obtenido por Kanade en [13] mediante un algoritmo para obtener mapas
Instituto Tecnológico de Mérida 2004
30
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
de disparidad con las oclusiones detectadas explícitamente. Para producir un
mapa suave y detallado, Kanade adopta dos supuestos propuestos originalmente
por Marr y Poggio: unicidad y continuidad. Esto es, el mapa de disparidad tiene un
valor único para cada píxel y es continuo casi en cualquier lado. Estos supuestos
se cumplen dentro de un arreglo tridimensional de valores de apareo en el espacio
de disparidad. Cada valor de disparidad corresponde a un píxel en una imagen y
su disparidad relativa a la otra imagen. Un algoritmo iterativo actualiza los valores
de apareamiento con una cobertura difusa entre los valores vecinos e inhibiendo
otros a través de líneas de vista similares. Aplicando este supuesto de unicidad,
las regiones ocluidas pueden ser identificadas explícitamente. Para demostrar la
eficiencia del algoritmo, Kanade presenta los resultados del procesamiento para
pares de imágenes sintéticas y reales.
EL mapa de disparidad de la figura 2.20 izquierda se obtiene después de una gran
cantidad de iteraciones del algoritmo, en cada una de las cuales se pierden
detalles de la imagen para obtener un mapa de disparidad suave y con las
oclusiones marcadas.
De manera similar el mapa de disparidad (Figura 2.20 derecha) obtenido por: “Fast
Stereo Vision for Mobile Robots by Global Minima of Cost Functions” [14] obtiene
un mapa de disparidad suave pero sin detalle mediante un algoritmo para
computar mapas de disparidad de un par de imágenes minimizando la función de
costo global. El método consiste de dos pasos: primero se realiza una correlación
tradicional basada en la medición de similitud. Entonces el segundo paso toma
lugar para eliminar posibles ambigüedades, este es descrito como un método de
optimización de costos, tomando en cuenta la restricción de continuidad
Instituto Tecnológico de Mérida 2004
31
Visión Artificial: Percepción de Profundidad
Fundamento Teórico.
estereoscópica y las consideraciones de similitud del píxel. La descripción
garantiza la existencia de un mínimo único de la función de costos el cual puede
ser encontrado fácil y rápidamente por procedimientos comunes.
La dificultad en los métodos por correlación esta en la selección del tamaño de la
ventan, pues esta debe ser lo suficientemente grande para contener la cantidad
suficiente de variación de intensidad y los suficientemente pequeña para evitar los
efectos de la distorsión proyectiva [15]. El mapa de disparidad obtenido por un
algoritmo estereoscópico debe ser detallado y sin errores, aunque esto es difícil de
lograr pues los que logran evitar los errores tienden perder detalle y aquellos que
conservan detalle tienden a ser ruidosos.
Instituto Tecnológico de Mérida 2004
32
Visión Artificial: Percepción de Profundidad
Procedimiento
3. Procedimiento: Algoritmo de Apareamiento Estereoscópico
En esta sección se describe los pasos del método de apareamiento estereoscopio
desarrollado, el cual obtiene un mapa de disparidad denso y detallado en sub-píxel
a partir de un par de imágenes rectificadas.
3.1. Introducción:
Mediante un algoritmo de apareamiento estereoscopio se determina el conjunto de
correspondencias correctas entre al menos dos imágenes estereoscópicas con el
fin de encontrar la profundidad de la escena en base a las diferencias de posición
entre un conjunto de correspondencias.
La geometría epipolar del sistema estereoscópico limita la búsqueda de
correspondencia a solo una dimensión. Mediante la restricción epipolar la
correspondencia para un píxel en una imagen se encontrara sobre la línea
epipolar de la otra imagen, esta búsqueda se simplifica aun más si se rectifican las
imágenes, transformando así la línea epipolar en una línea de exploración
horizontal común a las dos imágenes.
La comparación para cada píxel de una imagen se realiza utilizando todos los
píxeles alrededor de este que estén dentro de una ventana de correlación
mediante alguna función de similitud como la suma de diferencias al cuadrado
SSD, la correlación cruzada NCC o la suma de las diferencias absolutas SAD. En
el presente algoritmo el diámetro de la ventana de comparación es variable, crece
hasta contener la suficiente variación de textura con la cual la comparación pueda
encontrar una buena correspondencia, esto otorga un balance entre detalle y
Instituto Tecnológico de Mérida 2004
33
Visión Artificial: Percepción de Profundidad
Procedimiento
error, el cual es uno de los problemas principales en los mapas de disparidad
densos, pues los algoritmos que encuentran un mapa suave, sin errores que
generen saltos bruscos de disparidad, tienden a perder detalle y aquellos que
obtienen un mapa detallado tienden a ser ruidosos. La búsqueda de
correspondencia se realiza sobre la línea de exploración dentro de un rango de
disparidad establecido, como las imágenes se encuentran rectificadas esta es una
línea horizontal común a las dos imágenes. El mejor valor obtenido por la función
de similitud determina a que distancia o disparidad horizontal, se encuentra el
píxel analizado, respecto a la posición de su correspondiente en la otra imagen.
Con cada apareamiento se crea un mapa de disparidad el cual indica para cada
píxel la diferencia de posición a la que se encuentra su correspondencia en la otra
imagen. En cada imagen existirán detalles que no se encuentran en la otra pues
se encuentran ocluidos. Las oclusiones se determinan mediante un umbral en los
costos de oclusión obtenidos por la función de similitud.
El valor de disparidad de cada píxel se mejora encontrando le valor mínimo de la
función de segundo grado descrita por los valores de apareo cercanos al valor
mínimo encontrado, así se obtiene un mapa de disparidad en sub-píxel, donde
existe una gama mas amplia de disparidades utilizando fracciones de píxel.
Para encontrar la profundidad real de la escena es necesario conocer las
propiedades geométricas del sistema y así transformar las disparidades en
unidades de longitud.
Instituto Tecnológico de Mérida 2004
34
Visión Artificial: Percepción de Profundidad
Procedimiento
3.2. Algoritmo
La entrada del algoritmo estereoscopio son dos imágenes rectificadas, derecha e
izquierda (Figura 3.1), las cuales se comparan una a otra para obtener un arreglo
tridimensional (volumen de disparidad) el cual almacena el costo de apareamiento
para cada disparidad en cada píxel respecto a una imagen. Con los valores
mínimos de apareamiento se obtienen un mapa de disparidad denso, en base al
cual se encuentran las disparidades en sub-pixel mediante la función de segundo
grado descrita por los costos almacenados en el volumen de disparidad, y final
mente los errores en el mapa de disparidad en sub-pixel se eliminan utilizando un
filtro de mediana condicional.
Los pasos del algoritmo son los siguientes:
1) Cálculo de costos de apareamiento. Para cada píxel de la imagen:
a. Selección del tamaño de ventana.
b. Para cada valor en el rango de disparidad, se obtiene el costo de
apareamiento.
c. Cada costo calculado se almacena en el volumen de disparidad
2) Obtención del mapa de disparidad
a. A cada elemento (x, y) del mapa de disparidad se le asigna el valor d
del volumen de disparidad para el cual el costo de apareamiento en
(x, y, d) es mínimo.
3) Determinación de oclusiones. Para cada valor (x, y) del mapa de
disparidad:
a. Si el valor de costo de oclusión (x, y, d) en el volumen de disparidad
es mayor a un umbral marcar elemento como ocluido.
Instituto Tecnológico de Mérida 2004
35
Visión Artificial: Percepción de Profundidad
Procedimiento
b. Generar mapa de oclusiones
4) Refinamiento a sub-píxel. Para cada elemento del mapa de disparidad se
encuentra su valor en sub-píxel:
a. Obtener los coeficientes de la función de segundo grado descrita por
los valores próximos a la disparidad mínima d, (x, y, d-n) a (x, y, d+n)
b. Obtener el valor mínimo de la función de segundo grado.
c. Actualizar el mapa de disparidad.
5) Eliminación de errores por filtro de mediana condicional. Para cada
elemento (x, y) del mapa de disparidad:
a. Aplicar una mascara de N x N centrada en el elemento actual del
mapa de disparidad.
b. Obtener la mediana de las disparidades dentro de la mascara.
c. Si la diferencia del valor mediano y el valor de la disparidad original
(x, y) es mayor a un umbral, remplazar el valor con el valor mediano,
si no conservar el valor (x, y).
Figura 3.1: Par de imágenes estereoscópicas rectificadas.
Instituto Tecnológico de Mérida 2004
36
Visión Artificial: Percepción de Profundidad
Procedimiento
3.2.1 Apareamiento
La diferencia de posición de cada característica en una imagen respecto a la otra
es proporcional a su profundidad. La meta del algoritmo es encontrar para cada
píxel de una imagen su correspondiente en la otra imagen, ya que las imágenes
de entrada se encuentran rectificadas, esto es son coplanares, el punto
correspondiente a (x, y) se encontrara sobre la misma línea y a una distancia o
disparidad horizontal d en el punto (x+d, y) de la otra imagen [2]. Para encontrar la
correspondencia de una imagen respecto a la otra, utilizamos una ventana circular
de área Φ píxeles, centrada en la imagen de interés en (x, y) [16] y otra de igual
área en la segunda imagen cuyo centro será desplazado sobre la línea de
exploración, línea que comparten las dos imágenes sobre la cual se busca la
correspondencia, dentro de un rango de disparidad (x-D, y) a (x+D, y) (Figura 3.2).
Para determinar cual punto dentro del rango de disparidad es el apareamiento
correcto se utiliza la sumatoria de las diferencias al cuadrado SSD [12, 13, 15,
17,18] como función de similitud para comparar las dos ventanas, pues a
diferencia de la sumatoria de diferencias absolutas SAD, otorga un mayor costo a
los errores grandes. Cada píxel de la primera ventana se sustrae de su
correspondiente en la otra y la diferencia se eleva al cuadrado, la suma de todos
estos valores determina la similitud o costo de apareamiento entre las dos
ventanas, o que tan parecida es la característica de interés en una imagen con la
evaluada en la segunda imagen, entre menor sea el valor SSD mayor será la
similitud entre las dos ventanas.
Instituto Tecnológico de Mérida 2004
37
Visión Artificial: Percepción de Profundidad
SSD =
Procedimiento
∑ (I (x , y ) − I (x + d , y ))
2
( x , y )∈ Φ
1
2
El área de la venta Φ, la cual es el numero de píxeles dentro de ella, deberá
contener la suficiente información para realizar un buen apareamiento [14, 17], si
la ventana es pequeña, no contendrá la suficiente información en áreas de baja
textura, pues no existirá referencia para la comparación, y si es muy grande se
perderán los detalles debido a que el numero de píxeles correspondientes a el
detalle analizado será mucho menor que el resto que se encuentran dentro de la
ventana y su valor se prendera dentro de la sumatoria. Por lo que el tamaño de la
ventana deberá variar en proporción a la cantidad local de textura, variación en el
tono de color, (Figura 3.2). Por lo tanto antes de realizar la comparación entre las
dos ventanas se deberá ajustar el tamaño de estas.
Φ ∝σ =
1
(I ( x, y ) − m )2
∑
Φ ( x , y )∈Φ
El radio de la ventana se incrementara en un píxel hasta que la desviación
estándar de las tonalidades en los píxeles dentro de esta sea mayor a un umbral
ThΦ, el cual es establecido experimentalmente. En la Figura 3.4 la tonalidad indica
el radio de la ventana utilizado para cada píxel, en donde los tonos obscuros
corresponden a ventanas pequeñas y los claros a ventanas grandes.
Instituto Tecnológico de Mérida 2004
38
Visión Artificial: Percepción de Profundidad
Procedimiento
Figura 3.2: Dos imágenes estereoscópicas, derecha e izquierda, son comparadas por medio de
dos ventanas, la primera centrada en el punto de interés de la primera imagen y la segunda se
desplaza dentro de un rango de disparidad sobre la línea de exploración de la segunda imagen
obteniendo el valor de la comparación SSD dentro de las dos ventanas para cada valor del rango
de disparidad. El diámetro de la ventana de correlación varia dependiendo de la cantidad de
textura local contenida en ella.
Como el tamaño de cada ventana es diferente para cada píxel, en ventanas de
diferente área los valores SSD encontrados no estarán en la misma escala, por lo
que utilizaremos el promedio de las diferencias al cuadrado como función de
similitud para que independientemente del tamaño de la ventana, el costo obtenido
este en la misma escala para todos los posibles diámetros.
∑ (I (x , y ) − I (x + d , y ))
2
Simil =
SSD
=
Φ
( x , y )∈ Φ
1
2
Φ
Para mejorar el resultado, la contribución de cada píxel a la sumatoria variará de
forma gaussiana al alejarse del centro de la ventana, de manera que al alejarse
Instituto Tecnológico de Mérida 2004
39
Visión Artificial: Percepción de Profundidad
Procedimiento
del centro el píxel perderá importancia en la sumatoria, pues no tendrá tanta
similitud con el centro de la mascara.
Peso = 2 πσ ⋅ e
−
x2 + y2
2σ
2
De manera que nuestra función de similitud es la siguiente:
Simil =
∑ (Peso (x , y ) ⋅ (I (x , y ) −
( x , y )∈ Φ
1
∑
I 2 ( x + d , y ))
2
)
Peso ( x , y )
( x , y )∈ Φ
El costo de apareamiento para cada píxel (x, y) con otro a una disparidad d en la
segunda imagen (x+d, y), se almacena en un arreglo tridimensional de
dimensiones [X, Y, D] en la posición [x, y, d], donde X es el ancho de la imagen, Y
su altura y D el rango de disparidad.
Costo[x, y, d ] ⇐ Simil ( x, y, d )
Cada valor del arreglo tridimensional (x, y, d) indica el costo de apareamiento del
píxel (x, y) en la imagen de referencia con el píxel (x+d, y) de la segunda imagen.
(Figura 3.3).
Instituto Tecnológico de Mérida 2004
40
Visión Artificial: Percepción de Profundidad
Procedimiento
Figura 3.3:.El valor de coso de apareamiento obtenido por la función de similitud para la
comparación de la ventana centrada en cada píxel (x, y) de la primera imagen con cada píxel (x+d,
y) de la segunda imagen, dentro de el rango de disparidad D, es almacenado en un arreglo
tridimensional de dimensiones [X, Y, D] en la posición [x, y, d]. Donde X es el ancho de la imagen,
Y su altura, D el rango de disparidad y la escala de colores indica el costo de apareamiento
3.2.2 Mapa de Disparidad
Un mapa de disparidad es un arreglo bidimensional con las mismas dimensiones
que la imagen de referencia, en donde cada localidad indica la distancia horizontal
en píxeles a la cual se encuentra el mejor apareamiento encontrado en la otra
imagen para la comparación estereoscópica. Se representa mediante una imagen
donde la intensidad de tono en cada píxel indica a que distancia horizontal se
encuentra el píxel correspondiente de una imagen en la otra [2] (Figura 3.7). A
cada píxel (x, y) en el mapa de disparidad se le asigna el valor de disparidad d, del
volumen de costos de apareamiento, para el cual el costo de apareo es mínimo en
la coordenada (x, y, d). De esta manera el mapa de disparidad contendrá el valor
de disparidad para cada píxel en la cual se encontró el mejor apareamiento.
Instituto Tecnológico de Mérida 2004
41
Visión Artificial: Percepción de Profundidad
Figura 3.4. El tono de gris en cada píxel de
la imagen indica el tamaño utilizado para la
ventana de comparación (imagen
ecualizada).
Procedimiento
Figura 3.5. Mapa de costos de oclusión
correspondientes a cada apareamiento
utilizado para el mapa de disparidad.
En la figura 3.6 y 3.7 los niveles de disparidad se indican en escala de grises de
256 tonos, la disparidad cero esta indicada por el tono medio, d0 = 227, los valores
por debajo de este corresponden a disparidades negativas y las disparidades
positivas se indican con tonos mayores a 227.
DisMap[ x, y ] ⇐ d + 127
Donde d es la disparidad en el punto (x, y) para la cual el costo de apareamiento
es mínimo.
Figura 3.6: Mapa de disparidad obtenido con
una mascar de diámetro fijo de 7 píxeles
Figura 3.7: Mapa de disparidad en exactitud
de píxel obtenido con mascara de diámetro
variable.
Instituto Tecnológico de Mérida 2004
42
Visión Artificial: Percepción de Profundidad
Procedimiento
3.2.3 Mapa de Disparidad en Sub-píxel
En el mapa de disparidad anterior los niveles de disparidad se encuentran
limitados a valores enteros, lo que ocasiona que los cambios en disparidad no
sean suaves, se obtenga un mapa tosco y no se aprecien los detalles cuya
profundidad esta en disparidades intermedias. Como se observa en la figura 3.2 y
3.3 los valores de los costos de oclusión próximos al valor mínimo describen una
parábola, el valor mínimo real para esta parábola puede ser encontrado
aproximando estos valores a una función de segundo grado [19, 20] por medio del
método de mínimos cuadrados, y hallar los coeficientes del polinomio de segundo
grado:
Simil = Ad 2 + Bd + C
De esta manera se obtienen disparidades fraccionarias (sub-píxel).
El método de mínimos cuadrados es el procedimiento más conveniente para
determinar la mejor aproximación de un grupo de muestras a un polinomio,
minimizando el error dado por la suma de los cuadrados de las diferencias entre
los valores de la curva de aproximación y los valores de los datos. El método de
mínimos cuadrados proporciona sustancialmente mas peso a un punto que se
encuentre fuera de la tendencia del resto de los datos, pero no permitirá que tal
punto domine por completo la aproximación [21].
Los términos de la ecuación de segundo grado se encuentran resolviendo el
siguiente sistema de ecuaciones.
Instituto Tecnológico de Mérida 2004
43
Visión Artificial: Percepción de Profundidad
m
m
Procedimiento
m
C ∑ d i + B ∑ d i + A∑ d i =
0
i =1
m
1
i =1
m
2
i =1
m
C ∑ d i + B ∑ d i + A∑ d i =
1
i =1
m
2
i =1
m
3
i =1
m
C ∑ d i + B ∑ d i + A∑ d i =
i =1
2
3
i =1
i =1
4
m
∑ Simil d
i =1
0
i
i
m
∑ Simil d
i =1
i
1
i
m
∑ Simil d
i =1
i
2
i
El costo mínimo se encuentra igualando la derivada de la función de costos a cero.
∂Simil
= 0 ⇒ 2 Ad + B = 0;
∂d
d min = −
B
2A
En el mapa en sub-pixel (Figura 3.8) se puede observar como se redujeron los
apareamientos erróneos y aparecieron detalles que no eran observables en el
mapa anterior (Figura 3.7) pues tienen valores de disparidad fraccionaria.
Figura 3.8: Mapa de disparidad en sub-píxel.
Figura 3.9: Mapa de disparidad en sub-píxel,
obtenido después del filtrado por mediana
condicional.
Instituto Tecnológico de Mérida 2004
44
Visión Artificial: Percepción de Profundidad
Procedimiento
3.2.4 Filtro Iterativo de Mediana Condicional.
Si bien el mapa obtenido por el procedimiento anterior contiene los detalles que se
encuentran en disparidades fraccionarias (sub-píxel), aun contiene apareamientos
erróneos los cuales son áreas pequeñas que presentan saltos bruscos de
disparidad, estos son causados por varios factores, como ruido, oclusiones o
patrones periódicos.
Estos saltos erróneos se eliminan utilizando un filtro no lineal sobre el mapa de
disparidad, el cual encuentra la mediana [22] de todos los valores de disparidad
dentro de una mascara centrada en el píxel de interés y remplaza su valor por el
valor mediano si la diferencia entre este y el valor original es mayor a uno. De esta
manera se eliminan los saltos indeseados de disparidad y se conservan los
detalles en sub-pixel. El filtro es aplicado cíclicamente hasta que no encuentre
valor alguno de disparidad que modificar. El mapa de disparidad resultante se
muestra en la figura 3.9.
3.2.5 Oclusiones
En un par de imágenes estereoscópicas existen detalles que se encuentran en
una imagen pero no en la otra, pues se encuentran ocluidos por objetos cercanos
debido a la diferencia de perspectiva entre ellas y a los cambios en profundidad. El
costo de aparear una característica será muy alto si esta se encuentra ocluida en
la otra imagen, pues no existirá similitud entre ninguno de los apareamientos
dentro del rango de disparidad D. Para determinar las oclusiones se toman todos
los puntos del mapa de disparidad cuyo costo de colusión sea mayor a un umbral
tho [15, 22] y se les marca como ocluidos (Figura 3.10 y 3.11).
Instituto Tecnológico de Mérida 2004
45
Visión Artificial: Percepción de Profundidad
Procedimiento
Figura 3.10: Los costos de apareamiento que son mayores a un umbral tho se marcan como
oclusiones en el mapa de disparidad.
Figura 3.11: Mapa de disparidad en sub-píxel con oclusiones marcadas en negro.
Instituto Tecnológico de Mérida 2004
46
Visión Artificial: Percepción de Profundidad
Resultados
4. Resultados
Los resultados para la imagen del pentágono, en el primer mapa de disparidad
(Figura 3.6) muestra la desventaja de utilizar una mascara de diámetro fijo, pues si
su tamaño es pequeño no podrá encontrar en áreas de baja textura un buen
apareamiento, produciendo errores en el mapa de disparidad y si su tamaño es
grande se perderán los detalles cuyo tamaño sea menor que el área de la
ventana. En el mapa de disparidad de la figura 3.7 se observa el detalle obtenido y
la reducción de errores al usar una ventana redonda de tamaño variable en
proporción a la cantidad de textura local, en comparación con la ventana de
tamaño fijo. Con el Refinamiento en sub-píxel (Figura 3.8) el detalle se incrementa
considerablemente, dejando ver pequeñas variaciones de profundidad que no
aparecen en el mapa de disparidad anterior.
Aunque se obtiene un mapa de disparidad detallado existen aun errores
indeseables en la imagen ocasionados por oclusiones y malos apareamientos.
Para eliminarlos se aplica repetidamente el filtro de mediana condicional hasta que
el filtro no pueda modificar ningún valor, eliminando así la mayoría de los errores
(Figura 3.9).
Las oclusiones se determinan por medio de un umbral sobre los costos de
oclusión de las disparidades utilizadas para el apareamiento correcto (Figura 3.10)
el cual fue ajustado a un valor de 255, los apareamientos con un costo mayor son
declarados como ocluidos y se marcan en negro en el mapa de disparidad (Figura
3.11)
En la tabla 4.1 se muestra el tiempo proceso requerido para las tres etapas
principales del algoritmo para las imágenes de prueba: 1) Apareamiento,
Instituto Tecnológico de Mérida 2004
47
Visión Artificial: Percepción de Profundidad
Resultados
almacenamiento en el volumen de disparidad y obtención del mapa de disparidad.
2) obtención y generación del mapa de disparidad en sub-píxel. 3) Filtro de
iterativo de mediana condicional. El algoritmo fue implementado en C++ Builder,
sobre Windows XP, en una computadora Pentium 4 a 2.8 GHz y 512Mb en RAM.
En la tabla 4.2 se muestran los resultados para cada una de las imágenes sobre
las cuales fue probado el algoritmo. Se indica el tamaño de la imagen, el rango de
disparidad utilizado para la búsqueda de apareamientos, el tamaño mínimo,
máximo, promedio y mediano de la ventana de comparación utilizada, la cual varia
en cada píxel de la imagen dependiendo de la cantidad de textura existente; El
rango de costos de los apareamientos utilizados para el mapa de disparidad, el
numero de niveles mostrados en el mapa de disparidad en exactitud de píxel
contra el numero del mapa en sub-pixel, el numero de veces que fue aplicado el
filtro de mediana al mapa de disparidad y finalmente la disparidad máxima y
mínima mostradas en la imagen.
Las figuras 4.2 a 4.6 muestran las imágenes utilizadas y los mapas de disparidad
en píxel y en sub-píxel resultantes junto con la escala de colores utilizada, en la
cual el blanco corresponde la menor profundidad y el negro a lo que se encuentra
mas alejado. En el caso de la imagen “Tsukuba”, se muestra el mapa en sub-pixel
y el mapa de profundidad verdadera proporcionado.
Para estas pruebas el umbral de textura fue fijado en 20, el de oclusiones en 255,
el diámetro menor utilizado para la ventana de comparación en 7 pixeles, el
tamaño de la ventana para el filtro de mediana en 5x5 píxeles y la cantidad de de
valores tomados para el método de mínimos cuadrados al generar el mapa de
Instituto Tecnológico de Mérida 2004
48
Visión Artificial: Percepción de Profundidad
Resultados
disparad en sub-píxel fue de 5 valores de disparidad dos a la izquierda y dos a la
derecha de la disparidad de apareamiento. Estos valores fueron calculados
experimentalmente.
Sub-pixe
(seg)
Filtro iterativo de
mediana
Condicional
(seg)
Total
(seg)
Imagen
Tamaño
Volumen y Mapa de
disparidad
(seg)
Pentágono
512x512
1050.561
4.837
775.065
1830.463
Random Dot
250x250
12.147
1.152
14.060
27.359
Coal Mine
240x256
193.268
1.102
22.642
197.012
CMU Shurub
512x480
6017.333
4.596
562.569
6584.498
House of
512x512
578.993
4.827
449.667
1033.487
Tsukuba
384x288
527.759
2.123
237.611
767.493
Tabla 4.1
Diámetro de
ventana
Mínimo/Máximo/
Promedio/Media
na
Costo de
apareamiento
Mínimo/Máxim
o/Mediana
Niveles de
disparidad
Píxel/Subpixel
Numero
de
Iteracion
es
Filtro 5x5
Disparidad
Mínima/Má
xima
Imagen
Tamaño
Rango
de
disparid
ad
Pentágono
512x512
-20/+20
7 / 251 / 19 / 11
0 / 2047 / 38
41 / 831
81
-18/+12
Random Dot
250x250
- 20/+20
7/ 7/ 7 / 7
0 / 6655
41 / 1003
38
-17/+16
Coal Mine
240x256
0/+55
7/ 77 / 21 / 19
0 / 5887 / 5
54 / 743
9
+29/+41
CMU Shurub
512x480
-20/+20
7 / 231 / 45 / 23
0 / 1023 / 9
41 / 692
88
-14/+13
House of
512x512
-15/+40
7 / 127 / 13 / 9
0 / 5631 / 42
46/917
70
-13/+27
Tsukuba
384x288
-5/+30
7 / 127 / 25 / 15
0 / 65535
36 / 939
58
-2/+27
Tabla 4.2
Instituto Tecnológico de Mérida 2004
49
Visión Artificial: Percepción de Profundidad
Resultados
Figura 4.1: Representación tridimensional del mapa de disparidad.
Instituto Tecnológico de Mérida 2004
50
Visión Artificial: Percepción de Profundidad
Resultados
Figura 4.2 Random Dot 250x250.
Figura 4.3 Coal Mine CMU 240x256.
Figura 4.4 CMU Shurub 512x480.
Figura 4.5 House Of 512x512.
Figura 4.6 Tsukuba 384X288.
Instituto Tecnológico de Mérida 2004
51
Visión Artificial: Percepción de Profundidad
Conclusiones
5. Conclusiones y Trabajos Futuros
Como se puede observar en los mapas de disparidad resultantes, por medio de
este tipo de técnicas de apareamiento estereoscópico se pueden obtener mapas
de disparidad muy detallados y sin ruido.
Si bien la obtención de un mapa de disparidad denso, mediante este método
incrementa el tiempo de procesamiento, debido principalmente a que la variación
de tamaño en la ventana permite diámetros de tamaño considerable, el tiempo de
proceso se pede reducir limitando el tamaño máximo de la ventana de
comparación o utilizando un método piramidal en el cual se encuentre las
disparidades iniciales en una menor resolución de la imagen original y realizar las
siguientes búsquedas en una resolución mayor y dentro de un rango de disparidad
limitado por las encontradas en el paso anterior, hasta llegar a la resolución
original de la imagen. El tiempo del algoritmo también puede reducirse mediante la
paralelización del algoritmo utilizando lenguajes de descripción hardware para
implementarlo sobre hardware configurable, utilizando múltiples mascaras que
exploren las imágenes paralelamente o utilizando tarjetas aceleradoras graficas
GPU (Graphics Processing Units) las cuales permiten operaciones con matrices
de gran tamaño [23, 24] en menor tiempo que el CPU. El tiempo total de proceso
se puede reducir dividiendo el proceso entre el CPU y el GPU o bien entre un
conjunto de procesadores gráficos trabajando en forma simultanea.
Instituto Tecnológico de Mérida 2004
52
Visión Artificial: Percepción de Profundidad
Referencias
6. Referencias
[1]
Antonio Criminisi. “Accurate Visual Metrology from Single and Multiple
Uncalibrated Images”. Robotics Research Group Department of Engineering
Science University of Oxford. Michaelmas Term, 1999
[2]
David A. Forsyth, Jean Ponce “Computer Vision: A Modern Approach”.
Prentice Hall.
[3]
Rafael C. González y Richard E. Woods, “Digital Image Processing”.
Addison-Wesley, 1992.
[4]
Stephen M. Smith, J. Michael Brady. “SUSAN – A New Approach to Low
Level Image Processing”. Department of Engineering Science, Oxford
University, Oxford, UK. Technical Report, FMRIB, 1995.
[5]
Miguel Arias-Estrada, César Torres-Huitzil. “A Real-time FPGA Architecture
for Computer Vision”. National Institute for Astrophysics, Optics and
Electronics, Computer Science Department. Puebla. Pue., México.
[6]
Raymond Thai. “Fingerprint Image Enhancement and Minutiae Extraction”.
The University of Western Australia, 2003.
[7]
K. N. Ogle, W.B. “Binocular Vision”. Saunders Co., Philadelphia, 1950.
[8]
H. von Helmholtz. ”Physiological optics”. Dover, 1909. 1962 edition of the
English translation of the 1909 German original, first published by the
Optical Society of America in 1924.
[9]
B. Julesz. “Foundations of Cyclopean Perception”. The University of
Chicago Press, London, 1971.
[10]. O.D. Faugeras. “Three-dimensional computer vision: a geometric viewpoint”.
MIT Press, 1993.
[11]
Ohta and T. Kanade. –“Stereo by intra-an d inter-scanline search”. EEE
Transaction on Pattern Analysis Machine. Intelligence Vol. PAMI -7
No. 2, March1985.
[12]
Ingemar J. Cox, Sunita L. Hingorani, And Satish B. Rao.“A Maximum
Likelihood Stereo Algorithm”. NEC Research Institute, Princeton, New
Jersey 08540. And Bruce M. Maggsi, School of Computer Science,
Carnegie Mellon University, Pittsburgh, Pennsylvania 15213. Computer
Vision And Image Understanding, Vol. 63, No. 3, May, pp. 542–567, 1996
Instituto Tecnológico de Mérida 2004
53
Visión Artificial: Percepción de Profundidad
Referencias
[13]
C. Lawrence Zitnick And Takeo Kanade. “A Cooperative Algorithm For
Stereo, Matching And Occlusion Detection”. Fellow, IEEE, IEEE
Transactions On Pattern Analysis And Machine Intelligence, Vol. 22, No. 7,
July 2000.
[14]
Roland Brockers, Marcus Hund, Barbel Mertsching. “Fast Stereo Vision for
Mobile Robots by Global Minima of Cost Functions”. GET Lab, University of
Paderborn, Pohlweg 47-49, 33098 Paderborn, Germany. 0-7803-83877/04/$20.00 © 2004 IEEE.
[15]
Kanade, T. Okutomi, M. “A stereo matching algorithm with an adaptive
window: theory and experiment”. Sch. of Comput. Sci., Carnegie Mellon
Univ., Pittsburgh, PA. IEEE International Conference on robotics and
automation. Sacramento California – April 1991.
[16]
Etienne Vincent and Robert Lagani`ere. “Matching Feature Points in Stereo
Pairs: A Comparative Study of Some Matching Strategies”. School of
Information Technology and Engineering, University of Ottawa.
[17]
L. Di Stefano, M. Marchionni, S. Mattoccia, G. Neri. “A Fast Area-Based
Stereo Matching Algorithm” (2002).
[18]
Takeo Kanade, Hiroshi Kano, Shigeru Kimura, Atsushi Yoshida, Kazuo Oda.
“Development of a Video-Rate Stereo Machine”. Robotics Institute,
Carnegie Mellon University, 5000 Forbes Ave., Pittsburgh PA 15213.
Proceedings of International Robotics and, Systems Conference (IROS’95),
August 5-9, 1995, Pittsburgh PA.
[19]
Richard Szeliski and Daniel “Scharstein.Symmetric Sub-Pixel Stereo
Matching”. In Seventh European Conference on Computer Vision (ECCV
2002), volume 2, pages 525–540, Copenhagen, Denmark, May 2002.
[20]
Maarten Vergauwen, Marc Pollefeys, and Luc Van Gool. “A Stereo Vision
System for Support of Planetary Surface Exploration”.
[21]
Richard L.Burden, J. Douglas Faires. “Análisis Numérico”. Grupo Editorial
Iberoamericana. ISBN 970-625-063-8.
[22]
Karsten Muhlmann, Dennis Maier, Jurgen Hesser, Reinhard Manner.
“Calculating Dense Disparity Maps from Color Stereo Images, an Efcient
Implementation”. Lehrstuhl fur Informatik V, Universitat Mannheim, B6, 2329, C, D-68131 Mannheim, Germany
[23]
Ádám Moravánszky “Dense Matrix Algebra on the GPU”. NovodeX AG.
adam.moravanszky@novodex.com. 2004
Instituto Tecnológico de Mérida 2004
54
Visión Artificial: Percepción de Profundidad
[24]
Referencias
K. Fatahalian, J. Sugerman, and P. Hanrahan. “Understanding the Efficiency
of GPU Algorithms for Matrix-Matrix Multiplication”. Stanford University.
Graphics Hardware (2004) T. Akenine-Möller, M. McCool (Editors).
Instituto Tecnológico de Mérida 2004
55
Visión Artificial: Percepción de Profundidad
Apéndice A
Algoritmos en C++
//------------------------------------------------------Asignar dimensiones de la Imagen--------------------------------------------------------------DynamicArray < DynamicArray <RGBTRIPLE> > SetTableDim(int Width, int Height)
{
DynamicArray < DynamicArray <RGBTRIPLE> > Buffer;
Buffer.Length = 0;
Buffer.Length = Height;
for (int i=0; i < Height; i++)
{
Buffer[i].Length = Width;
for (int j=0; j<Width; j++)
{
Buffer[i][j].rgbtRed = 0; Buffer[i][j].rgbtGreen = 0; Buffer[i][j].rgbtBlue = 0;
}
}
return Buffer;
}
//--------------------------------------------------------Almacena BMP en Memoria -------------------------------------------------------------------DynamicArray < DynamicArray <RGBTRIPLE> > LoadImage(Graphics::TBitmap *Imagen)
{
DynamicArray < DynamicArray <RGBTRIPLE> > Buffer;
Int Height= Imagen->Height;
Int Width= Imagen->Width;
Buffer = SetTableDim(Width, Height);
RGBTRIPLE * ptr;
for(int y = 0; y < Height; y++)
{
ptr = (RGBTRIPLE*) Imagen->ScanLine[y];
for(int x = 0; x < Width; x++)
{
Buffer[y][x].rgbtRed = ptr[x].rgbtRed; Buffer[y][x].rgbtGreen = ptr[x].rgbtGreen; Buffer[y][x].rgbtBlue = ptr[x].rgbtBlue;
}
}
return Buffer;
}
//------------------------------------------------------------------------------------------------------------------------------------------------------------------//--------------------------------------------------------------Escala de Grises -----------------------------------------------------------------------------void RGBtoGray(DynamicArray < DynamicArray <RGBTRIPLE> > &Imagen)
{
int Height = Imagen.Length;
int Width = Imagen [0].Length;
for(int y = 0; y < Height; y++)
{
for(int x = 0; x < Width; x++)
{
byte promedio = (Imagen [y][x].rgbtRed+ Imagen [y][x].rgbtGreen + Imagen [y][x].rgbtBlue) / 3;
Imagen [y][x].rgbtRed = promedio; Imagen [y][x].rgbtGreen = promedio; Imagen [y][x].rgbtBlue = promedio;
}
}
}
//-------------------------------------------------------------------------------------------------------------------------------------------------------------------
Instituto Tecnológico de Mérida 2004
56
Visión Artificial: Percepción de Profundidad
Apéndice A
//------------------------------------------------------------Brillo y Contraste ------------------------------------------------------------------------------void BrightContast(RandomAccessIterator &Imagen, RandomAccessIterator &Destino, int C, int Brillo, int Balance)
{
int Height = Imagen.Length;
int Width = Imagen [0].Length;
float Contraste = C/100;
for(int y = 0; y < Height; y++)
{
for(int x = 0; x < Width; x++)
{
short valR =((Contraste * (Imagen [y][x].rgbtRed - Balance)) + Balance + Brillo);
short valG =((Contraste * (Imagen [y][x].rgbtGreen - Balance))+ Balance + Brillo);
short valB =((Contraste * (Imagen [y][x].rgbtBlue - Balance))+ Balance + Brillo);
Destino[y][x].rgbtRed = (Byte)(valR > 255 ? 255 : (valR < 0 ? 0 : valR));
Destino[y][x].rgbtGreen = (Byte)(valG > 255 ? 255 : (valG < 0 ? 0 : valG));
Destino[y][x].rgbtBlue = (Byte)(valB > 255 ? 255 : (valB < 0 ? 0 : valB));
}
}
}
//------------------------------------------------------------------------------------------------------------------------------------------------------------------//------------------------------------------------------------------Tolerancia Binaria-------------------------------------------------------------------------void BinImage(RandomAccessIterator &Imagen, RandomAccessIterator &Destino, int Balance)
{
Height = Imagen.Length;
Width = Imagen [0].Length;
for(int y = 0; y < Height; y++)
{
for(int x = 0; x < Width; x++)
{
Destino[y][x].rgbtRed = (Byte)( Imagen [y][x].rgbtRed > Balance ? 255 : (Buffer[y][x].rgbtRed < Balance ? 0 : 0));
Destino[y][x].rgbtGreen = (Byte)( Imagen [y][x].rgbtGreen > Balance ? 255 : (Buffer[y][x].rgbtGreen < Balance ? 0 : 0));
Destino[y][x].rgbtBlue = (Byte)( Imagen [y][x].rgbtBlue > Balance ? 255 : (Buffer[y][x].rgbtBlue < Balance ? 0 : 0));
}
}
}
//------------------------------------------------------------------------------------------------------------------------------------------------------------------//---------------------------------------------------------------- Difuminado ---------------------------------------------------------------------------------void Smooth(RandomAccessIterator &Imagen, RandomAccessIterator &Destino, int Kernel)
{
Int ColresultR, ColresultG, ColresultB;
int Height = Imagen.Length;
int Width = Imagen [0].Length;
for (int y = 0; y < Height; y++)
{
for (int x = 0; x < Width; x++)
{
ColresultR=0; ColresultG=0;ColresultB=0;
Int n=0;
for (int nYMatrix = -Kernel; nYMatrix <= Kernel; nYMatrix++)
{
for (int nXMatrix = -Kernel; nXMatrix <= Kernel; nXMatrix++)
{
if ( 0 < Y + nYMatrix && Y + nYMatrix < Height && 0 < X + nXMatrix && X + nXMatrix < Width)
{
ColresultR = Imagen [y + nYMatrix][x + nXMatrix].rgbtRed + ColresultR;
ColresultG = Imagen [y + nYMatrix][x + nXMatrix].rgbtGreen+ ColresultG;
ColresultB = Imagen [y + nYMatrix][x + nXMatrix].rgbtBlue + ColresultB;
n++;
}
}
}
ColresultR = ColresultR/n; ColresultG=ColresultG/n; ColresultB=ColresultB/n;
Destino[y][x].rgbtRed = ColresultR; Destino[y][x].rgbtGreen = ColresultG; Destino[y][x].rgbtBlue = ColresultB;
}
}
}
//-------------------------------------------------------------------------------------------------------------------------------------------------------------------
Instituto Tecnológico de Mérida 2004
57
Visión Artificial: Percepción de Profundidad
Apéndice A
//------------------------------------------------------------Detección de contornos ---------------------------------------------------------------------void SUSAN_RGB(RandomAccessIterator &Buffer, RandomAccessIterator &Destino, int Kernel, int Tolerancia)
{
int n, ContR, ContG, ContB, YmasnYMatrix, XmasnXMatrix, y, x, nYMatrix, nXMatrix, F, G;
int Height = Buffer.Length;
int Width = Buffer[0].Length;
RGBTRIPLE PixC, DiferenciaColor;
for ( y = 0; y < Height; y++)
{
for ( x = 0; x < Width; x++)
{
ContR = ContG = ContB = n =0;
PixC.rgbtRed = Buffer[y][x].rgbtRed; PixC.rgbtGreen = Buffer[y][x].rgbtGreen; C.rgbtBlue = Buffer[y][x].rgbtBlue;
for ( nYMatrix =(y-Kernel>=0 ? -Kernel : -y) ; nYMatrix <= Kernel && y + nYMatrix< Height; nYMatrix++)
{
F=sqrt((Kernel+.5)*(Kernel+.5)-nYMatrix*nYMatrix);
for ( nXMatrix = (x-F>=0 ? -F : -x); nXMatrix <= F && x + nXMatrix < Width; nXMatrix++)
{
YmasnYMatrix = y + nYMatrix;
XmasnXMatrix = x + nXMatrix;
DiferenciaColor.rgbtRed = (Byte) abs ( (Buffer[YmasnYMatrix][XmasnXMatrix].rgbtRed) - PixC.rgbtRed );
DiferenciaColor.rgbtGreen =(Byte)abs ( (Buffer[YmasnYMatrix][XmasnXMatrix].rgbtGreen) - PixC.rgbtGreen );
DiferenciaColor.rgbtBlue = (Byte)abs ( (Buffer[YmasnYMatrix][XmasnXMatrix].rgbtBlue) - PixC.rgbtBlue );
n++;
if (DiferenciaColor.rgbtRed <= Tolerancia) ContR++;
if (DiferenciaColor.rgbtGreen <= Tolerancia) ContG++;
if (DiferenciaColor.rgbtBlue <= Tolerancia) ContB++;
}
}
G=3*n/4;
Destino[y][x].rgbtRed = (Byte)(ContR <= G ? 255-255*ContR/G: 0);//(3*n/4) - ContR : 255);
Destino[y][x].rgbtGreen = (Byte)(ContG <= G ? 255-255*ContG/G: 0);//(3*n/4) - ContG : 255);
Destino[y][x].rgbtBlue = (Byte)(ContB <= G ? 255-255*ContB/G: 0);//(3*n/4) - ContB : 255);
}
}
}
//-------------------------------------------------------------------------------------------------------------------------------------------------------------------
Instituto Tecnológico de Mérida 2004
58
Visión Artificial: Percepción de Profundidad
Apéndice A
//------------------------------------------------------- Creación de volumen de disparidad -------------------------------------------------------void Set3Ddim(DynamicArray < DynamicArray < DynamicArray <float> > > &Dis3D, int Width, int Height, int dis)
{
Dis3D.Length = 0;
Dis3D.Length = dis;
for(int d=0; d<dis; d++)
{
Dis3D[d].Length = Height;
for(int i=0; i < Height; i++)
{
Dis3D[d][i].Length = Width;
for(int j=0; j < Width; j++)
{
Dis3D[d][i][j]=0xFFFFFFFF;
}
}
}
}
//------------------------------------------------------ Inicialización del arreglo bidimensional ----------------------------------------------------template <class RandomAccessIterator>
void InitMap(RandomAccessIterator &Buffer, int Width, int Height, int K)
{
Buffer.Length = 0;
Buffer.Length = Height;
for (int i=0; i < Height; i++)
{
Buffer[i].Length = Width;
for (int j=0; j < Width; j++)
{
Buffer[i][j]=K;
}
}
}
//------------------------------------------------------------ Obtención de la Desviación Media ------------------------------------------------------float DesviacionM(RandomAccessIteratore &Left, int x, int y, int Kernel)
{
int Height = Left.Length;
int Width = Left[0].Length;
int n=0, Sum=0, SumS=0;
int YmasnYMatrix, XmasnXMatrix;
float W;
for (int nYMatrix = -Kernel; nYMatrix <= Kernel; nYMatrix++)
{
for (int nXMatrix = -Kernel; nXMatrix <= Kernel; nXMatrix++)
{
YmasnYMatrix = y + nYMatrix;
XmasnXMatrix = x + nXMatrix;
if ( (0 <= YmasnYMatrix) && (YmasnYMatrix < Height) && (0 <= XmasnXMatrix) && (XmasnXMatrix < Width)
&& ( (Kernel+.5)*(Kernel+.5) ) >= (nXMatrix*nXMatrix + nYMatrix*nYMatrix))
{
W=Left[YmasnYMatrix][XmasnXMatrix].rgbtRed;
Sum+=W;
SumS+=W*W;
n++;
}
}
}
W=Sum/n;
return sqrt(SumS/n - W*W);
}
Instituto Tecnológico de Mérida 2004
59
Visión Artificial: Percepción de Profundidad
Apéndice A
//-------------------------------------------------------------- Function de Similitud ----------------------------------------------------------------------float Simil(RandomAccessIterator &Left, RandomAccessIterator &Right, int x, int y, int d, int Kernel)
{
float Peso, n=0, dif=0, Sum=0;
int YmasnYMatrix, XmasnXMatrix, XmasnXMatrixD;
int Height = Left.Length;
int Width = Left[0].Length;
for (int nYMatrix = -Kernel; nYMatrix <= Kernel; nYMatrix++)
{
for (int nXMatrix = -Kernel; nXMatrix <= Kernel; nXMatrix++)
{
YmasnYMatrix = y + nYMatrix;
XmasnXMatrix = x + nXMatrix;
XmasnXMatrixD = nXMatrix+x+d;
if ( (0 <= YmasnYMatrix) && (YmasnYMatrix < Height) && (0 <= XmasnXMatrix) && (XmasnXMatrix < Width)
&& (0 <= XmasnXMatrixD) && (XmasnXMatrixD < Width) && ( (Kernel+.5)*(Kernel+.5) ) >= (nXMatrix*nXMatrix +
nYMatrix*nYMatrix))
{
Peso=1/(1+(nXMatrix*nXMatrix+nYMatrix*nYMatrix)/(Kernel+.5));
dif=Peso*(Left[YmasnYMatrix][XmasnXMatrix].rgbtRedRight[YmasnYMatrix][XmasnXMatrix+d].rgbtRed);
Sum+=dif*dif;
n+=Peso;
}
}
}
Sum/=n;
return Sum;
}
//------------------------------------------------------ Obtención de Disparidad en Sub-píxel -------------------------------------------------------float SubPixel(int x , int y, int dis, int K, RandomAccessIterator &Dis3D)
{
int m = 2*K+1;
DynamicArray < DynamicArray <float> > Data = SetMatrix(m, 2);
for(int i=0; i<m; i++)
{
Data[i][0]=(dis-(K-i));
Data[i][1]==Dis3D[dis-(K-i)][y][x];
}
DynamicArray < DynamicArray <float> > Temp = LeastSqrtMatrix(Data, 2);
DynamicArray <float> Soluciones = LinearSysSolve(Temp);
return (-Soluciones[1]/(2*Soluciones[2]));
}
Instituto Tecnológico de Mérida 2004
60
Visión Artificial: Percepción de Profundidad
Apéndice A
//-------------------------------------------- Filtro De Mediana Condicional --------------------------------------------------template <class RandomAccessIterator>
DynamicArray < DynamicArray <float> > MedianaIFth2D(RandomAccessIterator &Buffer, int Kernel, bool &Change, int
dismin, int dismax)
{
int Height = Buffer.Length;
int Width = Buffer[0].Length;
int YmasnYMatrix, XmasnXMatrix;
DynamicArray < DynamicArray <float> > Temp;
InitMap(Temp, Width, Height, 0);
vector<float> Lista;
float Sum;
Change=false;
for(int y=0; y<Height; y++)
{
for(int x=-dismin; x<Width-dismax; x++)
{
Sum=0;
Lista.clear();
for (int nYMatrix = -Kernel; nYMatrix <= Kernel; nYMatrix++)
{
for (int nXMatrix = -Kernel; nXMatrix <= Kernel; nXMatrix++)
{
YmasnYMatrix = y + nYMatrix;
XmasnXMatrix = x + nXMatrix;
if ( (0 <= YmasnYMatrix) && (YmasnYMatrix < Height) && (0-dismin <= XmasnXMatrix) &&
(XmasnXMatrix < Width-dismax))
{
Lista.push_back(Buffer[YmasnYMatrix][XmasnXMatrix]);
Sum+=Buffer[YmasnYMatrix][XmasnXMatrix];
}
}
}
list <float> lista;
lista.clear();
for (int i = 0; i < Lista.size(); i++)
{
lista.push_back(Lista[i]);
};
lista.sort();
Lista.clear();
int n2=lista.size();
for (int i=0; i< n2; i++)
{
Lista.push_back(lista.front());
lista.pop_front();
}
float Mediana = Lista[Lista.size()/2];
if(abs(Buffer[y][x]-Lista[Lista.size()/2])>1.5)
{
Temp[y][x]=Mediana;//(Sum-Buffer[y][x]+Lista[Lista.size()/2])/Lista.size();
Change=true;
}
else
{
Temp[y][x]=Buffer[y][x];
}
}
}
return Temp;
}
Instituto Tecnológico de Mérida 2004
61
Visión Artificial: Percepción de Profundidad
Apéndice A
//------------------------------------------------------------ Apareamiento Estereoscópico -----------------------------------------------------------DynamicArray < DynamicArray <float> > SteroMatch(RandomAccessIterator &Left, RandomAccessIterator &Right, int
dismin, int dismax, int K)
{
float S=0;
int Width, Height, Kt=0;
Height = Left.Length;
Width = Left[0].Length;
DynamicArray < DynamicArray < DynamicArray <float> > > Dis3D;
DynamicArray < DynamicArray <int> > DisMap;
DynamicArray < DynamicArray <float> > SubDisMap;
int Th_s=20;
Set3Ddim(Dis3D, Width, Height, 1+dismax-dismin);
InitMap(DisMap, Width, Height, 0);
InitMap(SubDisMap, Width, Height, 0);
for(int y=0; y<Height; y++)
{
for(int x=0; x<Width; x++)
{
Kt=K;
do
{
S=DesviacionM(Left, x, y, Kt);
if (S <Th_s) Kt++;
}while (S< Th_s);
for(int d=dismin; d<=dismax; d++)
{
if(x+d>=0 && x+d<Width)
{
Dis3D[d-dismin][y][x]=Simil(Left, Right, x,y,d,Kt);
if( (Dis3D[d-dismin][y][x]<Dis3D[DisMap[y][x]-dismin][y][x]) || (Dis3D[ddismin][y][x]==Dis3D[DisMap[y][x]-dismin][y][x])&& abs(d)<abs(DisMap[y][x])) DisMap[y][x]=d;
}
}
}
}
//------------Sub-Pixel--------------------------------------float SP;
for(int y=0; y<Height; y++)
{
for(int x=0; x<Width; x++)
{
int DIS = DisMap[y][x];
if(DIS-2 > dismin && DIS+2 < dismax)
{
SP = SubPixel(x , y, DIS-dismin, 2, Dis3D, SubCostMap[y][x]);
SubDisMap[y][x]= SP;
}
else
{
SubDisMap[y][x]= DIS;
}
}
}
//------------Filtro iterativo de mediana condicional---------bool Cambio;
DynamicArray < DynamicArray <float> > SubDisMapF=MedianaIFth2D(SubDisMap,1, Cambio, dismin, dismax);
int n=0;
do
{
SubDisMapF = MedianaIFth2D(SubDisMapF,2, Cambio, dismin, dismax);
n++;
}while(Cambio);
return SubDisMapF
}
//--------------------------------------------------------------------------------------------------------------------------------------------------------------------
Instituto Tecnológico de Mérida 2004
62
Visión Artificial: Percepción de Profundidad
Apéndice A
//--------------------------------- Minimos Cuadrados-----------------------------------------template <class RandomAccessIterator>
DynamicArray < DynamicArray <float> > LeastSqrtMatrix(RandomAccessIterator Data, int n)
{DynamicArray < DynamicArray <float> > Temp = SetMatrix(n+1, n+2);
float sum;
int m = Data.Length;
for(int i=0; i<=2*n; i++)
{
sum=0;
for(int j=0; j<m; j++)
{
sum+=pow(Data[j][0],i);
}
for(int j=i; j>=0; j--)
{
if(j<=n && (i-j)<=n)
{
Temp[j][i-j]=sum;
}
}
}
for(int i=0; i<=n; i++)
{
sum=0;
for(int j=0; j<m; j++)
{
sum+=Data[j][1]*pow(Data[j][0],i);
}
Temp[i][n+1]=sum;
}
return Temp;
}
//-----------------------------------Solución de sistema lineal de n ecuaciones y n incógnitas---------------------------------------DynamicArray <float> LinearSysSolve(DynamicArray < DynamicArray <float> > Matrix)
{DynamicArray <float> Temp;
int Height= Matrix.Length; int Width= Matrix[0].Length; Temp.Length = Height; float p, sum;
for(int i=0; i<Width-1; i++)
{
p=0;
for(int j=i; j<Height; j++)
{
p=j;
if(Matrix[p][i]!=0) break;
}
if(p!=i)
{
swap(Matrix[p], Matrix[i]);
}
for(int j=i+1; j<Height; j++)
{
int m = Matrix[j][i]/Matrix[i][i];
for(int n=0; n<Width; n++)
{
Matrix[j][n]=Matrix[j][n]-m*Matrix[i][n];
}
}
}
Temp[Height-1]=Matrix[Height-1][Width-1]/Matrix[Height-1][Width-2];
for(int i=Height-2; i>=0; i--)
{
sum=0;
for(int j=i+1; j<=Height-1; j++)
{
sum+=Matrix[i][j]*Temp[j];
}
Temp[i]=(Matrix[i][Width-1]-sum)/Matrix[i][i];
}
return Temp;
}
Instituto Tecnológico de Mérida 2004
63
Descargar