1 Prototipo de Sistema para Almacenamiento y Recuperación por Contenido en Imágenes Médicas de Histopatología Juan Carlos Caicedo, Fabio A. González, Eduardo Romero Universidad Nacional de Colombia Abstract— Las colecciones de imágenes médicas son archivadas e indexadas utilizando datos alfanuméricos en bases de datos relacionales. El contenido y los patrones visuales que se observan en las imágenes no pueden accederse mediante las clásicas funcionalidades de esos sistemas. En este trabajo se presenta un sistema para almacenar y consultar imágenes médicas en formato digital. Nuestro sistema extrae características visuales de bajo nivel y las utiliza para procesar consultas por similaridad, ofreciendo una herramienta flexible para explorar la colección de imágenes médicas. El sistema ha sido implementado con una arquitectura multicapa y se validó su desempeño para solucionar las consultas por similaridad según los criterios de diagnóstico utilizados por los patólogos. Este primer prototipo con una precisión del 67%, se constituye como una herramienta de apoyo al diagnóstico médico y como aplicación para dar entrenamiento al nuevo personal de la salud. I. I NTRODUCCIÓN Las imágenes médicas son utilizadas ampliamente para evaluar la salud humana, realizar diagnósticos y recomendar tratamientos. Determinar el contenido exacto de las imágenes para el cuidado de la salud continúa siendo responsabilidad del personal médico. Debido a su extenso uso, las imágenes médicas son archivadas en grandes cantidades con pocas posibilidades de explotar la información contenida en ellas. El desarrollo de las técnicas para el procesamiento de imágenes y las tecnologías para recuperación de información, permiten procesar las colecciones médicas para almacenarlas automáticamente y permitir acceso a su contenido. Los sistemas de Recuperación de Imágenes por Contenido (CBIR) son herramientas computacionales para acceder a la información en las colecciones de imágenes [18]. Estos sistemas permiten realizar búsquedas por similaridad con dos propósitos: aprovechar la información contenida en las imágenes y ofrecer al usuario una forma flexible de localizarlas. En una base de datos de imágenes tradicional, una consulta empieza con palabras clave que pueden ser útiles para encontrar las imágenes necesarias. Sin embargo, las palabras clave no son suficientes para describir toda la gama de objetos y variaciones visuales que se observan en una imagen. El usuario tampoco está dispuesto a expresar su consulta en términos muy detallados porque su necesidad de información no es precisa [17] y por lo general las imágenes registradas en la base de datos tampoco tienen suficientes anotaciones disponibles. Los sistemas CBIR calculan los resultados más relevantes a una consulta utilizando información extraída de las imágenes y aplicando operaciones de similaridad sobre esas características [16]. En este caso el sistema requiere del usuario una descripción de su consulta en términos de elementos visuales y existen para este propósito varios paradigmas de consulta [12]. El usuario puede dibujar trazos que definan la forma de algún objeto, seleccionar distribuciones de color o presentar una imagen de ejemplo. En todos los casos es necesario calcular la similaridad entre la consulta del usuario y las imágenes en la base de datos para presentar los posibles resultados. Existen sistemas comerciales para satisfacer las necesidades de administración de imágenes para especialidades artísticas [4]. Otros sistemas experimentales desarrollados en centros de investigación multimedia permiten comparar texturas, colores y formas en las imágenes de la base de datos [1], [5]. Los centros de investigación médicos alrededor del mundo también se especializan en procesar el contenido de las imágenes para ofrecer al personal de la salud herramientas de apoyo para el diagnóstico y la toma de decisiones [11], [13]. En este trabajo se presenta un sistema CBIR para almacenar y consultar imágenes de histopatología provenientes de una colección de casos del laboratorio de Patología de la Universidad Nacional de Colombia. Este sistema está construído con una arquitectura multicapa, acceso vía web para explorar la base de datos de imágenes y un módulo para la extracción de características de las imágenes con el propóstito de cuantificar las propiedades que pueden ser útiles para el diagnóstico médico. Además cuenta con un algoritmo de búsqueda que permite localizar imágenes similares después de realizar una consulta con una imagen de ejemplo. II. D EFINICIÓN DEL P ROBLEMA A. Imágenes Médicas de Histopatología La colección de imágenes en este trabajo son utilizadas para diagnosticar un tipo de cáncer en la piel llamado carcinoma basocelular. Esta es la enfermedad de piel más común en personas blancas y su incidencia se incrementa a nivel mundial [3]. Es un tipo de cáncer que tiene diferentes factores de riesgo y su desarrollo se debe principalmente a la exposición de rayos ultravioleta. Cuando los patólogos evalúan las muestras al microscopio, tratan de localizar algunos patrones característicos en la estructura del tejido para determinar la presencia o ausencia del carcinoma. Este proceso se denomina diagnóstico diferencial y se lleva a cabo mediante el reconocimiento visual [7]. Los patrones en estas imágenes se reconocen visualmente 2 TABLE I T EMAS DE B ÚSQUEDA PARA IMÁGENES DE CARCINOMA BASOCELULAR CON EL NÚMERO DE IMÁGENES RELEVANTES Fig. 1. Imagen de ejemplo de carcinoma basocelular como los objetos en la fotografía de un paisaje. Por ejemplo la Figura 1 muestra una imagen de carcinoma basocelular, en donde puede observarse la presencia de células basaloides, su disposición en empalizada periférica y la formación de hendiduras con el estroma, que permiten al especialista reconocer la presencia del tumor. La colección de histopatología tiene en total 5.995 imágenes con diferenes tipos de contenido. Un subconjunto de 1.502 de éstas imágenes fue estudiado y anotado por los patólogos para describir su contenido. El proceso de anotación para generar metadatos de las imágenes empezó con la descripción de los patrones que se observan en cada una de ellas. Las imágenes contienen entre 3 y 7 patrones diferentes de un total de 30 patrones definidos. La variedad de las imágenes hace que estos patrones se combinen de diferentes maneras, aunque solo algunas de esas combinaciones son interesantes para los procesos de toma de decisiones. Un tema de búsqueda es definido como el conjunto de imágenes que representa la respuesta ideal del sistema de recuperación para una consulta particular. En esta colección de imágenes se definieron 18 temas de consulta diferentes que corresponden a combinaciones de los patrones de diagnóstico más útiles para la toma de decisiones. Estos conjuntos pueden compartir imágenes cuyo contenido es útil para dos o más temas de búsqueda y también hay imágenes que no pertenecen a ningún tema de búsqueda. En la Tabla I se listan los temas de búsqueda con la cantidad de imágenes relevantes a cada uno. B. Base de Datos de Imágenes Los sistemas CBIR deben trabajar eficientemente con una gran cantidad de imágenes y varios usuarios accediendo a sus servicios a través de la red. La metodología de evaluación para sistemas CBIR propuesta por Müller et al [15], establece la necesidad de desarrollar sistemas interactivos que sean capaces de responder a una consulta en tiempos menores a un segundo. Esta funcionalidad se logra integrando adecuadamente los recursos de hardware y software, es decir, los dispositivos físicos con los programas y algoritmos. Tema de Búsqueda Invasión Perineural Ulceración Necrosis Patrón Morfeiforme Micronódulos Trabéculas Gruesas Cambio Quístico Lesión con Fibrosis Elastosis Glándulas Ecrinas Anexo Pilocebáceo Vasos Sanguíneos Infiltrado Linfocitario Nódulo-empalizada-hendidura, infiltrado Nódulo-empalizada-hendidura, fibrosis Nódulo-empalizada-hendidura, elastosis Nódulo-empalizada-hendidura, anexo piloso Nódulo-empalizada-hendidura, trabéculas # Rel. 6 15 32 37 41 60 67 90 125 148 154 122 140 176 50 52 38 14 Hay dos aspectos fundamentales para el desarrollo de este sistema: el diseño de la arquitectura de software y la estrategia para búsqueda de imágenes. El diseño del sistema debe contemplar los componentes necesarios para ofrecer un servicio de exploración y búsqueda de imágenes en la web. Los puntos clave en el diseño de una plataforma de servicios para recuperación de imágenes por contenido se definen de acuerdo a los criterios de desarrollo de software moderno [8]. La estrategia para búsqueda de imágenes requiere la definición de un proceso para el análisis de las imágenes y otro para resolver las consultas por similaridad. Ambos aspectos deben tener en cuenta el constante crecimiento del número de imágenes, debido a los altos índices de producción diaria que reportan los centros de imágenes médicas [9]. III. D ISEÑO DEL S ISTEMA En esta sección se presenta la arquitectura global del sistema y algunos detalles de implementación que permiten ofrecer el servicio de búsqueda de imágenes. A. Diseño global El diseño del sistema está orientado hacia una arquitectura de software multicapa que permita aprovechar los recursos computacionales de hardware, software e infraestructura de red para dar acceso a las imágenes. Los siguientes criterios se definieron como esenciales para el desarrollo de nuestro sistema: 1) Conectividad y acceso vía web 2) Arquitectura multicapa 3) Escalabilidad 4) Utilización de software libre 5) Eficiencia 6) Seguridad 7) Aprovechamiento de la plataforma de hardware Los principales módulos de la arquitectura del sistema se presentan en la Figura 2, donde pueden observarse tres capas 3 Fig. 2. Arquitectura del Sistema El sistema opera en un servidor Sun Fire V20Z con dos procesadores AMD Opteron de 64 bits y 4 GB de memoria RAM del Centro de Telemedicina de la Universidad Nacional de Colombia. Este servidor tiene acceso a un sistema de almacenamiento físico Sun StorEdge de 4 TB de capacidad que permite almacenar más de 8 millones de imágenes médicas en formato digital. El sistema operativo instalado en el servidor es GNU/Linux Gentoo, aunque el sistema puede operar bajo cualquier sistema operativo, debido a la capacidad multiplataforma del lenguaje Java con el que fue implementado. IV. B ÚSQUEDA DE I MÁGENES principales: capa cliente, capa de aplicación y capa de almacenamiento. La capa del cliente ha sido diseñada para interactuar con el usuario proporcionándole una interfaz que pueda accederse desde los navegadores convencionales. La mayoría de las interfaces han sido implementadas como páginas HTML cuyo contenido depende de las acciones y eventos generados por el usuario. Esta interfaz se complementó con Applets en Java que permiten cargar varias imágenes simultáneamente desde el computador del usuario hasta el servidor de aplicaciones. La segunda es la capa de aplicación y comprende tres subcapas: capa web, capa EJB1 y capa de recuperación de Imágenes. En la capa web se encuentran los procedimientos que capturan y procesan los eventos del usuario para dar una respuesta adecuada en la interfaz. La capa EJB está diseñada para mantener información del usuario e interactuar con las bases de datos relacionales en la capa de almacenamiento. La capa de Recuperación de Imágenes implementa los módulos de extracción de características y cálculo de similaridad como núcleo fundamental para procesar la búsqueda de imágenes. La última capa es la de almacenamiento compuesta por tres bases de datos con información necesaria para el sistema. La base de datos de metadatos contiene información asociada a las imágenes como fechas, comentarios y otros. La base de datos de imágenes almacena los archivos de imágenes digitales como tal, en directorios administrados por la capa de aplicación que corresponden a categorías definidas por el usuario. La base de datos de características mantiene almacenadas las características visuales que han sido extraídas de las imágenes y que constituyen la materia prima para el algoritmo de búsqueda de imágenes. B. Implementación El sistema ha sido implementado utilizando el estándar para aplicaciones empresariales J2EE [10]. Las herramientas utilizadas en este sistema son open-source2 , lo que permitió configurar y modificar las piezas de software según fuera necesario. Para el desarrollo de las páginas HTML y los programas en Java se utilizó el ambiente integrado de desarrollo Eclipse. La capa de aplicación y todos sus componentes han sido desplegados en el servidor de aplicaciones JBoss. Las bases de datos relacionales para los metadatos y las características fueron implementadas en el motor para bases de datos MySQL. 1 Enterprise 2 Software Java Beans de código abierto La estrategia para resolver consultas por similaridad en las imágenes está compuesta por dos módulos fundamentales: extracción de características y cálculo de similaridad. El diseño e implementación de estos dos módulos incluye técnicas particulares que se presentan en esta sección. A. Extracción de Características Las imágenes de histología son un tipo especial de imágenes médicas. A diferencia de muchas modalidades de imágenes médicas como las radiografías, las tomografías computarizadas, las resonancias magnéticas y otras, las imágenes de carcinoma basocelular tienen información en el espacio de color. Por otra parte, estas imágenes contienen una variedad de patrones morfológicos que se expresan visualmente como regiones homogéneas con estructuras celulares bien definidas que determinan criterios diagnósticos. Teniendo en cuenta estas propiedades en las imágenes de carcinoma basocelular se seleccionaron las siguientes características visuales de bajo nivel, las cuales describen los niveles de colores, texturas y bordes en las imágenes digitales. Estas características definen los espacios en donde posteriormente se evaluará una función de similaridad apropiada para obtener los resultados de una consulta. Las características utilizadas en este trabajo son llamadas características de bajo nivel porque no están estructuradas sino componen una serie de operaciones primitivas para el análisis de imágenes a nivel perceptual. En esencia los histogramas corresponden a la distribución de probabilidad de la información evaluada en la imagen de forma invariante. 1) Análisis de Color: Si se considera una imagen como una variable aleatoria, los histogramas de color son la distribución de probabilidad de los colores en la imagen. Los histogramas se representan utilizando particiones del espacio de colores como se describe en [19]. Para las imágenes de histología se calculó el histograma de colores utilizando una partición del espacio RGB de 8 × 8 × 8 obteniendo un vector de 512 posiciones. 2) Análisis de Textura: Para evaluar la textura en las imágenes se utilizó la partición binaria local [2]. Para cada pixel P en la imagen se evalúa su 8-vecindad y se determina si el valor de intensidad de cada uno de los vecinos es mayor o menor que el valor de intesidad del píxel P . En caso de ser mayor se asigna 1 a esa posición de vecindad y de lo contrario se asigna un 0. Con esos valores asignados se codifica una cadena binaria por píxel, conteniendo en total 8 bits que indican la distribución de las intensidades a su alrededor. Esta 4 partición constituye un espacio con 28 = 256 posibles valores, de manera que se puede calcular una distribución de textura mediante un histograma. 3) Análisis de Bordes: Para la detección de bordes en imágenes el operador de Sobel es uno de los más famosos [14]. Su principio fundamental es calcular la diferencia de intensidad en la vecindad de cada píxel en las direcciones vertical y horizontal, lo cual se interpreta como la derivada de la función en el punto. En esta implementación se utilizaron los operadores de 3 × 3 para analizar la 8-vecindad de cada píxel, obteniendo como resultado el valor de la magnitud de cambio en esa vecindad. Al construir el histograma con base en estos datos se obtiene la función de distribución de los cambios en la imagen. B. Evaluación de Similaridad Las características implementadas para este sistema son representadas por histogramas con la distribución de probabilidad para colores, texturas y bordes. Para evaluar la similaridad de estas características entre dos imágenes se debe utilizar una métrica capaz de hallar las diferencias más significativas entre dos histogramas. Existen varias métricas para comparar histogramas [6] y experimentalmente se determinó que la Desviación Relativa entre Rangos3 tiene el mejor desempeño para el histograma de colores y texturas sobre esta colección de imágenes. Esta métrica está basada en el coeficiente de variación c = σµ utilizado en estadística, y se define de la siguiente manera: Drbd (H, H 0 ) = M X m=1 p (Hm 1 2 (Hm 0 )2 − Hm 0 ) + Hm (1) De la misma forma, la Divergencia de Jhensen-Shannon realizó el mejor trabajo sobre la información de los bordes en el histograma de Sobel. Esta es una métrica basada en la teoría de la información que se define de la siguiente manera: M X 0 2Hm 2Hm 0 + H log m 0 0 +H Hm + Hm Hm m m=1 (2) Teniendo en cuenta que cada característica requiere una métrica especial para comparar los contenidos, se define una métrica de similaridad básica como el par característicamétrica. En nuestro sistema las métricas de similaridad básicas implementadas son: 1) Histograma RGB - Drbd 2) Partición Binaria Local - Drbd 3) Histograma Sobel - DJS A partir de estas métricas de similaridad básicas, se puede construir otra métrica de similaridad que combine la información de las tres características utilizando una combinación lineal. Si I es el conjunto de imágenes y Dk es un par característicamétrica, se define la métrica de similaridad MS de la siguiente manera: DJS (H, H 0 ) = 3 Relative Bin Deviation Hm log Algorithm 1 Algoritmo para la búsqueda de imágenes Entrada: x una imagen de ejemplo Inicio Definir: resultados un vector Para cada imagen y en la base de datos resultados[k] = MS (x, y) Ordenar(resultados) P resentar(resultados) Fin MS (x, y) = n X wk × Dk (x, y) (3) k=1 donde x, y son imágenes en I y wk son factores entre 0 y 1 que le dan más o menos importancia a la característica k. El algoritmo de búsqueda para las imágenes empieza recibiendo una imagen de ejemplo x. Si es necesario se aplican los k procedimientos para extraer las características de la imagen y poder compararlos con los registros en la base de datos. Se calcula la similaridad de la imagen x con todas las imágenes en la base de datos y estos resultados se ordenan de menor a mayor para determinar la aparición de los resultados. Este proceso está definido en el algoritmo 1. V. E VALUACIÓN DEL D ESEMPEÑO Müller et al [15] propone un marco de referencia para la evaluación de sistemas de recuperación de imágenes por contenido que permita comparar los resultados de los diferentes centros de investigación de forma estandarizada. Varias de estas medidas de desempeño han sido adaptadas de la disciplina de recuperación de información textual que tiene más de 40 años de experiencia en el desarrollo y evaluación de sus sistemas. A. Medidas de desempeño Las siguientes son las medidas de desempeño utilizadas para validar el comportamiento de los sistemas de recuperación de imágenes, teniendo como foco principal que los resultados presentados al usuario sean relevantes a su tema de búsqueda. g el rank, se define como la • Rank1, Rank y Rank: posición de una imagen relevante entre los resultados presentados al usuario. De esta manera el Rank1 es la posición en la que aparece la primera imagen relevante a la consulta, Rank es el rank promedio de todas las g es el rank imágenes relevantes a la consulta y Rank normalizado. • P recision: para un tema de consulta dado, se define la precisión como la razón entre el número de imágenes relevantes recuperadas y el total de imágenes recuperadas en una consulta • Recall: es la proporción de imágenes relevantes que fueron recuperadas con respecto al total de imágenes relevantes que se deberían recuperar. • NR : es el número de imágenes relevantes a una consulta • P (20), P (50), P (NR ): precisión del sistema cuando ha recuperado 20, 50 y NR imágenes respectivamente 5 • • TABLE II R(0.5), R(100): recall cuando la precisión alcanza un valor de 0.5 y recall cuando se han recuperado un total de 100 imágenes. Gráfica precision vs recall (PR): esta gráfica muestra el comportamiento de las consultas en diferentes momentos de la ejecución, trazando los valores de precisión para cada valor de recall . El comportamiento ideal de estas gráficas es que los valores de precisión permanezcan tan altos como sea posible mientras se recupera la totalidad de imágenes relevantes. Son de particular interés los primeros valores de la gráfica que revelan la precisión de los resultados obtenidos por el usuario en la primera página. B. Configuración experimental Para la ejecución de los experimentos se utilizó como colección de evaluación el conjunto de 1.502 imágenes con anotaciones que permiten identificar si los resultados son relevantes o no. Cada experimento está compuesto por 30 consultas generadas aleatoriamente, seleccionando una imagen de ejemplo al azar entre la colección. Cuando se obtienen los resultados de una consulta, se considera que una imagen es relevante si pertenece al mismo tema de búsqueda de la imagen de ejemplo, de lo contrario se considera irrelevante. Los resultados de las 30 consultas efecutadas se promedian para calcular los resultados medios de un experimento. Cada experimento analiza el comportamiento de un par característica-métrica. Con esta configuración experimental se evaluó el desempeño de las características color, textura y bordes de forma individual y se comparó con los resultados obtenidos al aplicar la métrica de similaridad con las características combinadas. VI. R ESULTADOS E XPERIMENTALES La configuración experimental se enfoca en evaluar el grado de correspondencia entre los resultados de una consulta y la respuesta ideal del sistema. Particularmente se evaluó el desempeño de las métricas de similaridad básicas, con respecto a la combinación de las características en una sola medida de similaridad. Un análisis empírico mostró que para cada tema de búsqueda hay una característica que se desempeña mejor que las demás. Esos resultados son consistentes con los patrones propios para los tema de búsqueda, como por ejemplo, la hendidura con el estroma que se observa claramente como un borde que separa una región de color con una blanca, y puede cuantificarse mejor con el histograma de Sobel. Como los patrones tienen diversas características, se evaluará el comportamiento del sistema cuando se combinan varias características para determinar la ganancia de información en el proceso de recuperación. En los experimentos se comparan las medidas de desempeño de las siguientes configuraciones: • Color: histograma RGB con desviación relativa entre rangos (Ecuación 1) • Textura: partición binaria local con desviación relativa entre rangos (Ecuación 1) • Bordes: histograma de Sobel con la divergencia de Jhensen-Shannon (Ecuación 2) M EDIDAS DE DESEMPEÑO PARA LAS MÉTRICAS EVALUADAS Medida Rank1 Rank g Rank P (20) P (50) P (100) P (NR ) R(20) R(50) R(100) R(P (0.5)) P Inicial Color 18.25 585.17 0.36 0.28 0.16 0.11 0.16 0.11 0.14 0.17 0.01 53% Bordes 11.03 532 0.33 0.24 0.16 0.13 0.16 0.09 0.14 0.20 0.01 61% Textura 15.03 471 0.29 0.25 0.18 0.14 0.17 0.08 0.15 0.22 0.03 53% Comb. Lineal 8.22 457 0.28 0.30 0.21 0.16 0.21 0.11 0.17 0.26 0.03 67% Combinación Lineal: se combinaron las características con la métrica definida en la Ecuación 3. Las características individuales pueden evaluar solo un componente visual a la vez, mientras que la combinación lineal lo hace en todos simultáneamente. Los factores de importancia wk en la combinación lineal, para cada característica k, se modificaron exhaustivamente hasta encontrar la mejor configuración. La mejor configuración encontrada asigna un 50% de importancia a la textura, 30% a los bordes y 20% al color. Los resultados se presentan en la Tabla II. Los valores para las tres medidas de Rank se consideran mejores cuando toman valores que tienden a cero. Los valores para las medidas precision y recall se consideran mejores cuando toman valores que tienden a uno. En general puede observarse que la combinación lineal tiene mejores resultados que cualquiera de las características individualmente. Entre todas las medidas calculadas son de particular interés aquellas que revelen el desempeño del sistema con los primeros resultados de la consulta, porque son éstos los que el usuario espera que sean los más relevantes. Es el caso de Rank1 y precisión inicial en donde los bordes tienen mejor desempeño individual y la combinación lineal logra superar esos resultados. Aunque los bordes tienen un mejor desempelo inicial, la textura tiende a ser más estable con los siguientes resultados. Para observar el comportamiento de las características en diferentes etapas del proceso de recuperación, se traza la gráfica P R, que muestra cómo cambia la precisión del sistema a medida que se incremental el recall. Cuando el recall es del 100% significa que el sistema ya localizó todas las imágenes relevantes al tema de consulta. Pero durante este proceso la precisión va disminuyendo, porque en el intento de recuperar las imágenes relevantes, el sistema retorna imágenes que no son relevantes. En la Figura 3 se presentan las curvas P R comparando el comportamiento de las características evaluadas. Nótese que la combinación lineal mantiene la precisión más alta en una mayor parte del proceso de recall. En la gráfica también puede observarse la precisión inicial de cada métrica evaluada, la cual corresponde con el valor en la Tabla II. Entre más alto sea el valor de precisión inicial hay más oportunidad de obtener un mejor desempeño general. El significado de obtener un valor de precisión inicial del 67%, como es el caso de la combinación lineal de características, es • 6 Fig. 3. Grárica Recall-Precision comparando el desempeño de las medidas de similaridad que en promedio, la primera imagen recuperada es relevante en el 67% de los casos. Las características utilizadas están cuantificando información perceptual en la imagen y su combinación es también información perceptual. Por otro lado, son características de bajo nivel que no tienen estructura, es decir, son unidades básicas de apariencia visual. Estos resultados corresponden con el bien conocido vacío semántico [11] que se define como la falta de correspondencia entre la información que puede extraerse de una imagen digital y la interpretación que los humanos hacen de la misma imagen. Los temas de búsqueda fueron definidos con criterios propios de patología, que tienen un significado particular para esta disciplina. Las características extraídas emparejan parcialmente con los criterios médicos y se hace necesario estructurar la información visual de otra manera, para que corresponda mejor con los patrones de diagnóstico. VII. C ONCLUSIONES Este trabajo presenta un sistema de recuperación de imágenes médicas por contenido, implementando una herramienta tecnológica para dar acceso a las imágenes a través de la web con módulos especializados para búsqueda de imágenes. Una base de datos de imágenes tradicional permite localizar las imágenes utilizando los datos alfanuméricos asociados. El sistema propuesto es nuestro primer prototipo para permitir al usuario buscar imágenes utilizando la información que ellas contienen. La arquitectura del sistema permitirá escalar los servicios para atender varios usuarios y almacenar grandes cantidades de imágenes. Esta arquitectura está basada en el modelo de aplicación multicapa y su diseño fue orientado con las mejores prácticas de ingeniería de software. En el núcleo funcional se incluyen los módulos especializados para búsqueda por contenido, que son independientes del resto de la aplicación. Esta configuración permite implementar nuevas técnicas para procesamiento de imágenes, recuperación de información y algoritmos de búsqueda más eficientes y precisos, sin necesidad de alterar el resto del sistema. La habilidad de un sistema de recuperación de imágenes para ofrecer al usuario los resultados más relevantes también fue evaluada en este trabajo. Se midió el desempeño del sistema utilizando diferentes indicadores de rendimiento, para identificar la mejor configuración. El mejor desempeño obtenido con las características visuales de bajo nivel es cercano al 70% cuando se realiza una combinación lineal entre ellas. Las características utilizadas son la distribución de colores, texturas y bordes en la imagen, como unidades básicas de apariencia visual. Este prototipo de sistema no está diseñado para realizar diagnóstico automático. Su principal objetivo es proporcionar una herramienta de apoyo al diagnóstico médico y de entrenamiento al nuevo personal de la salud. Su facilidad de uso y las funciones de búsqueda permiten al usuario explorar las colecciones de imágenes médicas utilizando los datos asociados a ellas o realizando consultas por similaridad como una herramienta flexible para resolver inquietudes. R EFERENCES [1] S. Sclaroff A. Pentland, W. Picard. Photobook: Content-based manipulation of image databases. MIT, 1995. [2] Andrew P. Berman and Linda G. Shapiro. A flexible image database system for content-based retrieval. Computer Vision and Image Understanding, 75, 1999. [3] R C Strange C S M Wong and J T Lear. Basal cell carcinoma. BMJ, 327:794–798, 2003. [4] Will Equitz Myron D. Flickner Eduardo H. Glasman Dragutin Petkovic Peter Yanker Christos Faloutsos Gabriel Taubin Carlton W. Niblack, Ron Barber. Qbic project: querying images by content, using color, texture, and shape. Medical Imaging: Storage and Retrieval for Image and Video Databases, 1908, 1993. [5] Hayit Greenspan Jitendra Malik Chad Carson, Serge Belongie. Blobworld: Image segmentation using expectation maximization and its application to image query. IEEE Transactions on Pattern Analysis and Machine Intelligece, 24:1026–1038, 2002. [6] Thomas Deselaers. Features for Image Retrieval. PhD thesis, RWTH Aachen University. Aachen, Germany, 2003. [7] Christopher D. M. Fletcher. Diagnostic Histopathology of tumors. Elsevier Science, 2003. [8] Fischer B Lehmann TM. Guld MO, Thies C. A generic concept for the implementation of medical image retrieval systems. Stud Health Technol Inform, 116:459–464, 2005. [9] David Bandon Antoine Geissbuhler Henning Müller, Nicolas Michoux. A review of content based image retrieval systems in medical applications clinical bene ts and future directions. International Journal of Medical Informatics, 73:1–23, 2004. [10] Mark Johnson Inderjeet Singh, Beth Stearns and the Enterprise Team. Designing Enterprise Applications with the J2EETM Platform. AddisonWesley, 2002. [11] G. Zhang J. Zhang; Y. Tan; Y. Hua. Content-based medical image retrieval in picture archiving and communication systems. SPIE Medical Imaging 2006: PACS and Imaging Informatics, 6145, 2006. [12] Bjorn Johansson. A survey on: Contents based search in image databases. 2000. [13] Sameer K. Antani L. Rodney Long and George R. Thoma. Image informatics at a national research center. Computerized Medical Imaging and Graphics, 29:171–193, 2005. [14] Alberto S. Aguado Mark S. Nikson. Feature Extraction and Image Processing. Elsevier, 2002. [15] Marchand-Maillet S McG Squire D Pun T. Müller H, Müller W. A framework for benchmarking in visual information retrieval. International Journal on Multimedia Tools and Applications, 21:55–73, 2003. [16] Mirela Tanase Remco C. Veltkamp. Content-based image retrieval systems: A survey. Technical Report UU-CS-2000-34, Dept. of Computing Science, Utrecht University, 2000. [17] Berthier Ribeiro-Neto Ricardo A. Baeza-Yates. Modern Information Retrieval. Addison-Wesley Longman Publishing Co., Inc, 1999. 7 [18] R. Jain S. Santini, A. Gupta. Content based image retrieval at the end of the early years. Technical report, Intelligent Sensory Information Systems, University of Amsterdam, 2000. [19] Sven Siggelkow. Feature Histograms for Content-Based Image Retrieval. PhD thesis, Albert-Ludwigs-Universit¨at Freiburg im Breisgau, 2002.