Seminario Aplicaciones de las Redes Neuronales (WebSOM) Inteligencia Artificial 5o Informática IA curso 2012-2013 CCIA Noviembre 2012 IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 1 / 12 Usos de los Mapas Auto-Organizativos Idea base: Aprovechar las capacidades de auto-organización para aplicar métodos basados en SOM sobre colecciones ... ... con un gran número de datos I muchos elementos ⇒ muchos vectores ... con datos complejos I muchos atributos ⇒ vectores de alta dimensión Campos de aplicación 1 SOM en visualización de datos 2 SOM en compresión de datos 3 SOM en extracción de prototipos y características IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 2 / 12 Campos de aplicación (I) SOM en visualización de datos Objetivo: reducción de dimensión sobre vectores con un gran no de dimensiones I Escalado multidimensional Mapeo de un espacio n-dimesional (capa de entrada) a un espacio bidimensional (capa de competición) I Resumir datos multidimensionales en un ”mapa plano” Permite el descubrimiento y visualización de relaciones entre datos de entrada I SOM preservan la ”topología semántica” de los datos de entrada, capturándola y trasladándola a la capa de competición F I Datos de entrada ”semánticamente próximos” activarán neuronas próximas Relaciones no evidentes en el conjunto de entrada se hacen visibles en el mapa IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 3 / 12 Ejemplo: Mapa de la ”pobreza” mundial (Helsinki University of Technology) http://www.cis.hut.fi/research/som-research/worldmap.html Países descritos mediante vectores de 39 indicadores de calidad de vida (nivel educativo, sistema sanitario, etc) Despues del entrenamiento del SOM: I cada neurona de competición se ”especializa” en paises (1 ó más) con caraterísticas similares I paises con niveles de riqueza similares activan neuronas próximas IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 4 / 12 Campos de aplicación (II) SOM en compresión de datos Objetivo: usar el escalado dimensional para generar una nueva versión ”compacta” de los datos de entrada que preserve las relaciones ”semánticas” entre ellos Explotar la ”salida” del SOM para obtener una versión más manejable de los datos de entrada I I Entrada: patrones de entrada (n dimensiones) Salida: construida a partir de la capa de competición F Neurona ganadora ”representa” al patrón de entrada Patrón entrada → clase discreta F Todas las neuronas ”representan” al patrón de entrada Patrón entrada → vector de ”correspondencias” (proximidad con neuronas) SOM en extracción de prototipos y características Objetivo: explotar ”conocimiento implícito” descubierto por SOM I I Identificación de vectores representantes de cada uno de los ”grupos” asociados a las neuronas de competición Selección de componentes (o combinaciones de componentes) que ”dominan” la activación de las neuronas F También permite ponderación de componentes IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 5 / 12 WebSOM: organización de documentos Herramienta para la organización de grandes colecciones de docs. textuales Organiza los documentos estructurándolos en un ”mapa” en función de su contenido Documentos similares (misma temática) se ubican en zonas próximas del ”mapa” Permite la navegación por ese ”mapa de documentos” (estructuración en niveles) http://websom.hut.fi/websom/ Tareas: 1 Representación de documentos I I 2 3 Documentos = vectores numéricos representando su contenido Representación de palabras y ponderación Organización de los documentos (entrenamiento del SOM) Generación del interfaz de presentación I I Asignación de documentos a posiciones del mapa (neuronas) Etiquetado del mapa (neuronas) IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 6 / 12 WebSOM: representación de documentos (I) Transformación de cada documento en un vector numérico Problema: gran número de palabras ⇒ reducir dimensión Fase 1: preprocesamiento de la colección Filtrado: eliminar palabras vacias tomar palabras presentes en al menos 30 docs. Normalización de palabras (extracción de raices) Agrupar palabras en ”clases de palabras” usando SOM I Creación de mapa de categorías de palabras (≈ diccionario de ”sinónimos”) Mapa de categorias de palabras (WCM: word category map) 1 Cada palabra de la colección tiene asociado un vector que representa su ”contexto medio” de aparición (ventana de longitud 1) I se asigna un vector aleatorio único a cada palabra Wi (≈ función hash [huella única]) I media de los vectores aleatorios de las palabras que aparecen antes de Wi (contexto anterior medio) I media de los vectores aleatorios de las palabras que aparecen después de Wi (contexto posterior medio) 2 Entrenar word category map con los vectores resultantes I I Es un SOM que ”agrupa” palabras con contextos medios similares IDEA: sinónimos y palabras cercanas semánticamente ó palabras que representan conceptos relacionados ”caen” en la misma neurona (= categoría) IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 7 / 12 WebSOM: representación de documentos (II) Mapa de categorías de palabras Fase 2: representación de documentos Las palabras de cada doc. son filtradas y normalizadas Cada palabra se pasa por el word category map ya entrenado para obtener su ”clase” (neurona activada) El vector que representará al doc. será un histograma de la frecuencia de las categorías del WCM que contiene ese doc. I Un componente por cada neurona/categoria del WCM Reducción de dimensión I decenas de miles de palabras → cientos/miles de categorias IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 8 / 12 WebSOM: organización y visualización de docs. (I) Con los vectores asociados a cada uno de los docs. de la colección se entrena otro SOM (el mapa de documentos) IDEA: Cada neurona especializa en un tipo de documentos (≈ tema) Cada doc. ocupa un lugar en el mapa en función de su contenido Docs. de temática similar ”caen” en misma neurona (o una próxima) A cada punto (neurona) del mapa de documentos se le asocia: Lista de docs. ”ubicados” en ese punto Lista de palabras descriptivas I Tienen alta frecuencia de aparación en docs. de esa neurona baja frecuencia de aparación en docs. de otras neurona Construcción de la interfaz de navegación/presentación División en niveles de detalle Etiquetado de puntos(neuronas) y regiones en base a las palabras descriptivas y su ”fuerza” Dentro de cada nivel → color indica la densidad de documentos en una región del mapa IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 9 / 12 WebSOM: organización y visualización de docs. (II) IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 10 / 12 WebSOM: Esquema general del proceso IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 11 / 12 Temas a desarrollar Ejemplos de usos prácticos de los SOM I I I I en visualización de datos en reconocimiento de formas y procesam. de imágenes en preprocesamiento de datos otros, ... Usos prácticos de las redes neuronales en general I I I Predicción y clasificación Procesamiento de imágenes etc Revisión de herramientas/sistemas relacionados (con SOMs ó con RNAs en general) etc,... Referencias WebSOM: http://websom.hut.fi/websom T. Kohonen: http://www.cis.hut.fi/research/som-research IA–1213 (CCIA) Seminario WebSOM Noviembre-2012 12 / 12