Inferencia probabilistica de estructuras semánticas. • Contexto: Con el auge de Internet y la WWW así como la aparición de las redes sociales, el modelo de comunicación en la sociedad actual pasa inevitablemente por el uso de computadores. En la red se pueden encontrar comentarios relativos a productos, opiniones políticas, debates,… De esta forma, se hace inevitable el desarrollo de sistemas que traten de manejar, clasificar, interpretar, recuperar… la información expresada mediante lenguaje natural, que habitualmente no está estructurada y no puede ser procesada por máquinas. Por otra parte, la mayoría de los avances relativos a la interacción hombre máquina, pasan por desarrollar sistemas en los que los humanos puedan comunicarse con las máquinas mediante el uso del lenguaje natural. El Procesamiento del Lenguaje Natural (PLN) trata de encontrar soluciones computacionalmente eficaces para la comunicación entre personas y máquinas por medio del lenguaje natural. Hasta la década de 1980, la mayoría de los sistemas de PLN se basaban en un complejo conjunto de reglas diseñadas a mano. A partir de finales de 1980, sin embargo, la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje supuso una revolución. Estos algoritmos están basados principalmente en la representación textual de la información y funcionan muy bien para la recuperación, la segmentación, el chequeado ortográfico y otras aplicaciones similares, pero son muy limitados a la hora de interpretar sentencias y extraer información relevante. Sin embargo, éstas son precisamente las capacidades necesarias para pasar del mero procesamiento del lenguaje natural a lo que podríamos llamar “Comprensión del Lenguaje Natural” y supondría un paso adelante en la capacidad de los sistemas que pretenden hacer uso de este tipo de información. • Objetivos del proyecto: El objetivo de este trabajo es dar un paso más allá en lo que a la representación y el procesamiento del conocimiento se refiere cuando tratamos diferentes sistemas que hacen uso del PLN. Para ello se estudiarán diferentes opciones para que los sistemas que utilizan técnicas basadas en aproximaciones más tradicionales, que consideran principalmente la información a nivel de palabra, puedan beneficiarse de representaciones más sofisticadas que consideren por ejemplo información asociada al mundo exterior o el conocimiento asociado al contexto narrativo del texto. Así mismo se considerarán las técnicas más adecuadas para el tratamiento de estas representaciones. • Tareas a realizar: • T1 Revisión bibliográfica. En esta tarea se llevará a cabo una revisión exhaustiva de las técnicas que se emplean actualmente en los sistemas que tratan con PLN, así como las técnicas más novedosas en las que se utilizan representaciones más ambiciosas del conocimiento. • T2 Introducción de la Semántica. En este punto se trata de centrarse en las aproximaciones que hacen uso de la semántica tanto al nivel intrínseco de cada documento como en lo que al conocimiento del mundo exterior se refiere. Para ello se estudiarán diferentes técnicas basadas en aprendizaje automático como Latent Semantic Analysis, Latent Dirichlet allocation, MapReduce, así como aproximaciones más novedosas relacionadas con Redes Bayesianas o Deep Learning. • T3 Búsqueda de herramientas. Además de las bases teóricas de las aproximaciones analizadas se pretende llevar a cabo una búsqueda de las herramientas disponibles que hagan uso de las técnicas propuestas. Además el alumno deberá familiarizarse con el uso de paquetes que incluyen herramientas de machine learning como el scikit-learn. • T4 Implementación. En esta tarea se implementará el software necesario para evaluar las aproximaciones propuestas en diferentes aplicaciones relacionadas con el PLN. Esta tarea conlleva un trabajo relacionado con el uso del software implementado en las herramientas arriba descritas así como con la implementación de software desarrollado por el propio alumno. El alumno necesitará hacer uso del lenguaje de programación Python. • T5 Validación. En esta tarea se validarán las aproximaciones propuestas mediante un serie de resultados experimentales que nos darán una idea del comportamiento real de los sistemas. Para ello será necesario hacer uso de diferentes bases de datos. • Otros aspectos relacionados con el desarrollo del trabajo: • Tutores: Raquel Justo (UPV/EHU)y María Inés Torres (UPV/EHU). • Lugar de trabajo: Trabajo personal del alumno no presencial + reuniones periódicas en UPV/EHU (Leioa-Bizkaia). • Duración: 1 curso académico (Comienzo Octubre 2015) • Contacto: raquel.justo@ehu.eus, manes.torres@ehu.eus