Estado del arte y oportunidades de negocio ÍNDICE 1 ANÁLISIS DE LA SITUACIÓN ACTUAL ................................................ 1 1.1 LENGUAJE NATURAL VS. LENGUAJE ARTIFICIAL ................................................ 1 1.2 NIVELES DEL PROCESAMIENTO DE LENGUAJE NATURAL ....................................... 3 1.3 ANÁLISIS EMPRESARIAL ............................................................................. 6 1.4 PRINCIPALES AGENTES ............................................................................11 1.4.1 Red Temática en Tecnologías del Habla .................................................11 1.4.2 Sociedad Española para el Procesamiento del Lenguaje Natural .....................13 1.4.3 Grupos de investigación ....................................................................18 1.4.4 Empresas ......................................................................................36 1.5 2 PATENTES ...........................................................................................40 1.5.1 A nivel internacional ........................................................................40 1.5.2 A nivel nacional ..............................................................................41 ANÁLISIS DE OPORTUNIDADES DE NEGOCIO ..................................... 49 2.1 ÁREAS DE INVESTIGACIÓN ........................................................................49 2.1.1 Procesado de Voz ............................................................................49 2.1.2 Procesamiento del Lenguaje Natural .....................................................51 2.1.3 Diálogo ........................................................................................53 2.1.4 Lingüística ....................................................................................54 2.1.5 Psicología Cognitiva y Psicolingüística ....................................................55 2.2 APLICACIONES DEL PROCESAMIENTO DE LENGUAJE NATURAL...............................56 2.2.1 Minería de datos .............................................................................57 2.2.2 Sistemas de búsqueda de respuesta ......................................................58 2.2.3 Corrección ortográfica ......................................................................59 2.2.4 Síntesis de voz ...............................................................................60 3 4 2.2.5 Sistemas de diálogo .........................................................................61 2.2.6 Reconocimiento de voz .....................................................................62 2.2.7 Análisis de sentimientos ....................................................................63 2.2.8 Generación de resúmenes automáticos ..................................................65 2.2.9 Traducción automática .....................................................................67 2.2.10 Recuperación y extracción de información ..............................................69 INICIATIVAS DE INTERÉS ............................................................. 76 3.1 IBM WATSON........................................................................................76 3.2 DETECCIÓN DE LA APNEA DEL SUEÑO ...........................................................80 3.3 SIRI DE APPLE ......................................................................................81 3.4 PERLDOOP ..........................................................................................82 3.5 CORTANA DE MICROSOFT .........................................................................83 3.6 INBENTA.............................................................................................84 FUENTES DE INFORMACIÓN ......................................................... 85 1 Análisis de la Situación Actual 1.1 Lenguaje Natural vs. Lenguaje Artificial La información es el recurso más importante que poseemos los seres humanos. Gran parte de esta información se comunica, almacena y maneja en forma de lenguaje natural, en sus diferentes formas. En la actualidad, podemos obtener grandes volúmenes de información en forma escrita, ya sea de manera impresa o electrónica. Los ordenadores son una herramienta indispensable para el procesamiento de la información plasmada en los textos, ya que son capaces de manejar grandes volúmenes de datos. Sin embargo, un ordenador no puede hacer todo lo que las personas normalmente hacemos con el texto, por ejemplo, responder preguntas basándose en la información proporcionada, hacer inferencias lógicas sobre su contenido, o elaborar un resumen de esta información. El esfuerzo que la Ciencia invierte hoy en día para contrarrestar esta situación se denomina procesamiento de lenguaje natural, procesamiento de texto, tecnologías de lenguaje o lingüística computacional. El lenguaje humano es complejo, multiforme y rico en expresiones, pero a la vez puede ser ambiguo y requerir interpretación de acuerdo al contexto, al momento y la intención del hablante. El lenguaje formal o artificial, por el contrario, se diseña con una finalidad concreta, es restringido en su sintaxis y en su semántica, por ello es más preciso, con menos espacio para la libre interpretación y libre del contexto. El Procesamiento del Lenguaje Natural (PLN) es una rama muy importante de la Inteligencia Artificial y una de las más antiguas. Las primeras traducciones automáticas se iniciaron en la década de los 40 con la II Guerra mundial. Sin embargo, como consecuencia de la escasa potencia de los ordenadores los intentos fracasaron, pero a pesar de ello, a partir de la década del 60 el Procesamiento del Lenguaje Natural resurgió nuevamente. 1 Lenguaje natural vs Lenguaje Artificial Lenguaje Natural Lenguaje Artificial Medio principal para la comunicación humana. Gran poder expresivo. Se compone de símbolos y fórmulas, con el objetivo de formalizar la programación de ordenadores o representar simbólicamente el conocimiento científico. Para conseguir un alto grado de comprensión del lenguaje natural es necesario que los algoritmos posean un completo conocimiento del idioma; desde los caracteres de una palabra hasta el contexto del diálogo. Las palabras y oraciones están perfectamente definidas, una palabra mantiene el mismo significado prescindiendo del contexto o su uso. Propiedades: o Se desarrollan a partir de una teoría preestablecida. o Componente semántico mínimo. o Posibilidad de incrementar el componente semántico de acuerdo con la teoría a formalizar. o La sintaxis produce oraciones no ambiguas. o Los números tienen un rol importante. o Poseen una completa formalización, posibilitando la construcción computacional. Propiedades: o Han sido desarrollados por enriquecimiento progresivo previo a cualquier teoría. o La importancia de su carácter expresivo se debe a la riqueza del componente semántico (polisemia). o Existe dificultad o imposibilidad de una formalización completa. 2 1.2 Niveles del Procesamiento de Lenguaje Natural El Procesamiento de Lenguaje Natural (PLN) tiene por objetivo habilitar a los ordenadores para que entiendan el texto, procesándolo por su sentido. Para llevar a cabo esta tarea, un sistema de Procesamiento del Lenguaje Natural necesita conocer la estructura del lenguaje, la cual se analiza normalmente en 4 niveles: 1. Nivel Morfológico::se estudia cómo se construyen las palabras. Detecta las relaciones que se establece entre las unidades mínimas que forman una palabra (sufijos, prefijos) y la relación con el léxico, siendo éste un conjunto de información sobre cada palabra que el sistema utiliza para el procesamiento. El análisis morfológico consiste en determinar la forma, clase o categoría gramatical de cada palabra de una oración. La morfología abstrae las palabras de su contexto para clasificarlas en diferentes grupos según las funciones de que son capaces, estudia las diferentes formas que pueden adquirir para representar las categorías gramaticales y establece los medios que el idioma emplea para enriquecer su léxico formando nuevas palabras en base de las ya existentes. A continuación se muestra un ejemplo de análisis morfológico para la oración “Un gato negro caza un ratón blanco”: 3 2. Nivel Sintáctico: se estudia cómo combinar las palabras para formar oraciones. Su función es asignar etiquetas a cada uno de los componentes que aparecen en la oración a analizar, de manera que se sepa cómo se combinan las palabras y forman estructuras gramaticales correctas. El objetivo principal del nivel sintáctico es describir las relaciones entre las palabras de una oración y la función que cada palabra realiza, es decir, construir la estructura de la oración. Las estructuras sintácticas se construyen como una gramática, la cual es una especificación mediante reglas de las estructuras permitidas en un determinado lenguaje. Las oraciones correctas son aquellas que obedecen las reglas gramaticales. Para el establecimiento de métodos que determinen únicamente las secuencias correctas, se han considerado dos enfoques para describir formalmente la gramaticalidad de las oraciones: los constituyentes y las dependencias: a) El enfoque de constituyentes consiste en analizar la oración mediante un proceso de segmentación y clasificación. La oración se segmenta en sus partes constituyentes, éstas se clasifican como categorías gramaticales, se repite el proceso para cada parte, subdividiendo y clasificando, y así sucesivamente hasta que las partes constituyentes sean indivisibles, obteniendo como resultado un árbol como el siguiente, donde los nodos terminales representan a las palabras que constituyen la oración, y los nodos intermedios y la raíz representan las reglas de reescritura especificadas en la gramática: 4 b) El enfoque de dependencias consiste en el establecimiento de la relación entre pares de palabras, una de ellas tiene el rol de rectora y la otra el rol de dependiente o subordinada. Si cada palabra de una oración tiene una palabra rectora, toda la oración se puede ver como una estructura jerárquica, el árbol de dependencias, donde la única palabra que no tiene rectora es la raíz del árbol, tal y como se muestra a continuación: 3. Nivel Semántico: se estudia el significado de las oraciones, representándolo de manera formal. El objetivo del análisis semántico es determinar el significado de las oraciones y representarlo de manera formal. Existen varias formas de representación formal semántica de las oraciones, tales como las siguientes: Lógica de primer orden Redes semánticas La clave es cómo hacer la transformación de un árbol sintáctico a una red semántica. Este problema todavía no tiene una solución general. Las redes semánticas han sido ampliamente utilizadas en la inteligencia artificial como mecanismo de representación de conocimiento, por lo que existe una gran diversidad de técnicas. Los elementos comunes en la mayoría de los esquemas de redes semánticas son las estructuras de datos en nodos, que representan conceptos, unidas por arcos que representan las relaciones entre conceptos; y un conjunto de procedimientos de inferencia que operan sobre las estructuras de datos. Se pueden distinguir tres categorías de redes semánticas: redes IS-A; redes de marcos; y grafos conceptuales. 4. Nivel Pragmático: se estudia cómo el contexto afecta a la interpretación de las oraciones. Ésta es la cadena de análisis ideal con los cuatro niveles, que sin embargo no se corresponde con la realidad, dado que la mayoría de los sistemas no van más allá del análisis sintáctico. 5 1.3 Análisis empresarial Los resultados del ámbito del procesamiento de lenguaje natural han mejorado sustancialmente en los últimos años, apareciendo nuevas aplicaciones de la comunicación y entendimiento humano-máquinahumano a través del lenguaje natural, tales como síntesis de discursos, comprensión del lenguaje, respuesta automática a preguntas, traducción automática, etc. El procesamiento de lenguaje natural tiene mucha importancia en las empresas, ya que permite realizar, entre otras, las siguientes cuestiones: Análisis de Opinión: El procesamiento de lenguaje natural aporta soluciones para conocer de manera automática qué están opinando los usuarios acerca de los productos y servicios de la empresa, de sus competidores, o analizar las tendencias del mercado y las nuevas necesidades que surgen. Detección de Plagio: En los últimos años se está incrementando el número de casos de plagio, entendido como la incorporación en un documento de fragmentos de texto escritos por otra persona sin darle el crédito adecuado. El procesamiento de lenguaje natural ayuda en la detección automática de plagio. Sistemas de Recomendación “Social”: El procesamiento de lenguaje natural puede extraer los datos más significativos de nuestro usuario a partir de su información en las redes sociales, con el objetivo de construir su perfil para mejorar las recomendaciones realizadas por el sistema. Etiquetado semántico: El procesamiento de lenguaje natural puede hacer una aproximación automática al etiquetado de contenidos en páginas web. Búsqueda documental: El procesamiento de lenguaje natural permite organizar y acceder a toda la documentación, obviando los errores ortográficos, los acrónimos o los sinónimos, permitiendo una recuperación de información adecuada. Georreferenciación automática de contenidos: El procesamiento de lenguaje natural permite georreferenciar automáticamente contenidos textuales de diversas fuentes (p. ej. farmacias de guardia, a partir de las páginas web que publican esta información). 6 Durante los últimos años se han constituido más de 200 empresas que desarrollan tecnología relacionada con el procesamiento de lenguaje natural, incrementándose los campos empresariales donde se optimizan los procesos con su aplicación. Número de empresas creadas con tecnología relacionada con el procesamiento de lenguaje natural 30 25 20 15 10 5 0 2006 2007 2008 2009 2010 2011 2012 2013 Fuente: LoginFin Los años 2011 y 2012 han sido los de máximo apogeo con 25 empresas nuevas en este último año, y el 2013 ha experimentado una reducción en la creación de nuevas empresas. Se puede observar que el sector no se encuentra en un momento de apertura de nuevas empresas, sino de potenciación de las empresas constituidas, potenciando su atractivo a los inversores para promover la captación de financiación que permita la senda de crecimiento. 7 El espectro de sectores donde se aplica el procesamiento de lenguaje natural es muy amplio. A continuación se muestra la distribución del número de empresas por sector: Distribución sectorial de las empresas de procesamiento de lenguaje natural 50 45 40 35 30 25 20 15 10 5 Software Analytics Web Enterprise Search Advertising News Social Mobile E-commerce Others Music Messaging Legal Travel Health Hospitality Consulting Security Medical Education Biotech Hardware Automotive Games Video Public Relations Manufacturing 0 Fuente: LoginFin Los sectores donde más se aplica son programas de software, analítica y web. Uno de los ámbitos donde el procesamiento de lenguaje natural se ha enfocado en mayor medida es la optimización de la comprensión del contenido, y las comunicaciones generadas con los clientes. Cabe destacar a la empresa Clarabridge, fundada en el año 2005 y con sede en Reston (USA), que ofrece un software para la gestión de la experiencia del cliente, y obtuvo 80 millones de $ en su última ronda de financiación. La diversidad de aplicaciones del procesamiento de lenguaje natural está llegando a disciplinas muy variadas. A modo de ejemplo, el sector de la música cuenta con 4 empresas, de las cuales 3 son de origen europeo. Una de ellas es la empresa británica Soundout, que ha desarrollado una herramienta para investigación de mercado y de análisis para detectar nueva música para los profesionales del sector. Esta empresa recibió 2 millones de € de inversión en al año 2011. Otro sector atípico es el legal, donde se ha desarrollado tecnología de procesamiento de lenguaje natural para encontrar los abogados adecuados como Lexpertia, o para la gestión de patentes como Lexmachina. En cuanto al interés de los inversores en empresas con tecnología relacionada con el procesamiento de lenguaje natural, el venture capital se ha dado cuenta de la oportunidad que presenta este ámbito, y está intensificando sus inversiones en las mismas. 8 Evolución de las operaciones de inversión 80 70 60 50 40 30 20 10 0 2006 2007 2008 2009 2010 2011 2012 2013 2014 Fuente: LoginFin Desde el año 2011 está creciendo el número de rondas de inversión en empresas del ámbito de procesamiento de lenguaje natural. El año 2013 ha sido el punto álgido con 71 operaciones, y el año 2014 continúa con unos niveles muy elevados. Esta inversión está permitiendo el desarrollo de tecnología y productos, de manera que permita la penetración de esta tecnología en los mercados durante los próximos años. En cuanto a las empresas que han convencido un mayor número de veces a los inversores se encuentran las siguientes 3 empresas: Netbase Solutions, Narrative Science, y Hakia. Cada una de ellas ha realizado 6 rondas de inversión. Netbase Solutions recibió la primera ronda de venture capital en el año 2005, y durante julio de 2014 ha recibido la última, siendo una de las empresas más destacadas en la aplicación del procesamiento de lenguaje natural para mejorar la relación con el cliente. 9 Ranking de empresas más activas en cuanto a rondas de financiación Empresa Nº de rondas NetBase Solutions 6 Narrative Sciencie 6 Hakia 6 Janzz 5 LexMachina 5 Fuente: LoginFin En este ámbito existen 6 empresas que han superado los 40 millones de $ de inversión acumulada, entre las que se encuentran Clarabridge y Netbase Solutions. Durante el año 2014 se han disparado las adquisiciones en empresas de procesamiento de lenguaje natural, tras varios años en las que apenas había habido operaciones de este tipo en el sector. Adquisiciones por empresa 25 20 15 10 5 0 2007 2008 2009 2010 2011 2012 2013 2014 Fuente: LoginFin Tras varios años en los que las adquisiciones en el sector habían bajado considerablemente (de 12 en el año 2010 hasta 1 en el 2013), se ha producido una reactivación durante el año 2014, donde el sector más activo ha sido el publicitario (por ejemplo la compra de Gravity por AOL, por 90 millones de $). 10 1.4 Principales agentes 1.4.1 Red Temática en Tecnologías del Habla La Red Temática en Tecnologías del Habla se creó en el año 2001, con el propósito de agrupar a todos los agentes en el ámbito español relacionados con las Tecnologías del Habla. Se trata de un foro común donde los investigadores en Tecnología del Habla pueden aunar esfuerzos y compartir experiencias, con el fin de: Fomentar la investigación en Tecnologías del Habla, atrayendo a nuevos jóvenes investigadores a este campo, a través de las siguientes actividades: Ampliación del Centro Investigador y Docente virtual con nuevos recursos (material docente, herramientas software y bases de datos), orientados a facilitar la incorporación de nuevos investigadores en este campo. Generación de material bibliográfico de apoyo. Facilitar el intercambio de estudiantes de doctorado entre diferentes centros de investigación mediante la concesión de becas. Definir ayudas para la asistencia a cursos organizados por algunos de los centros de investigación, o la asistencia a congresos internacionales de reconocido prestigio donde los estudiantes pueden publicar sus trabajos de investigación. Organizar premios para los mejores trabajos de investigación y tesis doctorales realizados en Tecnologías del Habla. Atraer inversiones para investigación de las empresas hacia las Tecnologías del Habla, mediante la búsqueda de nuevas aplicaciones que ofrezcan nuevas posibilidades de negocio, a través de las siguientes actividades: Financiación para la realización de prototipos y demostraciones que permitan mostrar a las empresas estas nuevas aplicaciones y el potencial de investigación en Tecnologías del Habla. Foros de debate en los que intervengan investigadores y directivos de las empresas interesadas. Avanzar en la creación de lazos de colaboración e integración de los miembros de la Red para mantener el liderazgo de España en la investigación del Castellano, y potenciar también los idiomas co-oficiales como el Catalán, Euskera y Gallego, a través de las siguientes actividades: Organización de las Jornadas Nacionales en Tecnologías del Habla, siendo un punto de encuentro en el que los investigadores comparten los resultados de la investigación, potenciando el networking y las líneas de trabajo conjunto. Creación de consorcios multidisciplinares para la solicitud de proyectos tanto nacionales como europeos, mediante la creación de sesiones concretas dentro de las Jornadas en Tecnologías del Habla. 11 Promover la movilidad de recursos humanos, y el desarrollo y la difusión de recursos materiales de interés común entre los miembros de la red. Mejorar la coordinación entre las infraestructuras científico-tecnológicas y las necesidades del mercado relacionado con las Tecnologías del Habla, evitando esfuerzos redundantes. Facilitar las relaciones con otras "redes temáticas“, y sociedades que existen en otros países. 12 1.4.2 Sociedad Española para el Procesamiento del Lenguaje Natural Asociación científica sin ánimo de lucro, formada por socios numerarios e instituciones, creada en el año 1984, con el objeto de promover y difundir todo tipo de actividades referentes a la enseñanza, investigación y desarrollo en el ámbito del procesamiento del lenguaje natural, tanto a nivel nacional como internacional. Los objetivos de la Sociedad son: Establecer canales de intercambio de información y materiales científicos. Organización de seminarios, simposios y conferencias. Promoción de publicaciones. Colaboración con otras instituciones relacionadas con su campo de actuación. Entre las actividades más destacadas figuran las siguientes: Celebración de un Congreso anual que sirve de punto de encuentro para los distintos grupos de investigación que trabajan en el área del procesamiento del lenguaje natural. Edición de una revista con garantiza unos criterios estables de calidad y periodicidad. Página web con información sobre el procesamiento del lenguaje natural. Información de actualidad y espacio de discusión para los socios. La revista "Procesamiento del Lenguaje Natural" es un foro de publicación de artículos científico-técnicos en el ámbito, tanto para la comunidad científica nacional e internacional como para las empresas del sector, que permite presentar nuevos trabajos, comunicar resultados, discutir problemas y obstáculos encontrados durante su trayectoria investigadora. Además, se quiere potenciar el desarrollo de las diferentes áreas relacionadas con el procesamiento de lenguaje natural, mejorar la divulgación de las investigaciones que se llevan a cabo, identificar las futuras directrices de la investigación básica y mostrar las posibilidades reales de aplicación en este campo. Anualmente la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural) publica dos números de la revista, que incluyen artículos originales, presentaciones de proyectos en marcha, reseñas bibliográficas y resúmenes de tesis doctorales. Esta revista se distribuye gratuitamente a todos los socios, y con el fin de conseguir una mayor expansión y facilitar el acceso a la publicación, su contenido es libremente accesible por Internet. La Revista cuenta con el sello de calidad de la Fundación Española para Ciencia y Tecnología (FECyT), el cual la certifica como revista de excelencia, y por lo tanto, incluida en el Repositorio de Revistas Científicas españolas (RECyT, Repositorio Español de Ciencia y Tecnología). 13 Las áreas temáticas tratadas son las siguientes: Modelos lingüísticos, matemáticos y psicolingüísticos del lenguaje. Lingüística de corpus. Desarrollo de recursos y herramientas lingüísticas. Gramáticas y formalismos para el análisis morfológico y sintáctico. Semántica, pragmática y discurso. Lexicografía y terminología computacional Resolución de la ambigüedad léxica. Aprendizaje automático en Procesamiento del Lenguaje Natural. Generación textual monolingüe y multilingüe. Traducción automática. Reconocimiento y síntesis del habla. Extracción y recuperación de información monolingüe, multilingüe y multimodal. Sistemas de búsqueda de respuestas. Análisis automático del contenido textual. Resumen automático. Procesamiento del Lenguaje Natural para la generación de recursos educativos. Procesamiento del Lenguaje Natural para lenguas con recursos limitados. Aplicaciones industriales del Procesamiento del Lenguaje Natural. Sistemas de diálogo. Análisis de sentimientos y opiniones. Minería de texto. Evaluación de sistemas de Procesamiento del Lenguaje Natural. Implicación textual y paráfrasis. 14 A continuación se exponen algunos de los proyectos publicados en la revista: Tratamiento inteligente de la información para ayuda a la toma de decisiones Proyecto emergente centrado en el tratamiento inteligente de información procedente de diversas fuentes, tales como micro-blogs, blogs, foros, portales especializados, etc. La finalidad es generar conocimiento a partir de la información semántica recuperada. Como resultado se podrán determinar las necesidades de los usuarios o mejorar la reputación de diferentes organizaciones. Proyecto FIRST (Flexible Interactive Reading Support Tool): Desarrollo de una herramienta para ayudar a personas con autismo mediante la simplificación de textos El Trastorno de Espectro Autista (TEA) es un trastorno que impide el correcto desarrollo de funciones cognitivas, habilidades sociales y comunicativas en las personas. Un porcentaje significativo de personas con autismo presentan además dificultades en la comprensión lectora. El proyecto europeo FIRST está orientado a desarrollar una herramienta multilingüe, llamada Open Book, que utiliza Tecnologías del Lenguaje Humano para identificar obstáculos que dificultan la comprensión lectora de un documento. La herramienta ayuda a cuidadores y personas con autismo, transformando documentos escritos a un formato más sencillo, mediante la eliminación de dichos obstáculos identificados en el texto. Open Idea: Plataforma inteligente para gestión de ideas innovadoras La finalidad del proyecto OPEN IDEA es el desarrollo de una herramienta que permita gestionar de manera eficiente las ideas innovadoras dentro de una organización, mediante el uso de tecnologías semánticas y del procesamiento del lenguaje natural. El objetivo central del sistema es fomentar el concepto de innovación abierta facilitando, durante todo el proceso de gestión de ideas, la interacción entre usuarios de la organización con las ideas innovadoras aportadas. ATTOS: Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos El proyecto ATTOS centra su actividad en el estudio y desarrollo de técnicas de análisis de opiniones, enfocado a proporcionar toda la información necesaria para que una empresa o una institución puedan tomar decisiones estratégicas en función a la imagen que la sociedad tiene sobre esa empresa, producto o servicio. El objetivo último del proyecto es la interpretación automática de estas opiniones, posibilitando así su posterior explotación. Para ello se estudian parámetros tales como la intensidad de la opinión, ubicación geográfica y perfil de usuario, entre otros factores, para facilitar la toma de decisiones. El objetivo general del proyecto se centra en el estudio, desarrollo y experimentación de técnicas, recursos y sistemas basados en Tecnologías del Lenguaje Humano (TLH), para conformar una plataforma de monitorización de la Web 2.0 que genere información sobre tendencias de opinión relacionadas con un tema. 15 Proyecto NewsReader El proyecto europeo NewsReader desarrolla tecnología avanzada para procesar flujos continuos de noticias diarias en 4 idiomas, extrayendo lo que pasó, cuándo, dónde y quién estuvo involucrado. NewsReader lee grandes cantidades de noticias procedentes de miles de fuentes. Se comparan los resultados a través de las fuentes para complementar la información y determinar en qué están de acuerdo. Además, se fusionan noticias actuales con noticias previas, creando una historia a largo plazo en lugar de eventos separados. El resultado se acumula a lo largo del tiempo, produciendo una inmensa base de conocimiento que puede ser visualizada usando nuevas técnicas que permiten un acceso a la información más exhaustivo. Análisis Semántico de la Opinión de los Ciudadanos en Redes Sociales en la Ciudad del Futuro Sistema automático de almacenamiento, análisis y visualización de información semántica extraída de mensajes de Twitter, diseñado para proporcionar a las administraciones públicas una herramienta para analizar de una manera sencilla y rápida los patrones de comportamiento de los ciudadanos, su opinión acerca de los servicios públicos, la percepción de la ciudad, los eventos de interés, etc. Además, puede usarse como sistema de alerta temprana, mejorando la rapidez de actuación de los servicios de emergencia. TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime Media Streams El reciente crecimiento masivo de medios on-line y el incremento de los contenidos generados por los usuarios (por ejemplo, weblogs, Twitter, Facebook), plantea retos en el acceso e interpretación de datos multilingües de manera eficiente, rápida y asequible. El objetivo del proyecto TredMiner es desarrollar métodos innovadores, portables, de código abierto y que funcionen en tiempo real para generación de resúmenes y minería cross-lingüe de medios sociales a gran escala. Los resultados se están validando en tres casos de uso: soporte a la decisión en el dominio financiero (con analistas, empresarios, reguladores y economistas), monitorización y análisis político (con periodistas, economistas y políticos), y monitorización de medios sociales sobre salud con el fin de detectar información sobre efectos adversos a medicamentos. 16 Utilización de las Tecnologías del Habla y de los Mundos Virtuales para el Desarrollo de Aplicaciones Educativas Los continuos avances en el desarrollo de tecnologías de la información han dado lugar actualmente a la posibilidad de acceder a contenidos educativos en la red desde prácticamente cualquier lugar, cualquier momento y de forma casi instantánea. Sin embargo, la accesibilidad no suele considerarse como criterio principal en el diseño de aplicaciones educativas, especialmente para facilitar su utilización por parte de personas con discapacidad. Diferentes tecnologías han surgido recientemente para fomentar la accesibilidad a las nuevas tecnologías y dispositivos móviles, favoreciendo una comunicación más natural con los sistemas educativos. Se trata de un Proyecto de Innovación Docente en el que se propone el uso innovador de los Sistemas Multiagente, los Sistemas de Diálogo y los Mundos Virtuales para el desarrollo de una plataforma educativa. 17 1.4.3 Grupos de investigación Además de entidades aglutinadoras de conocimiento, tales como la Red Temática en Tecnologías del Habla y la Sociedad Española para el Procesamiento del Lenguaje Natural, cabe destacar los principales grupos de investigación en este campo a nivel nacional, que trabajan actualmente en tratamiento del habla, en cualquiera de las áreas de Procesado de Habla-Voz, Procesamiento del Lenguaje Natural, Diálogo, Lingüística y Psicología Cognitiva y Psicolingüística. La investigación en traducción automática es muy activa, tanto por el número de grupos que se dedican a este tema como por la actividad en cuanto a congresos, talleres y asociaciones específicas sobre el mismo. La Unión Europea mantiene un sistema de financiación de nuevos proyectos relacionados con las tecnologías del lenguaje, y en particular con la traducción automática, que ha permitido que universidades y empresas compartan sus conocimientos y combinen sus intereses académicos y comerciales, para desarrollar y comercializar nuevos productos de traducción automática. A continuación se presentan gráficamente los principales grupos de investigación a nivel nacional en el ámbito del procesamiento de lenguaje natural: Grupos de investigación a nivel nacional en el ámbito del procesamiento de lenguaje natural PR & Speech Technologies. Universidad del País Vasco CLiC, Centre de llenguatge i Computació. Universidad de Barcelona Grupo de Tratamiento del Habla AhoLab. Universidad del Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) País Vasco/ Euskal Herriko Unibertsitatea Universitat Politècnica de Catalunya Dpto. de Física Aplicada Universidad de Grupo IXA. Universidad del País Vasco Grupo de Investigación en Procesamiento Digital de la Señal (GPDS). Enginyeria i Arquitectura La Salle. Universitat Ramon Llull Santiago Grupo SPPB. Universidad de Barcelona Grupo de Tratamiento de Señal. Escola Universitària Politècnica de Mataró Grupo de Teoría de la Señal. Universidad de Vigo Seminario de Lingüística Informática. Grupo de Tecnologías de las Comunicaciones. Universidad de Zaragoza Universidad de Vigo Aprendizaje Computacional, Reconocimiento Automático y Traducción Automática. Universidad Jaume I Grupo ECA-SIMM. Universidad de Valladolid Grupo de Aplicaciones del Procesado de Señales: Grupo de Percepción del Habla. Grupo PRHLT (Pattern Recognition and Human Language Technology Group. Grupo de Reconocimiento de Formas y Tecnología del Lenguaje de la Universitat Politècnica Área Procesamiento del Lenguaje Natural. de València). Universidad Politécnica de Madrid. Grupo de Procesado de Voz y Señales (subgrupo del grupo de investigación de Programación Lógica e Ingeniería del Biomédicas- Universidad Politécnica de Madrid. Software). Grupo de Procesamiento de Lenguaje Natural de la UNED. Grupo de Procesamiento del Lenguaje Natural. Universidad Politécnica de Valencia. Grupo Reconocimiento de Formas e Inteligencia Artificial. Subárea Diálogo. Universidad Politécnica de Valencia. Grupo SINTONIA: Área Habla-Voz. Universidad Grupo de Procesamiento del Lenguaje y Sistemas de Información. Universidad de Alicante. Carlos III de Madrid. Grupo de Tecnología del Habla, Dpto. Ingeniería Grupo de Investigación: Señales, Telemática y Comunicaciones Electrónica, Universidad Politécnica de Madrid Telefónica I+D, División de Tecnología del Habla. Tecnologías del Habla y Procesado Multimedia. Universidad Carlos III de Madrid. Unidad de Psicolingüística Aplicada. Universidad Complutense de Madrid. Grupo de Neurociencia Cognitiva de Lenguaje. Universidad de La Laguna Grupo SINAI. Universidad de Jaén Grupo de Modelización y Simulación en Psicología. Universidad de Málaga Grupo ITALICA. Universidad de Sevilla. Grupo Julietta. Universidad de Sevilla. IBM Voice Technology Development -Spain Group Grupo de Estructuras de Datos y Lingüística Computacional. Universidad de Las Palmas de Gran Canaria. Fuente: Elaboración propia basada en el Libro Blanco de las Tecnologías del Habla 18 A continuación se detalla para cada uno de los grupos de investigación, una breve descripción de sus líneas de interés, objetivos, metodologías y logros obtenidos durante los últimos años: Aprendizaje Computacional, Reconocimiento Automático y Traducción Automática. Universidad Jaume I Líneas de interés Objetivos Traducción automática Métodos basados en corpora Aplicación de lenguaje natural Traducción voz a voz Modelado de lenguaje Desarrollo de sistemas de traducción automática aplicables a tareas reales de dominio restringido Metodologías Modelos de estados finitos Transductores formales Traductores estadísticos Modelos conexionistas Técnicas de categorización de palabras Logros obtenidos Aprendizaje automático de traductores para tareas con entrada y salida de texto y vocabularios cercanos a las 1.000 palabras CLiC, Centre de llenguatge i Computació. Universidad de Barcelona Líneas de interés Procesamiento Natural de Lenguaje Objetivos Metodologías Desarrollo de recursos y aplicaciones de Ingeniería lingüística Parsing, extracción de información a partir de corpus Logros obtenidos Un analizador morfológico del español con una cobertura de 1.300.000 formas Un analizador morfológico del catalán con la misma cobertura. Desambiguador automático (tagger) Analizador sintáctico superficial (chunker) del español y catalán Una red léxico-semántica multilingüe españolcatalán-inglés (EuroWordNet) Una gramática de nombres de entidad orientada a la extracción de información Extractor de lexías Léxicos bilingües españolinglés y español-catalán 19 Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) Universitat Politècnica de Catalunya Líneas de interés Reconocimiento del habla robusto y multilingüe Conversión de texto a voz multilingüe Verificación / reconocimiento del idioma y del locutor Analizadores básicos para el lenguaje Creación de bases de datos lingüísticas, textuales y orales Detección de temas/dominios Sistemas de preguntarespuesta Interacción dialogada persona-máquina Extracción y recuperación de información Adquisición de conocimiento (léxico) a gran escala Construcción de ontologías lingüísticas Traducción automática habla-habla Interfaces multimodales Sistemas de acceso al mundo informático para disminuidos físicos y sensoriales Acceso oral a sistemas de información Objetivos Metodologías El ámbito tecnológico del Centro es el del tratamiento automático del lenguaje natural, tanto en la modalidad oral como en la escrita, con el objetivo de ayudar a superar las barreras lingüísticas y mejorar la accesibilidad de los sistemas de información El TALP lleva a cabo proyectos de investigación básica y aplicada financiados por instituciones públicas y empresas, y fomenta la transferencia de tecnología Logros obtenidos Sistema de reconocimiento de vocabulario flexible sobre línea telefónica: IBERVOX Sistema de conversión texto-voz: UPCTTS Sistema de mensajería unificada con interacción oral: MailAccessPlus Analizador morfológico: MACO+ Desambiguadores morfosintácticos: RELAX, TREETAGGER Analizador de corpus etiquetados y desambiguados: TACAT parser Herramienta de asignación de acepciones de diccionario a un texto lematizado: SENSE TAGGER Programas de aprendizaje/test para el reconocimiento del habla: RAMSES Sistemas de acceso oral por teléfono a servicios de información: meteorológica, estado de carreteras Bases de datos multilingües para al tratamiento del habla Dpto. de Física Aplicada. Universidad de Santiago Líneas de interés Acústica fonética Percepción de habla Relaciones articulatoriasacústicas-auditivas Estudio de procesos de integración temporal Desarrollo de corpus para la evaluación de la calidad acústica de aulas Objetivos Metodologías Perspectivas Determinar cómo se relacionan los procesos articulatorios con sus consecuencias acústicas, y como estas características acústicas son usadas por el sistema auditivo para la determinación de las diferentes categorías fonéticas, con especial énfasis en los procesos de integración que contribuyen a realzar la inteligibilidad de la señal sin recurrir a los procesos de alto nivel Diferentes estrategias para la caracterización acústica de los fonemas, teniendo en cuenta información tanto de los segmentos propios de los fonemas como de segmentos adyacentes En los últimos años han estudiado de forma exhaustiva las relaciones entre los tres niveles del habla en consonantes fricativas castellanas y gallegas 20 Grupo de Aplicaciones del Procesado de Señales: Área Procesamiento del Lenguaje Natural. Universidad Politécnica de Madrid. Líneas de interés Modelado Estadístico del Lenguaje y Gramáticas para sistemas de Reconocimiento de Lenguaje Natural Análisis semántico robusto Realización de estándares de codificación de voz Modelado prosódico para sistemas de conversión Texto-Voz Aplicación de modelos estadísticos del lenguaje y modelos prosódicos al reconocimiento de locutores Sistemas de Gestión de Diálogo para su aplicación sobre Sistemas Conversacionales Integración Tecnológica para el desarrollo de Interfaces Multimodales Metodología de evaluación de Sistemas de Diálogo Objetivos Generación de Modelos Estadísticos de Lenguaje para aplicaciones y dominios restringidos Estudio de posibilidades del empleo de esquemas combinados basados en Modelos Estadísticos y Gramáticas en aplicaciones de reconocimiento de habla Definición de modelos de análisis semántico simples y robustos para aplicaciones del reconocimiento de habla en dominios restringidos Optimización de algoritmos de codificación de voz para su portado a DSPs Desarrollo de algoritmos automáticos de modelado de la información prosódica para habla espontánea Definición de protocolos de medida de la calidad ofrecida por los Sistemas de Diálogo en función de las prestaciones de sus módulos integrantes Metodologías Definición de una metodología de generación de datos para estima de probabilidades de modelos de lenguaje estadísticos en aplicaciones de diálogo sobre dominios restringidos Desarrollo de técnicas de combinación de modelos de lenguaje estadísticos generales y específicos adaptados a tareas y dominios específicos Estudio de posibilidades del uso de esquemas combinados Modelos Estadísticos y Gramáticas para el Reconocimiento de Habla en aplicaciones de diálogo Diseño de técnicas de definición conjunta de información para generación de modelos de lenguaje y redes semánticas en aplicaciones de dialogo en dominios restringidos Propuesta de técnicas de modelado prosódico a partir de datos y con consideración conjunta de la duración y la frecuencia fundamental Desarrollo de modelos de Gestión de Diálogo con capacidad de integración sobre estándares tipo VoiceXML Definición de esquemas de anotación XML para evaluación de sistemas de diálogo Logros obtenidos Herramientas de generación y evaluación de Modelos de Lenguaje para el Reconocedor de Habla Natural de Telefónica I+D Metodología de diseño y generación de reglas para análisis semántico basado en búsqueda de conceptos clave Resultados de modelado prosódico han sido transferidos al conversor texto-voz en español, que incorpora la tecnológica de base del centro de I+D CNET de France Telecom, y ha sido desarrollado por la empresa francesa ELAN Informatique Sistema de Gestión de Diálogo ha sido transferido a la empresa Telefónica I+D y constituye el núcleo actual del sistema ÁGORA de generación de servicios multilingües avanzados de Telefónica Evaluación del sistema de diálogo de lectura de correo electrónico desarrollado dentro del proyecto Europeo EMATTER 21 Grupo ECA-SIMM. Universidad de Valladolid Líneas de interés Sistemas de diálogo, especialmente basados en plataformas abiertas Conversión texto-voz Reconocimiento automático de habla Identificación biométrica Interfaces vocales y multimodales Integración del habla en entornos virtuales Aplicación de técnicas de PLN en mejora de reconocedores y sintetizadores Objetivos Metodologías Mejora de la naturalidad en sistemas de conversión texto-voz Modelado prosódico basado en hábeas Metodologías de construcción de reconocedores de voz para el castellano Mejora de los sistemas de identificación biométrica basados en habla Integración de sistemas de diálogo hablado en entornos web y de realidad virtual Integración de modos de interacción vocales y tradicionales en computación Uso de componentes morfosintácticos en ayuda a la comprensión de texto escrito para su aplicación en tecnologías del habla Logros obtenidos Técnicas estadísticas de modelado prosódico Modelos ocultos de Markov Árboles de decisión Sistemas conexionistas aplicados a reconocimiento Técnicas simbólicas de PLN Sistemas de reconocimiento de palabras conectadas de vocabulario reducido Conversor texto voz por concatenación de unidades basado en MBROLA Conversor texto voz basado en formantes Plataforma de ejecución de sistemas de diálogo basados en VoiceXML, clienteservidor Prototipos de navegación vocal de contenidos Web (prensa digital y sitios departamentales) Entorno experimental de reactividad en realidad virtual Europeo E-MATTER Grupo de Estructuras de Datos y Lingüística Computacional. Universidad de Las Palmas de Gran Canaria. Líneas de interés Evaluación de las posibilidades presentadas por diversas estructuras de datos multidimensionales en el campo de las búsquedas asociativas Estructuras y esquemas de búsqueda para el almacenamiento y recuperación de cadenas de caracteres mediante distancias evaluadoras de su similitud Herramientas de ayuda a la elaboración de documentos Análisis de textos Tratamiento de información textual Recuperación de información Morfología del español Desambiguación funcional Sintaxis del Español Lingüística computacional Procesamiento de lenguaje natural Objetivos Procesamiento del natural. Español Metodologías lenguaje Desarrollo de herramientas motores Logros obtenidos y Generación automática de respuestas en análisis morfológico. Relaciones Morfoléxicas Desambiguación funcional Estación de trabajo lexicológica orientada a Internet Gestión integrada de un diccionario de sinónimos. Herramienta para el manejo de diccionarios ideológicos 22 Grupo de Investigación en Procesamiento Digital de la Señal (GPDS). Enginyeria i Arquitectura La Salle. Universitat Ramon Llull Líneas de interés Filtrado adaptativo en cancelación de ruido, comunicaciones digitales, procesamiento en array, síntesis musical. Síntesis del habla por selección de unidades, modelado acústico de la expresión emocional, sistemas audiovisuales de ayuda a discapacitados Interpretación automática de escenas estáticas o en movimiento, navegación autónoma de robots, análisis médico automático, control visual de calidad y de procesos Objetivos Integración de las diferentes áreas de conocimiento con el fin de afrontar los nuevos retos del procesado multimodal relacionados con la Sociedad de la Información Ampliar la participación en proyectos nacionales e internacionales mediante la ampliación de relaciones con grupos de investigación y empresas españoles y europeos Convertir los resultados de la investigación en tecnologías del habla y visión artificial en desarrollos de potencial interés para el mercado Metodologías Aprendizaje artificial Procesamiento multimodal Procesamiento en tiempo real basado en DSP Logros obtenidos Aumento importante en la financiación pública y privada para proyectos de I+D Importante Participación en los últimos congresos internacionales en el ámbito del tratamiento del habla y de la imagen Publicación de artículos en revistas nacionales e internacionales Organización del congreso URSI 2004 5 tesis doctorales presentadas en los 3 últimos años y 2 diplomas de estudios avanzados (DEA) conseguidos en el último años Grupo de Investigación: Señales, Telemática y Comunicaciones Líneas de interés Reconocimiento de voz en entornos ruidosos Reconocimiento distribuido de voz Codificación y transmisión de señales de voz Implantes cocleares Transmisión de audio y vídeo en Internet Aplicaciones Telemáticas y Redes Sistemas de detección y respuesta ante intrusión (IDRS) Objetivos Metodologías Logros obtenidos Actualmente el grupo trabaja principalmente en el desarrollo de sistemas de reconocimiento distribuido de voz a dos niveles: Ecualización de histogramas, filtrado de Wiener, estimación MMSE, interpolación de características, codificación conjunta canal-fuente Se ha conseguido mejorar el rendimiento del "advanced front-end" del estándar ETSI para reconocimiento distribuido mediante técnicas de reducción de ruido más ecualización de características • Robustecimiento frente a entornos acústicos adversos Robustecimiento frente a canales de transmisión degradados y diseño del codificador Se ha conseguido minimizar el efecto de los errores del canal de transmisión sobre un sistema de reconocimiento distribuido mediante técnicas de estimación MMSE tanto en entornos móviles como para IP Grupo ITALICA. Universidad de Sevilla Líneas de interés Métodos Estadísticos en el Procesamiento de Lenguaje Natural Extracción de Información Recuperación de Información Reconocimiento de Entidades con Nombre Clasificación de Documentos Objetivos Procesamiento de textos escritos aplicando técnicas estadísticas Aplicación de dichas técnicas a distintos problemas (etiquetado, clasificación, extracción de información) Metodologías Trabajo basado en corpus. Identificación y selección de características Aplicación de algoritmos de aprendizaje automático Logros obtenidos La actividad de los miembros del grupo en esta área es reciente y aún no se han obtenido logros significativos Como resultados son reseñables los obtenidos por miembros del grupo en el estudio de formalismos gramaticales para el procesamiento del lenguaje natural (TAG) 23 Grupo IXA. Universidad del País Vasco Líneas de interés Corrección de textos basado en conocimiento lingüístico: Corrección morfológica, corrección de estilo y gramatical Tratamiento de la sintaxis para el euskera Herramientas de búsqueda y extracción de la información Tratamiento de corpus Representación de la información diccionarial monolingüe y multilingüe Integración de herramientas heterogéneas Sistemas de ayuda a la traducción Sistemas de ayuda al aprendizaje de lenguas Objetivos Metodologías El trabajo del grupo IXA se ha estructurado en torno al tratamiento de la morfología, sintaxis, léxico y semántica para el euskara. En cada uno de estos aspectos las actividades del grupo se desarrollan en los siguientes campos: • • Investigación Creación de recursos Diseño de herramientas y aplicaciones Morfología: Formalismo de dos niveles Sintaxis: Gramáticas de unificación, gramáticas de restricciones Semántica: Distancia conceptual. Ontologías Estandarización: etiquetado XML Representación del conocimiento representado en los diccionarios. Aprendizaje automático Logros obtenidos Recursos, herramientas y aplicaciones comerciales Patentes Formación En el ámbito empresarial, recientemente se ha creado la empresa ELEKA S.L. cuyo principal objetivo es el desarrollo de productos comerciales en base a los resultados obtenidos en investigación por el grupo IXA Grupo Julietta. Universidad de Sevilla Líneas de interés Traducción Automática Sistemas de Gestión de Diálogo Objetivos Desarrollar demostradores de control domótico por voz en diversas lenguas autonómicas e internacionales Desarrollo de un sistema de Traducción Automática inglés/español y español/inglés Metodologías Logros obtenidos Arquitectura de agentes (OAA y KQML) donde se integran los distintos módulos. Tecnología transfer Un demostrador de sistema de diálogo hablado en español e inglés para el entorno domótico y un demostrador en español para el entorno del operador telefónico automático (en unión con Telefónica I+D) Grupo de Modelización y Simulación en Psicología. Universidad de Málaga Líneas de interés Reconocimiento de estímulos verbales y visuales en sujetos humanos. Modelado estadístico de procesos psicológicos Objetivos Estudio de procesos cognitivos relacionados con la memoria implícita vs memoria explícita. El tema se enmarca en tareas de diversificación de procesos cognitivos en sujetos humanos y en función de las diferencias individuales (expertos y no expertos, personas con problemas de memoria, etc.) Metodologías Modelado estadístico mediante Curvas Características Operativas del Receptor (ROC) y Modelos Lineales Generalizados. Reconocimiento de rostros a partir de la manipulación experimental de las frecuencias espaciales Logros obtenidos Diferenciación o diversificación entre memoria (de sentencias) implícita y explícita Diferenciación entre el procesamiento de palabras de clase cerrada y clase abierta, así como entre palabras de frecuencia de uso alta y frecuencia de uso baja. Diferencias en el procesamiento en función de las frecuencias espaciales empleadas y del tipo de estímulo presentado 24 Grupo de Neurociencia Cognitiva de Lenguaje. Universidad de La Laguna Líneas de interés Procesamiento de lenguaje Representación cortical del lenguaje Lenguaje en poblaciones especiales: Sordos, ciegos Lenguaje y neurodegeneración Lectura Objetivos Metodologías Estudio de los procesos de comprensión y producción del lenguaje (hablados, de signos, y silbados), así como de su representación cortical en niños y adultos y en poblaciones especiales (sordos, ciegos, personas con déficit cognitivo ligero y con enfermedad de Alzheimer) Experimentación con técnicas conductuales, con potenciales evocados corticales y con resonancia magnética funcional. Modelización de redes neurales Logros obtenidos Grupo de Percepción del Habla Líneas de interés Percepción del habla, efectos de enmascaramiento con ruido Percepción de habla distorsionada Objetivos Metodologías Conocer cómo se procesa la información correspondiente a la señal de habla en condiciones de deterioro espectral y en condiciones de enmascaramiento Manipulación de la señal de habla. Pruebas psicofísicas con sujetos experimentales Logros obtenidos Grupo PRHLT (Pattern Recognition and Human Language Technology Group. Grupo de Reconocimiento de Formas y Tecnología del Lenguaje de la Universitat Politècnica de València) Líneas de interés Traducción automática texto-texto Traducción automática habla-habla Reconocimiento del habla Comprensión del habla Comprensión de texto manuscrito Clasificación de textos Visión por computador Objetivos Metodologías El objetivo del PRHLT es el desarrollo de sistemas informáticos para el tratamiento del lenguaje natural hablado y escrito (impreso y manuscrito), fundamentalmente en los aspectos que atañen a la traducción automática Las metodologías que desarrolla PRHLT están basadas en la construcción de modelos de estados finitos y estadísticos mediante el aprendizaje automático a partir de ejemplos Logros obtenidos Traducción/reconocimiento de habla Traducción lingüística de texto: Un sistema de traducción texto a texto de español a catalán y catalán a español basados en reglas lingüísticas (TAVAL) Ayuda a la traducción basada en modelos de estados finitos: Un sistema de ayuda a la traducción inglés-español para manuales. Traducción estadística de texto: Un sistema de traducción texto a texto de español a catalán. Ayuda a la traducción basada en modelos estadísticos: Un motor de traducción estadística de texto de castellano a euskera 25 Grupo de Procesado de Voz y Señales Biomédicas- Universidad Politécnica de Madrid Líneas de interés Objetivos Metodologías Logros obtenidos Evaluación objetiva de la calidad de la voz Detección de desórdenes de la voz Síntesis de quimogramas Conversión de locutor Reconocimiento de voz en condiciones de ruido Grupo de Procesamiento del Lenguaje y Sistemas de Información. Universidad de Alicante Líneas de interés Resolución de la ambigüedad léxica Análisis robusto sintáctico para el español e inglés Resolución de fenómenos lingüísticos como elipsis, anáfora, ambigüedad estructural Análisis semántico y contextual Aplicaciones de PLN: o o o o Traducción automática Extracción y Recuperación de información Sistemas de búsqueda de respuestas Sistemas de diálogo Objetivos El Procesamiento del Lenguaje Natural (PLN) es una parte esencial de la Inteligencia Artificial que investiga y formula mecanismos computacionalmente efectivos que faciliten la interrelación hombre-máquina y permitan una comunicación mucho más fluida y menos rígida que los lenguajes formales y sistemas de menús utilizados tradicionalmente. La investigación realizada en las diversas áreas se materializa en el desarrollo de recursos y aplicaciones Metodologías El PLN tiene una serie de fases o niveles de análisis: • • • Análisis morfológico-léxico: Transforma la secuencia de caracteres de entrada en una secuencia de unidades significativas haciendo uso del diccionario y reglas morfológicas así como técnicas estadísticas, con el fin de obtener la información léxica desambiguada de cada unidad Análisis sintáctico: Analiza la secuencia de unidades léxicas y produce una representación de su estructura (árbol, red, ...) Análisis semántico: A partir de la estructura generada por el proceso sintáctico genera otra estructura o forma lógica asociada que representa el significado o sentido de la sentencia. Análisis contextual o función pragmática: Utiliza la forma lógica o estructura semántica de la fase anterior para desarrollar la interpretación final de la oración, en función de las circunstancias de contexto Logros obtenidos Sistema no supervisado de Marcas de Especificidad para la desambiguación del sentido de las palabras Sistema supervisado basado en Máxima Entropía para la desambiguación del sentido de las palabras Analizador sintáctico parcial SUPP para español e inglés Sistema SUPPAR de resolución de la anáfora en monólogos Sistema ARIADNA de resolución de la anáfora en diálogos Sistema SEMQA de búsqueda automática de respuestas Sistema IR-N de recuperación de información multilingüe español e inglés. Sistema EXIT de extracción de información de textos notariales. Sistema AGIR para la resolución y traducción de la anáfora pronominal en español e inglés Etiquetador anafórico 26 Grupo de Procesamiento de Lenguaje Natural de la UNED Líneas de interés Objetivos Metodologías Logros obtenidos Acceso a información multilingüe (recuperación de información translingüe, interactiva, sistemas de búsqueda de respuestas, extracción de resúmenes, etc.) Adquisición y representación de conocimiento léxico (redes semánticas, bases de datos léxicas, desambiguación del sentido de las palabras) Evaluación de tecnologías de la lengua Grupo de Procesamiento del Lenguaje Natural. Universidad Politécnica de Valencia. (Subgrupo del grupo de investigación de Programación Lógica e Ingeniería del Software). Líneas de interés Procesamiento del Lenguaje Natural (PLN) Recuperación de Información Objetivos Metodologías Desarrollo de técnicas de comprensión del lenguaje natural aplicables en sistemas de recuperación de información Técnicas de aprendizaje basadas en corpus. Métodos estocásticos Métodos basados en el conocimiento Logros obtenidos Se han desarrollado las siguientes herramientas de procesamiento de la lengua: • • Analizadores sintácticos parciales basados en el conocimiento para el castellano Analizadores sintácticos parciales basados en modelos estocásticos para el inglés Sistemas de desambiguación del sentido de las palabras basados en modelos estocásticos para el inglés Grupo Reconocimiento de Formas e Inteligencia Artificial. Subárea Diálogo. Universidad Politécnica de Valencia Líneas de interés Comprensión de habla Sistemas de diálogo Tratamiento de lenguaje natural Recuperación de información Reconocimiento de formas Objetivos Desarrollo de sistemas de diálogo hablado para tareas restringidas Sistemas de recuperación de información en lenguaje natural Metodologías Logros obtenidos Aprendizaje automático, modelos estocásticos Desarrollo de un sistema de comprensión y un gestor de diálogo basado en modelos estocásticos para la tarea BASURDE de acceso telefónico a información sobre trenes 27 Grupo SINAI. Universidad de Jaén Líneas de interés Objetivos Metodologías Desarrollo de una aplicación para mejorar la comprensión de textos de personas con autismo. Consiste en la elaboración de una plataforma web europea para permitir a autistas simplificar documentos, ya que estas personas tienen un déficit en la comprensión. Resolución de la ambigüedad léxica Categorización de textos Logros obtenidos Para ayudar a superar estas dificultades, los expertos están desarrollando, dentro del proyecto europeo First (Flexible Interactive Reading Support Tool), la aplicación denominada Open book. Este sistema traducirá los documentos a los que los usuarios quieran acceder según sus necesidades. La UJA está trabajando en el desarrollo software encargado de facilitar la comprensión de términos difíciles mediante el uso de imágenes. Para ello, aplican tecnología que descifra el lenguaje natural concretando su significado mediante imágenes y pictogramas. Grupo SINTONIA: Área Habla-Voz. Universidad Carlos III de Madrid Líneas de interés Reconocimiento de habla y de locutores Identificación del lenguaje Análisis y Modelado Acústico en Sistemas de Reconocimiento de habla Extracción de características robusto Objetivos Estudio y diseño de técnicas automáticas de modelado de voz para sistemas de reconocimiento y verificación de habla Desarrollo de técnicas de robustez y mejora de prestaciones para sistemas de Reconocimiento de Habla y de locutor Metodologías Estudio y evaluación de sistemas de reconocimiento de locutores. Establecimiento de plataformas de referencia para la determinación estadística de resultados Estudio y evaluación de la variabilidad temporal del habla para la aplicación del reconocimiento de locutores Estudio de medidas de confianza para sistemas de reconocimiento de habla basados en Modelos Estadísticos de Lenguaje y Gramáticas Técnicas de análisis de Componentes Principales para modelado acústico en Reconocimiento de Habla y locutores Logros obtenidos Desarrollo e implantación de plataformas de experimentación en verificación de locutor Desarrollo de verificadores de voz en tiempo real Desarrollo e implantación de reconocedores de voz dependientes e independientes de locutor en tiempo real Desarrollo y recolección de una base de datos multimodal (voz y vídeo) multilingüe. Recolección de los datos en castellano. Desarrollo de técnicas de rechazo y medidas de confianza para la verificación de locutor Navegadores por voz 28 Grupo SPPB. Universidad de Barcelona Líneas de interés Psicolingüística Bilingüismo Adquisición del lenguaje Neuroimagen funcional Neurocirugía Actividad cerebral Procesos de percepción Psicología Comparada Afasia Integración Transmodal Objetivos El Grupo estudia los procesos que hacen posible la adquisición, la comprensión y la producción del lenguaje en los seres humanos, con un especial énfasis en individuos que poseen más de una lengua Este estudio se lleva a cabo, por un lado, mediante la experimentación con adultos y por otro, con niños. Los resultados y modelos que se obtienen de estos estudios se comparan con datos provenientes del estudio de mamíferos no primates. Metodologías Logros obtenidos Experimentación con adultos (tanto con métodos conductuales como neurofisiológicos y de neuroimagen funcional) Neurocirugía Experimentación con bebés Modelos de simulación mediante redes neuronales Otros estudios van encaminados a analizar los procesos de integración transmodal (principalmente visual y auditiva) en la percepción del habla. También se desarrollan modelos de simulación de estos procesos mediante redes neuronales. 29 Grupo de Tecnología del Habla, Dpto. Ingeniería Electrónica, Universidad Politécnica de Madrid Líneas de interés Investigación sobre sistemas de diálogo hombre máquina efectivos Conversión texto-voz, reconocimiento de habla en diferentes condiciones, reconocimiento de locutor, modelos de percepción de habla Sistemas de reconocimiento automático de habla en tiempo real Aplicaciones de la tecnología del habla en ayudas técnicas para usuarios con discapacidad Sistemas de reconocimiento automático de habla en tiempo real en entorno telefónico Optimización de sistemas de reconocimiento automático de habla Arquitecturas para reconocimiento automático de habla Selección de unidades y diccionarios para reconocimiento automático de habla Métodos de evaluación de sistemas basados en tecnología del habla Procesamiento de lenguaje natural orientado a conversión texto a voz: análisis sintáctico robusto y categorización gramatical (POS-tagging.) Análisis estilístico de textos Comprensión de habla Objetivos Integración de sistemas basados en tecnología del habla en interfaces hombre-robot Diseño e implementación de sistemas automáticos de diálogo hombre-máquina que funcionen en tiempo real En conversión texto-habla, conseguir la misma con la mayor calidad, naturalidad y flexibilidad posible. Esto implica generar distintas voces y en distintos contextos semánticos, incluidas emociones En reconocimiento de habla, ser capaces de reconocer en condiciones de ruido o de canales adversos, reconocer independiente del locutor, reconocer habla continua espontánea y con diferentes estilos de voz (incluyendo emociones) Estudio, diseño, implementación y evaluación de sistemas de reconocimiento automático de habla en tiempo real (habla aislada) Estudio, diseño, implementación y evaluación de interfaces de usuario vocales para personas con discapacidad Estudio, diseño, implementación y evaluación de arquitecturas integradas y no integradas para sistemas de reconocimiento automático de habla Estudio, diseño, implementación y evaluación de métodos de generación de diccionarios: selección de variantes de pronunciación dirigida por datos y dirigida por reglas Integración de sistemas basados en tecnología del habla en interfaces hombre-robot Integración de sistemas basados en tecnología del habla en interfaces hombre-robot Mejora de los sistemas de diálogo y de acceso a información por voz Metodologías Logros obtenidos Integración de mecanismos de diálogo y comprensión en dispositivos de control domótico por voz Diseño semiautomático de aplicaciones basadas en diálogo Integración de mecanismos de diálogo y comprensión en dispositivos de control domótico por voz Conversión texto a voz con emociones empleando concatenación y múltiples unidades Voz femenina sin restricción de dominio 30 Grupo de Tecnologías de las Comunicaciones. Universidad de Zaragoza Líneas de interés Procesado digital de la señal de voz Reconocimiento automático del habla Tecnologías de la información y de las comunicaciones en el automóvil Objetivos Metodologías El objetivo es la incorporación de interfaces orales en vehículos y aplicaciones en entornos acústicos adversos Sistemas de cancelación activa de ruido para la reducción del nivel de ruido en el entorno de los pasajeros Sistemas de cancelación y supresión de eco para sistemas manos libres y de refuerzo de voz para comunicaciones internas, telefonía móvil e interfaces orales fullduplex Sistemas de reducción del ruido captado por los micrófonos Modelado acústico en el entorno del automóvil Métodos de adaptación de modelos acústicos online Logros obtenidos Se ha desarrollado un sistema de refuerzo de voz para comunicaciones internas, más conocido como "Cabin Car Communication System", trabajando sobre DSP de Analog Devices AD21060 y que incluye sistemas de cancelación de eco y ruido lo que permite utilizar el sistema para comunicaciones manos libres e interactuar con el interfaz oral Se han desarrollado dos sistemas de demostración de cancelación activa de ruido para asientos de vehículos Se ha implementado sistemas de adaptación de modelos acústicos mediante las técnicas MLLR (Maximum Likelihood Linear Regression) y MAP para trabajar on-line sobre el vehículo Grupo de Teoría de la Señal. Universidad de Vigo Líneas de interés Reconocimiento de habla Reconocimiento de locutores Conversión texto-voz Sistemas de diálogo Recursos lingüísticos Objetivos Construir sistemas de diálogo hombre-máquina de altas prestaciones aportando en la mayoría de sus bloques constituyentes Metodologías Síntesis de voz mediante concatenación de unidades seleccionadas con técnicas de programación dinámica. Modelado sinusoidal de las unidades de síntesis Reconocimiento de habla basado en modelos ocultos de Markov y decodificación síncrona de Viterbi Verificación conjunta de voz y habla para reconocimiento del locutor Logros obtenidos Conversor texto-voz bilingüe castellanogallego basado en corpus de unidades Motor de reconocimiento en tiempo real para habla continua y grandes vocabularios Desarrollo de técnicas de aumento de la robustez en reconocimiento da habla Sistema de identificación biométrica basado en verificación conjunta de habla y locutor Captación de recursos lingüísticos para el idioma gallego que permitan el desarrollo de conversores texto-voz, y reconocedores de habla de grandes vocabularios 31 Grupo de Tratamiento del Habla AhoLab. Universidad del País Vasco/Euskal Herriko Unibertsitatea Líneas de interés Conversión de texto a voz Síntesis del habla emocional Procesado de la señal de voz: síntesis de voz de alta calidad Reconocimiento automático del habla Aplicaciones domóticas del tratamiento del habla Aplicaciones para personas con discapacidades de las tecnologías del habla Identificación biométrica Objetivos Síntesis de voz de habla emocional Incorporación de tecnologías del habla en dispositivos portátiles Reconocimiento automático del habla para el euskera Identificación de locutores mediante el empleo de características prosódicas. Sistemas multimodales de identificación biométrica Sistemas multimodales y multilingües Metodologías Síntesis de voz: Técnicas de síntesis basadas en concatenación de unidades: resíntesis de unidades en la base de datos, codificación sinusoidal, síntesis basada en corpus Síntesis de formantes Modelado prosódico: modelo de Fujisaki, Modelos basados en corpus, modelado TILT Árboles binarios de clasificación y regresión Reconocimiento: Modelos Ocultos de Markov Árboles de Decisión Reconocimiento de voz para lenguas aglutinantes Técnicas de control por voz de elementos domóticos (autómatas, X10, robots) Logros obtenidos Plataforma de desarrollo para Conversión de texto a voz AhoTTS API para la conversión de texto a voz para el euskera (multiplataforma, multihilo) Software libre para la edición y etiquetado de señales Sistema de etiquetado XML para bases de datos orales y textuales Recursos de voz para la síntesis y el modelado prosódico del habla Base de datos de las variaciones dialectales vizcaínas del euskera Recursos de texto y voz para sistemas de reconocimiento de voz en euskera Herramientas de segmentación morfológica automática orientadas a procesamiento de voz en colaboración con el grupo IXA Identificación biométrica: Firma off-line y on-line: análisis de blobs Modelos Ocultos de Markov Grupo de Tratamiento de Señal. Escola Universitària Politècnica de Mataró Líneas de interés Reconocimiento de locutor Codificación Procesado no lineal de voz Aplicaciones de reconocimiento de locutor sobre entornos de internet Objetivos Metodologías Logros obtenidos Mejora de los sistemas actuales de reconocimiento de locutor y codificación, así como el estudio de nuevas aplicaciones como la extensión del ancho de banda y su relevancia sobre las otras aplicaciones Cuantificación vectorial, Redes Neuronales, etc. Bases de datos, colaboraciones con otros grupos internacionales, artículos en congresos, libros, etc. 32 IBM Voice Technology Development - Spain Group Líneas de interés Reconocimiento de habla (sistemas de dictado en PCs, reconocimiento por teléfono, reconocimiento en dispositivos con escasos recursos de computación) Sistemas conversacionales Síntesis de voz Traducción automática Objetivos Metodologías Su esfuerzo actual se orienta hacia la consecución de mayor robustez y precisión, a través del teléfono, en español y portugués brasileño. También hacia su perfeccionamiento, en su uso en dispositivos como agendas electrónicas, telemática de automóvil, etc. La tecnología de IBM de reconocimiento de habla utiliza modelos ocultos de Markov, descodificación por pila y modelos de lenguajes basados en trigramas. En sistemas conversacionales, en el desarrollo de aplicaciones experimentales con técnicas de extracción de la información semántica utilizando analizadores estadísticos y programación dinámica. En síntesis de voz, en la consecución de mejor calidad segmental en los elementos concatenados y en mejoras de la prosodia. Logros obtenidos En aplicaciones sencillas se sustituye el modelo de lenguaje por gramáticas. La extracción de información semántica, de utilidad en aplicaciones conversacionales, se basa en la aplicación en dos etapas de un analizador entrenable a partir de datos. El resultado del proceso es un árbol de análisis con las categorías semánticas de la frase y las relaciones entre ellas. En la derivación del árbol se aplican técnicas de programación dinámica similares a las utilizadas en reconocimiento. La técnica utilizada para la síntesis de voz es del tipo concatenativo, con la que se obtiene la voz sintética mediante la concatenación de segmentos extraídos de grabaciones de un locutor de referencia. Reconocimiento de habla: Sistemas comerciales de dictado, de habla continua, con vocabularios de más de cien mil palabras. Sistemas conversacionales. La tecnología mencionada se ha aplicado con éxito por IBM en una aplicación comercial para la empresa norteamericana T-Row Price que permite a 2 millones de usuarios las transacciones relacionadas con fondos de pensiones, incluidas compras y ventas de participaciones, utilizando lenguaje completamente natural Síntesis de voz. Hemos generado voces masculinas y femeninas en castellano, español de México y portugués brasileño Traducción automática. Hemos participado en la realización del componente de traducción de inglés a español, y viceversa, del IBM WebSphere Translation Server, orientado a la traducción de páginas web. En traducción automática, el proceso seguido se hace en tres pasos: análisis de la lengua fuente, basado en la técnica "slot grammar", transferencia a la lengua de destino y generación morfológica. Es un método basado en reglas. 33 PR & Speech Technologies. Universidad del País Vasco Líneas de interés Objetivos Reconocimiento automático del habla. Comprensión y traducción automática de voz. Tratamiento específico del Euskera. Ayuda a la traducción de textos. Recursos lingüísticos de voz y texto. Construcción de sistemas de reconocimiento automático del habla: tratamiento del habla espontánea, grandes vocabularios y comprensión. Desarrollo de la tecnología dependiente de la lengua para el Euskera. Traducción automática y herramientas de ayuda a la traducción. Metodologías Reconocimiento de formas: técnicas de aprendizaje automático a partir de muestras, inferencia y caracterización de modelos estructurales estocásticos Logros obtenidos Decodificación acústicofonética: modelos acústicos y unidades para español y euskera. Modelos k-explorables estocásticos: aprendizaje, suavizado e integración en sistemas de reconocimiento automático del habla. Análisis de disfluencias en habla espontánea. Desarrollo de prototipos de reconocimiento e integración en sistemas de diálogo. Diseño y adquisición de corpus de voz en español y euskera. Seminario de Lingüística Informática. Universidad de Vigo Líneas de interés Tecnologías de la lengua Objetivos Recursos, herramientas y aplicaciones de tecnología lingüística para la lengua gallega Metodologías Procesamiento natural del lenguaje Logros obtenidos Corpus Lingüístico da la Universidad de Vigo (CLUVI). Léxico y morfología computacional del gallego. Etiquetario y Etiquetador morfosintáctico para corpus de lengua gallega. Corrector sintáctico de gallego para procesamiento de textos. Telefónica I+D, División de Tecnología del Habla Líneas de interés Verificación de locutor. Reconocimiento de voz. Conversión texto-voz. Gestión de diálogo. Procesamiento de lenguaje natural. Lingüística. Tecnología de agentes inteligentes. Procesado de texto. Cancelación de ecos. Objetivos Metodologías Desarrollo de la tecnología del habla para la creación de servicios. Se trabaja en base a proyectos de desarrollo Logros obtenidos Productos propios de tecnología del habla Reconocedor de Lenguaje Natural Reconocedor Universal Multilingüe con WordSpotting Reconocedor de palabras deletreadas Subdiálogos expertos de lenguaje natural Conversor texto-voz multilingüe Verificador de locutores 34 Tecnologías del Habla y Procesado Multimedia. Universidad Carlos III de Madrid Líneas de interés Análisis de Voz (técnicas no lineales). Codificación de voz. Reconocimiento de Habla. Robustez frente a ruido. Robustez frente a errores de transmisión (GSM, UMTS). Robustez frente a pérdida de paquetes (VoIP, integración de reconocedores en web). Reconocimiento de habla de gran vocabulario para indexado de registros multimedia. Objetivos Nuevos métodos de análisis de la señal de voz inspirados en la teoría de dinámica de sistemas. Técnicas robustas de reconocimiento de habla para reconocimiento remoto (a través de redes de comunicaciones modernas –móviles e IP-). Reconocimiento de habla de gran vocabulario en español para indexado de registros multimedia. Metodologías Cooperación con otros grupos europeos. Asistencia periódica a conferencias de prestigio. Experimentación sobre bases de datos y software ampliamente consolidados internacionalmente Logros obtenidos Adquisición de bases de datos estándar. Publicación en revistas y congresos de prestigio reconocido. Proyectos de investigación nacionales. Miembros del "Management Committee" de la Acción COST-277 ("Nonlinear Speech Processing"). Unidad de Psicolingüística Aplicada. Universidad Complutense de Madrid Líneas de interés Adquisición del lenguaje. Representación del conocimiento: Categorización Basado en Ejemplos, y Razonamiento Informal Basado en Ejemplos. Procesamiento del Lenguaje Natural. Trastornos del Lenguaje. Técnicas diagnósticas por neuroimagen cerebral. Técnicas de registro Oculográfico y Pupilométrico y Evaluación del Desarrollo Cognitivo y Lingüístico Patologías de la comprensión y producción del lenguaje. Psicofisiología del procesamiento del lenguaje. Objetivos Metodologías Simulación del procesamiento cognitivo y lingüístico humano mediante modelos híbridos simbólicos y conexionistas a partir de datos obtenidos en el laboratorio de psicología humana mediante empleo de técnicas experimentales basadas en el ordenador y en el registro de la actividad cerebral específicamente en las alteraciones cognitivas y funcionales del lenguaje y en particular, en el autismo, la afasia, la disfasia y la dislexia Técnicas observacionales y de análisis experimental conductuales y electrofisiológicas, técnicas de neuroimagen funcional, tales como registro electroencefalográfico y resonancia magnética funcional evento-relacionada, y técnicas de registro oculográfico y pupilométrico. Simulación de procesos cognitivos y lingüísticos orientados al diagnóstico normal o desviado de la conducta lingüística. Logros obtenidos Categorización basada en conocimiento y basada en ejemplos a partir del cálculo de la semejanza de ejemplares según la estructura de la partición. Razonamiento informal natural a partir de la categorización basada en la semejanza. Diagnóstico de las alteraciones de la comprensión del lenguaje escrito basada en la producción de errores de substitución léxica. Estrategias basadas en el léxico en la resolución de la ambigüedad estructural sintáctica. Diagnóstico de las alteraciones funcionales del desarrollo del lenguaje oral. Identificación de parámetros estructurales y funcionales de la adquisición y el desarrollo del lenguaje. Bases de datos de conducta lingüística patológica de niños y adultos con dislexia, y de niños con disfasia. 35 1.4.4 Empresas Algunas de las principales empresas relacionadas con el ámbito del procesamiento del lenguaje natural se presentan a continuación: Verbio Spin-off de la Universidad Politécnica de Cataluña, que apuesta por la automatización de los sistemas de atención al cliente y por dotar de inteligencia y personalidad a cada uno de los contactos con sus usuarios. En un mundo global, con usuarios que hablan distintos idiomas y con múltiples canales de interacción, sus soluciones permiten anticiparse y responder en tiempo real, adaptándose en todo momento al entorno y emociones de sus consumidores. La capacidad de sus soluciones de entender a los usuarios en lenguaje natural y comunicarse con ellos de forma empática, permiten ofrecer servicios de valor añadido y gran sofisticación, mediante el uso de portales o asistentes virtuales, que permiten reducir la frustración y aumentar la conversión de sus clientes. En base a su propia tecnología han desarrollado varias soluciones que se complementan entre ellas para ajustarse a las necesidades de sus clientes: Portal de Voz: Los portales de lenguaje natural de Verbio son el mejor canal de interacción con sus clientes. Permiten vía voz, acceder a servicios y aplicaciones de una forma totalmente natural, adaptándose en todo momento al entorno y las emociones de las personas. Los portales de lenguaje natural permiten integrar las soluciones de Speech analytics para saber el nivel de satisfacción de sus consumidores, y las soluciones de biometría vocal para realizar transacciones seguras. Speech & Text Analytics: La solución Speech & Text Analytics extrae información de los diálogos, los usuarios y los procesos de atención, para analizarlo y mostrar conclusiones relevantes acerca de qué se ha dicho, quién lo ha dicho y cómo se ha dicho. Ayuda a incrementar tanto la calidad que ofrecen los agentes como su productividad. Puede aplicarse en Tiempo Real o en Diferido. Biometría: La biometría vocal es la forma más segura y sencilla de integrar la seguridad en sus aplicaciones de voz, puesto que permite verificar la identidad de los usuarios en el flujo normal de la comunicación, sin obligarles a recordar ningún elemento y con la posibilidad de integrar sistemas de reconocimiento de entrada forzada. Transcripción y Subtitulación: La solución de transcripción y subtitulación permite convertir el dictado en texto escrito, con unos elevados índices de fiabilidad y permitiendo a las empresas e instituciones públicas ahorrar en horas de transcripción de audio. Su uso abarca desde transcripciones de reuniones hasta la subtitulación en directo de programas de TV. 36 Text to Speech: Gracias a la constante evolución de su tecnología, pueden recrear voces que permiten comunicarse con los usuarios de una forma natural, inteligible, con expresión y dinamismo. Las nuevas voces de Verbio desarrolladas con tecnología exclusiva permiten modularlas para cada aplicación y que muestren sentimientos, haciéndolas en muchas ocasiones muy cercanas a la realidad. Speech Recognition: Verbio dispone de uno de los motores de reconocimiento de voz tecnológicamente más avanzados, permitiendo su uso tanto en entornos de atención telefónica como en entornos multimedia. Esta es la tecnología que convierte de forma automática una locución de audio en texto. 37 Indisys Empresa, recientemente adquirida por Intel, dedicada a desarrollar agentes inteligentes que permiten mantener conversaciones flexibles en múltiples modalidades, idiomas, canales, dispositivos y plataformas. Tiene por objetivo potenciar la experiencia de los usuarios, a la vez que se reducen costes a nivel empresarial, con servicios de atención basados en la Inteligencia Artificial y las tecnologías de reconocimiento de voz y lenguaje natural. Su software utiliza procesamiento del lenguaje natural y gestión del diálogo, para poder traducir las palabras del usuario a un lenguaje que la máquina pueda comprender y así decidir cuál es la mejor respuesta. Un mismo mensaje no significa lo mismo en un contexto distinto, siendo capaz de realizar una interpretación semántica. Otro de sus puntos fuertes es la gestión del diálogo, permitiendo que sus asistentes puedan mantener el hilo de la conversación, al tener en cuenta el contexto de la misma. Nuance Surgida como spin-off de Standford, actualmente es una empresa que se centra en desarrollar formas más humanas, naturales e intuitivas de utilizar la voz para controlar la información, especializada en el desarrollo de software de voz para reconocer y emular la voz humana. Diseñan y proporcionan tecnologías que unen de forma intuitiva al ser humano con la máquina y con el almacén global de conocimientos, ayudando a las empresas y consumidores a trabajar de forma inteligente. Su producto estrella es Dragon, el software de reconocimiento de voz más vendido del mundo, que permite dictar documentos, realizar búsquedas en Internet o enviar correo electrónico, de forma rápida y precisa, con sólo utilizar la voz. Dragon se utiliza en muchas empresas para agilizar el flujo de trabajo, automatizar los procesos y mejorar la productividad. Las organizaciones administran perfiles de voz, vocabularios personalizados y varias instalaciones de forma centralizada. 38 Agnitio Líder del mercado mundial en productos de identificación de voz. Es utilizado por las organizaciones gubernamentales para prevenir el delito, identificar a los criminales y aportar pruebas en los tribunales. El motor de reconocimiento de Agnitio es capaz de filtrar las características de la voz, así como las huellas del tracto vocal en ondas de sonido. Extraen el identificador de voz y de esta manera pueden identificar quién está hablando. Sus clientes utilizan los motores de identificación de voz para autenticar los clientes, identificar a los defraudadores y proporcionar una manera simple la identidad en múltiples aplicaciones. Agnitio fue fundada en 2004 como una spin-off de un grupo de investigación universitario. Su equipo está formado por expertos en tecnologías de reconocimiento que colaboran con universidades, institutos de investigación y socios de negocios en todo el mundo. Su sede se encuentra en Madrid, con filiales en EE.UU y Canadá. Daedalus Empresa española especializada en extraer automáticamente el significado de todo tipo de contenidos multimedia. Aplica tecnologías semánticas, de procesamiento del lenguaje, reconocimiento de voz, y análisis de datos y texto que ayudan a sus clientes a: Analizar y evaluar el impacto de lo que se dice en todo tipo de medios sociales y tradicionales (redes, blogs, prensa, radio, TV). Extraer elementos de significado y contexto de todo tipo de contenidos y conversaciones sociales, para permitir una publicidad más enfocada y eficaz. Enriquecer y personalizar toda clase de contenidos multimedia y multiidioma para combinarlos,, distribuirlos y monetizarlos. Extraer información de documentos financieros y contenido generado por los usuarios, para mejorar la toma de decisiones de gestión de riesgos e inversión. Integrar y recuperar información de repositorios heterogéneos. Voice Base Empresa que ha desarrollado una aplicación capaz de pasar un audio a texto, con la posibilidad de editarlo fácilmente desde la web. Se trata de una aplicación gratuita y online, por lo que no es necesaria su descarga. Únicamente es necesario subir cualquier audio a dicha aplicación online, y ésta lo transcribirá inmediatamente a texto. Ofrece un editor de texto para corregir cualquier error en su transcripción. 39 1.5 Patentes 1.5.1 A nivel internacional Según la Global Patent Search Network existen actualmente 9.355 patentes sobre Procesamiento del Lenguaje Natural, registradas en todo el mundo. La primera de ellas data del año 1986. El siguiente gráfico muestra el número de patentes que han sido publicadas anualmente hasta el año 2012: Patentes registradas a nivel mundial 1.400 1.200 1.000 800 600 400 200 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 0 Fuente: Elaboración propia basada en la información extraída de Global Patent Search Network A continuación destacamos a los investigadores internacionales que más patentes han publicado en este ámbito: TOP 10 Investigadores 6% 6% 6% 5% 25% 6% 7% 19% 8% 12% Paul Rapps Silver Brucker Gangtianzhizhi Ikeda Navigation Li Secondary One Far in True Angle Wildly True Shiyutianyang Leaf Jianfa Tensioning Yong Fuente: Elaboración propia basada en la información extraída de Global Patent Search Network 40 1.5.2 A nivel nacional La siguiente tabla muestra información de las patentes registradas en España relacionadas con el ámbito del Procesamiento del Lenguaje Natural, en concreto se detalla el nombre de la patente, número de publicación, solicitante, y una breve descripción de la misma: Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Método para la utilización de lenguaje natural como interfaz para los ES2261053 A1 terminales móviles Solicitante Retevisión Movil, S.A. Descripción Método para la utilización de lenguaje natural como interfaz para los terminales móviles, con el objetivo de interactuar con aplicaciones instaladas en él, así como aplicaciones remotas, facilitando el uso de servicios de telefonía móvil mediante la voz. La aplicación del método requiere la instalación en el terminal de una aplicación software que utiliza el propio hardware del terminal para capturar, preprocesar y codificar el audio a enviar al servidor. Este método está destinado a facilitar el acceso a las aplicaciones, tanto locales como remotas, a cualquier tipo de usuario Nombre de la patente Sistema de consulta de lenguaje natural para acceder a un sistema de información Nº de publicación Solicitante ES2236483 T3 Voice-insight Descripción Sistema de interacción para permitir a un usuario de un sistema de información interactuar con el mismo, a través de un sistema de reconocimiento que permite la interacción por medio de frases generadas por dicho usuario, y procesadas por el sistema de reconocimiento. El sistema de interacción comprende al menos un módulo de dominio, donde se definen unas estructuras de frases que están construidas sobre la base de las clases de objetos, clases de atributos y clases de acciones que son comunes al dominio de aplicación considerado, con el fin de definir una gramática de frases que están previstas para ser generadas por el usuario para interactuar con el sistema de información. Nombre de la patente Nº de publicación Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural ES2235508 T3 Solicitante One Voice Technologies Inc. Descripción Un método para interactuar con un objeto de red, que funciona de la siguiente manera: Se recibe una interacción relativa a un objeto de red desde un usuario; se determina si una tabla de objetos de red está asociada con dicho objeto de red; se obtiene la tabla de objetos de red asociada si es que existe, se especifican una o más acciones asociadas con dicho objeto de red; se actualiza un primer archivo de gramática con gramática relativa a dicho objeto de red; se busca el primer archivo de gramática para otra interacción relativa a un objeto de red recibido desde un usuario; se busca un segundo archivo de gramática si la correspondencia de frase no es encontrada en el primer archivo gramatical; se busca una base de datos del lenguaje natural para representar dichas frases y se advierte al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos de lenguaje natural. 41 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento de lenguaje natural ES2235520 T3 Solicitante One Voice Technologies Inc. Descripción Un método para interactuar con un ordenador utilizando pronunciaciones, comprendiendo el método los pasos de: Buscar en un primer fichero de gramática una frase de coincidencia para dicha pronunciación Buscar en un segundo fichero de gramática una frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho primer fichero de gramática Buscar en una base de datos de procesamiento de lenguaje natural, una entrada de coincidencia para dicha frase de coincidencia, representando las entradas frases que son conocidas por la base de datos NLP Realizar una acción asociada con dicha entrada de coincidencia si dicha entrada de coincidencia es encontrada en dicha base de datos Nombre de la patente Traducción de formas de palabras relacionadas para la indexación y recuperación de texto en estado finito Nº de publicación Solicitante ES2168267 T3 Xerox Corporation Descripción Resuelve una serie de problemas a la hora de utilizar radicales (indicadores canónicos de significados de palabras) en la recuperación de textos completos de documentos en lenguaje natural y por tanto permite mejorar la rellamada sin que por ello sufra la precisión. Utiliza distintos modelos de traductores finitos (fsts) para codificar de manera precisa una serie de modos deseados para mapear hacia adelante y hacia atrás entre palabras y radicales, teniendo en cuenta tanto los aspectos sistemáticos del sistema de reglas morfológicas de una lengua como las irregularidades de palabra por palabra que ocurren. La invención contempla al sistema de recuperación de información como una base de datos y un procesador para responder a las consultas del usuario, para consultar la base de datos y para obtener respuestas correctas, si existen, así como métodos para la formación de la nueva base de datos. Nombre de la patente Nº de publicación Solicitante Aparato y Métodos de Servicios de Telecomunicaciones ES2317317 T3 Intellprop Limited Descripción Aparato de servicios de telecomunicaciones para ser usado con una red de telecomunicaciones móviles, comprendiendo el aparato unos medios para recibir un primer mensaje de texto desde un teléfono móvil, unos medios para procesar el primer mensaje de texto recibido con el fin de determinar una dirección de red a partir del primer mensaje de texto procesado, y unos medios para enviar la dirección de red determinada como segundo mensaje de texto hacia dicho teléfono móvil o hacia otro teléfono móvil, caracterizado porque los medios de procesado del primer mensaje de texto recibido comprenden un motor capaz de interpretar lenguaje natural que se puede hacer funcionar, en el caso de que no se pueda determinar una dirección de red adecuada, para entrar en un diálogo con un usuario de dicho teléfono móvil. 42 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Solicitante Dispositivo de tratamiento de datos con definición formal ES2389363 T3 Progilys Descripción Dispositivo de tratamiento de datos, que comprende: una unidad de tratamiento capaz de interaccionar con una base de datos, comprendiendo la base de datos unas tablas de datos una interfaz gráfica de usuario establecida para permitir a un usuario introducir una expresión matemática un editor de expresión matemática capaz de establecer una representación informática de trabajo de una expresión matemática en interacción con la interfaz gráfica de usuario, un diccionario de símbolos el cual, comprende información sobre la estructura de tablas de la base de datos un editor de condiciones dispuesto para producir una expresión de condición, siendo la expresión de condición utilizable en combinación con los metadatos para seleccionar un subconjunto de datos de la base de datos un generador de consultas dispuesto para tratar la representación informática de trabajo para producir una secuencia de código que ejecuta la expresión matemática de acuerdo con las reglas del lenguaje natural Nombre de la patente Nº de publicación Método de Generación de Patrones Semánticos No Disponible Solicitante Universidad Carlos Iii De Madrid Descripción La presente invención está relacionada con los métodos de reconocimiento de lenguaje natural. Se encuadra con aquellos métodos para la generación de patrones semánticos que posibilitan la organización de la información. Incluye las etapas de: determinar la categoría gramatical de cada término de un texto, agrupar en grupos las categorías gramaticales, contabilizar la frecuencia de aparición de cada grupo, establecer un candidato a patrón si la frecuencia de aparición de un grupo es suficientemente alta, determinar la categoría semántica del candidato a patrón con una taxonomía predefinida, identificar un patrón cuando el candidato a patrón tenga una categoría semántica asociada. Nombre de la patente Nº de publicación Solicitante Procesador de Textos ES2285736 T3 Walker, Randall C. Descripción Método para mejorar la presentación de texto a partir de un texto de lenguaje natural legible por máquina basándose en parámetros específicos del lector, incluyendo como mínimo las dimensiones del campo de visión, que comprende: analizar sintácticamente de dicho texto signos de puntuación y categorías gramaticales para extraer atributos específicos del texto; almacenar dichos atributos específicos del texto en relación con las categorías gramaticales para producir un texto enriquecido; aplicar reglas de terminación primarias seguidas por reglas de terminación secundarias a dicho texto enriquecido; aplicar reglas de terminación secundaria hasta que se alcanza un determinado límite; aplicar reglas de desplazamiento horizontal de segmentos de texto a dichos segmentos de texto para determinar un desplazamiento horizontal para cada segmento de texto; y visualizar dicho texto mejorado mediante una presentación en cascada de segmentos de texto en líneas descendentes y a lo ancho del dispositivo de visualización. 43 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Dispositivo de Control Remoto Basado en la Palabra ES2251942 T3 Solicitante Matsushita Electric Industrial Co., Ltd. Descripción Sistema de mando a distancia que comprende: una caja manual dotada de una interfaz de comunicación por medio de la cual las instrucciones de mando son transmitidas a un componente remoto; una pantalla de visualización dispuesta en dicha caja; un micrófono que sirve para recibir mensajes orales de entrada; un sistema analizador de voz acoplado a dicho micrófono para procesar dichos mensajes orales de entrada ; un fichero de datos históricos de diálogos utilizado para registrar las conversaciones que han tenido lugar en el conjunto del sistema; una memoria que contiene los datos de perfiles de usuarios; un administrador de diálogos conectado a dicho sistema analizador de voz , a dicha memoria de datos de perfiles de usuarios, y a dicha pantalla de visualización para transmitir instrucciones de mando y para presentar la información en la pantalla de visualización; y un analizador sintáctico de lenguaje natural en comunicación de datos con dicho sistema analizador de voz Nombre de la patente Nº de publicación Provisión de servicios en una red de comunicaciones ES2403014 T3 Solicitante Teliasonera Finland Oyj Descripción Un procedimiento para proporcionar una amplia diversidad de servicios diferentes y combinaciones arbitrarias de servicios en una red de comunicaciones con al menos un servidor de aplicación que almacena las aplicaciones del servicio, asignándose a cada una de las aplicaciones de servicio una operación por la cual se arranca la aplicación del servicio, y terminales de usuario para suministrar peticiones 5 de servicio en lenguaje natural, incluyendo el procedimiento las etapas de: dar una petición de servicio del usuario en lenguaje natural interpretar la petición del servicio del usuario y generar una descripción del servicio de formato genérico, incluyendo la descripción del servicio, los nombres de las funcionalidades que se necesitan para cumplir la petición de servicio del usuario y los parámetros que requieran dichas funcionalidades. recibir la descripción del servicio de formato genérico, dividir la descripción del servicio de formato genérico en uno o más elementos, incluyendo un elemento un nombre de dicha funcionalidad como un tipo y los valores de los parámetros asociados, analizar los elementos y examinar el tipo de los elementos y mapear dicho tipo a una entidad, indicando las entidades las llamadas de servicio a realizar y los parámetros relativos a las llamadas de servicio para implementar las funcionalidades especificadas en la descripción de servicio de formato genérico usar dichas entidades para utilizar dichas aplicaciones de servicio 44 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Solicitante Método para Normalizar Caja ES2316474 T3 Hapax Limited Descripción Un método para diferenciar automáticamente distinciones significativas de distinciones no significativas de caja alta y caja baja en una serie de tipos de palabras de entrada de un texto en lenguaje natural por medio de un ordenador, caracterizado por los pasos de: asignar un tipo de palabra de entrada a uno de una serie de grupos locales separados (LG1, LG2, LG3, LG4) en base a la caja y a la posición de las letras que constituyan el tipo de palabra de entrada; asignar dicho tipo de palabra de entrada a uno de una serie de grupos globales separados (GG1, GG2, GG3, GG4) en base a qué variantes de caja de grupos locales de los tipos de palabras de entrada estén asignados; y normalizar las cajas para dicho tipo de palabra de entrada de acuerdo con reglas predeterminadas asociadas con el grupo global al que esté asignado dicho tipo de palabra de entrada. Nombre de la patente Nº de publicación Método y Aparato para procesar Consultas Continuas No disponible Solicitante Uribe-Etxebarria Jimenez, Xabier Descripción Un método para procesar consultas continuas en lenguaje natural recibidas desde un equipo de cliente conectado a un segundo servidor de aplicación de consultas continuas a través de un primer servidor de aplicación y de una red de telecomunicaciones; que comprende las etapas de recepción en una unidad de procesamiento de lenguaje natural de primeros datos de texto ordenados de acuerdo a normas lingüísticas del lenguaje natural de una consulta realizada, para suministrar segundos datos de texto en un lenguaje intermedio basados en los primeros datos de texto de lenguaje natural; generación en una unidad de diálogo de terceros datos de texto en lenguaje natural ordenados de acuerdo a normas lingüísticas del lenguaje natural de un mensaje de respuesta, en función de los segundos datos de texto del lenguaje intermedio recibidos desde unidad de procesamiento, y emisión del mensaje de respuesta al equipo de cliente a través de un primer servidor de aplicación y de una red de telecomunicaciones. Nombre de la patente Nº de publicación Pasaporte Intemporal de Identificación ES2475092 T3 Solicitante Giannetti, Françoise Née Rouzaud Descripción Procedimiento de realización de un artículo funerario para la identificación y la perpetuación del recuerdo de un difunto, caracterizado porque comprende esencialmente las etapas que consisten en tomar un elemento en material inalterable elegido entre las cerámicas cocidas, el vidrio, la piedra, el acero inoxidable, de unas placas primera y segunda en material inalterable elegido entre las cerámicas cocidas, el vidrio, la piedra, el acero inoxidable, y: marcar el citado elemento en material inalterable con un código único atribuir el citado código único a un difunto y recoger los datos de identificación del citado difunto disponer el citado elemento previamente marcado con el citado código único con los restos o las cenizas marcar las citadas placas primera y segunda con el citado código único y marcar la segunda placa con los citados datos de identificación en lenguaje natural ensamblar las citadas placas así marcadas con la ayuda de un medio de fijación, para formar un dispositivo de identificación y de memoria 45 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Sistema de Navegación Móvil ES2346631 T3 Solicitante Infogation Corporation Descripción Un método para suministrar un recorrido óptimo utilizando información en tiempo real para un sistema de navegación que comprende un cliente y un servidor, dicho servidor está acoplado a una red de ordenador, dicho método comprende los pasos de: Establecer una conexión inalámbrica entre el cliente y el servidor Transmitir designaciones de inicio y fin de recorrido desde el cliente al servidor Acceder a información en tiempo real por parte del servidor, la información en tiempo real representa condiciones actuales relevantes del recorrido propuesto Calcular el recorrido óptimo por el servidor, basado en información en tiempo real y dichas designaciones de inicio y fin del recorrido Dar formato al recorrido óptimo en una descripción genérica en lenguaje natural que va a ser utilizada con una base de datos local de mapas del cliente con el cliente Descargar dicha descripción genérica en lenguaje natural al cliente Reconstruir el recorrido óptimo por el cliente, a partir de la descripción genérica en lenguaje natural Usar la base de datos local de mapas del cliente Exhibir dicho recorrido óptimo en un sistema de representación visual acoplado al cliente Nombre de la patente Nº de publicación Solicitante The Trustees Of Sistema y Método para Extracción y Codificación de Lenguaje Medico ES2218670 T3 Columbia University In The City Of New York Descripción En un tratamiento informatizado de datos médicos/clínicos en lenguaje natural que comprende un análisis y una regularización de la frase, se refiere a parámetros cuyo valor puede precisarse por el usuario. Así, un sistema informatizado puede volverse polivalente, especialmente para el tratamiento de datos de salida en varios campos. este sistema tiene, además de un mecanismo de análisis y de regularización, un preprocesador, filtros de salida y un mecanismo de codificación 46 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Sistema de Introducción de Información y Visualización ES2133355 T3 Solicitante Koninklijke Philips Electronics N.V. Descripción Para operar aparatos de usuarios, el usuario con frecuencia tiene que dar entrada a instrucciones operativas complicadas (por ejemplo la programación de una grabadora de video). Con objeto de dar entrada a un gran número de datos sin una instrucción, en una forma sencilla para el usuario, el aparato comprende medios para formar sentencias en fases y para representarlas en un lenguaje natural. En cada fase, los datos a los que ya se ha dado entrada se reproducen, y los próximos datos a dar entrada se identifican. De esta forma la comunicación con el usuario tiene lugar en un lenguaje natural, sin que el usuario tenga necesidad de dar entrada a este lenguaje. Nombre de la patente Método Mejorado de Agrupamiento Espectral por Ordenador y Usos del mismo Nº de publicación Solicitante No Disponible Politècnica De Universitat Catalunya Descripción Método mejorado de agrupamiento espectral por ordenador y usos del mismo. El método usa un algoritmo de agrupamiento para dividir datos en una pluralidad de grupos de muestra de modo que las muestras en cada grupo o agrupamiento tienen similitud máxima entre las mismas y similitud mínima con las muestras en otros agrupamientos, usando el método implementado de agrupamiento espectral por ordenador al menos dos criterios de similitud o vistas de datos diferentes para definir al menos dos matrices de similitud y aplicar el algoritmo de agrupamiento a los datos para cada uno de dichos al menos dos criterios de similitud diferentes y además integrar simultáneamente información relativa a dicha pluralidad de matrices de similitud a partir de varias vistas de datos en los grupos de muestra resultantes. Los usos del método mejorado de agrupamiento espectral por ordenador para análisis de procesamiento de señal biomédica, para análisis de agrupamiento génico, para análisis de visión por máquina, para procesamiento de lenguaje natural y para análisis de cesta de compra. Nombre de la patente Nº de publicación Solicitante Sistema de Anotación Automática de Datos de Adiestramiento para un Sistema de Comprensión del Lenguaje Natural ES2368213 T3 Microsoft Corporation Descripción Procedimiento para la generación de datos de adiestramiento anotados para adiestrar un sistema de comprensión del lenguaje natural, NLU, que incorpora uno o más modelos, comprendiendo el procedimiento: La generación de una anotación propuesta con el sistema NLU para cada unidad de datos de adiestramiento no anotados La presentación de las anotaciones propuestas para la verificación o la corrección de usuario para obtener una anotación confirmada por un usuario El adiestramiento del sistema NLU con la anotación confirmada por un usuario 47 Procesamiento del Lenguaje Natural Nombre de la patente Nº de publicación Solicitante Método y Aparato Analizador del Lenguaje Natural ES2228408 T3 Matsushita Electric Industrial Co., Ltd. Descripción Método de análisis sintáctico de lengua oral implementada en un ordenador para procesar una frase de entrada, que comprende las fases de: a) Facilitar una pluralidad de gramáticas indicativas de temas predeterminados b) Generar una pluralidad de conjuntos de árboles de directorios de análisis sintáctico, relacionada con dicha frase de entrada utilizando dichas gramáticas c) Asociar etiquetas con palabras de dicha frase de entrada utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados d) Generar valoraciones de dichas etiquetas basadas en los atributos de dichos conjuntos de árboles de directorios de análisis sintáctico e) Seleccionar etiquetas para su uso como representación analizada sintácticamente de dicha frase de entrada, basándose en dicha valoración generada Fuente: Elaboración propia basada en la información extraída de la Oficina Española de Patentes y Marcas 48 2 Análisis de Oportunidades de Negocio 2.1 Áreas de investigación Las tecnologías del habla abarcan diferentes áreas de trabajo y aplicación, pudiéndose destacar las siguientes líneas de trabajo: Procesado de Voz Procesamiento del Lenguaje Natural Sistemas de Diálogo Lingüística Psicología Cognitiva y Psicolingüística 2.1.1 Procesado de Voz Tradicionalmente las tres grandes áreas de trabajo en el campo del procesado de voz desde un punto de vista de procesado de señal son: Codificación Síntesis Reconocimiento Todas ellas comparten técnicas de análisis de la señal de voz basadas en el modelado del mecanismo de producción de la voz, en el que se incluyen algunas consideraciones sobre la percepción de sonidos. Sus dos bloques fundamentales consisten en un sistema de parametrización de la señal de voz y un sistema de reconocimiento de patrones. El primero es el que está más directamente relacionado con el procesado de señal, mientras que el segundo se corresponde más con el área de inteligencia artificial. Las principales líneas de investigación en el campo del procesado de voz son: 1. Análisis y codificación de voz: Parametrización de voz. Procesos de integración temporal. Detección de desórdenes de la voz. Modelado de fenómenos paralingüísticos. 2. Síntesis de habla: Algoritmos de generación de voz sintética: técnicas de modificación de frecuencia fundamental y duración de sonidos. Síntesis de formantes. 49 Modelado de la prosodia. Transformación de voces. 3. Reconocimiento de habla: Detección de actividad. Motores de reconocimiento (técnicas de decodificación) para grandes vocabularios y habla continua. Aumento de la robustez frente al ruido y canal. Medidas de confianza. Tratamiento del habla espontánea. Segmentación automática. Sistemas multilingües y multidialectales. 4. Reconocimiento de locutor. 5. Identificación del lenguaje. 6. Recursos lingüísticos: Diseño y recogida de corpora para síntesis. Diseño y recogida de corpora para reconocimiento de habla. Diseño y recogida de corpora para verificación biométrica. 7. Evaluación: Definición de protocolos de evaluación. Desarrollo de sistemas de referencia. 50 2.1.2 Procesamiento del Lenguaje Natural Desde sus orígenes, la investigación en Procesamiento del Lenguaje Natural ha estado fuertemente guiada por una tendencia hacia el tratamiento de la lengua inglesa. Sin embargo, cada vez más, los grupos de investigación españoles desarrollan sus investigaciones para el español y para las lenguas autonómicas (catalán, euskara, gallego). Como consecuencia de esta investigación se están desarrollando recursos para estas lenguas: herramientas específicas, bases de datos y corpus anotados con las características necesarias para los procesos de aprendizaje. Los principales problemas detectados para el procesamiento del lenguaje natural son los siguientes: Separación entre palabras Ambigüedad El lenguaje inherentemente ejemplo, una natural es ambiguo. Por misma Recepción de la información En la lengua hablada no se Los suelen acentos, hacer pausas entre diferentes tipos errores de de palabra palabra y palabra. Además, en la mecanografiado, expresiones puede tener varios significados, y lengua escrita existen idiomas sin no gramaticales, etc., crean un la selección del apropiado se debe separación entre las palabras (p. problema en la recepción de la deducir a partir del contexto. ej. chino mandarín). información. El panorama investigador en este campo a nivel nacional se encuentra centrado en los cuatro grandes apartados del procesamiento del lenguaje: tratamiento de la palabra, sintaxis, semántica y pragmática, y sus correspondientes aplicaciones. 51 Las principales líneas de investigación de este panorama se pueden esquematizar de la siguiente forma: Sistemas de compresión del lenguaje para diálogo; Traducción automática; Sistemas de apoyo a la traducción; Reconocimiento y comprensión de textos; Búsqueda y recuperación de información textual; Adquisición y representación del conocimiento; Detección de temas y dominios; Sistemas de pregunta-respuesta; Extracción de información; Elaboración automática y semiautomática de documentos y resúmenes; Resolución de fenómenos Tratamiento lingüísticos: elipsis, anáfora, ambigüedad pragmático estructural; Corrección de textos; Sistemas de ayuda al aprendizaje. Tratamiento semántico Análisis léxico-morfológico: categorización gramatical (POS tagging). Anotación semántica de palabras (resolución de la ambigüedad léxica). Modelos estadísticos del lenguaje. Tratamiento morfológico Tratamiento sintáctico Análisis semánticos robustos. Categorización semántica y clasificación de textos. Construcción de ontologías lingüísticas. Gramáticas para el reconocimiento del Lenguaje. Análisis sintáctico robusto. Análisis sintáctico superficial (chunkers). Fuente: Libro Blanco de las Tecnologías del Habla 52 2.1.3 Diálogo Los sistemas de diálogo constituyen una de las aplicaciones que podrían tener mayor utilidad en el mundo real. Actualmente se están desarrollando prototipos experimentales y sistemas comerciales cuya finalidad es ofrecer servicios concretos a los usuarios. Los sistemas de diálogo desarrollados actualmente han sido aplicados principalmente a tareas como: información y reserva de viajes en avión o en tren, información meteorológica, control de terminales telefónicos, compra de productos, ayuda a la comunicación entre personas que hablan distintos idiomas, acceso al correo electrónico o mensajes telefónicos, etc. Algunos de los principales problemas que se deben resolver para lograr que estos sistemas sean más efectivos para los usuarios son los siguientes: 1. Reconocimiento robusto del habla. 2. Extracción de la información semántica de las frases. Los sistemas de procesamiento del lenguaje natural tradicionales están diseñados para trabajar a partir de texto, asumiendo que la secuencia de palabras de las frases se conoce con exactitud. Sin embargo, esta suposición no es válida en el caso de los sistemas de diálogo, el habla espontánea suele contener fragmentos de frases, palabras inacabadas, palabras fuera de dominio o no presentes en el vocabulario, etc. 3. Gestión del diálogo. El éxito de un sistema de diálogo depende de un cuidadoso diseño de la interacción usuario-sistema, que permita solucionar las limitaciones actuales de la tecnología del reconocimiento del habla. 4. Generación de respuestas y síntesis de voz. A fin de ser aceptados por los usuarios finales, los sistemas de diálogo deben generar mensajes con un alto grado de inteligibilidad y naturalidad. Ello requiere dotar a la voz artificial de una mayor expresividad. Desarrollar un sistema de dialogo robusto y eficaz puede considerarse una de las tareas más complejas dentro del Procesamiento del Lenguaje Natural. Esta dificultad se debe fundamentalmente a dos factores. En primer lugar, es una de las tareas más jóvenes y por tanto con menos años de investigación y experiencia a sus espaldas. En segundo lugar, un gestor de dialogo por sí solo no tiene utilidad práctica; necesita integrarse con otros módulos típicos como el reconocedor de voz, el sistema de TTS o el de generación de lenguaje natural. En definitiva, el éxito de un sistema de dialogo no depende solo del módulo que gestiona el dialogo en sí, sino de la perfecta armonía entre sus componentes. Los sistemas de diálogo han proliferado mucho en los últimos años. Cada vez es más fácil encontrarlos en forma de asistentes virtuales en distintos portales web con una misión orientativa de cara al usuario. Probablemente encontremos en los próximos años nuevos asistentes dedicados a tareas más complejas: gestionar una cita médica, comprar billetes de tren o avión, tienda virtual, etc... 53 2.1.4 Lingüística En los últimos años este interés por explorar el conocimiento lingüístico y reproducirlo en sistemas de tecnología del habla se ha centrado fundamentalmente en las áreas de Procesamiento del Lenguaje Natural, Síntesis de Voz y, sobre todo, Gestión del Diálogo. Menor énfasis se ha puesto a la integración de conocimiento lingüístico en el Reconocimiento de Voz. Los mayores avances se han registrado en el estudio del habla y en intentar descifrar los mecanismos que determinan la construcción del significado en una situación comunicativa oral. La investigación en el campo en la última década se ha centrado en los siguientes aspectos del lenguaje: 1. Discontinuidad de la cadena hablada (interrupciones, titubeos, repeticiones, pausas léxicas, etc.). 2. Gestos, expresiones faciales, lenguaje corporal en general. 3. Entonación, ritmo, y otros aspectos suprasegmentales del lenguaje (volumen de voz, rapidez del habla, etc.). 4. Pragmática y análisis del discurso. A continuación se muestra un listado de todas las subáreas que se tienen en cuenta cuando se pretende incorporar conocimiento lingüístico a un sistema que emplea tecnología del habla: 1. Morfología, Sintaxis, Semántica. 2. Análisis del discurso. 3. Pragmática. 4. Fonética acústica: Prosodia, Modelado del tracto vocal, Producción y percepción del habla, Aspectos emotivos del habla y Cálculo de la frecuencia fundamental. 5. Fonética forense: Patologías del habla (producción y percepción). 6. Lingüística matemática. 7. Lingüística del corpus: Anotación del corpus y del diálogo. 8. Kinésica: Gestos y habla, Aspectos para- y extralingüísticos del habla. 9. Análisis del habla espontánea. 54 2.1.5 Psicología Cognitiva y Psicolingüística El eje en torno al cual gira la investigación en esta área es la representación del conocimiento y los procesos de representación vinculados a la comprensión y producción de los mensajes lingüísticos. Las líneas de investigación maestras representadas en los grupos de investigación del área son: 1. Reconocimiento de palabras en entornos monolingües y bilingües. Procesos de Acceso Léxico y de Procesamiento Léxico. Reconocimiento morfológico. Adquisición y desarrollo del proceso de reconocimiento de palabras. 2. Organización y distribución funcional de los mecanismos de representación del lenguaje mediante el empleo de técnicas de registro de la actividad eléctrica cerebral, la identificación de los correlatos conductuales, anatomo-funcionales, y electrofisiológicos. 3. Comparación translingüística de las diferencias tipológicas de las lenguas al objeto de identificar invariantes cognitivas, en la comparación de la estructura morfológica y de la estructura sintáctica de los usos lingüísticos. 4. Los mecanismos de implantación de conocimiento por acción del lenguaje, en la formación de conceptos y en la extracción de inferencias a partir de la interacción de modelos del discurso y modelos de la experiencia basada en ejemplos. 5. La modelización de los procesos y la simulación fuerte-equivalente de los mecanismos de representación lingüística y de sus resultados en la comprensión y producción del habla y de la lectoescritura. Estas líneas de trabajo prometen dar un empuje al desarrollo de la Ciencia Cognitiva y a modelos realistas de inteligencia artificial basados en la simulación y reproducción de las habilidades humanas en sistemas automáticos de procesamiento de información. 55 2.2 Aplicaciones del Procesamiento de Lenguaje Natural Las principales aplicaciones prácticas del Procesamiento de Lenguaje Natural (PLN) son las siguientes: Minería de datos Sistemas de búsqueda de respuestas Corrección ortográfica Síntesis de voz Sistemas de diálogo Reconocimiento de voz Análisis de sentimientos Generación de resúmenes automáticos Traducción automática Recuperación y extracción de información A continuación se presenta un detalle de cada una de estas aplicaciones: 56 2.2.1 Minería de datos La minería de datos es la extracción no trivial de información que reside de manera implícita en los datos. En este concepto se engloba un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. La minería de datos proporciona potentes herramientas para descubrir patrones ocultos y relaciones en datos estructurados. Este proceso asume que los datos se encuentran almacenados en un formato estructurado. Por ello, su pre-procesamiento consiste en la limpieza y normalización de los datos, y la generación de numerosos enlaces entre las tablas de las bases de datos. La minería de datos usa técnicas y metodologías de Recuperación de Información, Extracción de Información y corpus procesados con técnicas de lingüística computacional. 57 2.2.2 Sistemas de búsqueda de respuesta En Internet existe infinidad de documentos que contienen todo tipo de información, falsa y verdadera. La información no se encuentra bien distribuida en la red y encontrarla se hace difícil. Los buscadores tradicionales aún no entienden completamente qué necesita el usuario a pesar de haberse incorporado técnicas como el reconocimiento semántico. Mediante la implementación de las técnicas semánticas las búsquedas de información en Internet hoy en día son superiores a las de tres años atrás, de manera tal que el buscador parece comprender más de lo que el usuario “humano” necesita. Los sistemas de búsqueda de respuesta son sistemas diseñados para formular una pregunta en lenguaje natural y proporcionar una respuesta. De esta manera los usuarios no tienen que navegar y leer una o varias páginas de resultados de búsqueda. Estos sistemas se construyen sobre motores de búsqueda y requieren contenido como fuente para descubrir las respuestas. Deben tener métodos para entender las preguntas del usuario y determinar el tipo de respuesta que debe dar, generar una búsqueda significativa de la consulta, y finalmente calificar los resultados obtenidos. De estos tres problemas el más difícil de enfrentar es determinar el tipo de respuesta. Para hacerlo se realizan tres pasos: entrenamiento, fragmentación y determinación del tipo de respuesta. Para construir un sistema de respuestas se necesita aplicar técnicas como: Recuperación de Información, Extracción de Información con algoritmos de reconocimiento de entidades y etiquetado, comparación de secuencias de caracteres, etc. 58 2.2.3 Corrección ortográfica La corrección ortográfica es una de las aplicaciones del procesamiento de lenguaje natural de mayor uso cotidiano. La aplicación está continuamente analizando el texto, y avisa de los errores normalmente subrayando la palabra en rojo. Los primeros correctores ortográficos eran muy simples: contaban con un corpus léxico del idioma a analizar, y si una palabra no estaba en el mismo, era considerada como errónea. Con el tiempo, los algoritmos fueron evolucionando y aparecieron los primeros correctores ortográficos que mostraban sugerencias cercanas a la palabra mal escrita. Los siguientes avances fueron encaminados a encontrar errores sintácticos y/o de concordancia de género y número. Actualmente, los correctores automáticos han dado un salto más allá de los procesadores de texto, de tal forma que podemos encontrarlos en multitud de aplicaciones: los navegadores web incorporan un corrector para los contenidos introducidos por el usuario, los propios sitios web de edición de blogs, contenidos wiki y los clientes de mensajería instantánea hacen uso de esta tecnología. 59 2.2.4 Síntesis de voz La síntesis de voz tiene como objetivo transformar, de forma automática, cualquier texto en una locución auditiva lo más semejante posible al habla de un humano. A un sistema capaz de producir dicha salida se le conoce como sintetizador de voz o Text-To-Speech (TTS). Un sistema de TTS recibe como entrada una cadena de texto en un idioma determinado, la analiza y procesa, dando como resultado una salida auditiva que contiene una locución verbal que representa al texto de entrada. Durante la etapa de análisis se realizan multitud de operaciones: la normalización del texto, la pronunciación o el cálculo de la prosodia (velocidad, tono, duración, etc.). A la hora de generar la salida auditiva, se necesita un modelo de lenguaje y de información fonética del mismo. Estos sistemas son muy utilizados en los sistemas de avisos automáticos de aeropuertos, estaciones de autobuses y ferrocarriles, sistemas telefónicos de atención al cliente, dispositivos móviles y GPS, etc. Fuera del ámbito comercial, se emplean en aplicaciones educativas y en los sistemas para personas con discapacidades visuales. 60 2.2.5 Sistemas de diálogo Los sistemas de diálogo persiguen el objetivo de que un humano pueda conversar con un sistema informático con la misma naturalidad con la que conversa con otro humano. Entre los problemas que debe tratar el propio gestor del diálogo se encuentran: el contexto del discurso, el tipo de estrategia de diálogo (colaborativa, proactiva...), la elipsis, las construcciones anafóricas, etc. Desarrollar un sistema de diálogo robusto y eficaz puede considerarse una de las tareas más complejas dentro del Procesamiento del Lenguaje Natural. Esta dificultad se debe fundamentalmente a dos factores. En primer lugar, es una de las tareas más jóvenes y por tanto con menos años de investigación y experiencia a sus espaldas. En segundo lugar, un gestor de diálogo por sí solo no tiene utilidad práctica; necesita integrarse con otros módulos típicos como el reconocedor de voz, el sistema de TTS o el de generación de lenguaje natural. En definitiva, el éxito de un sistema de diálogo no depende sólo del módulo que gestiona el diálogo en sí, sino de la perfecta armonía entre sus componentes. Los sistemas de diálogo han proliferado mucho en los últimos años. Cada vez es más fácil encontrarlos en forma de asistentes virtuales en distintos portales web con una misión orientativa de cara al usuario. Probablemente encontremos en los próximos años nuevos asistentes dedicados a tareas más complejas: gestionar una cita médica, comprar billetes de tren o avión, tienda virtual, etc. 61 2.2.6 Reconocimiento de voz El reconocimiento de voz puede definirse como el proceso inverso a la síntesis de voz. Este sistema recibe como entrada una locución de audio y genera como salida una cadena de texto que transcribe dicha locución. Los sistemas comerciales de reconocimiento de voz están siendo muy utilizados en aplicaciones telefónicas: agencias de viajes, reserva de billetes/entradas, atención al cliente, información, etc. En los últimos años, se han incorporado también a los dispositivos móviles, entornos domóticos, teleasistencia y vehículos militares. Se trata de una disciplina relativamente joven respecto al resto, si bien su tecnología todavía se encuentra en intenso desarrollo. Hoy día suelen emplearse en dominios cerrados, ya que existen dificultades al enfrentarse a dominios abiertos, habla espontánea o ruido ambiental. 62 2.2.7 Análisis de sentimientos El análisis de sentimientos en textos es la identificación y extracción de información subjetiva. También denominado “minería de opiniones”, este proceso involucra el uso de herramientas de Procesamiento del Lenguaje Natural y software de análisis de textos para automatizar el proceso. La forma básica de análisis es una clasificación polarizada de sentimientos que asigna calificaciones en un rango de -10 a 10, basadas en el aprendizaje para evaluar emociones positivas y negativas en corpus etiquetados de entrenamiento. Las técnicas avanzadas analizan gramaticalmente y descomponen la oración. Se usan reglas gramaticales para extraer inferencias. El motor de reglas se aplica varias veces para transformar el texto etiquetado en oraciones que definen la asociación entre una palabra y una parte del habla con un sentimiento calificado. Para la implementación se utilizan herramientas para etiquetar y una base de datos con claves y frases con evaluaciones de polaridad de emociones. Esta información proviene de fuentes etiquetadas o por aprendizaje en corpus. Existen actualmente dos fuentes de datos disponibles: HDCUS y elWordNet-Affect. También existen librerías de código abierto como Gate, Balie, Mallet. La idea detrás del análisis de sentimientos es determinar la actitud del autor de una obra respecto a un determinado tema. Esta actitud puede ser su propia evaluación, estado afectivo (estado emocional cuando creó la obra) o el estado emocional que desea imprimir al lector o consumidor de dicha obra. Los trabajos en este campo están orientados a determinar la polaridad de un texto subjetivo, esto es, decidir si un texto es positivo o negativo empleando para ello diferentes métodos, desde la detección de adjetivos que conlleven una dimensión emocional a la clasificación automática mediante el uso de textos previamente anotados. La detección de polaridad mediante adjetivos se remonta a 1971, cuando McNair, Lorr y Droppleman crearon la lista POMS (Profile of Mood States), consistente en 65 adjetivos destinados a medir siete factores de los estados de ánimo: tensión, depresión, cólera, vigor, fatiga, confusión y amistad. Originalmente diseñada para el ámbito clínico, su uso se ha extendido a otras áreas como la lingüística computacional. Existe también una adaptación de dicha lista de adjetivos al castellano. Otro de los objetivos del análisis de sentimientos es la identificación de textos objetivos y subjetivos, una tarea si cabe más compleja que la determinación de la polaridad, ya que la subjetividad de las palabras o frases dependen del contexto en el que se encuentren, siendo bastante habitual que textos objetivos contengan información subjetiva. Uno de los grandes campos de aplicación es en la web. La sociedad de la información y la facilidad de acceso a Internet ha supuesto un boom en las nuevas formas de comunicación especialmente a través de los 63 llamados medios sociales tales como blogs y redes sociales, que destacan por su contenido subjetivo, cargado de opiniones y valoraciones de gran utilidad para las reputación de productos y marcas. Las empresas bucean en estos medios para estudiar el mercado, obtener ideas para lanzar nuevos productos o recoger feedback sobre los que ya están en la calle, así como ofrecer soporte a los clientes en base a sus comentarios, cuidando siempre la imagen de marca y, por tanto, su reputación. El reto se encuentra en automatizar los procesos de recogida de esa información, comprendiendo las conversaciones y filtrando el ruido, identificando, por tanto, el contenido relevante. Es por ello que no solo las empresas, sino las universidades de todo el mundo están enfocando sus estudios en entender la dinámica de los sentimientos en el contexto de las comunicaciones sociales. De esta forma, el análisis de sentimientos también podría ayudar a comprender el comportamiento de los usuarios, determinando por qué algunas comunidades gozan de más popularidad que otras, o anticipar la sucesión de eventos. La problemática viene, una vez más, de la mano del lenguaje, pues el sentimiento depende muchas veces del contexto del texto en el que se encuentre, con el inconveniente añadido de que los algoritmos actuales no detectan ironías, generando así resultados erróneos. Es complicado aislar una determinada pieza de texto y detectar su sentimiento, más aun cuando las propias personas a menudo muestran diversas interpretaciones. Cuanto más corto sea el texto a analizar, más difícil es detectar su sentimiento. 64 2.2.8 Generación de resúmenes automáticos La generación automática de resúmenes consiste en crear una versión más reducida de un texto donde se condense la información más importante. Normalmente estas aplicaciones realizan un análisis iterativo del texto de entrada de forma que van remarcando las partes que se consideren relevantes. El resumen vendrá determinado por aspectos tales como el tipo del documento (noticia, ensayo, etc.), el estilo de redacción del texto, su longitud o incluso el tipo de expresiones utilizadas. Existen dos formas de generar los resúmenes: Por extracción: consiste en extraer literalmente las partes más relevantes del documento, como pueden ser los extractos que muestran los buscadores, donde marcan el contexto en el que aparecen las palabras que buscamos. Estos pequeños fragmentos del texto original (snippets) se obtienen por extracción. Por abstracción: consiste en parafrasear el texto original en unas pocas líneas, es decir, realizar una explicación no literal para hacerlo más claro, conciso e inteligible. Generalmente, los humanos realizan resúmenes de tipo abstractivo, mientras que la mayoría de las herramientas comerciales generan resúmenes de forma extractiva. Un problema común es la existencia de múltiples documentos sobre un mismo tema, en este caso se habla de resúmenes a nivel de colecciones de documentos, que agrupan o separan los documentos por tópicos y destacan las similitudes y diferencias de la información contenida en ellos. Los contenidos se relacionan entre ellos en un sentido semántico: cubren el mismo tópico, tienen similares categorías semánticas o conceptos estrechamente relacionados. Generalmente, los humanos realizan resúmenes de tipo abstractivo, mientras que la mayoría de las herramientas comerciales generan resúmenes de forma extractiva. Las herramientas comerciales que permiten la generación de resúmenes extractivos individuales se pueden instalar en equipos propios o ejecutar en línea desde Internet. Algunas de las herramientas instalables son Copernic Summarizer y Microsoft Office Word. Entre las herramientas en línea se encuentran Svhoong Summarizer, Pertinence Summarizer, Tool4noobs Summarizer y Open Text Summarizer: Shvoong es una herramienta que permite generar resúmenes automáticos en 21 idiomas diferentes (checo, neerlandés, danés, inglés, finlandés, francés, alemán, griego, hebreo, húngaro, indonesio, italiano, malayo, noruego, polaco, portugués, rumano, ruso, español, sueco y turco). A diferencia de otras herramientas, Shvoong no devuelve el resumen como tal, sino que subraya el texto que considera más importante del documento original Pertinence Summarizer pertenece a la gama de productos desarrollados con tecnología denominada KENiA© (basada en la extracción de conocimiento y arquitectura de notificación), desarrollada por la empresa francesa Pertinence Mining. Pertinence es una herramienta en línea que permite generar 65 resúmenes en 12 idiomas (alemán, inglés, árabe, chino, coreano, español, francés, italiano, japonés, portugués, ruso y neerlandés) de los documentos de texto en formatos diversos (html, pdf, doc, rtf y txt). Tools4Noobs es una herramienta en línea que permite generar resúmenes desde 1 al 100 % del texto original. Para la generación de un resumen Tools4Noobs tiene 3 faces: extracción de las oraciones, identificación de las palabras claves del texto contando la relevancia de cada palabra, e identificación de las oraciones de acuerdo a las palabras claves identificadas. Open Text Summariser es una aplicación de código abierto para resumir textos, que puede ser descargada de Internet de forma gratuita. Sin embargo, también puede encontrarse la interfaz de ésta en línea. OTS genera resúmenes automáticos en diferentes porcentajes y puede también generar resúmenes en 37 idiomas. 66 2.2.9 Traducción automática La traducción automática consiste en convertir un texto de un idioma a otro manteniendo el significado, por medio de un ordenador y sin intervención humana. Se trata de la disciplina que más ha contribuido en el desarrollo de la lingüística computacional, al ser la tarea que da origen al procesamiento del lenguaje natural como tal. El proceso que rige el funcionamiento de la traducción automática es el siguiente: dado un texto de entrada escrito en un idioma origen, se analiza, se procesa, y finalmente se genera el mismo texto en el idioma destino. La manera de evaluar si la traducción es correcta es un problema no trivial. Definir exactamente la palabra “significado” y luego poder medirlo presenta complicaciones. ¿Cómo saber que dos expresiones significan lo mismo o algo parecido? Normalmente, se encarga este tipo de tarea a traductores humanos, pero distintas personas realizan distintas traducciones de un mismo texto y diferentes evaluadores de una traducción pueden no coincidir sobre si el texto está bien traducido o no. Con un enfoque estadístico en la evaluación de la traducción automática se puede llegar, con suficientes muestras, a una distribución verdadera con lo que se lograrán evaluaciones válidas. Se detectan reglas de traducción extrayendo traducciones de palabras en distintos contextos dentro de corpus. De esta manera se establece alineamiento de palabras, un paso fundamental en cualquier modelo estadístico de traducción automática. Un corpus con palabras alineadas permite la estimación de modelos basados en frases y árboles, que son los enfoques más comunes hoy en día. Las herramientas actuales consiguen un alto grado de fiabilidad, si bien todavía no puede prescindirse totalmente de la posterior revisión humana. Es posible conseguir mejores resultados pero rescindiendo la traducción a dominios limitados. Los sistemas de traducción automática se pueden clasificar de la siguiente manera: Sistemas de traducción directa: Podrían equipararse con grandes diccionarios. Realizan la traducción casi palabra por palabra, ya que la información sintáctica que poseen es mínima. Por ello, los resultados que ofrecen suelen ser bastante pobres. Sistemas de transferencia: Contienen grandes léxicos bilingües, además de un amplio conocimiento sintáctico y semántico de los idiomas. Esto permite traducir palabras de una lengua a otra teniendo en cuenta el contexto morfológico, sintáctico y semántico de la frase. También pueden llevar a cabo la transferencia estructural, es decir, los cambios en el orden de elementos y en la estructura de la frase para adecuarse a cada lengua. Sistemas interlingua: Estos sistemas conocen todas las características y todas las distinciones de todos los idiomas. Para realizar una traducción, se usa un analizador para convertir el texto en idioma fuente al interlingua, y un generador que convierte el texto interlingua al idioma destino. 67 Estos sistemas están en fase de laboratorio o se utilizan para aplicaciones muy restringidas, debido a los problemas prácticos que presentan el diseño y la implementación de una interlingua eficaz. Sistemas estadísticos: La traducción automática estadística consiste en calcular las distintas probabilidades de que cierta cadena de texto en el lenguaje destino sea la traducción de la misma cadena en el lenguaje origen, maximizando la probabilidad de todos los pares de cadenas origendestino. Para el cálculo de dichas probabilidades, se realiza una fase de entrenamiento previo con textos ya traducidos y supervisados por un humano. Un ejemplo es el traductor de Google, el cual realiza un reconocimiento léxico, comparación con reglas sintáctica según la probabilidad de aparición y finalmente hace una correspondencia entre parejas de palabras en los dos idiomas. A pesar de los avances tecnológicos, existen diversos retos en la traducción, especialmente entre lenguajes con distinto orden de palabras y una morfología compleja. La investigación en esta área se dirige a la exploración de métodos de aprendizaje avanzado en modelos estadísticos de traducción, modelos sintácticos y sus representaciones, datos paralelos para entrenamiento de modelos estadísticos, integración de traducción del habla con otras aplicaciones como reconocimiento de voz y traducción automática. 68 2.2.10 Recuperación y extracción de información La recuperación de información es el proceso de encontrar en un repositorio grande de datos, material (usualmente documentos) de naturaleza no estructurada (usualmente texto) o semiestructurada (páginas Web, por ejemplo), que satisfaga una necesidad de información. Los datos no estructurados no tienen un esquema claro, no están listos para procesar y son lo opuesto a los datos con un esquema estructurados como los que se encuentran en bases de datos. Los datos semiestructurados están en documentos esquema estructurados, con marcas explícitas como el código HTML. La información encontrada debe ser pertinente y relevante: la relevancia es la medida de cómo una pregunta se ajusta a un documento, mientras que la pertinencia es la medida de cómo un documento se ajusta a una necesidad informativa. Las estrategias de recuperación de información involucran la transformación del texto en representaciones adecuadas de acuerdo a modelos específicos que cumplan con los propósitos de las búsquedas. Los modelos pueden ubicarse en categorías de acuerdo a dos posibles dimensiones: En la dimensión de bases matemáticas, el texto puede ser representado como: conjuntos de palabras o frases en donde las coincidencias se logran realizando operaciones de álgebra booleana; modelos algebraicos que introducen parámetros e índices para recuperar información con metadatos, calificar y clasificar documentos en respuesta a una consulta, lo que lleva a modelos en espacios vectoriales, matriciales o agrupamientos irregulares; modelos probabilísticos que enfocan la solución de los problemas de búsqueda desde el punto de vista probabilístico, aplicando teoremas como el de Bayes; modelos basados en características que se eligen, y combinan y califican la relevancia de las similaridades usando métodos de aprendizaje automático. La dimensión de propiedades tiene que ver con la forma como se presentan las relaciones entre los términos/ palabras del documento en el espacio vectorial, relaciones que pueden ser ortogonales e independientes o dependientes. Una de las primeras aplicaciones prácticas de los sistemas de recuperación de información fueron los catálogos digitales, muy utilizados en organismos con gran cantidad de documentos como las administraciones públicas o las bibliotecas. Permitían a los usuarios realizar búsquedas rápidas sobre criterios típicos como título, autor o año de publicación. Estas aplicaciones obtuvieron una gran aceptación; sin embargo, estos sistemas obtendrían el impulso definitivo con el auge de Internet. Buscadores como Yahoo! o Google representan un gran avance, especialmente en el modo en que nos han facilitado el acceso a las distintas fuentes de conocimiento, siendo la primera opción a la que se acude para las necesidades de información. 69 La tarea de recuperación se lleva a cabo, en general, separando varios procesos: Análisis y normalización: selección de los términos que mejor representan el contenido de los documentos (y consultas), y transformación de los términos seleccionados con el objetivo de reducirlos a formas canónicas, que faciliten las correspondencias posteriores en el proceso de búsqueda. Los términos pueden ser palabras, frases, n-gramas, u otras unidades. Cálculo de pesos: asignación a cada uno de los términos de un valor numérico (peso) que representa su importancia a la hora de representar el contenido de un documento. Indexación: creación de un índice que facilite el acceso a los documentos que contengan los términos que los representan. Búsqueda: proceso basado en el cálculo de correspondencias y semejanzas entre la representación de la consulta y la de cada documento. Para obtener representaciones compatibles y así permitir comparar consultas con documentos, el texto de cada consulta deberá ser analizado de la misma manera que el de los documentos. Para diseñar un sistema de RI, existen muchas posibilidades y variantes en cuanto al modelo de recuperación utilizado. Los modelos más comunes son los siguientes: Modelo booleano, basado en la teoría de conjuntos y el álgebra booleana de gran simplicidad. En este modelo el método de representación, consiste en especificar los documentos como un conjunto de términos de indexación o keywords Modelo vectorial, basado en el álgebra. Se basa en la construcción de una matriz de términos y documentos, donde las filas contienen los documentos almacenados en una base de datos y las columnas se corresponden con los términos que se incluye en cada documento. Modelos probabilísticos, se fundamentan en el cálculo de la probabilidad de que un documento sea relevante a la consulta proporcionada. El más clásico es el de tipo bayesianao frente a los basados en modelos del lenguaje. Una alternativa interesante para mejorar el proceso de recuperación se centra en la expansión de las consultas. Varias estrategias han sido propuestas: Realimentación por relevancia (relevance feedback method), donde la consulta inicial se expande con términos extraídos de los documentos más relevantes recuperados a partir de la consulta inicial. Expansión con texto integral (full-text expansion), donde la expansión se realiza con textos enteros (y no sólo términos) que contienen las expresiones de la consulta inicial, recogidos tanto de textos relevantes como no relevantes. Expansión con sinónimos, donde los términos de la consulta inicial se amplían con sinónimos generalmente obtenidos de bases léxicas o tesáuricas, como WordNet. A diferencia de los dos 70 métodos anteriores, que han dado en general buenos resultados, la expansión con sinónimos no ha contribuido a mejorar los sistemas de RI. Un problema crucial es encontrar un análisis lingüístico más profundo (sintáctico-semántico) que consiga una representación fiel de los documentos y las consultas. Algunos sistemas de recuperación de información integran estrategias de procesamiento de lenguaje natural para enriquecer la representación de los documentos con información lingüística. Entre las estrategias de análisis lingüístico más populares, además de la identificación de nombres propios compuestos y de la anotación morfosintáctica (PoS tagging), el principal foco de atención ha sido el análisis sintáctico. Así mismo, se están realizando estudios para mejorar, con dependencias sintácticas, sistemas probabilísticos basados en modelos del lenguaje. Una vez que se ha logrado acceso a los contenidos buscados y se tiene control sobre los datos, en muchas aplicaciones se hace necesario el siguiente proceso que es el de extracción de la información, que consiste en la obtención de las partes que interesan en el texto para pasarlas a un formato de base de datos, es decir, a un formato estructurado. Las medidas utilizadas en estos sistemas para medir su rendimiento son: Cobertura = (número de documentos recuperados) / (número total de documentos relevantes) Precisión = (número de documentos recuperados que son relevantes) / (número total de documentos recuperados). Se define como la proporción de documentos relevantes dentro del conjunto de documentos recuperados por el sistema. También puede verse como la probabilidad condicionada de que un documento recuperado sea relevante. Así pues, un sistema de recuperación de información que solo devuelve documentos relevantes tiene un valor de precisión = 1. En estos casos los resultados deben pasar por un sistema de auditoría que permita corregir manualmente los errores en cuanto a precisión y cobertura. En general, los sistemas de extracción de información son útiles si: la información a ser extraída está especificada explícitamente; o el documento puede resumirse con un número pequeño de plantillas; o la información que se necesita está incluida completamente en el texto. Técnicas basadas en procesamiento de lenguaje natural para desarrollar motores de búsqueda semántica Ciertas tareas cotidianas se realizan con aplicación directa del procesamiento de lenguaje natural. De hecho, hemos llegado a un punto en el que estamos acostumbrados a: Realizar búsquedas por palabras en internet con una herramienta tipo Google. Redactar un documento usando el corrector ortográfico. Viajar con un GPS el cual emplea la síntesis de voz para dar instrucciones. Sistemas de reconocimiento de voz para personas discapacitadas. 71 Escribir un mensaje en el teléfono móvil con texto predictivo. Buscadores como Yahoo! o Google representan un gran avance, especialmente en el modo en que nos han facilitado el acceso a las distintas fuentes de conocimiento, siendo la primera opción a la que acudimos para nuestras necesidades de información. Centrándonos en la web y desde el punto de vista práctico del usuario, Internet es una inmensa colección de documentos con cierta relación entre sí. Estas relaciones vienen determinadas por los vínculos o hiperenlaces, que no son más que referencias de un documento a otro. El problema es que no existe un ente gestor que jerarquice o supervise dichas relaciones. Este es uno de los motivos por los que preferimos utilizar un buscador y visitar sus resultados, ya que confiamos en su neutralidad. Por tanto, uno de los grandes retos de los sistemas de recuperación de información en la web no es otro que superar la inherente subjetividad de los documentos existentes en Internet, y devolver al usuario un conjunto de resultados completo y de alta precisión. Otro aspecto a tener en cuenta es el carácter dinámico de la información existente en la red. Internet está sometido a un proceso de constante cambio y crecimiento, por lo que se necesitan sistemas capaces de evolucionar de manera eficiente. Los buscadores actuales analizan constantemente la web para mantener al día sus índices de documentos. A la difícil tarea de obtener los resultados de más alta calidad, se le suma la falta de meta información en los propios documentos. Los esfuerzos encaminados a resolver este problema se engloban dentro del término Web Semántica. La idea consiste en añadir metadatos, anotaciones semánticas y ontológicas a la información existente en la web. De este modo, se facilitaría enormemente la interoperabilidad entre los distintos sistemas informáticos y reduciría la intervención humana. Puesto que la inmensa mayoría de los documentos existentes en la web carecen de dicha información semántica, surge un problema de tratamiento de información no estructurada. La falta de modelos que definan formalmente los contenidos deriva en el empleo de técnicas de procesamiento de lenguaje natural, utilizadas sobre todo en tareas de indexación y clasificación. Aunque para estos propósitos casi todos los buscadores sacan partido del propio formato HTML, este no es suficiente cuando entran en juego características propias del lenguaje natural como la ambigüedad, la sinonimia o la polisemia. La tecnología sobre búsqueda e indexación ha avanzado de tal manera que hoy tenemos la posibilidad de incorporar un buscador completo en nuestras aplicaciones web. Lucene es una herramienta desarrollada por la fundación Apache que nos proporciona todo lo necesario para indexar documentos de diversos tipos: páginas en HTML, PDFs, documentos en formato Word u Open Office, etc... Son muchos los gestores de contenidos que incluyen un buscador basado en Lucene. Algunos tan conocidos como Liferay o Alfresco. 72 Finalmente, los sistemas de recuperación de información han llegado incluso a los sistemas operativos modernos. Las últimas versiones más recientes incorporan aplicaciones que indexan todo tipo de documentos del usuario: ficheros de texto, marcadores de favoritos, emails, conversaciones de mensajería instantánea, calendarios, etc... Sirva como ejemplo Spotlight de Mac OS X, Instant Search de Windows Vista o Tracker de Linux. Todas estas aplicaciones comparten los mismos principios: un proceso en segundo plano se activa periódicamente e indexa la carpeta principal del usuario. Al realizar la búsqueda, esta se lanza directamente sobre los índices devolviendo los resultados de forma inmediata. La indexación es una operación que se realiza con cierta periodicidad y consiste en el análisis de los documentos de la colección, es decir las páginas web, para crear los índices de términos que permitan acceso a los mismos de la manera más eficiente posible. Para alimentar al sistema de indexación se necesita de otro proceso que vaya recorriendo el grafo que representa la web en busca de nuevos nodos para analizar. A este último proceso se le conoce como crawler o araña. El proceso de búsqueda comienza cuando un usuario realiza una consulta al servidor web del sistema de recuperación de información, este se encarga de transformar la consulta en una petición a la base de datos de índices donde se buscarán los nodos que conformarán el resultado. Normalmente los buscadores web presentan la lista de resultados ordenándolos según su relevancia estimada, basada en algún algoritmo puntuación. Algunos buscadores también presentan sugerencias a la consulta cuando detectan que el conjunto de resultados obtenido es escaso o poco relevante, muchas veces esto se debe a una consulta mal planteada o con faltas de ortografía. Dentro de todos los algoritmos de puntuación existentes, el que mayor éxito ha cosechado hasta el momento es el denominado PageRank de Google. A grandes rasgos, la indexación web consiste en analizar las páginas seleccionadas por el crawler y almacenar su contenido de forma que, al preguntar por un término concreto nos devuelva los identificadores de las páginas que contienen dicho término. Además, la indexación debe realizarse teniendo en cuenta los valores de PageRank asociados a cada página, de modo que los identificadores sean devueltos por orden de relevancia. Otro aspecto a tener en cuenta en el proceso de indexación es la localización de los términos dentro de una página; una palabra concreta que aparece en el título de una página A debería de otorgarle mayor puntuación respecto a otra página B que la contiene en el cuerpo. Los sistemas de recuperación de información en las web actuales se basan en técnicas de análisis estadístico superficial de los contenidos para llevar a cabo las tareas de indexación y búsqueda. La tecnología empleada hoy día no permite discernir aun con perfección la relevancia de un documento ante la expresión de una necesidad de información. Tanto es así que a veces no encuentran los documentos solicitados o devuelven documentos no deseados y en un ranking que no siempre es el adecuado. Para conseguir nuevos niveles de refinamiento en las búsquedas son imprescindibles las aportaciones del procesamiento del lenguaje natural y la lingüística computacional. Estas disciplinas vienen a ayudar donde la estadística no puede llegar: 73 generar conocimiento semántico. Como producto principal de esta agrupación tecnológica aparecerán los buscadores semánticos, capaces de entender consultas en lenguaje natural y resolver los problemas de ambigüedad y semántica del lenguaje. Actualmente, la web está poblada con numerosos documentos en formato HTML. Este lenguaje sólo sirve para definir la apariencia gráfica de los documentos, limitando las posibilidades de clasificación de los mismos. Se hace patente la necesidad de un nivel adicional de especificación donde se determine la semántica de los contenidos. La evolución tecnológica que viene produciéndose en la web en los últimos años va claramente encaminada a conseguir dos objetivos: involucrar a los usuarios en el desarrollo de los contenidos y la interoperabilidad entre todos los sistemas informáticos sin intervención humana. El primero de ellos es una realidad patente; sitios web como la Wikipedia, YouTube, Tuenti o los propios blogs tienen un denominador común: la participación de los usuarios en la creación de los contenidos. En cuanto a la interoperabilidad de sistemas, el objetivo es conseguir que la metainformación semántica añadida describa los contenidos web y las relaciones entre los mismos. Para dotar de una utilidad práctica a dicha información esta debe definirse en un formato fácilmente procesable por un computador. En los últimos años se han producido grandes avances en el desarrollo de ontologías y lenguajes dedicados a su tratamiento como RDF, OWL o SPARQL. A esta nueva tendencia donde los contenidos web se autodescriben se le conoce como Web Semántica o Web 3.0. Afortunadamente, la Web 2.0 está influyendo positivamente en la creación de su sucesora ya que fomenta en los usuarios la costumbre de etiquetar sus contenidos; por ejemplo, etiquetando un video subido en YouTube o añadiendo etiquetas de los amigos que aparecen en una foto. De esta manera se consigue poblar el nivel semántico y el uso de dicha información por parte de software de terceros sin intervención humana. Centrándonos en la web semántica, son multitud de proyectos los que giran alrededor de este concepto. En primer lugar, hay que destacar a los lenguajes que se están imponiendo como estándares y que permiten tanto etiquetar la web, como recuperar la información. Estos son los tres pilares fundamentales en los que se describe la metainformación ontológica hoy día: RDF: Resource Description Framework. Se trata de un lenguaje ideado para proporcionar una información descriptiva de los recursos que se encuentran en la web. SPARQL: Estas siglas definen al lenguaje estándar de consulta sobre RDF, y significan SPARQL Protocol and RDF Query Language. Permite búsquedas sobre recursos de la web semántica utilizando distintas fuentes de información. Ha sido concebido con la idea de que una sola consulta a través de diferentes almacenes de datos es mejor que múltiples consultas por separado. OWL: Es un lenguaje tipo XML que permite definir ontologías serializables en formato RDF. Su acrónimo significa Ontology Web Language. Se le considera pieza fundamental en el desarrollo de 74 la web semántica, ya que es el punto de partida para lograr que otras aplicaciones puedan realizar razonamientos sobre los datos de forma automática. En la nueva web semántica, una búsqueda no puede limitarse a un simple problema de recuperación de documentos. Hay que sacar provecho de las nuevas interconexiones para dotar de un valor añadido a los resultados. De hecho, poco a poco se va vislumbrando esta nueva tendencia en los buscadores comerciales, los cuales incorporan publicidad orientada, enlaces a elementos multimedia de otras webs o incluso mapas con información geográfica de localización. Otra de las metas que persiguen los algoritmos de búsqueda orientados a la web semántica consiste en modelar la intención del usuario y facilitarle las tareas. En definitiva, este enfoque de la búsqueda semántica plantea que un buscador ya no es una interfaz para recuperar documentos, sino un medio para realizar tareas basadas en la web. Recientemente han surgido nuevos proyectos con el lenguaje natural como herramienta de búsqueda. ¿Por qué expresar una necesidad de información hablando como indios cuando podríamos hacerlo en nuestra propia lengua? Este es el objetivo de compañías como Powerset, Lexxe, TrueKnowledge o Ask.com. 75 3 Iniciativas de interés 3.1 IBM Watson Watson es un sistema informático de inteligencia artificial que es capaz de responder a preguntas formuladas en lenguaje natural, desarrollado por la corporación estadounidense IBM. Forma parte del proyecto del equipo de investigación DeepQA. El sistema responde a las preguntas gracias a una base de datos almacenada localmente. La información contenida en esa base de datos proviene de multitud de fuentes, incluyendo enciclopedias, diccionarios, tesauros, artículos de noticias y obras literarias, al igual que bases de datos externos, taxonomías, y ontologías, específicamente DBpedia, WordNet, y Yago. La corporación lo describe como "una aplicación de tecnologías avanzadas diseñadas para el procesamiento de lenguajes naturales, la recuperación de información, la representación del conocimiento, el razonamiento automático, y el aprendizaje automático al campo abierto de búsquedas de respuestas. El objetivo para Watson es permitir que las computadoras comiencen a interactuar de forma natural con humanos a través de una amplia gama de aplicaciones y procesos, comprendiendo las preguntas de los seres humanos, y dando respuestas que los seres humanos pueden comprender y justificar. IBM y Nuance Communications Inc. se han unido para explotar las capacidades de Watson como sistema de apoyo para decisiones clínicas para ayudar al diagnóstico y tratamiento médico de pacientes. IBM Watson Explorer es una solución de exploración cognitiva que combina búsqueda de contenido con análisis de capacidades de computación cognitivas, para ayudar a los usuarios a encontrar y entender la información que necesitan para trabajar más eficientemente y tomar mejores decisiones. Esta herramienta proporciona: Potente indexación y búsqueda para asegurar que los empleados tienen acceso a la información que necesitan, independientemente del formato o la forma en que se gestiona. Análisis de contenidos avanzados para agregar, analizar y visualizar contenido no estructurado para revelar ideas y patrones ocultos. Las capacidades de análisis cognitivo y la información proporcionada a través de IBM Watson Developer Cloud permiten a las empresas integrar características interpretativas como la aplicación del lenguaje natural. Application Builder permite crear aplicaciones de información de 360 grados para llevar la información, análisis y perspectivas a todos los usuarios. Watson Explorer ofrece todas estas funciones en la escala y velocidad requerida por los volúmenes de datos actuales, todo ello manteniendo la seguridad y fiabilidad exigidas por las empresas globales. 76 Puede ayudar a mejorar el rendimiento mediante el proceso de recopilación y análisis de la información necesaria para las tareas e interacciones del día a día, así como ayudar en la toma de las decisiones estratégicas y tácticas. Aborda toda la información en un solo sistema, es decir, unifica los datos de varias fuentes, en un solo punto de acceso. El valor oculto de su contenido es único para cada organización, y el desbloqueo no es una tarea trivial ya que muchas organizaciones se enfrentan a obstáculos debido a la falta de tecnología y procesos apropiados. Sin embargo, las empresas que abren este valor han demostrado su capacidad para aumentar los ingresos, mejorar la productividad, reducir costes, responder a las necesidades del cliente de una manera más rápida y precisa… Watson Explorer proporciona una plataforma flexible para la creación y gestión de aplicaciones. Fuente: IBM Watson Explorer, Explore, analyze and interpret information for better business outcomes, IBM Software La base de la plataforma es un marco conector que permite a Watson Explorer aprovechar prácticamente cualquier aplicación o sistema de gestión de datos para extraerlos, indexarlos, analizarlos, interpretarlos y visualizarlos. Un modelo de seguridad sofisticado permite asignar los permisos de acceso. El marco conector también permite la rápida creación de nuevos conectores para fuentes de datos adicionales. En la indexación, búsqueda y análisis, la información que se extrae, se procesa utilizando diferentes herramientas de análisis, incluyendo la conversión de contenido, análisis de texto, la extracción de la entidad y el análisis de contenido. Estos procesos aseguran que el índice resultante producirá resultados altamente relevantes, y proporciona la estructura necesaria para la navegación y visualización del mismo. El generador de aplicaciones, Application Builder permite a los administradores y desarrolladores construir aplicaciones de información de 360 grados que proporcionan a los usuarios la información y los conocimientos que necesitan para un rendimiento óptimo. Su potencial aborda imperativos de negocio tales 77 como la mejora de la participación del cliente, la creación de estrategias de marketing exitosas, desarrollo de productos más innovadores… Este generador define las entidades pertinentes, tales como clientes, cuentas y productos, y luego crea páginas compuestas de widgets que proporcionan información y que permiten a los usuarios finales seleccionar qué widgets quieren mostrar y organizarlos a través de una interfaz para crear una vista personalizada. Una característica llamada Feed de actividad permite a los usuarios seguir cualquier tema y recibir la información más actualizada, así como enviar un comentario y ver los comentarios publicados por otros usuarios. Para mejorar aún más la colaboración, al usuario se le permite arrastrar la información de un widget a un espacio de colaboración concreto para futuras referencias, y para permitir que otros usuarios puedan debatir sobre el tema. Watson Explorer Advanced Edition extrae la visión de la información no estructurada utilizando la tecnología de procesamiento de lenguaje natural combinado con una variedad de herramientas analíticas. Mientras el análisis de datos estructurados puede dar una idea sobre el qué, el dónde y el cuándo de un reto u oportunidad de negocio, el análisis de contenidos proporciona conocimientos para responder por qué y cómo. Los beneficios del uso del análisis de contenido de Watson Explorer incluye: Anticipar la identificación de defectos del producto Mejorar la investigación de productos, diseño, calidad y servicio Reducción de la pérdida de clientes Mejorar la gestión de los recursos humanos Seguimiento de la competencia Content Analytics Miner es una interfaz de contenido interactivo que ayuda a los profesionales a manejar y comprender grandes cantidades de texto para detectar nuevas ideas de negocio. Esta herramienta permite a los usuarios explorar la información textual mostrando tendencias, patrones y anomalías en la información. Está diseñada para analistas de negocios para crear a través de una sencilla interfaz, recursos de dominio específico y reglas de análisis sintáctico para identificar facetas, entidades y relaciones. Watson Analytics La tecnología Watson de IBM, con capacidades para procesar lenguaje natural y responder a preguntas complejas, extenderá sus funcionalidades con un nuevo servicio para automatizar y agilizar el análisis de datos complejos, que marca el inicio de una nueva era de la computación cognitiva, con capacidades para ayudar en la toma de decisiones sobre temas complejos que involucran grandes volúmenes de datos. Una de las peculiaridades de Watson, una tecnología que incorpora motores de inteligencia artificial y sistemas de razonamiento estadísticos como parte de sus capacidades cognitivas, es que aprende de la interacción con el usuario; actualmente se está aplicando en áreas como la banca, los seguros o la medicina. 78 El servicio Watson Analytics en la nube, ha sido diseñado como herramienta de trabajo para automatizar los procesos de análisis de datos y acceso a predicciones que ayuden a tomar decisiones acertadas en el trabajo. Con cantidades poco voluminosas de información es gratuito el uso de esta herramienta, pudiendo ser utilizada por estudiantes, periodistas, abogados, arquitectos, y cualquier autónomo y empresa. Watson Analytics garantiza simulaciones en cuestión de minutos y evita al usuario tener que depender exclusivamente de expertos que filtren y preparen laboriosamente la información con la que elaborar informes, con los que luego tomar decisiones profesionales o empresariales. La herramienta se apoya en una arquitectura que, a partir de la descomposición sintáctica de las preguntas, procesa en paralelo cientos de hipótesis para luego verificarlas contra cientos de evidencias, dando una respuesta con un alto nivel de confianza. Este nuevo servicio Watson se suma a otros lanzados anteriormente: Watson Engagement Advisor, un sistema de apoyo al conocimiento para las ventas, o Watson Discovery Advisor, un sistema capaz de revelar patrones y conexiones de datos científicos ocultos entre cantidades masivas de información. Está disponible como un servicio a través de la nube, reduciendo el tiempo necesario para que los científicos comprueben hipótesis o formulen conclusiones en torno a sus investigaciones. Además de identificar correlaciones desconocidas hasta el momento y entender los matices del lenguaje natural, comprende el lenguaje especializado, como por ejemplo cómo interactúan los compuestos químicos. Los avances en computación cognitiva demuestran que la disciplina se ha convertido en una realidad sustentada por el desarrollo de tecnologías de Big Data, y el procesamiento de enormes cantidades de información para extraer valor de todos esos datos, procedentes de fuentes masivas. En la sociedad actual, cada minuto se inyectan a internet datos de fuentes dispares que crecen exponencialmente, y se requiere que sean procesados en un tiempo breve, obligando a presentar la información de forma rápida y fácilmente entendible por el usuario. 79 3.2 Detección de la apnea del sueño El Grupo de Aplicaciones del Procesado de Señales de la Universidad Politécnica de Madrid y el Grupo Quirón, trabajan en la aplicación de técnicas de análisis de voz para la detección de la apnea del sueño. La investigación está impulsada por el neumólogo José Alcázar Ramírez, y el investigador Luis Hernández Gómez, del Grupo de Aplicaciones del Procesado de Señales. Para ello, se han recabado grabaciones de voz para analizar la relación entre los condicionantes clínicos del síndrome de apneas-hipopneas del sueño (SAHS), y los rasgos observados en el proceso de caracterización del habla de estos pacientes. La experiencia del grupo GAPS en el campo de las tecnologías del habla ha permitido abordar esta labor, adaptando algunas de las técnicas de clasificación utilizadas en el reconocimiento automático del habla y del locutor, al problema específico de caracterización y clasificación de locutores para la detección del SAHS. Los resultados obtenidos resultan muy alentadores. Actualmente, en los trabajos participa el Hospital Quirón de Málaga, pero se pretende extender a todos los Hospitales Quirón de España, para demostrar la posible influencia del acento local en la sensibilidad/especificidad de la prueba. Instituciones de distintos países se han interesado por el trabajo desarrollado, tales como el grupo de Ingeniería Biomédica de la Universidad Ben-Gurion (Israel), equipos de la Universidad de Aviñón (Francia), o el Instituto Superior Politécnico José Antonio Echeverría (Cuba). 80 3.3 Siri de Apple Siri es una aplicación con funciones de asistente personal para iOS. Esta aplicación utiliza procesamiento del lenguaje natural para responder preguntas, hacer recomendaciones y realizar acciones, mediante la delegación de solicitudes hacia un conjunto de servicios web que ha ido aumentando con el tiempo. Entre las cualidades destacadas, Siri es capaz de adaptarse con el paso del tiempo a las preferencias individuales de cada usuario, personalizando las búsquedas web y la realización de algunas tareas. Siri ofrece interacción conversacional con otras aplicaciones, tales como los recordatorios, consulta con el estado del tiempo, la bolsa, el servicio de mensajería, el correo electrónico, calendario, contactos, notas, música, reloj, navegador web, Wolfram Alpha y los mapas. Es un producto surgido del Centro de Inteligencia Artificial de SRI International, nacido como una rama del proyecto CALO, un proyecto financiado por DARPA, descrito como "el mayor proyecto de inteligencia artificial creado a la fecha". Las áreas técnicas en las que hace foco primario el proyecto Siri son: Interfaz Conversacional, Reconocimiento de Contexto Personal, y Delegación de Servicios. 81 3.4 Perldoop El Centro Singular de Investigación en Tecnologías de la Información (Citius), de la Universidad de Santiago de Compostela, ha creado un software libre que acelera el procesamiento de textos y documentos publicados en la web. Su nombre es Perldoop, y permite el análisis de los datos de una forma sencilla y eficiente. La herramienta adapta aplicaciones del ámbito del procesamiento de textos y documentos a modelos de computación, lo que reduce los tiempos de ejecución y permite trabajar con grandes volúmenes de datos. Su propuesta se ha basado en el diseño de un sistema que permite transformar el software usado para el procesamiento del lenguaje natural en una solución compatible con las tecnologías Big Data. Con sólo introducir unas etiquetas en la aplicación original, esta herramienta de traducción permite al programador convertir automáticamente todo su código en código Java adaptado a MapReduce (modelo de programación utilizado por Google para dar soporte a la computación paralela sobre grandes colecciones de datos), habilitándolo así para su ejecución en un clúster, es decir, permitiendo su ejecución simultánea en múltiples cores o nodos de computación. Otra característica es que los resultados se han hecho públicos bajo una licencia de software libre, con el objetivo de que esté a disposición del mayor número posible de usuarios y profesionales. 82 3.5 Cortana de Microsoft Cortana es el asistente personal virtual que ofrece Microsoft. Comenzó estando disponible en Windows Phone 8.1, luego en Microsoft Band y, posteriormente en Windows 10. Microsoft también espera lanzar este software, a modo de programa independiente en iOS y Android. El nombre deriva del personaje homónimo de la serie de videojuegos Halo, una franquicia exclusiva de Xbox. Cortana reconoce el lenguaje natural (sin necesidad de utilizar comandos concretos) y utiliza Bing, Yelp y Foursquare como bases de datos. Se diferencia de Google Now y de Siri en que es el primer asistente virtual que incluye una "Libreta", donde Cortana guarda toda la información que tiene sobre el usuario, sus intereses, rutinas, etc. De esa manera la información que el sistema tiene del usuario es fácilmente controlable, pudiendo borrar todo rastro o introducir a propósito sus gustos y demás para mejorar el servicio. También es el primer asistente que permite a los desarrolladores integrarse con él, permitiendo utilizar sus aplicaciones mediante la voz. Como Cortana es específica de cada país, se ha adaptado a los patrones cotidianos de cada región del usuario, su voz al idioma en concreto, la cultura y el habla. Por ejemplo, la versión británica de Cortana habla con un acento británico y utiliza modismos británicos, mientras que la versión china, conocido como Xiao Na, habla chino mandarín y tiene un icono con una cara y dos ojos. También trata de satisfacer las necesidades según su uso, asimismo podrá visualizar información relevante sobre una gran diversidad temática, como por ejemplo, equipos deportivos locales, negocios, series de televisión y las bolsas de valores. 83 3.6 Inbenta Inbenta, compañía española líder en procesamiento de lenguaje natural y en búsqueda semántica, que ofrece soluciones online con los usuarios a través de la web, ha implementado una nueva funcionalidad en su software, el Análisis Emocional. Inbenta Sentiment Detector (ISD) es capaz de detectar y clasificar de forma rápida y automática si las opiniones e interacciones en la experiencia de los clientes son positivas o negativas. Esta función es especialmente útil para aquellas empresas que necesitan mejorar la estrategia en sus servicios de atención al cliente y su reputación corporativa, ya que es capaz de ofrecer una experiencia satisfactoria a sus usuarios. La nueva funcionalidad nace ante la progresiva demanda de las empresas, en un momento crucial en el que las redes sociales, los foros y otros espacios online dedicados a la atención de los clientes son herramientas cada vez más utilizadas para informarse y compartir experiencias. El software de Inbenta integra un sistema inteligente de detección de las emociones, que es capaz de examinar el texto escrito por el usuario, teniendo en cuenta incluso el contexto, de modo que, ni siquiera los emoticonos, los comentarios sarcásticos o las frases coloquiales son un obstáculo para analizar el verdadero significado y establecer si las emociones expresadas son positivas, negativas o neutras. Entre sus clientes cuenta con la norteamericana Franklin Planner, dedicada al comercio electrónico. 84 4 Fuentes de información A continuación se presentan las principales fuentes de información utilizadas para el desarrollo del presente documento: Aplicaciones de Procesamiento de Lenguaje Natural, Hernández M. Gómez J. Escuela Politécnica nacional, Facultad de Ingeniería en Sistemas Quito, Ecuador, Universidad de Alicante, Departamento de Lenguajes y Sistemas Informáticos, Alicante, España The Bhiopharmaceutical Challenge, Efficient Innvation, IBM Software. IBM Solutions IBM Watson Explorer, Explore, analyze and interpret information for better business outcomes, IBM Software Aplicación de tecnologías de Procesamiento de lenguaje natural y tecnología semántica en Brand Rain y Anpro 21, Oscar Trabazos, Silvia Suarez, Remei Bori y Oriol Flo Diseño e implementación de un sistemas para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textos, Universidad Carlos III de Madrid, Escuela Politécnica Superior de Ingeniería Técnica de Telecomunicación: Telemática, Samuel Alcázar Jaén, Luis Sánchez Fernández, María Luz Congosto Martínez Evaluación de las herramientas comerciales y métodos del estado del arte para la generación de resúmenes extractivos individuales, Griselda Areli Matías Mendoza, Yulia Ledeneva, Rene Arnulfo García- Hernández, Grigori Sidorov, Universidad Autónoma del Estado de México, Unidad Académica Profesional Tianguistenco, Laboratorio de lenguaje natural y procesamiento de texto, Centro de investigación en computación, Instituto Politécnico Nacional de México Generador de los grafos conceptuales a partir del texto en español, Centro de investigación en computación, Instituto Politécnico Nacional de México, Macario Hernández Cruz Procesamiento del lenguaje Natural en recuperación de la información, Paula Andrea Benavides Cañón, Sandra Rodríguez Correa, Universidad de la Salle, Colombia, Sistemas de Información y Documentación Libro Blanco de las Tecnologías del Habla, Antonio Rubio Ayuso, Inmaculada Hernáez Rioja Procesamiento de Lenguaje Natural Robusto, Andrés T. Hohendahl, Laboratorio de Estereología y Mecánica Inteligente, Facultad de Ingeniería, UBA, IIBM (Instituto de Ingeniería Bio Médica), Facultad de Ingeniería, UBA. Procesamiento del lenguaje natural, F. J. Martín Mateos, J. L. Ruiz Reina, Dpto. Ciencias de la Computación e Inteligencia Artificial, Universidad de Sevilla TESIS DOCTORAL Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural, Milagros FERNÁNDEZ GAVILANES, Dr. Manuel VILARES FERRO, Dr. Éric VILLEMONTE DE LA CLERGERIE, Universidad de Coruña 85 Técnicas de Procesamiento del Lenguaje Natural en la Recuperación de Información, Pablo GAMALLO OTERO y Marcos GARCÍA GONZÁLEZ, Centro de Investigación sobre Tecnoloxías da Lingua (CITIUS) Universidade de Santiago de Compostela Optimización Global de Coherencia en la desambiguación de las palabras, Sulema Torres Ramos, Instituto Politécnico Nacional, Centro de Investigación en Computación, Laboratorio de lenguaje natural LoginFin Páginas web: Nuance Verbio Agnitio Indisys Daedalus Voicebase Microsoft Inbenta Como complemento al trabajo de análisis e investigación, se ha contado con la visión de los siguientes expertos en la materia: Alfonso Hernández Gómez, Profesor Titular de Universidad integrado en el Departamento de señales, sistemas y radiocomunicaciones de la Universidad Politécnica de Madrid, Grupo de Procesado de señales (GAPS) L. Alfonso Ureña López, Presidente de la Sociedad Española para el Procesamiento del Lenguaje Natural ( SEPLN) y Profesor de la Universidad de la Jaén José Manuel Pardo Muñoz, Jefe de Grupo de GTH Speech Techonology Group Juan Ignacio Godino Llorente, Catedrático de Universidad Politécnica de Madrid, Director Proyecto de I+D+i: Plataforma existente Medivoz Paloma Martínez Fernández, Profesora Titular del Departamento de Informática de la Universidad Carlos III de Madrid y responsable del Grupo de Bases de Datos Avanzadas Sinuhé Arroyo, CEO & Founder en Taiger José Alcázar, Jefe de servicio de Neumología en Hospital Quirón Rubén San Segundo, Profesor asociado en el Departamento de Ingeniería Electrónica (DIE) de la ETSIT, UPM Javier Ortega-García, fundador y co-director del Grupo de Reconocimiento Biométrico - ATVS de la Universidad Autónoma de Madrid Joaquín Gonzalez-Rodriguez, fundador y co-director del Grupo de Reconocimiento Biométrico - ATVS de la Universidad Autónoma de Madrid. 86