Capítulo 11. Conclusiones y Líneas Futuras de Investigación CAPÍTULO 11 CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN Este último Capítulo pretende presentar de forma breve los puntos fundamentales del trabajo desarrollado, exponer las principales conclusiones obtenidas y discutir las líneas de investigación que quedan abiertas. 11.1 CONCLUSIONES El proyecto se ha centrado en los sistemas de conversión de texto a voz pertenecientes al ámbito de las Tecnologías del Habla y, más concretamente, en el preprocesamiento y categorización gramatical del texto. Este trabajo puede dividirse en tres partes: Preprocesamiento del texto de entrada, Análisis Morfológico y Categorización por reglas. Cada una de estas partes depende fuertemente de la anterior; así, para realizar el análisis morfológico es necesaria la segmentación del texto en unidades básicas de análisis (palabras), y cuanto más completo sea el análisis morfológico mayor será la eficiencia de las reglas y, en consecuencia, mejores serán los resultados obtenidos. 239 Capítulo 11. Conclusiones y Líneas Futuras de Investigación La principal conclusión del módulo de Preprocesamiento (Capítulo 5) es que la preparación del texto de entrada es fundamental para el buen funcionamiento de los restantes módulos del conversor texto-voz y en particular para el análisis lingüístico. La salida de este módulo es un texto segmentado en frases, y éstas a su vez en palabras, donde ya se han detectado ciertas unidades que requieren un tratamiento especial (siglas, abreviaturas, números, etc.). En ocasiones se considera la preparación del texto de entrada como un proceso trivial previo al análisis lingüístico. Nada más lejos de la realidad. La delimitación de las palabras que componen una frase presenta varios problemas debido a la existencia de signos de puntuación ambiguos. El porecentaje de error del segmentador de frases es del 0.42 %, por lo que la división del texto es frases es bastante fiel a la realidad. Otra conclusión importante es que el reconocimiento de unidades especiales debe realizarse antes del análisis lingüístico, ya que de esta manera se obtienen mejores resultados. Por otra parte, la metodología propuesta para el tratamiento de las unidades especiales permite la detección y categorización simultánea de las mismas, realizando así dos tareas de una sola vez. El detector de unidades especiales funciona muy bien con los números, fechas, horas, siglas, nombres propios y palabras extranjeras con una tasa de error aceptable. En números, fechas y horas el porcentaje de acierto es del 100 %; el porcentaje de error en la detección de siglas es del 2.23 % y el de nombres propios del 1.11 %. En el caso de las palabras y nombres propios extranjeros la tasa de error es del 0.72 % y 0.68 %, respectivamente. Donde más dificultades encontramos fue con los números romanos, con una tasa de error superior al 10%. Por este motivo adoptamos un esquema de trabajo distinto; los números romanos se detectan en el módulo de Preprocesamiento pero de su categorización se encarga el categorizador por reglas. Los resultados finales confirman el acierto de esta decisión. Los Capítulos 6 y 7 abordan el tema del Análisis Morfológico. La principal conclusión es que cuanto mayor sea la información disponible más completo será el análisis y mayor será la probabilidad de presentar la solución correcta entre todas las posibles. Nuestra metodología consiste en dar al analizador morfológico la mayor cantidad de información léxica. Los diccionarios utilizados nos permiten cubrir más de 160.000 palabras, considerando sustantivos, adjetivos, adverbios, pronombres y 240 Capítulo 11. Conclusiones y Líneas Futuras de Investigación conjunciones, 60037 nombres propios, más de 11000 infinitivos y 1849 locuciones. El porcentaje de texto categorizado por diccionario es superior al 97 % para los artículos de El Mundo y del 99.9 % para los Textos 860. El Capítulo 8 está dedicado al corpus utilizado para el entrenamiento y evaluación del categorizador. El objetivo era comprobar la fiabilidad de este corpus como modelo de categorización. La imprecisión de los Textos 860 es del 0.56 %, por lo que se concluye que la calidad de la categorización manual es alta para un corpus de este tamaño (316990 palabras). En el Capítulo 9 se evalúa el Categorizador Gramatical. Nuestro objetivo inicial era conseguir un buen Recall, comparable al de otros sistemas actuales. El Recall obtenido es superior al 99 %, por lo que podemos concluir que este objetivo inicial ha sido plenamente conseguido. Para confirmar los resultados obtenidos hemos comparado nuestro sistema con otros tres categorizadores, comprobando que nuestro resultados son similares a los suyos, considerando por supuesto la diferencia de criterios y condiciones de trabajo de cada sistema. Por otra parte, hemos realizado varias pruebas para evaluar las reglas existentes, tanto de terminación como de contexto, con el propósito de establecer los pasos a seguir para mejorar el número medio de categorías por palabra y conseguir así una buena Precisión, aunque debemos puntualizar que estos no eran nuestros objetivos. Como conclusión final podemos decir que hemos implementado un sistema de preprocesamiento y categorización gramatical válido para cualquier conversor textovoz, sea del tipo que sea, cuyos resultados superan a las versiones anteriores y son equiparables a los de otros sistemas desarrollados en la actualidad. 11.2 LÍNEAS FUTURAS DE INVESTIGACIÓN El trabajo efectuado ha dejado líneas abiertas para posibles investigaciones futuras. A continuación proponemos las que nos parecen más importantes. El sistema está pensado para procesar cualquier tipo de texto, sin embargo, en la actualidad está especialmente adaptado a un tipo concreto: los artículos del periódico El 241 Capítulo 11. Conclusiones y Líneas Futuras de Investigación Mundo. Ofrece también la posibilidad de procesar texto categorizado siempre que se ajuste al formato adoptado. La pregunta que nos planteamos es: ¿qué ocurriría con otro tipo de textos? En este sentido podrían realizarse pruebas con artículos de otros periódicos, así como con textos literarios, científicos, novelas, cuentos, ... para analizar la dependencia del sistema respecto al texto de entrada. La necesidad actual de los conversores texto-voz es la flexibilidad del sistema, para lo cual es fundamental la independencia del texto de entrada, lo que se conoce como análisis de texto sin restricciones. En el módulo de Análisis Morfológico se estudia la morfología derivativa, es decir, la formación de palabras mediante prefijación, como por ejemplo antisocial. El tratamiento de estas palabras es el siguiente: se descompone la palabra en prefijo (anti) y raíz (social), se busca la raíz en los diccionarios y si se encuentra se categoriza la palabra considerada con la categoría que figura en el diccionario. En el ejemplo anterior se encontraría social en el diccionario como adjetivo calificativo y esta categoría se asignaría a antisocial. Otro procedimiento para la formación de palabras es la incorporación de sufijos aumentativos, diminutivos y despectivos. Por ejemplo, de mano, manaza, de abuelo, abuelito o de bicho, bicharraco. La forma de tratar estas palabras es similar a la descrita para los prefijos: se identificaría el sufijo concreto con ayuda de la lista elaborada para tal fin, se separaría el lexema del sufijo y se recompondría la palabra raíz utilizando la información de género y número del sufijo identificado. A continuación se buscaría la raíz en los diccionarios y se categorizaría la palabra inicialmente considerada con la categoría encontrada en el diccionario. Consideremos por ejemplo el caso de abuelito. Se identificaría el sufijo –ito en la lista de sufijos con género masculino y número singular. Con esta información y el lexema abuel se obtendría la raíz: abuelo. Se buscaría abuelo en los diccionarios, encontrándose como nombre común masculino singular y se asignaría esta categoría a abuelito. Creemos que con ello quedaría totalmente completado el módulo de Análisis Lingüístico. Otra mejora que podría añadirse al sistema sería la división del reconocimiento y categorización de locuciones en dos partes. En la actualidad esta labor se realiza dentro del análisis morfológico, pero podrían mejorarse los resultados posponiendo la categorización de algunas locuciones al módulo de categorización por reglas de 242 Capítulo 11. Conclusiones y Líneas Futuras de Investigación contexto. Hemos observado que ciertas locuciones van siempre acompañadas por determinados verbos y forman parte de construcciones muy concretas, fáciles de detectar mediante análisis contextual. Es el caso de poner_en_marcha, hacer_frente_a o estar_en_forma. Estas expresiones funcionan como locuciones, pero cuando no van acompañadas de estos verbos deben analizarse de forma independiente; como por ejemplo en la frase: En el caso de que las informaciones y los argumentos necesarios no se transmitan en forma adecuada en el plazo antes mencionado, las autoridades comunitarias podrán establecer conclusiones. El procedimiento a seguir sería separar las locuciones que requieren ir acompañadas de ciertos verbos o que forman parte de determinadas construcciones de las restantes y formar con ellas un diccionario. Las restantes locuciones se detectarían y categorizarían en el módulo de Análisis Morfológico y este otro conjunto se categorizaría en la parte de categorización por reglas, bien como locuciones, bien de forma separada, en función del contexto en el que se encuentren. Otra línea de trabajo interesante sería la incorporación de información de frecuencia a la lista de posibles categorías de una palabra. El objetivo es facilitar la desambigüedad léxica, de manera que a la hora de resolver este problema el sistema conozca cuál de las posibles categorías de la palabra considerada es la más probable. Como es lógico, cuanta mayor sea la información disponible mayor será la probabilidad de éxito. Considérese por ejemplo el caso de la palabra entre. El análisis morfológico nos propone dos posibles categorías: preposición y verbo. La probabilidad de que funcione como preposición es mucho mayor que la de verbo. Si el categorizador por reglas de contexto dispusiera de esta información tendría más elementos para asignar la categoría correcta. Creemos que la incorporación de esta información al sistema no sería excesivamente compleja, consiguiendo a cambio buenos resultados. Otro posibilidad a estudiar sería la recategorización del diccionario Dinámico. En un primer intento se categoriza el texto con ayuda de los diccionarios y las palabras sin categorizar se incorporan al diccionario Dinámico. A continuación se aplican las reglas 243 Capítulo 11. Conclusiones y Líneas Futuras de Investigación de terminación y de contexto. Las primeras están pensadas para categorizar aquellas palabras no encontradas en los diccionarios, es decir, el contenido del diccionario Dinámico; por lo tanto, tras aplicar estas reglas podría recorrerse el diccionario Dinámico incorporando los resultados obtenidos. Por último, queda como línea de investigación abierta, la elaboración de reglas contextuales, con el objetivo de mejorar la Precisión del categorizador. En el Capítulo 9 ya apuntamos los pasos a seguir para la elaboración de estas reglas y creemos que esta tarea, aunque laboriosa, daría muy buenos resultados y supondría una categorización más precisa del texto de entrada. En este caso el objetivo de partida sería conseguir un número medio de categorías por palabra cercano a 1. En la actualidad tenemos un número medio del 1.5 y, como ya mencionamos en el Capítulo 9, trabajando un poco las reglas de contexto podría disminuirse por debajo de 1.2, obteniendo así una buena Precisión. 244 Capítulo 11. Conclusiones y Líneas Futuras de Investigación CAPÍTULO 11 CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN ..................................................................................................................................239 11.1 CONCLUSIONES .....................................................................................239 11.2 LÍNEAS FUTURAS DE INVESTIGACIÓN .............................................241 245