Capítulo 8. Conclusiones y líneas futuras de investigación Pagina 149 8. CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN En este último capítulo, se pretende presentar de forma breve, los puntos fundamentales del trabajo desarrollado, exponer las principales conclusiones, y discutir las líneas de investigación que quedan abiertas. 8.1 CONCLUSIONES Podemos decir, que el objetivo que nos planteamos en un primer momento, se ha conseguido. Hemos conseguido obtener una herramienta capaz de segmentar sintagmáticamente un corpus, a partir de un corpus categorizado, mediante la realización de un análisis en 2 niveles. Esta herramienta, con las gramáticas adecuadas, permitirá que los niveles posteriores en procesos de conversión texto-voz, puedan establecer más cómoda y fácilmente, aquellos lugares de la frase en los cuales, su estructura sintáctica permita la introducción de pausas, de cara a conseguir una lectura automática de la forma más natural que sea posible. Esa segmentación, se ha conseguido, acoplando al sistema inicial del que se partió, un módulo de fragmentación de frases, el cual las dividirá, basándose en información morfo-sintáctica proporcionada por el bloque de categorización de textos, que precede al nuestro en la estructura del conversor texto-voz. Una vez se conseguía segmentar el texto de entrada, se realizaban, como ya se ha dicho, dos análisis a distintos niveles; el primero, intra-sintagmático, y el segundo a nivel inter-sintagmático. En el primer nivel, el programa analiza cómo están formados cada uno de los sintagmas simples en los que se divide cada fragmento de una frase, usando información gramatical almacenada en una gramática, diseñada específicamente para este nivel. En el segundo nivel, se buscan las diferentes relaciones que puede haber entre los sintagmas pertenecientes a una misma frase. En esta segunda fase, dependiendo de la gramática que se incorpore, se estudian las relaciones comparativas, las relaciones de coordinación, las relaciones de complemento (una clase de sintagmas que complementan a otra clase: un sintagma preposicional complementando a un sintagma nominal, a un sintagma adjetival, o incluso a otro sintagma preposicional), etc. Para la realización de ambos análisis, se ha utilizado la misma técnica; el algoritmo CYK en su versión ascendente, el cual se utiliza para comprobar que una frase pertenece al lenguaje (castellano en nuestro caso) y dos gramáticas, una para cada Capítulo 8. Conclusiones y líneas futuras de investigación Pagina 150 nivel de análisis sintáctico. Se han hecho pruebas con dos gramáticas de contexto libre (Montero[99]), aunque en realidad se trata de gramáticas regulares, comprobándose su robustez en cuanto a capacidad de análisis. La salida principal que resultará del procesado sintagmático, será un archivo, donde se especifican los fragmentos en que se ha dividido cada frase, los sintagmas que componen dichos fragmentos y la categorización gramatical sin ambigüedad de las palabras de la frase. A partir de esto, se podrá crear una base de datos de referencia, donde aparecerán los textos analizados, así como porcentajes del total de frases analizadas correctamente, total de fragmentos analizados correctamente, media de fragmentos en los que se divide una frase, longitud media de las frases y los fragmentos analizados (en número de palabras), y al fin y al cabo, información que nos puede dar una visión global de las prestaciones que tiene nuestro sistema. Finalmente, se ha logrado integrar todo el sistema completo, en un entorno gráfico diseñado con la herramienta "ObjectWindows", el cual proporciona una interfaz más atractiva entre el usuario y el analizador. Como novedad, se ha integrado en el entorno gráfico desarrollado, el módulo previo (dentro de la estructura de un conversor texto-voz) al análisis sintagmático que realiza nuestro sistema. Este bloque al que nos referimos, es aquel que preprocesa y categoriza gramaticalmente el texto de entrada, y que está explicado en Jiménez[99] y Montero [2000]. 8.2 LÍNEAS FUTURAS DE INVESTIGACIÓN Entre las posibles líneas que quedan abiertas con este proyecto podemos destacar: • • • • • Incorporación del compilador de gramáticas de contexto libre, actualmente disponible como una herramienta separada para entorno MSDOS. Creación semiautomática de un corpus segmentado del castellano, que sirva de referencia para el desarrollo de gramáticas generales de orientación sintagmática, aprovechando la disponibilidad de los córpora de entrenamiento y evaluación ya categorizados. Desarrollo y evaluación formal de gramáticas robustas para el castellano, empleando la herramienta, con especial énfasis en la estrategia de quedarse con el "análisis más simple" (Montero[99]). Estudiar técnicas semiautomáticas de perfeccionamiento o inferencia de gramáticas, que corrijan los errores de una gramática dada, sea de modo supervisado o no supervisado. Mejora de la presentación de los árboles sintácticos: visualización en modo gráfico, resaltar las diferencias entre 2 análisis similares dados (Montero[92]), etc. Capítulo 8. Conclusiones y líneas futuras de investigación 8. Pagina 151 CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN .............................................149 8.1 Conclusiones .......................................................................................................................149 8.2 Líneas futuras de investigación ............................................................................................150