capítulo 11 conclusiones y líneas futuras de investigación

Anuncio
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
CAPÍTULO 11
CONCLUSIONES Y LÍNEAS FUTURAS
DE INVESTIGACIÓN
Este último Capítulo pretende presentar de forma breve los puntos fundamentales
del trabajo desarrollado, exponer las principales conclusiones obtenidas y discutir las
líneas de investigación que quedan abiertas.
11.1 CONCLUSIONES
El proyecto se ha centrado en los sistemas de conversión de texto a voz
pertenecientes al ámbito de las Tecnologías del Habla y, más concretamente, en el
preprocesamiento y categorización gramatical del texto. Este trabajo puede dividirse en
tres partes: Preprocesamiento del texto de entrada, Análisis Morfológico y
Categorización por reglas. Cada una de estas partes depende fuertemente de la anterior;
así, para realizar el análisis morfológico es necesaria la segmentación del texto en
unidades básicas de análisis (palabras), y cuanto más completo sea el análisis
morfológico mayor será la eficiencia de las reglas y, en consecuencia, mejores serán los
resultados obtenidos.
239
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
La principal conclusión del módulo de Preprocesamiento (Capítulo 5) es que la
preparación del texto de entrada es fundamental para el buen funcionamiento de los
restantes módulos del conversor texto-voz y en particular para el análisis lingüístico. La
salida de este módulo es un texto segmentado en frases, y éstas a su vez en palabras,
donde ya se han detectado ciertas unidades que requieren un tratamiento especial
(siglas, abreviaturas, números, etc.). En ocasiones se considera la preparación del texto
de entrada como un proceso trivial previo al análisis lingüístico. Nada más lejos de la
realidad. La delimitación de las palabras que componen una frase presenta varios
problemas debido a la existencia de signos de puntuación ambiguos. El porecentaje de
error del segmentador de frases es del 0.42 %, por lo que la división del texto es frases
es bastante fiel a la realidad.
Otra conclusión importante es que el reconocimiento de unidades especiales debe
realizarse antes del análisis lingüístico, ya que de esta manera se obtienen mejores
resultados. Por otra parte, la metodología propuesta para el tratamiento de las unidades
especiales permite la detección y categorización simultánea de las mismas, realizando
así dos tareas de una sola vez.
El detector de unidades especiales funciona muy bien con los números, fechas,
horas, siglas, nombres propios y palabras extranjeras con una tasa de error aceptable. En
números, fechas y horas el porcentaje de acierto es del 100 %; el porcentaje de error en
la detección de siglas es del 2.23 % y el de nombres propios del 1.11 %. En el caso de
las palabras y nombres propios extranjeros la tasa de error es del 0.72 % y 0.68 %,
respectivamente. Donde más dificultades encontramos fue con los números romanos,
con una tasa de error superior al 10%. Por este motivo adoptamos un esquema de
trabajo distinto; los números romanos se detectan en el módulo de Preprocesamiento
pero de su categorización se encarga el categorizador por reglas. Los resultados finales
confirman el acierto de esta decisión.
Los Capítulos 6 y 7 abordan el tema del Análisis Morfológico. La principal
conclusión es que cuanto mayor sea la información disponible más completo será el
análisis y mayor será la probabilidad de presentar la solución correcta entre todas las
posibles. Nuestra metodología consiste en dar al analizador morfológico la mayor
cantidad de información léxica. Los diccionarios utilizados nos permiten cubrir más de
160.000 palabras, considerando sustantivos, adjetivos, adverbios, pronombres y
240
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
conjunciones, 60037 nombres propios, más de 11000 infinitivos y 1849 locuciones. El
porcentaje de texto categorizado por diccionario es superior al 97 % para los artículos
de El Mundo y del 99.9 % para los Textos 860.
El Capítulo 8 está dedicado al corpus utilizado para el entrenamiento y
evaluación del categorizador. El objetivo era comprobar la fiabilidad de este corpus
como modelo de categorización. La imprecisión de los Textos 860 es del 0.56 %, por lo
que se concluye que la calidad de la categorización manual es alta para un corpus de
este tamaño (316990 palabras).
En el Capítulo 9 se evalúa el Categorizador Gramatical. Nuestro objetivo inicial
era conseguir un buen Recall, comparable al de otros sistemas actuales. El Recall
obtenido es superior al 99 %, por lo que podemos concluir que este objetivo inicial ha
sido plenamente conseguido. Para confirmar los resultados obtenidos hemos comparado
nuestro sistema con otros tres categorizadores, comprobando que nuestro resultados son
similares a los suyos, considerando por supuesto la diferencia de criterios y condiciones
de trabajo de cada sistema.
Por otra parte, hemos realizado varias pruebas para evaluar las reglas existentes,
tanto de terminación como de contexto, con el propósito de establecer los pasos a seguir
para mejorar el número medio de categorías por palabra y conseguir así una buena
Precisión, aunque debemos puntualizar que estos no eran nuestros objetivos.
Como conclusión final podemos decir que hemos implementado un sistema de
preprocesamiento y categorización gramatical válido para cualquier conversor textovoz, sea del tipo que sea, cuyos resultados superan a las versiones anteriores y son
equiparables a los de otros sistemas desarrollados en la actualidad.
11.2 LÍNEAS FUTURAS DE INVESTIGACIÓN
El trabajo efectuado ha dejado líneas abiertas para posibles investigaciones
futuras. A continuación proponemos las que nos parecen más importantes.
El sistema está pensado para procesar cualquier tipo de texto, sin embargo, en la
actualidad está especialmente adaptado a un tipo concreto: los artículos del periódico El
241
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
Mundo. Ofrece también la posibilidad de procesar texto categorizado siempre que se
ajuste al formato adoptado. La pregunta que nos planteamos es: ¿qué ocurriría con otro
tipo de textos? En este sentido podrían realizarse pruebas con artículos de otros
periódicos, así como con textos literarios, científicos, novelas, cuentos, ... para analizar
la dependencia del sistema respecto al texto de entrada. La necesidad actual de los
conversores texto-voz es la flexibilidad del sistema, para lo cual es fundamental la
independencia del texto de entrada, lo que se conoce como análisis de texto sin
restricciones.
En el módulo de Análisis Morfológico se estudia la morfología derivativa, es
decir, la formación de palabras mediante prefijación, como por ejemplo antisocial. El
tratamiento de estas palabras es el siguiente: se descompone la palabra en prefijo (anti)
y raíz (social), se busca la raíz en los diccionarios y si se encuentra se categoriza la
palabra considerada con la categoría que figura en el diccionario. En el ejemplo anterior
se encontraría social en el diccionario como adjetivo calificativo y esta categoría se
asignaría a antisocial. Otro procedimiento para la formación de palabras es la
incorporación de sufijos aumentativos, diminutivos y despectivos. Por ejemplo, de
mano, manaza, de abuelo, abuelito o de bicho, bicharraco. La forma de tratar estas
palabras es similar a la descrita para los prefijos: se identificaría el sufijo concreto con
ayuda de la lista elaborada para tal fin, se separaría el lexema del sufijo y se
recompondría la palabra raíz utilizando la información de género y número del sufijo
identificado. A continuación se buscaría la raíz en los diccionarios y se categorizaría la
palabra inicialmente considerada con la categoría encontrada en el diccionario.
Consideremos por ejemplo el caso de abuelito. Se identificaría el sufijo –ito en la lista
de sufijos con género masculino y número singular. Con esta información y el lexema
abuel se obtendría la raíz: abuelo. Se buscaría abuelo en los diccionarios, encontrándose
como nombre común masculino singular y se asignaría esta categoría a abuelito.
Creemos que con ello quedaría totalmente completado el módulo de Análisis
Lingüístico.
Otra mejora que podría añadirse al sistema sería la división del reconocimiento y
categorización de locuciones en dos partes. En la actualidad esta labor se realiza dentro
del análisis morfológico, pero podrían mejorarse los resultados posponiendo la
categorización de algunas locuciones al módulo de categorización por reglas de
242
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
contexto. Hemos observado que ciertas locuciones van siempre acompañadas por
determinados verbos y forman parte de construcciones muy concretas, fáciles de
detectar mediante análisis contextual. Es el caso de poner_en_marcha, hacer_frente_a o
estar_en_forma. Estas expresiones funcionan como locuciones, pero cuando no van
acompañadas de estos verbos deben analizarse de forma independiente; como por
ejemplo en la frase:
En el caso de que las informaciones y los argumentos necesarios no se
transmitan en forma adecuada en el plazo antes mencionado, las autoridades
comunitarias podrán establecer conclusiones.
El procedimiento a seguir sería separar las locuciones que requieren ir
acompañadas de ciertos verbos o que forman parte de determinadas construcciones de
las restantes y formar con ellas un diccionario. Las restantes locuciones se detectarían y
categorizarían en el módulo de Análisis Morfológico y este otro conjunto se
categorizaría en la parte de categorización por reglas, bien como locuciones, bien de
forma separada, en función del contexto en el que se encuentren.
Otra línea de trabajo interesante sería la incorporación de información de
frecuencia a la lista de posibles categorías de una palabra. El objetivo es facilitar la
desambigüedad léxica, de manera que a la hora de resolver este problema el sistema
conozca cuál de las posibles categorías de la palabra considerada es la más probable.
Como es lógico, cuanta mayor sea la información disponible mayor será la probabilidad
de éxito. Considérese por ejemplo el caso de la palabra entre. El análisis morfológico
nos propone dos posibles categorías: preposición y verbo. La probabilidad de que
funcione como preposición es mucho mayor que la de verbo. Si el categorizador por
reglas de contexto dispusiera de esta información tendría más elementos para asignar la
categoría correcta. Creemos que la incorporación de esta información al sistema no sería
excesivamente compleja, consiguiendo a cambio buenos resultados.
Otro posibilidad a estudiar sería la recategorización del diccionario Dinámico. En
un primer intento se categoriza el texto con ayuda de los diccionarios y las palabras sin
categorizar se incorporan al diccionario Dinámico. A continuación se aplican las reglas
243
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
de terminación y de contexto. Las primeras están pensadas para categorizar aquellas
palabras no encontradas en los diccionarios, es decir, el contenido del diccionario
Dinámico; por lo tanto, tras aplicar estas reglas podría recorrerse el diccionario
Dinámico incorporando los resultados obtenidos.
Por último, queda como línea de investigación abierta, la elaboración de reglas
contextuales, con el objetivo de mejorar la Precisión del categorizador. En el Capítulo 9
ya apuntamos los pasos a seguir para la elaboración de estas reglas y creemos que esta
tarea, aunque laboriosa, daría muy buenos resultados y supondría una categorización
más precisa del texto de entrada. En este caso el objetivo de partida sería conseguir un
número medio de categorías por palabra cercano a 1. En la actualidad tenemos un
número medio del 1.5 y, como ya mencionamos en el Capítulo 9, trabajando un poco las
reglas de contexto podría disminuirse por debajo de 1.2, obteniendo así una buena
Precisión.
244
Capítulo 11. Conclusiones y Líneas Futuras de Investigación
CAPÍTULO 11 CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN
..................................................................................................................................239
11.1
CONCLUSIONES .....................................................................................239
11.2
LÍNEAS FUTURAS DE INVESTIGACIÓN .............................................241
245
Descargar