Desarrollo de Recursos para el Análisis Sintáctico Automático del

Anuncio
Desarrollo de Recursos para el Análisis
Sintáctico Automático del Español: AVALON,
una gramática formal y CSA, un corpus
sintácticamente analizado
M.a Paula Santalla del Río1
mpaula.santalla@usc.es
1 Departamento de Lengua española
Universidad de Santiago de Compostela
XXVII Congreso de la Sociedad Española para el
Procesamiento del Lenguaje Natural
Huelva, septiembre, 5-7, 2011
ge
M.a Paula Santalla
DRASAE
Datos del proyecto
Título y acrónimo: Desarrollo de Recursos para el Análisis
Sintáctico Automático del Español: AVALON, una
gramática formal y CSA, un corpus sintácticamente
analizado, DRASAE
Período de realización: 2011-2013
Investigadora principal: M.a Paula Santalla
Otros investigadores miembros del equipo solicitante: Iria
del Río, Guillermo Rojo, Susana Sotelo. Investigadores
contratados: Fco. Mario Barcala, Eva M.a Domínguez
Sede: Universidad de Santiago de Compostela
Entidad financiadora: Dirección Xeral de Investigación,
Desenvolvemento e Investigación de la Consellería de
Economía e Industria de la Xunta de Galicia
URL: http://gramatica.usc.es/proxectos/drasae/
M.a Paula Santalla
DRASAE
ge
Objetivos
Mejora y desarrollo de un recurso lingüístico
preexistente, una gramática formal del español
(AVALON)
Creación del entorno necesario para la producción
de un corpus sintácticamente analizado (CSA),
desarrollo del corpus
ge
M.a Paula Santalla
DRASAE
Desarrollo de AVALON
Gramática formal en el formalismo AGFL, a partir de
la cual puede generarse un analizador sintáctico
automático, para el análisis sintáctico exhaustivo del
español
Modular vertical (módulo frasal y clausal) y
horizontalmente (módulos de tipos de frases y
cláusulas). Completado el módulo frasal, el proyecto
se propone completar los que sea posible de los
módulos de tipos de cláusulas
Haciéndolo a partir de la extracción jerarquizada de
datos acerca de tipos de cláusulas de BDS (Base de
Datos Sintácticos, USC): número de argumentos
explícitos, frecuencia de orden de argumentos
explícitos, frecuencia de la combinación de presencia
de clíticos, voz y esquema verbal
M.a Paula Santalla
DRASAE
ge
Desarrollo de CSA
Corpus sintácticamente analizado de manera exhaustiva,
en consonancia con AVALON
Desarrollo manual, modelo wiki. . . (entorno colaborativo y
controlado para la edición por múltiples usuarios de
páginas web), corpus inicial: prosa de ARTHUS (narrativa,
ensayo y prensa, teatro), apoyo en el análisis de BDS
BDS: análisis clausal funcional, argumentos del verbo—CSA: a ello
añade: organización jerárquica de las cláusulas, análisis frasal, análisis
de lo que rebasa el nivel clausal y frasal (tratamiento de la oración y
“sintaxis textual”). De un análisis plano-unidimensional a un análisis
jerárquico-bidimensional
Proceso: segmentación, almacenaje en aplicación wiki,
selección de segmento de análisis por el anotador,
análisis manual (55 etiquetas de funciones y unidades)
apoyado en BDS, procesamiento para visualización en
forma de árbol ( Linguistic Tree Constructor, Treebolic2,
phpSyntaxTree, TreeForm Syntax Tree, Syntax Tree
Drawer. . . )
M.a Paula Santalla
DRASAE
ge
AVALON y CSA
Codifican el mismo tipo de análisis
Convergen en dos sentidos: AVALON progresa para
en el futuro servir para el enriquecimiento automático
de CSA, CSA se crea y progresa para proporcionar
al desarrollo de AVALON datos reales acerca de
aquello de lo que no los proporciona BDS:
estructuras de frases, jerarquización de cláusulas,
nivel oracional, “sintaxis textual”
A corto o medio plazo: secciones desgajadas de
AVALON se utilizarán para análisis semiautomático
de CSA
ge
M.a Paula Santalla
DRASAE
Gracias a todos
ge
M.a Paula Santalla
DRASAE
Descargar