1. Tabla de contenido 2. Propuesta para la estructura del L-Brick ............................................................................... 1 I. Líneas generales ................................................................................................................ 1 II. Casos prácticos .................................................................................................................. 2 a) Corpus de preguntas y sus correspondientes respuestas ............................................. 2 2. Propuesta para la estructura del L-Brick I. Líneas generales Que haya un L-Brick para cada herramienta o recurso que lo describa exhaustivamente y que sirva para comunicarse con el resto de herramientas/recursos/L-Bricks o Con esto conseguiríamos facilitar el uso indistinto de herramientas o recursos o Información que debería contener: entrada, salida, formatos, objetivos, conjunto de etiquetas, autor, licencia, etc. o Una de las operaciones del L-Brick podría ser un constructor del ladrillo a partir de una herramienta/recurso etiquetada en formato NIF u otros formatos (RDF, XML, etc) Que haya una ontología “guía” que distinga entre los distintos niveles de análisis del texto, y que sirva para integrar/comunicar las distintos herramientas/recursos/L-Bricks o Las ontologías son a su vez recursos, por lo que quizás habría que estudiar la posibilidad de que esta ontología “guía” se la considere también un L-Brick o Por ejemplo, en una de las ramas de la ontología estaría el nivel léxico: Dicho nivel recogería información estándar: palabra, lema, posición, etiqueta, información morfológica, información del sentido, etc. El L-Brick de una herramienta léxica se mapearía con la información de ese nivel. Pero en el caso que dicha herramienta generase información adicional a la ahí expuesta, en su L-Brick se añadirían nuevos campos que se enlazarían/referenciarían en la ontología. El L-Brick de un recurso, por ejemplo un corpus, seguiría el mismo proceso, enlazando el nuevo conjunto de etiquetas que utilice y la nueva información que tenga etiquetada (p.ej. número de cláusula o referencia anafórica). Los XL-Bricks se formarían a partir de los L-Bricks anteriores que servirían para estandarizar el uso de herramientas/recursos II. Casos prácticos a) Corpus de preguntas y sus correspondientes respuestas Explicación de las siguientes figuras: Cada recurso o herramienta ha de tener su L-Brick que detalle el formato de entrada/salida: o Los tipos de cada atributo se corresponderán con la ontología guía que propongo en la última figura. o Al añadir nuevos recursos/herramientas, dicha ontología se irá enriqueciendo (los nodos que aparecen en color azul), estableciendo las herencias y equivalencias correspondientes (por ejemplo entre conjunto de etiquetas de diferentes POS-taggers, así estableciendo la equivalencia entre la etiqueta FIA e INT). De cada recurso/herramienta se generarán los L-Bricks correspondientes de cada caso concreto: o Cada L-Brick ha de tener un identificador único. Ese identificador se irá heredando conforme se creen nuevos L-Bricks. Por ejemplo, tendríamos ID=1 de la pregunta del corpus. Los L-Bricks de cada palabra una vez etiquetada por cualquier tagger (POS-Tagger #1, #2), heredaría ese ID, añadiéndosele la información adicional necesaria para identificar la información que se está etiquetando (en este caso sería la posición de inicio y final de la palabra, puesto que podría variar la segmentación en palabras de una herramienta a otra, esto deberían ser punteros físicos). De este modo al tener disponibles los L-Bricks de las palabras de la pregunta según diferentes POS-taggers, un clasificador automático podría recogerlos como entrada, eligiendo la salida de uno de los POStaggers o bien estableciendo un algoritmo de voting. Para realizar el enlace entre términos de la pregunta o de la respuesta con DBpedia o cualquier otra ontología o taxonomía se realizaría de forma similar a la que propongo con la equivalencia entre nodos de la ontología y los enlaces entre L-Bricks (por ejemplo los del sintagma correspondiente con la URI de DBpedia). ID: 1 Q: ¿Quién es el presidente de los EE.UU.? T: PERSONA A: Barack Obama ID_R: CP1 ID: integer Q: pregunta T: et_tipo_respuesta A: string POS-Tagger #2 POS-Tagger #1: ID_H: PT#2 W: palabra POS1: et_léxica POS2: et_léxica POS3: et_léxica ID_H: PT#1 T: palabra L: lema POS: et_léxica ID: 1 POS_I: 0 POS_F: 1 ID_H: PT#2 W: ¿ POS1: INT ID_R: CP1 ID: 1 Q: ¿Quién es el presidente de los EE.UU.? T: Persona A: Barack Obama ID: 1 POS_I: 0 POS_F: 1 ID_H: PT#1 T: ¿ L: ¿ POS: Fia ID: 1 POS_I: 1 POS_F: 2 ID_H: PT#1 T: Quién L: quien POS: PT0CS … ID: 1 POS_I: 1 POS_F: 2 ID_H: PT#2 W: Quién POS1: PRON_INTERROG POS2: PRON_RELATIVO … ONTOLOGÍA GUÍA (color verde) Lo añadido por los recursos y herramientas en color azul NLP Análisis Léxico Texto Frase Clausula POSTagger Palabra owl:equivalentClass owl:equivalentClass Pregunta W T Análisis Sintáctico Segmentador de frases owl:equivalentProperty Et_léxica Lema Palabra_ Texto owl:equivalentClass Q Fia INT owl:equivalentClass PT0CS PRON_INTERROG owl:equivalentClass