Informe Técnico LEGOLANG-UAge 01/2013 Propuesta de modelo deconstructivista LEGOLANG-UAge Conclusiones reunión trabajo 8/11/2013 Patricio Martínez-Barco Modelo deconstructivista • Objetivos – Diseñar un modelo de representación de los procesos de TLH que, basándose en aproximaciones de ingeniería del software, pueda servir como mecanismo para describir y comprender conceptualmente el funcionamiento del proceso a través de la descomposición del mismo en unidades atómicas de procesamiento TLH. • Estandariza la representación de cualquier proceso en GPLSI para su reutilización • Si usamos un gráfico en nuestras publicaciones deberíamos usar este estándar – Crear un estándar de comunicación lógica entre procesos de TLH que nos permita conectar cada uno de los módulos con una interfaz común – Crear un estándar de prototipado de procesos TLH mediante la implementación física de las unidades atómicas de procesamiento TLH Arquitectura deconstructivista • Inspirada en modelo ANSI/Sparc de BDs Nivel conceptual Representación conceptual de un proceso de TLH. Es un ejercicio intelectual. Se trata de tener claro cómo se descompone el proceso en sus partes atómicas para comprenderlo. Se representa mediante un modelo conceptual. Es independiente del formalismo y la implementación usada para definirlo. Nivel lógico Mecanismo lógico mediante el cual se formaliza (se formula) la representación conceptual del proceso de TLH. Basado estructuras de información estandarizadas. Es independiente del mecanismo de implementación usado Nivel físico Implementación de los formalismos lógicos usados para la representación conceptual del proceso. Modelo conceptual LEGOLANGUAGE Mecanismos de abstracción: clasificación •Ladrillo (inicial, intermedio, final, enriquecido) •Herramienta •Recurso inicial inter medio final unique ID unique ID unique ID value tool resource enriqu ecido Modelo conceptual LEGOLANGUAGE Mecanismos de abstracción: agregación unique ID parity value decomp • • • • • • • decomp: ladrillos descompuestos en unidades de menor grano recomp: ladrillos recompuestos en unidades de mayor grano parity: ladrillos que refieren el mismo item input: ladrillos fuente para herramientas output: ladrillos generados por herramientas model: recursos que modelan/entrenan herramientas content: ladrillos que forman/etiquetan el recurso recomp content unique ID resource unique ID input model tool output Representación conceptual de un proceso de análisis sintáctico Textual: word Lexico: POS ambiguo R00001 Lexicon1 H00002 H00004 AnalizarLexico1 Parser1 H00001 H00003 Segmentador1 POS1 Textual: sentence Textual: word Posición: Carácter Lexico: POS ambiguo Lexico: POS descartado Lexico: POS no ambiguo Sintax: Parser superficial Posición: Carácter Secuencia de deconstrucción H00002 H00001 AnalizarLexico1 Segmentador1 T0001S001WR001 T0001S001PS001 T0001S001LX001 T0001S001LX004 La 0-1 DetFS PronFS T0001S001 T0001S001WR002 T0001S001PS002 T0001S001LX002 T0001S001LX005 La casa verde tiene ventanas casa 2-5 SusFS Verb T0001S001WR003 T0001S001PS003 T0001S001LX003 verde 6-10 Adj Textual Textual Posición Lexico Sentence Word Carácter POS ambiguo Secuencia de deconstrucción H00003 H00004 POS1 Parser1 T0001S001LX004 T0001S001LX001 PronFS DetFS T0001S001LX005 T0001S001LX002 T0001S001SY001 T0001S001PS001 Verb SusFS SN 0-10 T0001S001LX003 Adj Lexico Lexico Sintaxis Posición POS descartado POS desambiguado Parser superficial Carácter Representación conceptual de un proceso NER enriquecido con imágenes + geolocalización NE: Loc Imagen: NE: Loc Posición: GeoCoordenada NER: Loc R00002 NE diccionario R00003 Google Images R00004 Google Maps H00004 H00003 H00005 RI imagenes NER lugar Textual: word Lexico: POS no ambiguo Posición: Carácter NE: Loc Posición: Carácter Imagen: RI geoposición Posición: GeoCoordenada Estructura enriquecida a almacenar Modelo lógico • Ontología Legolanguage (instancias estables) – Identifica tipos de ladrillos, herramientas, recursos – Instancia las herramientas y recursos • Fénix – Instancia los ladrillos Aproximación a Onto-Legolanguage PLN parity decomp recomp contain Lbrick textual recs input output léxico posición model tool sintaxis POS párrafo oración palabra rol Carácter inicio-fin ambiguo descartado semántica desambiguado Modelo físico • Ontología OntoLegolanguage – Se implementa con Protegé, OWL-DL,… • Fénix – Se implementa con Java, … • Implementación de herramientas y recursos Resumen arquitectura LEGOLANGUAGE Conceptual unique ID unique ID unique ID value tool resource Lógico Físico Java Protegé