Software para la evaluación de la ambigüedad en textos legales Software tool for the evaluation of the ambiguity in legal texts Yarina Amoroso Fernández Yordanis Garcia Leiva Marilé Lemus Martinez Profesores del Centro de Gobierno Electrónico, Universidad de Ciencias Informáticas, Cuba. Resumen La ambigüedad es el término que hace referencia a aquellas estructuras gramaticales que pueden entenderse de varios modos o admitir distintas interpretaciones y dar, por consiguiente, motivo a dudas, incertidumbre o confusión. En el lenguaje legal está presente este problema lo cuál dificulta la comprensión y aplicación de las normas jurídicas. El artículo expone el desarrollo de una herramienta informática que permite evaluar la ambigüedad presente en los textos legales, tomando como fuente la legislación cubana. La solución informática funciona con reglas definidas por los autores a partir del análisis de técnicas del procesamiento del lenguaje natural y la minería de texto, permiten identificar qué tipo de ambigüedades presenta un texto, su localización en el documento y el nivel de ambigüedad total que presenta el texto. Contribuir a resolver los problemas de ambigüedad en el Derecho ha sido una preocupación de los precursores de la Informática Jurídica, el resultado que se presenta en una contribución a seguir buscando soluciones tecnológicas en el ámbito jurídico. Palabras clave: Informática Jurídica, minería de texto, procesamiento del lenguaje natural, reglas, Lenguaje jurídico. Abstract Ambiguity is the term that refers to those grammatical structures that can be understood in various ways or to support different interpretations and therefore reason to doubt, uncertainty or confusion. In legal language this problem which hinders the understanding and application of legal norms is present. The article describes the development of a software tool to evaluate the ambiguity present in legal texts, using as source the Cuban legislation. The software solution works with defined by the authors from the analysis of techniques of natural language processing and text mining rules, to identify what kind of ambiguity presents a text, its location in the document and the overall level of ambiguity which has the text. Contribute to solving the problems of ambiguity in the law has been a concern of the precursors of Legal Informatics, the result presented in a contribution to keep looking technological solutions in the legal field. Keywords: ambiguity, natural language processing, rules, software tool, text mining Introducción La variedad de estructuras lingüísticas y reglas gramaticales que caracterizan los lenguajes naturales1, complejizan en ocasiones el entendimiento de determinados escritos, originando ambigüedad en la comprensión e interpretación de los mismos. La ambigüedad en un escrito se identifica cuando a través del análisis de un contexto no es posible determinar el significado de una palabra o una oración en general. La existencia de textos ambiguos da lugar a la ocurrencia de incertidumbre, duda e indefinición en la comprensión de un contexto. La ambigüedad en los textos parte de las características del lenguaje natural, en el cual existen múltiples expresiones y palabras que pueden tener diferentes significados, en dependencia de las circunstancias de uso. Este problema puede tratarse a partir de distintas perspectivas, desde la ambigüedad debida a palabras polisémicas2, hasta la ambigüedad producida por las diferentes interpretaciones que pueda tener una oración. 1 Lenguaje Natural: es la lengua o idioma hablado o escrito por humanos para propósitos generales de comunicación 2 Polisémicas: palabras que tienen varios significados, ejemplo Sierra es una Herramienta para cortar madera y a la vez significa Cordillera de montañas de picos afilados. Cada uno de estos tipos de manifestaciones de la ambigüedad en un texto, corresponde a una clasificación (sintáctica, léxica o semántica). La ambigüedad puede estar presente en textos de diferentes orígenes; los jurídicos no están exentos de la existencia de este fenómeno que interfiere en la comprensión de los mismos. Por ello, este asunto es un tema de investigación que ha acompañado a las ciencias jurídicas en conjunto con las ciencias filológicas y la lingüística computacional, para llegar a contar con herramientas que basadas en reglas y modelos de redacción de documentos legales ayuden a los operadores jurídicos a redactar y revisar los documentos que emiten, a través de la incorporación de la informática en los procesos de almacenamiento, tratamiento y distribución de la información jurídica. En el ámbito internacional se han obtenido métodos y herramientas que permiten reducir la ambigüedad en diferentes tipos de contextos, ejemplo de esto lo constituye las herramientas Natural Language Toolkit (NLTK) y 3LB-SAT (3LB-Herramienta de Anotación Semántica), las cuales a pesar de contar con funcionalidades para detectar los sentidos de la palabra y hacer análisis sintáctico y semántico, características fundamentales para la representación de ambigüedades, aun no son capaces de representar las ambigüedades en todos los sentidos. En el ámbito del Derecho existen pocos avances en el diseño e implementación de soluciones informáticas que posibiliten mejorar la compresión de textos jurídicos y reducir la ambigüedad existente en los mismos. Por ello la Sociedad Cubana de Derecho e Informática, organización académica que contribuye al desarrollo de la Informática Jurídica en Cuba y el Centro de Gobierno de Electrónico de la Universidad de Ciencias Informáticas unen esfuerzos para la identificación de los problemas de ambigüedad presentes en los textos legales, caracterizados por: • La existencia de dificultades lingüísticas que posibilitan la ocurrencia de ambigüedad en la interpretación de los términos. • Incertidumbre en la interpretación y comprensión de los escritos. • Inconsistencia en el análisis de contenidos. • Baja comprensión de los textos. A partir de la problemáticas identificadas se procede a investigar el estado del arte del tema con el objetivo de desarrollar una herramienta informática que permita evaluar la ambigüedad presente en los textos legales, tomando como fuente la legislación cubana. Desarrollo Definición y clasificación de la ambigüedad en un texto Ambigüedad: término que hace referencia a aquellas estructuras gramaticales que pueden entenderse de varios modos o admitir distintas interpretaciones y dar, por consiguiente, motivo a dudas, incertidumbre o confusión (Ramos, 2012). Ambigüedad: puede presentarse cuando es posible admitir diferentes interpretaciones a partir de la representación de una oración; también, se presenta cuando existe confusión al tener diversas estructuras asociadas a la misma oración (Zapata, y otros, 2007). Se distinguen tres tipos principales de ambigüedad: léxica, sintáctica y semántica. Según la autora (Ramos, 2012): Ambigüedad sintáctica: también conocida como estructural, es aquella que se presenta en oraciones de tal manera que estas puedan ser representadas por más de una estructura sintáctica. Por ejemplo, en la oración: “María habló con el profesor del instituto”, se puede entender dos cosas diferentes: • el profesor pertenece al instituto. • el tema del que habló María con el profesor fue el instituto. Ambigüedad léxica: la ambigüedad léxica de una palabra o una frase consiste en los múltiples significados que tiene una palabra, tal como puede quedar reflejado en un diccionario; a este fenómeno en el español se le denomina polisemia. Ambigüedad semántica: es aquella que se presenta en una expresión, de tal manera que esta puede expresar diferentes sentidos dependiendo del contexto local, el tópico global y el mundo pragmático en el que se manifiesta. Por ejemplo, la expresión banco pequeño puede significar institución financiera pequeña, la orilla de un lago, asiento de poco tamaño. Técnicas para la evaluación de la ambigüedad en un texto El Procesamiento del Lenguaje Natural (PLN) es una disciplina estrechamente vinculada con la minería de texto, que combina la lingüística computacional y la informática con el fin de modelar el lenguaje humano desde el punto de vista computacional. El PLN está basado en entender el lenguaje humano para poder explotar el conocimiento lingüístico de los textos, mientras que la minería de texto se enfoca en la extracción de información e identificación de patrones en los mismos. Existen técnicas que permiten la evaluación de la ambigüedad tanto desde el PLN o desde la minería de textos. Desde el PLN existen varios métodos de desambiguación de sentido de palabras (WSD)3, los cuales se clasifican según los recursos que utilizan en: diccionarios, corpus o programación directa. (Ramos, 2012). Diccionarios: 3 Es el problema de seleccionar un sentido de un conjunto de posibilidades predefinidas para una palabra dada en un texto o discurso (Ramos, 2009) Los métodos que utilizan diccionarios pueden ser de sentidos y otros como WordNet4. Estos proporcionan una lista de sentidos para las palabras. Los métodos que utilizan sólo diccionarios de sentidos, buscan elegir un sentido (de esta lista) para cada palabra en un texto dado, tomando en cuenta el contexto en el que aparece. Además existen algoritmos como el de Lesk que utilizan no sólo diccionarios de sentidos, sino diccionarios como WordNet (Ramos, 2012). Corpus: Los métodos que utilizan corpus pueden ser no marcados y marcados. Los no marcados son los no supervisados, estos utilizan recursos como WordNet para poder asignar un sentido a cada palabra que aparece en los textos no marcados. Consisten básicamente en elegir de un diccionario las palabras relacionadas con la palabra a desambiguar. Por otra parte, los marcados son los métodos supervisados. Los cuales reducen la desambiguación de sentidos de palabras a un problema de clasificación, donde a una palabra dada se le asigna el sentido más apropiado de acuerdo a un conjunto de posibilidades, basadas en el contexto en el que ocurre (Ramos, 2012). Programación directa: Estos métodos se basan en reglas que especifican el sentido de una palabra de acuerdo al contexto en el que aparece. Un ejemplo son las restricciones de selección, las cuales definen reglas de acuerdo a la palabra a desambiguar y su argumento. Ejemplo: el verbo comer puede tener como restricción que su tema argumento sea comida (comer-comida) (Ramos, 2012). 4 Diccionario electrónico semántico que tiene como fin la construcción de una base de datos léxico-semántica para las lenguas castellano, holandés, italiano e inglés. La minería de texto también adopta un conjunto de técnicas procedentes de la recuperación de la información y la lingüística computacional, encaminadas a reducir la ambigüedad en textos. Estas técnicas incluyen: Pre-procesamiento de los documentos: Consiste en extraer las palabras utilizadas en un documento, o segmentar el texto en distintas formas gráficas. Incluye la eliminación de los signos de puntuación y palabras vacías, así como la extracción de las palabras (Brun, y otros, 2004). Identificación de nombres propios: La extracción de nombres propios relativos a personas, organizaciones, eventos, funciones, así como cantidades monetarias y fechas, es una de las principales funciones que debe satisfacer la minería textual. También debe permitir identificar las relaciones que existen entre estos nombres propios y constatar así hechos descritos en los documentos (Brun, y otros, 2004). Categorización automática: Se utiliza para clasificar los documentos en categorías preestablecidas. Existen dos tipos de categorización: etiqueta simple y etiqueta múltiple. En el primero se asigna a cada documento una única categoría. En el segundo, un mismo documento puede asignarse a más de una categoría (Brun, y otros, 2004). Las características de los diferentes tipos se ambigüedad que existen y las técnicas antes descritas, fueron aplicadas en el diseño de un conjunto de reglas, que constituyen una guía para la implementación de la herramienta informática descrita en el artículo, la cual permite identificar qué tipo de ambigüedades presenta un texto de la legislación cubana, su localización en el escrito y el nivel de ambigüedad total que presenta el texto. Reglas definidas Para evaluar la ambigüedad sintáctica: Regla 1: si una frase contiene más de una conjunción sintácticamente ambigua y dichas conjunciones pertenecen al grupo de conjunciones coordinantes copulativas (y, e, ni, que), entonces la frase presenta ambigüedad coordinativa copulativa. Regla 2: si una frase contiene más de una conjunción sintácticamente ambigua y dichas conjunciones pertenecen al grupo de conjunciones coordinantes disyuntivas (o, u, sea, bien), entonces la frase presenta ambigüedad coordinativa disyuntiva. Regla 3: si una frase contiene más de una conjunción sintácticamente ambigua y dichas conjunciones pertenecen al grupo de conjunciones coordinantes disyuntivas o al grupo de conjunciones coordinantes copulativas entonces la frase presenta ambigüedad coordinativa mixta. Regla 4: si una frase contiene al menos una preposición separable (a, con, de, en), que sea sintácticamente ambigua entonces la frase presenta ambigüedad preposicional. Para evaluar la ambigüedad léxica: Regla: si en el contexto que se analiza, existe una palabra que contiene más de un significado o sea una palabra polisémica, entonces se puede determinar que existe una ambigüedad léxica. Para evaluar la ambigüedad semántica: Regla: si existen al menos dos palabras en un contexto, una a continuación de la otra, que tengan más de una relación, este contexto contiene más de una interpretación de dichas palabras y por tanto genera ambigüedad semántica. Descripción del desarrollo de la herramienta: Para la implementación de las reglas definidas con el propósito de identificar la ambigüedad sintáctica en textos de la legislación cubana, se diseñó la clase Regla, encargada de llevar a cabo la identificación, conteo y análisis de las conjunciones y preposiciones que contiene el texto y luego evaluar si presenta ambigüedad sintáctica y clasificar la misma. En el siguiente pseudocódigo se describe el método implementado en la clase, a partir de las 4 reglas definidas para la identificación de este tipo de ambigüedad: Figura 1: Pseudocódigo que describe el método implementado para identificar la ambigüedad sintáctica. Para aplicar las reglas que permiten identificar la ambigüedad léxica y semántica presente en textos de la legislación cubana, se diseñaron métodos basados en técnicas del PLN y la minería de texto, tales como los basados en diccionario, siguiendo la filosofía del WordNet, y el pre-procesamiento de documentos. A continuación se muestra el pseudocódigo que describe el método diseñado para detectar la ambigüedad léxica: Figura 2: Pseudocódigo que describe el método implementado para identificar la ambigüedad léxica. La funcionalidad detectatAmbiguedadLexica es la encargada de, dada una oración, recorrer cada palabra e ir buscando en el diccionario electrónico definido, con términos propios de la legislación cubana, una lista de vocablos que aparezcan registrados con el lexema que se está analizando. Si la cantidad de elementos que tiene la lista es mayor que uno, quiere decir que para el lexema que se analiza existe más de un significado, por lo cual es una palabra polisémica y el texto presenta entonces ambigüedad léxica. El siguiente pseudocódigo describe el método diseñado para identificar la ambigüedad semántica: Figura 3: Pseudocódigo que describe el método implementado para identificar la ambigüedad semántica. La funcionalidad detectarAmbiguedadSemantica es la encargada de, dado un conjunto de palabras, ir buscando las relaciones o caminos existentes entre cada palabra y la que está a continuación, e ir evaluando si poseen más de un camino que las relacione. Para ello se definió una matriz que almacena el camino de la palabra que se encuentra en la posición i de la lista de palabras y la que se encuentra en la posición j, guardándose en la casilla i;j, luego se obtiene el camino desde la palabra en j hasta la palabra en i y se guarda en la casilla j;i. Luego se verifica si los caminos que se encuentran en las casillas son iguales, en caso de ser diferentes significa que hay más de una relación entre las dos palabras que se analizan, por tanto hay presencia de ambigüedad semántica en el texto analizado. Los métodos descritos en el pseudocódigo ilustrados en las figuras 1, 2 y 3, así como las clases diseñadas para la implementación de estos, permitieron obtener una herramienta informática de tipo desktop, desarrollada en tecnologías de software libre, que permite identificar la existencia de términos ambiguos en textos de la legislación cubana y brindar una clasificación sobre el tipo y grado de ambigüedad que presentan. Los contenidos analizados por la misma pueden ser redactados de forma directa en esta o importados desde un documento en formato word. La herramienta una vez que obtiene y analiza los textos, es capaz de señalar dónde existe la ambigüedad y determinar cuál es el la tipo que presenta, con el propósito de que la palabra o porción del texto ambiguo pueda ser corregido por la persona indicada. Conclusiones El resultado del presente trabajo constituye un aporte al desarrollo de la Informática Jurídica en Cuba, aplicable a cualquier corpus documental de habla hispana. El resultado es una herramienta de Técnica Legislativa que permite ser aplicada tanto a textos en estatus de proyectos legislativos como para hacer estudios sobre ambigüedad en textos promulgados. El resultado representa un punto de partida para nuevas investigaciones que permitan extender el alcance de esta herramienta, con el propósito de poder obtener a través de la misma una propuesta de desambiguación de los textos analizados. Referencias bibliográficas Bisbal, Empar, y otros. 2003. 3LB-SAT : una herramienta de anotación semántica. [En línea] 2003. http://rua.ua.es/dspace/handle/10045/1510. Brun, Ricardo Eíto y Senso, José A. 2004. Minería Textual. [En línea] 2004. http://eprints.rclis.org/11491/1/Artmineriapdf.pdf. López, Miguel Alejandro. 2002. Técnica Legislativa. México HILL/INTERAMERICANA EDITORES ,S.A, 2002. págs. 67-68. D.F : McGRAW Manterola, Iker, y otros. 2010. Recursos en euskera para la herramienta NLTK para enseñanza de procesamiento del lenguaje natural. [En línea] 2010. http://journal.sepln.org/index.php/pln/article/viewFile/818/672. Pérez, Sonia Vázquez. 2009. Resolución de la ambigüedad semántica mediante métodos basados en conocimiento y su aportación a tareas de PNL. [En línea] 2009. Ramos, Sulema Torres. 2012. Estudio sobre métodos de tipo lesk usados para la desambiguación de sentidos de palabras. [En línea] 2012. Yorke, Gordon. 2011. EclipseLink http://refcardz.dzone.com/refcardz/eclipselink-jpa. JPA. [En línea] 2011. Zapata, Carlos, Palomino, Karla y Rosero, Roberto. 2007. Un método para la desambiguación sintáctica de tipo coordinativo y preposicional. [En línea] 2007.