Descubrimiento de afijos por computadora Carlos Francisco Méndez Cruz Colegio de Letras Hispánicas – FF y L GIL – IINGEN – UNAM cmendezc@iingen.unam.mx 1. Introducción Uno de los primeros pasos en el análisis lingüístico es el morfológico. El lingüista se da a la tarea de descubrir los morfemas de una lengua y realizar un inventario de ellos. Hoy en día y desde hace tiempo, esta tarea puede realizarse con la ayuda de una computadora. 1.1. La Ingeniería Lingüística La Ingeniería Lingüística (IL) es el uso de los conocimientos lingüísticos para desarrollar sistemas de información que permitan reconocer, interpretar y generar lenguaje humano (Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje). Con el objeto de lograr esta tarea, la IL se auxilia de diversas técnicas para el tratamiento del lenguaje. Entre ellas está el análisis morfológico. Describir la lengua a nivel morfológico requiere un conocimiento de los procesos para la composición de las palabras (flexión, derivación y composición). Además, el análisis morfológico debe distinguir entre raíces y afijos (prefijos, infijos y sufijos), y conocer que una palabra puede tener más de un afijo. 1.2. Morfología por computadora Existen varios enfoques para resolver el problema de hacer descripción morfológica por medio de la computadora. En general existen tres: uso de autómatas y -1- Méndez Cruz Descubrimiento de afijos... transductores de estados finitos, medidas estadísticas basadas en corpus y segmentación automática. Las dos primeras no caben en el alcance de este trabajo. En realidad, la que nos interesa por el momento es la tercera. Ésta se divide en dos tendencias principales: el descubrimiento morfológico y el reconocimiento de patrones. Las diversas técnicas para descubrir morfemas automáticamente incluyen: estadísticas de digramas, frecuencias de letras, cuenta de fonemas anteriores y posteriores, medida de entropía y principio de economía. La investigación que presentamos aquí se centra en el descubrimiento de afijos utilizando la medida de entropía y el principio de economía de signos, ambas determinadas a partir de corpus. Primero daremos algunos antecedentes sobre el descubrimiento automático de morfemas. Después, presentaremos algunos índices que permiten determinar fronteras morfológicas. Finalmente, describiremos la aplicación del programa de cómputo a un corpus de lengua chuj y al Corpus Nacional de la República Checa. Adelantándonos, podemos decir que los resultados fueron muy buenos. 2. Descubrimiento de morfemas El descubrimiento de morfemas en la lengua ha sido una tarea importante desde hace mucho tiempo. Hasta antes de la llegada de las computadoras, este trabajo era realizado enteramente por el humano. Hoy en día, los paradigmas están cambiando. -2- Méndez Cruz Descubrimiento de afijos... 2.1. Antecedentes El primer desarrollo computacional para descubrir morfemas fue tal vez el de N. D. Andreev en los años setenta. El programa realizaba un cálculo de frecuencias en un corpus para distintas cadenas de caracteres. La idea de donde partió Andreev es que los afijos de flexión serían los más frecuentes. En sus inicios, el trabajo automatizado en la identificación de morfemas se enfrentó a diferentes problemas.1 No obstante esto, se han desarrollado varios métodos cuantitativos que generan índices para calcular la viabilidad de una segmentación. 2.2. Número de cuadrados Un cuadrado es un conjunto de cuatro segmentos de palabra (A, B, C, D) que permiten la siguiente combinación: AC, BC, AD, BD. (1) eating:walking::eats:walks2 A = eat-, B = walk-, C = -ing, D = -s En las diferentes combinaciones de esos segmentos, es posible que alguno esté ausente: (2) in::cauto, in::feliz, Ø::cauto, Ø::feliz3 El proceso para determinar la posible segmentación de cada palabra sería el siguiente: Tomamos una palabra y la segmentamos en dos pedazos (AC). Luego determinamos los cuadrados que produce dicha combinación mediante las coincidencias que encontremos en un corpus. A mayor número de cuadrados, mayor probabilidad de que sean morfemas. 1 No existían corpus electrónicos para todas las lenguas. Además, sólo algunos lenguajes habían sido estudiados lo suficiente en lo que respecta a la identificación de dichas unidades. También, la subjetividad en la definición del concepto morfema puso obstáculos a la investigación. Vease Medina (2000:97). 2 Ejemplo de Joseph H. Greenberg, citado en Medina (2000:98). 3 Ejemplo tomado de Medina (2000:98) -3- Méndez Cruz Descubrimiento de afijos... Este proceso tiene deficiencias ya que puede obtener cuadrados tales como {t::alks, w::alks, t::alking, w::alking}. 2.3. Principio de economía y el cociente de de Kock-Bossaert Josee de Kock y Walter Bossaert proponen un índice que permite predecir fronteras entre bases de palabras y sus afijos. Este cálculo está basado en el principio de economía.4 Brevemente, si una forma de palabra se divide en dos segmentos a::b y a es parte de un conjunto muy grande de palabras b es parte de un conjunto pequeño de palabras y además… a tiene muy baja frecuencia b ocurre muy frecuentemente entonces el primer segmento (a) podría ser una base y el segundo (b) un afijo. 2.4. Medida de entropía Para determinar este índice, partimos de la idea de que un afijo contiene menos información que una base, ya que el primero tiene la carga de información gramatical. Así, lo que medimos es la cantidad de información (entropía) de un segmento de palabra en relación a todas sus posibles combinaciones en un corpus. El cálculo se realiza con la siguiente fórmula:5 n 4 5 Véase Medina (2000). Más detalles sobre la fórmula en Medina (2000). -4- Méndez Cruz Descubrimiento de afijos... H(p1, p2, ... pn) = - ∑ pi log2 (pi) i=1 Por ejemplo, en la palabra ‘aparecer’, las medidas de entropía determinadas a partir del inicio y final de palabra serían:6 Tabla 1.11: Valores de entropía en cada segmentación del vocablo ‘aparecer’. A Izq.-der. Der. – izq. P 2.792 1.277 A 1.818 0.8018 R 1.63 1.619 E 1.298 2.125 S 1.27 1.56 E 0.9497 2.516 R 1.303 1.193 Puede observarse que los valores más altos en una dirección y en la otra coinciden con las fronteras morfológicas. 3. Descubrimiento de afijos en corpus del chuj 3.1. Corpus “Cada vez parece más evidente la conveniencia de utilizar recursos informáticos en las investigaciones humanísticas” (Torruella y Llisterri, 1999:1) Los recursos informáticos utilizados en la investigación lingüística se aplican a textos, orales o escritos, que conforman un corpus. Estos deben ser más o menos grandes para representar la realidad que se quiere observar. La informática facilita la organización en formato electrónico de grandes textos, lo que permite investigaciones con gran número de datos. Los corpus son una herramienta excelente para la investigación lingüística: “proporcionan bases mucho más reales para el estudio de las lenguas que los métodos intuitivos tradicionales” (Torruella y Llisterri, 1999:3). Han impulsado los estudios descriptivos de 6 Tomado de íbidem p. 102. -5- Méndez Cruz Descubrimiento de afijos... aspectos de la lengua como prosodia, léxico, morfología, sintaxis, historia de la lengua, etc. Entonces, al conjunto de textos entendibles por la computadora le llamamos corpus. 3.2. El corpus investigado Un corpus para sistemas de segmentación y descubrimiento de fronteras morfológicas debería ser de gran tamaño, es decir, varios millones de palabras. Para el caso de la investigación que aquí se presenta, se utilizó un corpus muy pequeño del Chuj, lengua Maya hablada entre Guatemala y México.7 Éste consta de cinco narraciones obtenidas mediante entrevistas con hablantes. Dicho corpus incluye 15,485 palabras con aproximadamente 2,300 tipos de palabras.8 No obstante el reducido tamaño de las narraciones, el programa tuvo resultados muy aceptables en lo referente al descubrimiento automático de afijos. 3.3. Proceso para descubrir afijos Se utilizó el cálculo de entropía y el principio de economía de signos para descubrir afijos en el corpus antes descrito. Siguiendo la idea de Joseph Greenberg9 de que la raíz de una palabra guarda la mayor cantidad de información (entropía), se han desarrollado métodos para medirla. Encontrar esta medida nos puede ayudar a definir cortes entre bases y afijos. Aunque esta idea suena muy pertinente, es importante hacer notar que no toda la información está reflejada en estructuras de lengua; los gestos, muecas y ademanes también tienen alta carga de información. Por su parte, el principio de economía de signos permite pensar en la combinación de signos (afijos) con otros (bases) para producir un conjunto muy grande de signos de mayor nivel 7 Más detalles en Medina y Buenrostro (2003). Un tipo de palabra puede ser visto como el conjunto de ocurrencias de dicha palabra dentro del corpus, es decir que el número de tipos siempre será menor al número total de palabras en el texto. Las repeticiones de las segundas constituyen un tipo. 9 Idea basada en la Teoría de la Información. 8 -6- Méndez Cruz Descubrimiento de afijos... (palabras). Esta propiedad de los afijos es lo que permite los procesos de flexión y derivación. Si un signo tiene mayores posibilidades combinatorias, mayor economía brinda al sistema y por tanto mayor su posibilidad de ser afijo. Es de esperarse también que los afijos de flexión formen un conjunto menor en la lengua porque son más productivos. Esta última característica conlleva mayor frecuencia de aparición en un corpus. Por el contrario, las bases serán un conjunto muy grande pero con poca frecuencia de aparición. Se utilizaron los dos métodos ya que la segmentación por cálculo de índice de entropía no distingue un afijo como morfema de una cadena de caracteres que no lo es. Es decir que con ‘aumente’ descubriría equivocadamente el sufijo –mente. 3.3.1. Índice de entropía Para ilustrar la utilidad del índice de entropía en la segmentación de palabras podemos ver el siguiente ejemplo: después de aplicar el programa al corpus del chuj para las palabras que empiezan con tzi- y con tzin-, se determinó una densidad de información en bits para tzi- de 0.9735 y para tzin- de 3.6569. Podemos decir entonces que es más seguro un corte morfológico después de tzin-, lo que en efecto es el caso. 3.3.2. Índice de economía Para determinar este índice se compararon el número de segmentos de palabras que se unen a un fragmento (acompañantes), con el número de segmentos que se unen a él para formar otras palabras (alternantes): acompañantes k = ----------------alternantes -7- Méndez Cruz Descubrimiento de afijos... Como se puede ver, un número mayor de acompañantes daría una medida de economía alta (mayor probabilidad de ser morfema), mientras un número mayor de alternantes correspondería a una economía baja (poca probabilidad de ser morfema). Por ejemplo el sufijo –idad en el vocablo ‘nacionalidad’10: Alternantes de -idad (nivel paradigmático) Acompañantes de -idad (nivel sintagmático) -Ø (‘nacional’) -es (‘nacionales’) -idades (‘nacionalidades’) -mente (‘nacionalmente’) Hispan –idad Sincer –idad Plural –idad Comun –idad Oportun –idad Final -idad Heterosexua –idad Homosexual –idad Puede observarse claramente que los acompañantes forman un conjunto muy grande y por tanto el índice de economía será mayor. La mayor probabilidad de ser afijo la tiene el segmento –idad, mientras que si tomáramos el segmento nacional- sería lo contrario: Acompañantes de nacional(nivel sintagmático) -Ø (‘nacional’) -es (‘nacionales’) -idades (‘nacionalidades’) -mente (‘nacionalmente’) Alternantes de nacional(nivel paradigmático) Hispan –idad Sincer –idad Plural –idad Comun –idad Oportun –idad Final -idad Heterosexua –idad Homosexual –idad 10 Ejemplo tomado de Medina y Buenrostro (2003) -8- Méndez Cruz Descubrimiento de afijos... Cabe señalar que las medidas de entropía y de economía fueron aplicadas comenzando desde el inicio de la palabra y también desde el final. De esta manera fue posible obtener una lista de prefijos y otra de sufijos. 3.4. Resultados obtenidos Mediante el programa de cómputo que aplica las operaciones descritas arriba, se obtuvieron dos listas de palabras. La primera conforma los posibles prefijos del chuj y la segunda los sufijos:11 rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 11 Tabla 1. Catálogo de prefijos más afijales prefijo frecuencia entropía A~ 160 1,0000 S~ 177 0,9874 IN~ 80 0,9828 TZIN~ 42 0,9338 E~ 63 0,9173 IX~ 166 0,9088 TZ~ 338 0,8861 OLIN~ 25 0,8818 KO~ 64 0,8783 AL~ 16 0,8740 MA~ 30 0,8722 KA~ 31 0,8496 KU~ 11 0,8303 IXIN~ 27 0,8183 IXS~ 23 0,8154 TZS~ 45 0,8101 ACH~ 10 0,8034 TO~ 13 0,8010 AK'~ 10 0,7881 TZONH~ 15 0,7866 JA~ 12 0,7808 OL~ 176 0,7807 OLE~ 12 0,7761 NA~ 8 0,7761 U~ 20 0,7682 TA~ 13 0,7670 OLACH~ 26 0,7663 TZA~ 41 0,7612 YO~ 16 0,7600 X~ 41 0,7568 Tablas tomadas de Medina y Buenrostro (2003). -9- afijalidad 0,5000 0,4937 0,4914 0,4669 0,4587 0,4544 0,4430 0,4409 0,4392 0,4370 0,4361 0,4248 0,4152 0,4092 0,4077 0,4051 0,4017 0,4005 0,3940 0,3933 0,3904 0,3903 0,3880 0,3880 0,3841 0,3835 0,3831 0,3806 0,3800 0,3784 Méndez Cruz Descubrimiento de afijos... De los 30 prefijos encontrados por el programa, 22 fueron corroborados por el especialista como verdaderos afijos del chuj. El método utilizado tuvo entonces un 73% de formas recuperadas correctas.12 rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Tabla 2. Catálogo de sufijos más afijales sufijo frecuencia entropía afijalidad ~AL 82 1,0000 0,5000 ~O 123 0,9634 0,4817 ~OK 68 0,9374 0,4687 ~IL 62 0,9347 0,4673 ~A 142 0,9306 0,4653 ~TAK 19 0,9062 0,4531 ~AB' 49 0,9059 0,4530 ~KAN 68 0,9029 0,4515 ~IN 46 0,8917 0,4458 ~I 205 0,8769 0,4384 ~EK' 23 0,8740 0,4370 ~K'OCH 28 0,8670 0,4335 ~B'AT 63 0,8659 0,4329 ~EL 68 0,8643 0,4321 ~EM 15 0,8282 0,4141 ~AN 233 0,8271 0,4135 ~ALAN 13 0,8225 0,4112 ~TA' 70 0,8203 0,4102 ~ES 8 0,8140 0,4070 ~PAX 15 0,8093 0,4046 ~CHAM 16 0,8039 0,4020 ~CHAJ 14 0,8037 0,4018 ~AK'AN 11 0,7946 0,3973 ~AK' 43 0,7922 0,3961 ~AJ 51 0,7867 0,3934 ~NAK 18 0,7812 0,3906 ~E 60 0,7803 0,3901 ~NEJ 24 0,7698 0,3849 ~OJ 11 0,7673 0,3837 ~EK 11 0,7673 0,3837 De los 30 afijos propuestos por el programa, 29 fueron acertadamente sufijos del chuj. El programa obtuvo un 97% de formas recuperadas. El índice total de recuperación de afijos para las dos tablas es de 85%, es decir, 51 afijos verdaderos de 60 propuestos por el programa.13 12 Según Medina y Buenrostro (2003) los resultados no fueron mejores debido al reducido tamaño del corpus. Para ver una descripción detallada de los resultados, tanto en prefijos como sufijos, véase Medina y Buenrostro (2003). 13 - 10 - Méndez Cruz Descubrimiento de afijos... En lo referente a la precisión del programa, se analizaron los resultados de los prefijos de flexión verbal de acuerdo a las treinta formas más afijales determinadas por el programa y las formas existentes en el chuj. Es importante mencionar que en la lengua chuj, para la flexión verbal, hay prefijos y sufijos. El resultado fue que para las formas prefijales el programa obtuvo automáticamente 16 de las 18 formas esperadas; un 88.98% de precisión. Para el caso de los sufijos, el resultado fue 9 de las 12 formas posibles; un 75% de precisión. 4. Descubrimiento de afijos en el Corpus Nacional de la república Checa Recientemente, se volvió a aplicar el programa de segmentación a un corpus más grande. En este caso se utilizó una parte del Corpus Nacional de la República Checa (CNC) que incluye 100 millones de formas de palabras. El corpus examinado fue de al rededor de 170, 000 tipos de palabras.14 Como resultado de aplicar el programa de cómputo, se obtuvo una lista de 99 prefijos con el mayor grado de afijalidad. Ninguno de ellos fue falso, es decir, el programa obtuvo un 100% de aciertos en la extracción. Conclusiones Son escasos los estudios para descubrir morfemas de manera automática en lenguas americanas y más aún en lenguas indígenas. La principal causa es la falta de corpus y los que hay son privados o muy pequeños. Tal vez lo primero concluyente es que el uso de corpus como herramienta de análisis lingüístico es muy importante. Además, no fue necesario, como se demostró en el caso del chuj, de un corpus enorme. 14 Para más detalles de la selección de estas palabras véase Medina y Hlavacova (2004). - 11 - Méndez Cruz Descubrimiento de afijos... Es interesante notar que las pruebas realizadas demuestran que el programa de cómputo para descubrir afijos es independiente de la lengua. No obstante, debe ser una lengua que forme palabras a partir de raíces y afijos. Finalmente queremos resaltar los buenos resultados ofrecidos por el programa. En el caso del chuj se obtuvieron medidas de precisión de más del 80% y en el caso del CNC del 100%. Esto demuestra que es buena la combinación de los índices de entropía y de economía de signos. Un programa como el presentado puede ser de mucha ayuda para el lingüista. Además, esperamos que la presente investigación sea una muestra del trabajo que se puede desarrollar en el área de la Ingeniería Lingüística. Bibliografía Medina Urrea, Alfonso (2000). “Automatic Discovery of Affixes by means of a Corpus: A Catalog of Spanish Affixes” en Journal of Quantitive Linguistics, vol. 7, no. 2, pp. 97-114. ______________ y Buenrostro Díaz, Elsa Cristina. (2003). “Características cuantitativas de la flexión verbal del chuj” en Estudios de Lingüística Aplicada. CELE-UNAM. (En prensa). ______________ y Hlavacova, Jaroslava. (2004). “Automatic Discovery of Czech Derivational Prefixes”. (Informe técnico). Torruella, Joan y Llisterri, Joaquim. (1999). "Diseño de corpus textuales y orales". En J.M. Blecua et al (Eds.), Filología e informática: Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona. Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje en http://sunsite.dcc.uchile.cl/~abassi/WWW/Lengua/ingenieria.html visitada el 28 de Febrero de 2004. - 12 -