Carlos Francisco Méndez - Descubrimiento de afijos por computadora

Anuncio
Descubrimiento de afijos por computadora
Carlos Francisco Méndez Cruz
Colegio de Letras Hispánicas – FF y L
GIL – IINGEN – UNAM
cmendezc@iingen.unam.mx
1. Introducción
Uno de los primeros pasos en el análisis lingüístico es el morfológico. El lingüista se da a la tarea
de descubrir los morfemas de una lengua y realizar un inventario de ellos. Hoy en día y desde
hace tiempo, esta tarea puede realizarse con la ayuda de una computadora.
1.1. La Ingeniería Lingüística
La Ingeniería Lingüística (IL) es el uso de los conocimientos lingüísticos para desarrollar
sistemas de información que permitan reconocer, interpretar y generar lenguaje humano
(Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje). Con el objeto de lograr esta
tarea, la IL se auxilia de diversas técnicas para el tratamiento del lenguaje. Entre ellas está el
análisis morfológico.
Describir la lengua a nivel morfológico requiere un conocimiento de los procesos para la
composición de las palabras (flexión, derivación y composición). Además, el análisis
morfológico debe distinguir entre raíces y afijos (prefijos, infijos y sufijos), y conocer que una
palabra puede tener más de un afijo.
1.2. Morfología por computadora
Existen varios enfoques para resolver el problema de hacer descripción morfológica por
medio de la computadora. En general existen tres: uso de autómatas y
-1-
Méndez Cruz
Descubrimiento de afijos...
transductores de estados finitos, medidas estadísticas basadas en corpus y segmentación
automática.
Las dos primeras no caben en el alcance de este trabajo. En realidad, la que nos interesa
por el momento es la tercera. Ésta se divide en dos tendencias principales: el descubrimiento
morfológico y el reconocimiento de patrones.
Las diversas técnicas para descubrir morfemas automáticamente incluyen: estadísticas de
digramas, frecuencias de letras, cuenta de fonemas anteriores y posteriores, medida de entropía y
principio de economía.
La investigación que presentamos aquí se centra en el descubrimiento de afijos utilizando
la medida de entropía y el principio de economía de signos, ambas determinadas a partir de
corpus.
Primero daremos algunos antecedentes sobre el descubrimiento automático de morfemas.
Después, presentaremos algunos índices que permiten determinar fronteras morfológicas.
Finalmente, describiremos la aplicación del programa de cómputo a un corpus de lengua chuj y
al Corpus Nacional de la República Checa. Adelantándonos, podemos decir que los resultados
fueron muy buenos.
2. Descubrimiento de morfemas
El descubrimiento de morfemas en la lengua ha sido una tarea importante desde hace mucho
tiempo. Hasta antes de la llegada de las computadoras, este trabajo era realizado enteramente por
el humano. Hoy en día, los paradigmas están cambiando.
-2-
Méndez Cruz
Descubrimiento de afijos...
2.1. Antecedentes
El primer desarrollo computacional para descubrir morfemas fue tal vez el de N. D.
Andreev en los años setenta. El programa realizaba un cálculo de frecuencias en un corpus para
distintas cadenas de caracteres. La idea de donde partió Andreev es que los afijos de flexión
serían los más frecuentes.
En sus inicios, el trabajo automatizado en la identificación de morfemas se enfrentó a
diferentes problemas.1 No obstante esto, se han desarrollado varios métodos cuantitativos que
generan índices para calcular la viabilidad de una segmentación.
2.2. Número de cuadrados
Un cuadrado es un conjunto de cuatro segmentos de palabra (A, B, C, D) que permiten la
siguiente combinación: AC, BC, AD, BD.
(1) eating:walking::eats:walks2
A = eat-, B = walk-, C = -ing, D = -s
En las diferentes combinaciones de esos segmentos, es posible que alguno esté ausente:
(2) in::cauto, in::feliz, Ø::cauto, Ø::feliz3
El proceso para determinar la posible segmentación de cada palabra sería el siguiente:
Tomamos una palabra y la segmentamos en dos pedazos (AC). Luego determinamos los
cuadrados que produce dicha combinación mediante las coincidencias que encontremos en un
corpus. A mayor número de cuadrados, mayor probabilidad de que sean morfemas.
1
No existían corpus electrónicos para todas las lenguas. Además, sólo algunos lenguajes habían sido estudiados lo
suficiente en lo que respecta a la identificación de dichas unidades. También, la subjetividad en la definición del
concepto morfema puso obstáculos a la investigación. Vease Medina (2000:97).
2
Ejemplo de Joseph H. Greenberg, citado en Medina (2000:98).
3
Ejemplo tomado de Medina (2000:98)
-3-
Méndez Cruz
Descubrimiento de afijos...
Este proceso tiene deficiencias ya que puede obtener cuadrados tales como {t::alks,
w::alks, t::alking, w::alking}.
2.3. Principio de economía y el cociente de de Kock-Bossaert
Josee de Kock y Walter Bossaert proponen un índice que permite predecir fronteras entre
bases de palabras y sus afijos. Este cálculo está basado en el principio de economía.4
Brevemente, si una forma de palabra se divide en dos segmentos a::b y
a es parte de un conjunto muy grande de palabras
b es parte de un conjunto pequeño de palabras
y además…
a tiene muy baja frecuencia
b ocurre muy frecuentemente
entonces el primer segmento (a) podría ser una base y el segundo (b) un afijo.
2.4. Medida de entropía
Para determinar este índice, partimos de la idea de que un afijo contiene menos
información que una base, ya que el primero tiene la carga de información gramatical. Así, lo
que medimos es la cantidad de información (entropía) de un segmento de palabra en relación a
todas sus posibles combinaciones en un corpus.
El cálculo se realiza con la siguiente fórmula:5
n
4
5
Véase Medina (2000).
Más detalles sobre la fórmula en Medina (2000).
-4-
Méndez Cruz
Descubrimiento de afijos...
H(p1, p2, ... pn) = - ∑ pi log2 (pi)
i=1
Por ejemplo, en la palabra ‘aparecer’, las medidas de entropía determinadas a partir del
inicio y final de palabra serían:6
Tabla 1.11: Valores de entropía en cada segmentación del vocablo ‘aparecer’.
A
Izq.-der.
Der. – izq.
P
2.792
1.277
A
1.818
0.8018
R
1.63
1.619
E
1.298
2.125
S
1.27
1.56
E
0.9497
2.516
R
1.303
1.193
Puede observarse que los valores más altos en una dirección y en la otra coinciden con las
fronteras morfológicas.
3. Descubrimiento de afijos en corpus del chuj
3.1. Corpus
“Cada vez parece más evidente la conveniencia de utilizar recursos informáticos en las
investigaciones humanísticas” (Torruella y Llisterri, 1999:1)
Los recursos informáticos utilizados en la investigación lingüística se aplican a textos,
orales o escritos, que conforman un corpus. Estos deben ser más o menos grandes para
representar la realidad que se quiere observar. La informática facilita la organización en formato
electrónico de grandes textos, lo que permite investigaciones con gran número de datos.
Los corpus son una herramienta excelente para la investigación lingüística:
“proporcionan bases mucho más reales para el estudio de las lenguas que los métodos intuitivos
tradicionales” (Torruella y Llisterri, 1999:3). Han impulsado los estudios descriptivos de
6
Tomado de íbidem p. 102.
-5-
Méndez Cruz
Descubrimiento de afijos...
aspectos de la lengua como prosodia, léxico, morfología, sintaxis, historia de la lengua, etc.
Entonces, al conjunto de textos entendibles por la computadora le llamamos corpus.
3.2. El corpus investigado
Un corpus para sistemas de segmentación y descubrimiento de fronteras morfológicas
debería ser de gran tamaño, es decir, varios millones de palabras.
Para el caso de la investigación que aquí se presenta, se utilizó un corpus muy pequeño
del Chuj, lengua Maya hablada entre Guatemala y México.7 Éste consta de cinco narraciones
obtenidas mediante entrevistas con hablantes. Dicho corpus incluye 15,485 palabras con
aproximadamente 2,300 tipos de palabras.8 No obstante el reducido tamaño de las narraciones, el
programa tuvo resultados muy aceptables en lo referente al descubrimiento automático de afijos.
3.3. Proceso para descubrir afijos
Se utilizó el cálculo de entropía y el principio de economía de signos para descubrir afijos
en el corpus antes descrito.
Siguiendo la idea de Joseph Greenberg9 de que la raíz de una palabra guarda la mayor
cantidad de información (entropía), se han desarrollado métodos para medirla. Encontrar esta
medida nos puede ayudar a definir cortes entre bases y afijos. Aunque esta idea suena muy
pertinente, es importante hacer notar que no toda la información está reflejada en estructuras de
lengua; los gestos, muecas y ademanes también tienen alta carga de información.
Por su parte, el principio de economía de signos permite pensar en la combinación de
signos (afijos) con otros (bases) para producir un conjunto muy grande de signos de mayor nivel
7
Más detalles en Medina y Buenrostro (2003).
Un tipo de palabra puede ser visto como el conjunto de ocurrencias de dicha palabra dentro del corpus, es decir que
el número de tipos siempre será menor al número total de palabras en el texto. Las repeticiones de las segundas
constituyen un tipo.
9
Idea basada en la Teoría de la Información.
8
-6-
Méndez Cruz
Descubrimiento de afijos...
(palabras). Esta propiedad de los afijos es lo que permite los procesos de flexión y derivación. Si
un signo tiene mayores posibilidades combinatorias, mayor economía brinda al sistema y por
tanto mayor su posibilidad de ser afijo. Es de esperarse también que los afijos de flexión formen
un conjunto menor en la lengua porque son más productivos. Esta última característica conlleva
mayor frecuencia de aparición en un corpus. Por el contrario, las bases serán un conjunto muy
grande pero con poca frecuencia de aparición.
Se utilizaron los dos métodos ya que la segmentación por cálculo de índice de entropía no
distingue un afijo como morfema de una cadena de caracteres que no lo es. Es decir que con
‘aumente’ descubriría equivocadamente el sufijo –mente.
3.3.1. Índice de entropía
Para ilustrar la utilidad del índice de entropía en la segmentación de palabras podemos
ver el siguiente ejemplo: después de aplicar el programa al corpus del chuj para las palabras que
empiezan con tzi- y con tzin-, se determinó una densidad de información en bits para tzi- de
0.9735 y para tzin- de 3.6569. Podemos decir entonces que es más seguro un corte morfológico
después de tzin-, lo que en efecto es el caso.
3.3.2. Índice de economía
Para determinar este índice se compararon el número de segmentos de palabras que se
unen a un fragmento (acompañantes), con el número de segmentos que se unen a él para formar
otras palabras (alternantes):
acompañantes
k = ----------------alternantes
-7-
Méndez Cruz
Descubrimiento de afijos...
Como se puede ver, un número mayor de acompañantes daría una medida de economía alta
(mayor probabilidad de ser morfema), mientras un número mayor de alternantes correspondería a
una economía baja (poca probabilidad de ser morfema). Por ejemplo el sufijo –idad en el vocablo
‘nacionalidad’10:
Alternantes de -idad
(nivel paradigmático)
Acompañantes de -idad
(nivel sintagmático)
-Ø (‘nacional’)
-es (‘nacionales’)
-idades (‘nacionalidades’)
-mente (‘nacionalmente’)
Hispan –idad
Sincer –idad
Plural –idad
Comun –idad
Oportun –idad
Final -idad
Heterosexua –idad
Homosexual –idad
Puede observarse claramente que los acompañantes forman un conjunto muy grande y
por tanto el índice de economía será mayor. La mayor probabilidad de ser afijo la tiene el
segmento –idad, mientras que si tomáramos el segmento nacional- sería lo contrario:
Acompañantes de nacional(nivel sintagmático)
-Ø (‘nacional’)
-es (‘nacionales’)
-idades (‘nacionalidades’)
-mente (‘nacionalmente’)
Alternantes de nacional(nivel paradigmático)
Hispan –idad
Sincer –idad
Plural –idad
Comun –idad
Oportun –idad
Final -idad
Heterosexua –idad
Homosexual –idad
10
Ejemplo tomado de Medina y Buenrostro (2003)
-8-
Méndez Cruz
Descubrimiento de afijos...
Cabe señalar que las medidas de entropía y de economía fueron aplicadas comenzando
desde el inicio de la palabra y también desde el final. De esta manera fue posible obtener una
lista de prefijos y otra de sufijos.
3.4. Resultados obtenidos
Mediante el programa de cómputo que aplica las operaciones descritas arriba, se
obtuvieron dos listas de palabras. La primera conforma los posibles prefijos del chuj y la segunda
los sufijos:11
rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
11
Tabla 1. Catálogo de prefijos más afijales
prefijo
frecuencia
entropía
A~
160
1,0000
S~
177
0,9874
IN~
80
0,9828
TZIN~
42
0,9338
E~
63
0,9173
IX~
166
0,9088
TZ~
338
0,8861
OLIN~
25
0,8818
KO~
64
0,8783
AL~
16
0,8740
MA~
30
0,8722
KA~
31
0,8496
KU~
11
0,8303
IXIN~
27
0,8183
IXS~
23
0,8154
TZS~
45
0,8101
ACH~
10
0,8034
TO~
13
0,8010
AK'~
10
0,7881
TZONH~
15
0,7866
JA~
12
0,7808
OL~
176
0,7807
OLE~
12
0,7761
NA~
8
0,7761
U~
20
0,7682
TA~
13
0,7670
OLACH~
26
0,7663
TZA~
41
0,7612
YO~
16
0,7600
X~
41
0,7568
Tablas tomadas de Medina y Buenrostro (2003).
-9-
afijalidad
0,5000
0,4937
0,4914
0,4669
0,4587
0,4544
0,4430
0,4409
0,4392
0,4370
0,4361
0,4248
0,4152
0,4092
0,4077
0,4051
0,4017
0,4005
0,3940
0,3933
0,3904
0,3903
0,3880
0,3880
0,3841
0,3835
0,3831
0,3806
0,3800
0,3784
Méndez Cruz
Descubrimiento de afijos...
De los 30 prefijos encontrados por el programa, 22 fueron corroborados por el
especialista como verdaderos afijos del chuj. El método utilizado tuvo entonces un 73% de
formas recuperadas correctas.12
rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Tabla 2. Catálogo de sufijos más afijales
sufijo
frecuencia
entropía
afijalidad
~AL
82
1,0000
0,5000
~O
123
0,9634
0,4817
~OK
68
0,9374
0,4687
~IL
62
0,9347
0,4673
~A
142
0,9306
0,4653
~TAK
19
0,9062
0,4531
~AB'
49
0,9059
0,4530
~KAN
68
0,9029
0,4515
~IN
46
0,8917
0,4458
~I
205
0,8769
0,4384
~EK'
23
0,8740
0,4370
~K'OCH
28
0,8670
0,4335
~B'AT
63
0,8659
0,4329
~EL
68
0,8643
0,4321
~EM
15
0,8282
0,4141
~AN
233
0,8271
0,4135
~ALAN
13
0,8225
0,4112
~TA'
70
0,8203
0,4102
~ES
8
0,8140
0,4070
~PAX
15
0,8093
0,4046
~CHAM
16
0,8039
0,4020
~CHAJ
14
0,8037
0,4018
~AK'AN
11
0,7946
0,3973
~AK'
43
0,7922
0,3961
~AJ
51
0,7867
0,3934
~NAK
18
0,7812
0,3906
~E
60
0,7803
0,3901
~NEJ
24
0,7698
0,3849
~OJ
11
0,7673
0,3837
~EK
11
0,7673
0,3837
De los 30 afijos propuestos por el programa, 29 fueron acertadamente sufijos del chuj. El
programa obtuvo un 97% de formas recuperadas. El índice total de recuperación de afijos para
las dos tablas es de 85%, es decir, 51 afijos verdaderos de 60 propuestos por el programa.13
12
Según Medina y Buenrostro (2003) los resultados no fueron mejores debido al reducido tamaño del corpus.
Para ver una descripción detallada de los resultados, tanto en prefijos como sufijos, véase Medina y Buenrostro
(2003).
13
- 10 -
Méndez Cruz
Descubrimiento de afijos...
En lo referente a la precisión del programa, se analizaron los resultados de los prefijos de
flexión verbal de acuerdo a las treinta formas más afijales determinadas por el programa y las
formas existentes en el chuj. Es importante mencionar que en la lengua chuj, para la flexión
verbal, hay prefijos y sufijos. El resultado fue que para las formas prefijales el programa obtuvo
automáticamente 16 de las 18 formas esperadas; un 88.98% de precisión. Para el caso de los
sufijos, el resultado fue 9 de las 12 formas posibles; un 75% de precisión.
4. Descubrimiento de afijos en el Corpus Nacional de la república Checa
Recientemente, se volvió a aplicar el programa de segmentación a un corpus más grande. En este
caso se utilizó una parte del Corpus Nacional de la República Checa (CNC) que incluye 100
millones de formas de palabras. El corpus examinado fue de al rededor de 170, 000 tipos de
palabras.14
Como resultado de aplicar el programa de cómputo, se obtuvo una lista de 99 prefijos con
el mayor grado de afijalidad. Ninguno de ellos fue falso, es decir, el programa obtuvo un 100%
de aciertos en la extracción.
Conclusiones
Son escasos los estudios para descubrir morfemas de manera automática en lenguas
americanas y más aún en lenguas indígenas. La principal causa es la falta de corpus y los que hay
son privados o muy pequeños.
Tal vez lo primero concluyente es que el uso de corpus como herramienta de análisis
lingüístico es muy importante. Además, no fue necesario, como se demostró en el caso del chuj,
de un corpus enorme.
14
Para más detalles de la selección de estas palabras véase Medina y Hlavacova (2004).
- 11 -
Méndez Cruz
Descubrimiento de afijos...
Es interesante notar que las pruebas realizadas demuestran que el programa de cómputo
para descubrir afijos es independiente de la lengua. No obstante, debe ser una lengua que forme
palabras a partir de raíces y afijos.
Finalmente queremos resaltar los buenos resultados ofrecidos por el programa. En el caso
del chuj se obtuvieron medidas de precisión de más del 80% y en el caso del CNC del 100%.
Esto demuestra que es buena la combinación de los índices de entropía y de economía de signos.
Un programa como el presentado puede ser de mucha ayuda para el lingüista. Además,
esperamos que la presente investigación sea una muestra del trabajo que se puede desarrollar en
el área de la Ingeniería Lingüística.
Bibliografía
Medina Urrea, Alfonso (2000). “Automatic Discovery of Affixes by means of a Corpus: A Catalog of Spanish
Affixes” en Journal of Quantitive Linguistics, vol. 7, no. 2, pp. 97-114.
______________ y Buenrostro Díaz, Elsa Cristina. (2003). “Características cuantitativas de la flexión verbal del
chuj” en Estudios de Lingüística Aplicada. CELE-UNAM. (En prensa).
______________ y Hlavacova, Jaroslava. (2004). “Automatic Discovery of Czech Derivational Prefixes”.
(Informe técnico).
Torruella, Joan y Llisterri, Joaquim. (1999). "Diseño de corpus textuales y orales". En J.M. Blecua et al (Eds.),
Filología e informática: Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio y
Universidad Autónoma de Barcelona.
Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje en
http://sunsite.dcc.uchile.cl/~abassi/WWW/Lengua/ingenieria.html visitada el 28 de Febrero de 2004.
- 12 -
Documentos relacionados
Descargar