Subido por Gustavo J. Adriel Solé

Ingeniería lingüística

Anuncio
Novetats i Perspectives de l’Enginyeria
Lingüística
M. Antònia Martí
Universitat de Barcelona
Tecnologies de la Llengua
1
Les tecnologies de la Llengua al segle XXI
• Creixement exponencial de la informació digital disponible
• Comunicacions entre ordinadors: transmissió d’informació entre usuaris
• Nombre creixent d’usuaris finals no especialistes
•Recerca en sistemes de tractament de la informació textual, amb l’objectiu de facilitar:
• localització
• accés
• tractament
de dades
coneixement
Tecnologies del text i tecnologies de la veu
Tecnologies de la Llengua
2
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de la l’Enginyeria Lingüística
2. Tècniques i recursos per al Processament del
Llenguatge
Tecnologies de la Llengua
3
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de la l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
4
1. Aplicacions de la l’Enginyeria Lingüística

Què és una aplicació d’Enginyeria Lingüística?
Sistema informàtic que resol una tasca intel·ligent utilitzant
coneixement lingüístic.
- Programes
- Dades/Coneixement lingüístic
- Disseny/Anàlisi de l’aplicació
Tecnologies de la Llengua
5
1. Aplicacions de la l’Enginyeria Lingüística
Aplicació (Extracció d’Informació)
Programes
Analitzador Morfològic
Analitzador Sintàctic
Informació
Extreta
textos
Coneixement Lingüístic
Gramàtica
Lexicó
Dades Morfològiques
Tecnologies de la Llengua
6
Tècniques i recursos per al Processament del Llenguatge
Tècniques de PLN
Enfocaments diferents amb què es pot dur a terme una tasca de PLN
Desambiguació
basada en regles
basada en estadística
Anàlisi sintàctica
superficial (chunking)
...
encaix d’esquemes
Recursos de PLN
Programes, dades ... per al PLN
P.e.: lexicons, gramàtiques, analitzadors, corpus, ...
Tecnologies de la Llengua
7
Programas
Desam.
morfológica
SINTAXIS
MORFOLOGÍA
Cadena de procesos
Análisis
morfológico
Analizador
Morfo.
Autómata
Definición de Tagset
Corpus etiquetado a mano
Desambiguador
Análisis
sintáctico
parcial
Chunker
Análisis
sintáctico
A. Sintáctico
Interpretación
Semántica
Conocimiento Lingüístico
Intérprete
semántico
Tecnologies de la Llengua
Reglas de
desambiguación
Gramàtica de chunks
Treebank
Ontologías
Fuentes léxicas
Corpus etiquetados a mano
8
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
9
1.1. Correctors de textos
 Verificació ortogràfica
 Verificació gramatical
 Verificació d’estil
Tecnologies de la Llengua
10
1.1. Correctors de textos. La verificació ortogràfica

Verificador ortogràfic: programa que comprova l’ortografia de les paraules d’un
document identificant les paraules incorrectes ortogràficament i/o determinant o
suggerint la paraula correcta

Errors de competència: desconeixement de la norma



*dons per doncs
*peró per però
*inmens per immens

Errors per interferència amb d’altres llengües
*sintaxis per sintaxi
Errors d'actuació: distracció





*desmolaritzar per desmoralitzar
*problement per probablement
*escriptutra per escriptura
Tecnologies de la Llengua
11
1.1. Correctors de textos. La verificació ortogràfica
 Cal distingir entre correctors de llengües amb un estatus consolidat
d’aquelles que no el tenen tan consolidat
 La simple informació sobre el fet que hi ha un error no sempre
es suficient
sintaxis
??¿¿
Tecnologies de la Llengua
12
1.1. Correctors de textos. La verificació ortogràfica
 Problemes:

una paraula correcta del text no és al diccionari de l'ordinador → Ampliació
personalitzada dels diccionaris


l'error ortogràfic en una paraula n'origina una altra (diferent de la pretesa) que es
troba al diccionari:
(*vinc gana per tinc gana)
(*tinc grana per tinc gana)
La tècnica clàssica per a la correcció dels errors consisteix a invertir els quatre processos
d'error majoritaris:



omissió o inserció d'una lletra,
substitució d'una lletra per una altra i
transposició de dues lletres adjacents.
Tecnologies de la Llengua
13
1.1. Correctors de textos. La verificació ortogràfica

Tècniques d’identificació automàtica:



comparació amb una llista de paraules correctes
emmagatzemades a l’ordinador.
quantitatives, basades en la probabilitat de coaparició de
paraules en un corpus de la llengua
(p.e.: la la /DET +DET).
Descobrir les paraules correctes que més s'assemblen fonèticament o
ortogràficament a l'error identificat.
COM?
*quarte: quartet
quart
quarts
quatre
Tecnologies de la Llengua
(omissió de t),
(inserció de e),
(substitució de s per e) i
(inversió de t i r).
14
1.1. Correctors de textos. La verificació ortogràfica

Calcular el nombre de bigrames o trigrames que tenen en comú:
*pasetxar, format pels trigrams
[#pa, pas, ase, set, etx, txa, xar, ar#]*
passejar,
pastera,

[#pa, pas, ass, sse, sej, eja, jar, ar#]
[#pa, pas, ast, ste, ter, era, ra#].
Motor de similitud fonètica: usa un diccionari fonètic (una llista de
paraules transcrites fonèticament) i un programa capaç de convertir la paraula
incorrecta en la seva transcripció fonètica aproximada, i computant les
seqüències de símbols fonètics que comparteixen.
Tecnologies de la Llengua
15
1.1. Correctors de textos. La verificació gramatical
Verificador gramatical: programa que té per objectiu la verificació sintàctica i
semàntica dels textos.

Tècniques de verificació gramatical:

basada en un enfocament casuístic: Reconeixement de patrons
a fi de que > a fi que
(literals)
tant ADJ > tan ADJ
(amb variables)
Anàlisi morfològica i desambiguació

basada en els resultats dels programes informàtics d’anàlisi sintàctica.
*((Aquest bicicleta) tenen) (la (roda punxat))
Aquest matí tenen molta feina
Anàlisi sintàctica (superficial)

tècnica probabilística d’identificació dels errors gramaticals que parteix de
l’anàlisi estadística d’un corpus textual utilitzat com a model de l’ús lingüístic.
Tecnologies de la Llengua
16
1.1. Correctors de textos. La verificació gramatical
Problemes gramaticals:
- Concordança subjecte-verb
adjectiu-nom
- Règim preposicional:
“pienso (de) que ...”
- Combinacions de clítics: “me se ha caído ...”
- ...
Tecnologies de la Llengua
17
1.1. Correctors de textos. La verificació d’estil

Verificadors d’estil:
expressions reiteratives
frases massa llargues
repeticions de paraules/categories
a. ?Els antibiòtics (substàncies produïdes per microorganismes que a
baixes concentracions inhibeixen o maten d'altres microorganismes), usats
avui contra la tuberculosi (autèntica plaga en altre temps) i contra moltes
altres malalties infeccioses, salven cada any milions de vides.
b. ?La rata que (Conj/Pron) el gat que(Conj/Pron) el gos caçà(V)
menjà(V) morí(V)
c. ?Jo i ell hem de parlar
Tecnologies de la Llengua
18
1.1. Correctors de textos. La verificació d’estil
Tècniques de verificació estilística:

Assignació prèvia del text analitzat a una determinada varietat estilística

 models estilístics predefinits mitjançant un conjunt de trets lingüístics:







nombre màxim de paraules per oració,
presència o absència de girs col·loquials,
nombre màxim de sintagmes preposicionals consecutius,
longitud de les paraules,
raresa de les paraules
nivells d’ús (col·loquial, culte, ...)
...
Tecnologies de la Llengua
19
1.1. Correctors de textos
Tecnologies i coneixement lingüístic
 Llistes de paraules correctes
• Declarades
• Obtingudes amb un analitzador/generador
 Llistes de combinacions de pronoms febles
• Tipologia de verbs
 Coaparicions incorrectes
• dades estadístiques
• llistes predeterminades
 Errors de concordança
• llistes predefinides
• anàlisi morfològica i desambiguació
 Errors de règim
• lexicó amb informació de recció ?¿
 Errors d’estil
•Identificar repeticions: analitzador morfològic, tractament de corpus
Tecnologies de la Llengua
20
1.1. Correctors de textos. Correctors de català existents
Maxigramar per a Word: http://www.maxigramar.com
Corrector ortogràfic:
altruiste
conformarian
Corrector gramatical:
del Aigua
Aquests accions
Completament integrat a Word
Tecnologies de la Llengua
21
1.1. Correctors de textos
Torna a estar disponible el WordCorrect:
http://www.market-way.net/wordcorrect
Ajuda Gramatical
Diccionari:
Més de 130.000 termes, actualitzats amb els últims termes normalitzats.
Més de 6.000 verbs en infinitiu, amb les seves formes simples i pronominals. Sinònims i Hïpernònims.
Diccionaris Professionals: Mèdic, jurídic, de la construcció, informàtic.
Facilita l'Alternativa a l'errada, amb una Línia de Missatge s'indica el tipus d'errada
Ampli contingut de: Noms propis, toponímia, adjectius, i adverbis en grau comparatiu i superlatiu.
Barbarismes: Correcció i alternativa de barbarismes. Permet consultar els barbarismes.
Sinònims: Per consultar i traslladar directament; indica la categoria gramatical.
Diccionari de l'Usuari: accés directe per modificar i afegir un terme; indicant la categoria gramatical, per tal que formi
part de la correcció sintàctica-gramatical.
Tecnologies de la Llengua
22
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
23
1.2. Extracció d’informació
 Obtenir de documents, pàgines web, etc. la informació rellevant.
Els sistemes d’EI tenen com a objectiu transformar una col·lecció de textos en
informació fàcilment accessible i utilitzable
 Congresos especialitzats: Message Understanding Conferences (MUC)
Posen a prova els sistemes d’extracció d’informació i els avaluen segons uns
criteris estàndard.
Cal determinar quina és la informació rellevant
Definició de plantilles d’extracció
Temes predefinits
Tecnologies de la Llengua
24
1.2. Extracció d’informació
El grup INCE va tenir pèrdues netes en el primer trimestre de 2001 de 49 milions
d’euros, enfront d’un benefici net de 38 milions en el mateix període de 2000. Aquestes
pérdues es deuen a la seva divisió de cel·lulosa, afectada pel preu de la pasta de paper (un
17% menys).
Resultats-1:
Situació: resultat relatiu
Organització: INCE
Signe: negatiu
Quantitat: 49 milions d’euros
Període: 01-01-2001 a 31-03-2001
Resultats-1:
Situació: resultat relatiu
Organització: INCE
Signe: positiu
Quantitat: 38 milions d’euros
Període: 01-01-2000 a 31-03-2000
Tecnologies de la Llengua
25
1.2. Extracció d’informació
 Tasca complexa
 Diferents tècniques i recursos de PLN
 Quan es realitza manualment: coincidència entre el 60 i el 80%
 Mesures:
 Precisió: respostes correctes obtingudes / total de respostes
obtingudes
(precision)
 Cobertura: respostes correctes obtingudes/ total de respostes que
s’haurien d’obtenir
(recall)
Tecnologies de la Llengua
26
1.2. Extracció d’informació
Anàlisi local del text
Filtratge
i segmentació
Anàlisi
Lexica i
morfològica
Anàlisi
sintàctica
Extracció
documents
Correferència
Plantilles
Plantilles
Plantilles
Plantilles
Fusió
Anàlisi del discurs
Tecnologies de la Llengua
27
1.2. Extracció d’informació
Anàlisi local del text
- Anàlisi morfològica-lematització
- Anàlisi sintàctica superficial
- Associació de trets semàntics a les paraules
Inclou:
Reconeixement de noms propis
Dates
Fòrmules
etc.
Anàlisi del discurs
-Tractament de la correferència
- Tractament de l’anàfora
Josep Guardiola ha signat contracte amb un equip estranger.
L’ exblaugrana l’ha triat lliurement.
Tecnologies de la Llengua
28
Processos: anàlisi morfològica
Qui qui pr0cn000 qui pt0cn000
va anar vmip3s0 anar vaip3s0
guanyar guanyar vmn0000
la el da0fs0 ell pp3fs000 la ncms000
Copa_Davis Copa_Davis NP00000
l’ el da0cs0 ell pp3cs000
any_1968 1968 W
? ? Fit
Tecnologies de la Llengua
29
Processos: desambiguació morfològica
Qui qui
quipt0cn000
pt0cn000 qui pr0cn000
va
vaanar
anarvaip3s0
vaip3s0 anar vmip3s0
guanyar
vmn0000
guanyarguanyar
guanyar
vmn0000
la
la elelda0fs0
da0fs0 ell pp3fsa00 la ncms000
Copa_Davis
NP00000
Copa_DavisCopa_Davis
Copa_Davis
NP00000
l’ el
el da0cs0
da0cs0 ell pp3cs000
any_1968
WW
any_19681968
1968
?? ??Fit
Fit
Tecnologies de la Llengua
30
Processos: Chunking
Qui va guanyar la Copa Davis l’any 1968?
S_{
sn_{ Qui }
sv_{ va guanyar }
sn_{ la Copa_Davis }
sn_{ l’any_1968 }
?
}
Tecnologies de la Llengua
31
Processos: anàlisi sintàctica
Qui va guanyar la Copa Davis l’any 1968?
S
sn-SUBJ
sv
gv
sn-CD
sn-CCTemp
Qui va guanyar la Copa Davis l’any 1968?
Tecnologies de la Llengua
32
1.1. Extracció d’informació. Reconeixement de noms propis
México np00g00
el_centroizquierdista_Cuauhtémoc_Cárdenas npmss10
, Fc
, fc
23_may w
en sps00
México,
23
may
(EFE).El
conservador
Vicentevmn0000
Fox cedió hoy ante sus rivales,
( Fpa
posponer
el oficialista Francisco Labastida y elpara
centroizquierdista
Cuauhtémoc Cárdenas,
EFE np00o00
sps00
en posponer para el próximo viernesel eltdms0
debate que estaba previsto para esta
) Fpt
noche.
. Fp
próximo_viernes w
- Fg
el tdms0
El_conservador_Vicente_Fox npmss10
debate ncms000
cedió vmis3s0
que pr3cn000
Mexico, 23 may (EFE).- Today, the conservative politician Vicente Fox gave in
hoy rg000
estaba vmii3s0
before his rivals, the pro-government politician Francisco Labastida and the
ante sps00
previsto vmp00sm
center-left politician Cuauhtémoc Cárdenas, to postpone until next Friday the
sus dp3CP00
para sps00
debate that was planned for tonight.
rivales nccp000
esta dd3fs00
, Fc
noche ncfs000
el_oficialista_Francisco_Labastida npmssp0 . Fp
y cc00
det tw-polític
masculí
singular
NP
El_conservador_Vicente_Fox npmss10
Tipus semàntic:
polític
* detectar NPs
* classificar-los semànticament
* assignar-los informació morfològica
Tecnologies de la Llengua
33
Processos: reconeixement d’entitats
alcalde, anarcosindicalista, anarquista,
cacique, canciller, caudillo, cónsul,
dictador, diplomático, diputado, dirigente,
gobernador, guerrillero, ministro,
parlamentario, político, presidente,
reformista, senador, sindicalista, socialista,
terrorista, vicepresidente, etc.
alpinista, atleta, boxeador,
ciclista, corredor, deportista,
entrenador, esquiador,
fubtolista, gimnasta, jinete,
jugador, motociclista, nadador,
regatista, seleccionador,
submarinista, tenista, etc.
S0 SERES
SP PERSONAS
S1 POLÍTICOS, MILITARES, ARISTÓCRATAS
S2 DEPORTISTAS
S3 RELIGIOSOS
S4 ARTISTAS Y/O INTELECTUALES
S5 PROFESIONALES LIBERALES, EMPRESARIOS
S6 CIENTÍFICOS
S7 FAMILIAS, DINASTÍAS, TRIBUS, ETNIAS
familia, dinastía, tribu,
etnia, grupo_étnico, etc.
antropólogo, arqueólogo,
astrónomo, biólogo, cardiólogo,
cirujano, doctor, físico,
geógrafo, geólogo, investigador,
lingüista, matemático,
psiquiatra, etc.
Tecnologies de la Llengua
abad, arzobispo,
cardenal, diácono,
hermano, monje, obispo,
papa, prelado, prior,
rabino, etc.
académico, actor, actriz, artesano,
artista, bailaor, bailarina, barítono,
biógrafo, cantante, cantaora,
cantaor, cantautora, cantautor,
caricaturista, cineasta, director, etc.
abogado, presidente, director,
administrador, arquitecto,
banquero, comercial, constructor,
directivo, empresario, fiscal ,
fotógrafo, industrial, informático,
juez, letrado, magistrado, etc.
34
1.2. Extracció d’informació
Aplicacions potencials
Alimentació de bases de dades relacionals que després poden ser
consultades i actualitzades amb nova informació.
 La indexació pel contingut de les plantilles permetria aplicar uns sistemes
de recuperació més acurats
Cercadors d'Internet: indexació per les paraules rellevants, NPs,
expressions multiparaula
Gestió de la informació documental d’institucions, hospitals, banca, etc.
Tecnologies de la Llengua
35
1.2. Extracció d’informació. Aplicacions relacionades
Classificació de documents
Assignar a cada document, d’una col·lecció, una o més categories
(classes).
Cal predefinir les classes o categories.
Tècniques estadístiques: aprenentatge automàtic a partir d’exemples.
Mineria de dades
Trobar, en una estructura de dades, agrupacions que responen a un
determinat comportament o que tenen propietats similars.
Marquèting: perfils de destinataris de propaganda.
Resum automàtic
Plantilla = resum del document
Indexació automàtica
Tecnologies de la Llengua
36
1.2. Extracció d’informació
Universitat de Sheffield:
http://www.dcs.shef.ac.uk/research/groups/nlp/extraction/
• AVENTINUS
• ECRAN
• GATE http://gate.ac.uk/
• LaSIE
• Others
Universitat de Barcelona i U. Pompeu Fabra
Grup d’anàlisi del discurs
Tecnologies de la Llengua
37
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
38
1.3. Recuperació d’informació
Un sistema de RI :
donada una consulta plantejada per un usuari
 trobar els documents més rellevants d’ acord amb la consulta.


Els documents poden pertànyer




Línees de millora




a una col·lecció
a una biblioteca digital o
ser localitzats per algun cercador d’ Internet.
Tècniques de PLN en el tractament de la pregunta
Selecció de passatges i/o fragments
Competicions del TREC (http://trec.nist.gov)
Cercadors d’Internet: Yahoo, Google, AltaVista, ...
Tecnologies de la Llengua
39
1.3. Recuperació d’informació
Objectiu últim:
Fer preguntes lliures
Recuperar els documents precisos
Processos:
a) Representació dels textos que es volen recuperar
Indexació de documents (EI)
Identificar els termes que descriuen el contingut
b) Representació de la consulta
Descripció d’allò que es busca  explicitar el contingut
c) Comparació de les representacions o recuperació de documents
d) Avaluació dels documents i retroalimentació de la cerca
Tecnologies de la Llengua
40
1.3. Recuperació d’informació
a) Representació dels textos: Indexació
Manual
Tècniques de documentació
Yahoo: cada document es classifica a mà en termes d’un thesaure
Automàtica
- Predefinit
- Tècniques d’EI
- Processament del text:
Lematització / stemming
Termes multiparaula
Paraules funcionals
Tecnologies de la Llengua
41
1.3. Recuperació d’informació
b) Representació de la consulta
Cerques booleanes (AND, OR, NO, etc.)
Cerques en llenguatge natural (text lliure)
Són les més habituals
Tractament de la cerca:
- Tècquines d’encaix d’esquemes (pattern matching)
- Anàlisi superficial
Q-GO: català
http://www.q-go.com/es/solutions/
- Multilingüisme
Representació lògica
Tecnologies de la Llengua
42
1.3. Recuperació d’informació
c) Comparació de representacions
cerca i documents
d) Avaluació dels documents i retroalimentació de la cerca
Selecció per part de l’usuari dels documents més rellevants
Incorporar aquesta informació (ponderar-los)
Criteris d’avaluació:
Precisió: % de documents rellevants d’entre els que s’han retornat
Cobertura: % de documents rellevants, d’entre tots els que ho són
Tecnologies de la Llengua
43
1.3. Recuperació d’informació
Tècniques de PLN
- Anàlisi morfològica i lematitazació
Documents
Cerca
- EI dels documents
- Anàlisi sintàctica (superficial) de la cerca
- Expansió semàntica de cerca amb WordNet
Possibilitat de cerques multilingües
Tecnologies de la Llengua
44
1.3. Grups de recerca
Grup de Processament del llenguatge de la UNED
http://nlp.uned.es/
http://www.lsi.uned.es
Projecte HERMES
Sistema de RI multilingüe: català, castellà, anglès
Tecnologies de la Llengua
45
Tecnologies de la Llengua
46
Tecnologies de la Llengua
47
Tecnologies de la Llengua
48
Tecnologies de la Llengua
49
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
50
1.4. Sistemes de pregunta-resposta (P-R)

Un sistema de P-R parteix d’ una consulta expressada en llenguatge
natural




No ha de retornar un document rellevant (és a dir, que contingui la resposta)
sinó la pròpia resposta
Si els sistemes de RI convencionals utilitzen tècniques bàsicament
estadístiques,
 els sistemes de P-R utilitzen cada vegada més tècniques de PLN
Apareix a les competicions del TREC a partir del TREC-8 (1999)
Tecnologies de la Llengua
51
1.4. Sistemes de pregunta-resposta (P-R)

Sistemes de P-R accesibles a través d’ Internet:
 START, Omnibase

http://www.ai.mit.edu/projects/infolab/globe.html
 IO search engine

http://www.ionaut.com:8400/
 Webclopedia

http://www.isi.edu/natural-language/projects/webclopedia/
 AskJeeves

http://www.ask.com
 LCC

http://www.languagecomputer.com/
 AnswerBus

http://www.answerbus.com
 Q-GO

http://www.q-go.com/es/solutions/
Tecnologies de la Llengua
52
1.4. Disciplines relacionades amb els sistemes de P-R

Cerca de Resposta


A partir d’una base de dades de preguntes i respostes (FAQ) es
tracta de localitzar la(s) pregunta(s) més pròxima a la plantejada
per a tornar la resposta(s)
FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/
Tecnologies de la Llengua
53
1.4. Grups de recerca
Grup de Processament del llenguatge de la Universitat d’Alacant
http://www.dlsi.ua.es/projectes/
Tècniques de PLN:
Anàlisi morfològica
Anàlisi sintàctica
Tractament de l’anàfora i la correferència
TUSIR: “Desarrollo de un sistema de comprensión de textos aplicado a la
recuperación de información” TIC2000-0664-C02-02
Prototip a Telefònica (interfície de veu)
Tecnologies de la Llengua
54
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
55
1.5. Què és la TA?
La TA s’ocupa del disseny, la implementació, l’avaluació i l’ús de
programes d’ordinador per traduir textos d’un idioma a un altre.
Problemes

Ambigüitat del llenguatge

Coneixement del món:



És massa extens per poder-lo introduir en un programa d’ordinador
És massa complex per poder-lo formalitzar.
Qualitat de traducció depèn de:
 Grau de proximitat entre llengües
 Tipus de coneixement:

informació lèxica, morfològica, sintàctica.

El grau de qualitat baixa  semàntica i pragmàtica.
 Tipus de text que s’ha de traduir.
Tecnologies de la Llengua
56
1.5. Què és la TA?
Aquests nois volen més entrepans
(DDMP NCMS) V3PPI DQ (NCMP)
STE
V
OD
Estos chicos quieren más bocadillos
Estos chicos vuelan más bocadillos
VOLER [(SN (+animat); SN(tot)]
Aquest cotxe vol més benzina
Aquests matins volen més ocells
(DDMP NCMS) V3PPI DQ (NCMP)
CCT/STE
V
STE/OD
Estas mañanas quieren más pájaros
Estas mañanas vuelan más pájaros
Mañana llegará
Demà arribarà
Matí arribarà
Tecnologies de la Llengua
57
1.5. Què és la TA?
Text origen
Llengua-1
Sistema de TA
ANÀLISI
Gramàtica
Text destí
Llengua-2
GENERACIÓ
Diccionaris
Tecnologies de la Llengua
Coneixement
del món
58
1.5. Què és la TA?

Factors a tenir en compte en el disseny d’ un sistema de TA:



Bilingüe (dues llengües) o multilingüe
Totalment automàtic /interactiu
L’estratègia a seguir:




Sistema de traducció directa
Sistema de traducció basats en transferència
Sistema d’interlingua
Memòries de traducció
Tecnologies de la Llengua
59
1.5. Què és la TA? Traducció directa

Sistemes de traducció directa:
 Són els primers que apareixen
 Diccionaris monolingües i bilingües molt grans
 Tractament de diferents tipus d’unitats lèxiques




+/- Mòdul d’anàlisi morfològica
Coneixement lingüístic (morfosintàctic) molt limitat
No es fa anàlisi sintàctica del text
Sistemes per a PCs



Ràpids
Qualitat baixa
Llengües properes
Tecnologies de la Llengua
60
1.5. Què és la TA? Traducció directa
Diccionaris
Text d'origen
monolingües
+
bilingües
Text destí
SYSTRAN (Lewis 1992, Wheeler 1987)
SPANAM (Vasconcelos 1985)
AutomaticTrans (en part)
Tecnologies de la Llengua
61
1.5. Què és la TA?

Sistemes basats en transferència:


Sistemes de TA en què s’apliquen tècniques de processament del
llenguatge (PLN)
Traducció en tres fases:



1. Anàlisi
2. Transferència
3. Generació
METAL-Siemens (Sail-Labs, Comprendium, Internostrum)
TAUM-MÉTEO
GETA
EUROTRA
Tecnologies de la Llengua
62
1.5. Què és la TA? Sistemes basats en transferència
Anàlisi morfològica
Analitzador
Morfològic
Analitzador
Anàlisi sintàctica
Sintàctic
1. Anàlisi
Gramàtica
d'anàlisi
Arbre sintàctic
Constituents
Funcions
Tecnologies de la Llengua
63
1.5. Què és la TA? Sistemes basats en transferència
2. Transferència:
- triar la traducció correcta per a cada paraula
- aplicar les regles de transducció d’arbres
Arbre sintàctic
de la llengua
font
Diccionaris
bilingües
Arbre sintàctic
transferit
Condicions
canvi d'ordre
Tecnologies de la Llengua
64
1.5. Què és la TA? Sistemes basats en transferència
3. Generació, tasques pròpies de la llengua destí:

Col·locar les paraules de les frases segons regles d’ordre de constituents
de la llengua destí

Inserció o eliminació de material lèxic

Generació de les formes flexives adequades

Combinació i contracció d’elements lèxics.

...
Tecnologies de la Llengua
65
1.5. Què és la TA? Sistemes basats en transferència
 Bons resultats entre llengües properes (català-castellà)
 Procés de postedició
Postedició: entre la correcció d’estil i la revisió final
 Resultats acceptables entre llengües distants (català-anglès)
 + Postedició
 Informació aproximada entre llengües molt distants (rus-anglès,
xinès-català)
Tecnologies de la Llengua
66
1.5. Què és la TA?

Sistemes Interlingua:
 Interlingua = Llenguatge formal per representar el significat.


Anàlisi:
 Anàlisi morfològica
 Anàlisi sintàctica
 Representació del significat: p.e.una xarxa semàntica (Conceptes i
relacions)
Generació:
 Representació sintàctica del significat en la llengua destí
 Diccionari bilingüe
 Expansió morfològica
Tecnologies de la Llengua
67
1.5. Què és la TA? Sistemes interlingua
Representació
interlingua
Anàlisi Semàntica
Generació Morfosintàctica
Expansió
morfològica
Anàlisi Morfosintàctica
Frase d'entrada
Frase de sortida
ATLAS-I, ATLAS-II
Tecnologies de la Llengua
68
1.5. Què és la TA? Memòries de traducció

Memòries de traducció:




No realitzen un procés autèntic de traducció.
Compara les frases del text de la llengua origen amb les del corpus que té
emmagatzemat.
Dominis restringits
Grau de similitud 80%
Text d’origen
Memòria
De traducció
Tecnologies de la Llengua
Text destí
69
1.5. Traducció automàtica
 Primers sistemes
 Sistemes integrats en un entorn de hardware
 Monousuari
 Basats en traducció directa
 Actualment
 Entorn PC
 Multilloc de treball (en xarxa)
Administrador
 Traductor monolloc de treball (professional)
Adaptacions personals  lexicó
Memòries de traducció
Definició de filtres (traducció del you, del passat, ...)
 Mòduls adaptables a d’altres aplicacions
 Servei de traducció
 Basats en qualsevol de les estratègies presentades i també mixtos
Tecnologies de la Llengua
70
1.5. Traducció automàtica
Opció A (català-castellà)
 Llengües properes
 Grans volums de textos
 Rapidesa
 Dominis, subllenguatges
 Poca postedició
Opció B (rus-català)
 Llengües molt distants (diferent sistema d’escriptura)
 Incomprensió total
 Saber de què va un text
 Poca demanda
Opció C (català-anglès)
 Llengües distants
 Grans volums de textos
 Postedició
 Llarg desenvolupament
Tecnologies de la Llengua
71
1.5. Traducció automàtica. Sistemes per al català
Internostrum
basat en transferència (sintaxi superficial)
castellà-català (valencià)
http://www.torsimany.ua.es/
SALT
Intern a la Generalitat de València
Ara adaptat al català central; CD
http://www.cult.gva.es/dgoiepl/salt/
AutomaticTrans
Traducció directa, memòries de traducció
http://www.automatictrans.es
Comprendium
caracteríatiques sistemes actuals
català-castellà, castellà-català
català-anglès, anglès-català
http://comprendium.es
Tecnologies de la Llengua
72
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
73
2. Tècniques i recursos per al Processament del Llenguatge
Aplicació
tècniques
recursos
TA
anàlisi
superficial
- Lexicó
- Gramàtica
- Analitzador M.
Pàgines Web amb recursos d’EL per al català:
http://clic.fil.ub.es
http://lsi.upc.es/~padro/
Tecnologies de la Llengua
74
2. Nivells de descripció lingüística/processament









Nivell fonètic
Nivell fonològic
Nivell lèxic
Nivell morfològic
Nivell sintàctic
Nivell lògic
Nivell semàntic
Nivell pragmàtic
Nivell il·locutiu
Tecnologies de la Llengua
75
2. Tècniques i recursos per al Processament del Llenguatge
Tècniques de PLN
Enfocaments diferents amb què es pot dur a terme una tasca
de PLN
Desambiguació
basada en regles
basada en estadística
Anàlisi sintàctica
superficial (chunking)
...
encaix d’esquemes
Recursos de PLN
Programes, dades ... per al PLN
P.e.: lexicons, gramàtiques, analitzadors, corpus,
Tecnologies de la Llengua
76
2. Problemes de Comprensió de la Llengua




Ambigüitat lèxica
Ambigüitat sintàctica
Ambigüitat semàntica
Referència
Tecnologies de la Llengua
77
2. Ambigüitat lèxica
(1) Es va asseure al banc
(2) Es va asseure al banc i va anar a la finestreta
(3) L’avió va localitzar el banc i va notificar la
seva posició
Tecnologies de la Llengua
78
2. Ambigüitat sintàctica
(4) La venedora de diaris del barri
(5) En Pere va veure l’ home dalt de la
muntanya amb uns prismàtics
Tecnologies de la Llengua
79
2. Ambigüitat semántica
(6) En Pere va donar un pastel als nens
Un per a tots?
Un per a cada un?
Tecnologies de la Llengua
80
2. Referència
(7) ell li va dir, després, que el posés
damunt
Qui va dir?
A qui?
Quan, després de què?
Que posés què?
Damunt d’on?
Tecnologies de la Llengua
81
2. Propostes de solució
El Model racionalista. N. Chomsky
Una parte considerable del conocimiento que se debe
utilizar para el TL puede ser fijado de antemano y
debe ser prescrito, codificado e incorporado como
conocimiento inicial para cualquier proceso de TL.
El Model empirista. Z. Harris
El conocimiento lingüístico se puede inferir a partir de
la experiencia, que se puede recoger a través de corpus
textuales, mediante la utilización de unos pocos
mecanismos simples como la asociación o la
generalización. ( Firth "podemos conocer una palabra
por la compañia que lleva")
Tecnologies de la Llengua
82
2. Evolució de la LC (1)








Lingüística normativa i descriptiva
Estructuralisme (Saussure, 1916)
Gramàtica Transformacional generativa (Chomsky,
“Aspects” 1965)
Teoria Estándard
Teoria Estàndard extesa (1970)
Semàntica Generativa (Lakoff, Fillmore, 70)
Gramàtica de Casos (Fillmore 70)
Montague (1973, PTQ)
Tecnologies de la Llengua
83
2. Evolució de la LC (2)






Teoria GB (Chomsky, 83)
Gramàtica d’ Estructura Sintagmàtica Generalitzada GPSG
(Gazdar et al,85)
Gramàtica Lèxico-funcionals LFG (Kaplan,Bresnan,82)
Gramàtica d’Estructura Sintagmàtica Regida pel Nucli,
HPSG (Pollard,Sag,93)
Gramàtica de Cláusules Definides DCG (Warren,Pereira,80)
Gramàtica Categorial (Steedman,88)
Teoria-Formalisme
Tecnologies de la Llengua
84
2. Evolució de la LC (2)







Semàntica i Ontologia (Katz, Fodor)
Semàntica Lèxica
Semàntica de Prototips
Semàntica de Situacions (Perry,Barwise, 1983)
Lingüística textual i de corpus
Lingüística del discurs
Teoria del diàleg
Tecnologies de la Llengua
85
Novetats i perspectives de l’Enginyeria Lingüística
1. Aplicacions de l’Enginyeria Lingüística
1.1. Correctors de textos
1.2. Extracció d’informació
1.3. Recuperació d’informació
1.4. Sistemes de pregunta-resposta
1.5. Traducció automàtica
2. Tècniques i recursos per al Processament del
Llenguatge
2.1. Analitzadors morfològics i sintàctics
2.2. Xarxes semàntiques
2.3. Tècniques de desambiguació
2.4. Reconeixement i classificació d’entitats
2.5. La WEB semàntica
Tecnologies de la Llengua
86
Descargar