Novetats i Perspectives de l’Enginyeria Lingüística M. Antònia Martí Universitat de Barcelona Tecnologies de la Llengua 1 Les tecnologies de la Llengua al segle XXI • Creixement exponencial de la informació digital disponible • Comunicacions entre ordinadors: transmissió d’informació entre usuaris • Nombre creixent d’usuaris finals no especialistes •Recerca en sistemes de tractament de la informació textual, amb l’objectiu de facilitar: • localització • accés • tractament de dades coneixement Tecnologies del text i tecnologies de la veu Tecnologies de la Llengua 2 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de la l’Enginyeria Lingüística 2. Tècniques i recursos per al Processament del Llenguatge Tecnologies de la Llengua 3 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de la l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 4 1. Aplicacions de la l’Enginyeria Lingüística Què és una aplicació d’Enginyeria Lingüística? Sistema informàtic que resol una tasca intel·ligent utilitzant coneixement lingüístic. - Programes - Dades/Coneixement lingüístic - Disseny/Anàlisi de l’aplicació Tecnologies de la Llengua 5 1. Aplicacions de la l’Enginyeria Lingüística Aplicació (Extracció d’Informació) Programes Analitzador Morfològic Analitzador Sintàctic Informació Extreta textos Coneixement Lingüístic Gramàtica Lexicó Dades Morfològiques Tecnologies de la Llengua 6 Tècniques i recursos per al Processament del Llenguatge Tècniques de PLN Enfocaments diferents amb què es pot dur a terme una tasca de PLN Desambiguació basada en regles basada en estadística Anàlisi sintàctica superficial (chunking) ... encaix d’esquemes Recursos de PLN Programes, dades ... per al PLN P.e.: lexicons, gramàtiques, analitzadors, corpus, ... Tecnologies de la Llengua 7 Programas Desam. morfológica SINTAXIS MORFOLOGÍA Cadena de procesos Análisis morfológico Analizador Morfo. Autómata Definición de Tagset Corpus etiquetado a mano Desambiguador Análisis sintáctico parcial Chunker Análisis sintáctico A. Sintáctico Interpretación Semántica Conocimiento Lingüístico Intérprete semántico Tecnologies de la Llengua Reglas de desambiguación Gramàtica de chunks Treebank Ontologías Fuentes léxicas Corpus etiquetados a mano 8 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 9 1.1. Correctors de textos Verificació ortogràfica Verificació gramatical Verificació d’estil Tecnologies de la Llengua 10 1.1. Correctors de textos. La verificació ortogràfica Verificador ortogràfic: programa que comprova l’ortografia de les paraules d’un document identificant les paraules incorrectes ortogràficament i/o determinant o suggerint la paraula correcta Errors de competència: desconeixement de la norma *dons per doncs *peró per però *inmens per immens Errors per interferència amb d’altres llengües *sintaxis per sintaxi Errors d'actuació: distracció *desmolaritzar per desmoralitzar *problement per probablement *escriptutra per escriptura Tecnologies de la Llengua 11 1.1. Correctors de textos. La verificació ortogràfica Cal distingir entre correctors de llengües amb un estatus consolidat d’aquelles que no el tenen tan consolidat La simple informació sobre el fet que hi ha un error no sempre es suficient sintaxis ??¿¿ Tecnologies de la Llengua 12 1.1. Correctors de textos. La verificació ortogràfica Problemes: una paraula correcta del text no és al diccionari de l'ordinador → Ampliació personalitzada dels diccionaris l'error ortogràfic en una paraula n'origina una altra (diferent de la pretesa) que es troba al diccionari: (*vinc gana per tinc gana) (*tinc grana per tinc gana) La tècnica clàssica per a la correcció dels errors consisteix a invertir els quatre processos d'error majoritaris: omissió o inserció d'una lletra, substitució d'una lletra per una altra i transposició de dues lletres adjacents. Tecnologies de la Llengua 13 1.1. Correctors de textos. La verificació ortogràfica Tècniques d’identificació automàtica: comparació amb una llista de paraules correctes emmagatzemades a l’ordinador. quantitatives, basades en la probabilitat de coaparició de paraules en un corpus de la llengua (p.e.: la la /DET +DET). Descobrir les paraules correctes que més s'assemblen fonèticament o ortogràficament a l'error identificat. COM? *quarte: quartet quart quarts quatre Tecnologies de la Llengua (omissió de t), (inserció de e), (substitució de s per e) i (inversió de t i r). 14 1.1. Correctors de textos. La verificació ortogràfica Calcular el nombre de bigrames o trigrames que tenen en comú: *pasetxar, format pels trigrams [#pa, pas, ase, set, etx, txa, xar, ar#]* passejar, pastera, [#pa, pas, ass, sse, sej, eja, jar, ar#] [#pa, pas, ast, ste, ter, era, ra#]. Motor de similitud fonètica: usa un diccionari fonètic (una llista de paraules transcrites fonèticament) i un programa capaç de convertir la paraula incorrecta en la seva transcripció fonètica aproximada, i computant les seqüències de símbols fonètics que comparteixen. Tecnologies de la Llengua 15 1.1. Correctors de textos. La verificació gramatical Verificador gramatical: programa que té per objectiu la verificació sintàctica i semàntica dels textos. Tècniques de verificació gramatical: basada en un enfocament casuístic: Reconeixement de patrons a fi de que > a fi que (literals) tant ADJ > tan ADJ (amb variables) Anàlisi morfològica i desambiguació basada en els resultats dels programes informàtics d’anàlisi sintàctica. *((Aquest bicicleta) tenen) (la (roda punxat)) Aquest matí tenen molta feina Anàlisi sintàctica (superficial) tècnica probabilística d’identificació dels errors gramaticals que parteix de l’anàlisi estadística d’un corpus textual utilitzat com a model de l’ús lingüístic. Tecnologies de la Llengua 16 1.1. Correctors de textos. La verificació gramatical Problemes gramaticals: - Concordança subjecte-verb adjectiu-nom - Règim preposicional: “pienso (de) que ...” - Combinacions de clítics: “me se ha caído ...” - ... Tecnologies de la Llengua 17 1.1. Correctors de textos. La verificació d’estil Verificadors d’estil: expressions reiteratives frases massa llargues repeticions de paraules/categories a. ?Els antibiòtics (substàncies produïdes per microorganismes que a baixes concentracions inhibeixen o maten d'altres microorganismes), usats avui contra la tuberculosi (autèntica plaga en altre temps) i contra moltes altres malalties infeccioses, salven cada any milions de vides. b. ?La rata que (Conj/Pron) el gat que(Conj/Pron) el gos caçà(V) menjà(V) morí(V) c. ?Jo i ell hem de parlar Tecnologies de la Llengua 18 1.1. Correctors de textos. La verificació d’estil Tècniques de verificació estilística: Assignació prèvia del text analitzat a una determinada varietat estilística models estilístics predefinits mitjançant un conjunt de trets lingüístics: nombre màxim de paraules per oració, presència o absència de girs col·loquials, nombre màxim de sintagmes preposicionals consecutius, longitud de les paraules, raresa de les paraules nivells d’ús (col·loquial, culte, ...) ... Tecnologies de la Llengua 19 1.1. Correctors de textos Tecnologies i coneixement lingüístic Llistes de paraules correctes • Declarades • Obtingudes amb un analitzador/generador Llistes de combinacions de pronoms febles • Tipologia de verbs Coaparicions incorrectes • dades estadístiques • llistes predeterminades Errors de concordança • llistes predefinides • anàlisi morfològica i desambiguació Errors de règim • lexicó amb informació de recció ?¿ Errors d’estil •Identificar repeticions: analitzador morfològic, tractament de corpus Tecnologies de la Llengua 20 1.1. Correctors de textos. Correctors de català existents Maxigramar per a Word: http://www.maxigramar.com Corrector ortogràfic: altruiste conformarian Corrector gramatical: del Aigua Aquests accions Completament integrat a Word Tecnologies de la Llengua 21 1.1. Correctors de textos Torna a estar disponible el WordCorrect: http://www.market-way.net/wordcorrect Ajuda Gramatical Diccionari: Més de 130.000 termes, actualitzats amb els últims termes normalitzats. Més de 6.000 verbs en infinitiu, amb les seves formes simples i pronominals. Sinònims i Hïpernònims. Diccionaris Professionals: Mèdic, jurídic, de la construcció, informàtic. Facilita l'Alternativa a l'errada, amb una Línia de Missatge s'indica el tipus d'errada Ampli contingut de: Noms propis, toponímia, adjectius, i adverbis en grau comparatiu i superlatiu. Barbarismes: Correcció i alternativa de barbarismes. Permet consultar els barbarismes. Sinònims: Per consultar i traslladar directament; indica la categoria gramatical. Diccionari de l'Usuari: accés directe per modificar i afegir un terme; indicant la categoria gramatical, per tal que formi part de la correcció sintàctica-gramatical. Tecnologies de la Llengua 22 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 23 1.2. Extracció d’informació Obtenir de documents, pàgines web, etc. la informació rellevant. Els sistemes d’EI tenen com a objectiu transformar una col·lecció de textos en informació fàcilment accessible i utilitzable Congresos especialitzats: Message Understanding Conferences (MUC) Posen a prova els sistemes d’extracció d’informació i els avaluen segons uns criteris estàndard. Cal determinar quina és la informació rellevant Definició de plantilles d’extracció Temes predefinits Tecnologies de la Llengua 24 1.2. Extracció d’informació El grup INCE va tenir pèrdues netes en el primer trimestre de 2001 de 49 milions d’euros, enfront d’un benefici net de 38 milions en el mateix període de 2000. Aquestes pérdues es deuen a la seva divisió de cel·lulosa, afectada pel preu de la pasta de paper (un 17% menys). Resultats-1: Situació: resultat relatiu Organització: INCE Signe: negatiu Quantitat: 49 milions d’euros Període: 01-01-2001 a 31-03-2001 Resultats-1: Situació: resultat relatiu Organització: INCE Signe: positiu Quantitat: 38 milions d’euros Període: 01-01-2000 a 31-03-2000 Tecnologies de la Llengua 25 1.2. Extracció d’informació Tasca complexa Diferents tècniques i recursos de PLN Quan es realitza manualment: coincidència entre el 60 i el 80% Mesures: Precisió: respostes correctes obtingudes / total de respostes obtingudes (precision) Cobertura: respostes correctes obtingudes/ total de respostes que s’haurien d’obtenir (recall) Tecnologies de la Llengua 26 1.2. Extracció d’informació Anàlisi local del text Filtratge i segmentació Anàlisi Lexica i morfològica Anàlisi sintàctica Extracció documents Correferència Plantilles Plantilles Plantilles Plantilles Fusió Anàlisi del discurs Tecnologies de la Llengua 27 1.2. Extracció d’informació Anàlisi local del text - Anàlisi morfològica-lematització - Anàlisi sintàctica superficial - Associació de trets semàntics a les paraules Inclou: Reconeixement de noms propis Dates Fòrmules etc. Anàlisi del discurs -Tractament de la correferència - Tractament de l’anàfora Josep Guardiola ha signat contracte amb un equip estranger. L’ exblaugrana l’ha triat lliurement. Tecnologies de la Llengua 28 Processos: anàlisi morfològica Qui qui pr0cn000 qui pt0cn000 va anar vmip3s0 anar vaip3s0 guanyar guanyar vmn0000 la el da0fs0 ell pp3fs000 la ncms000 Copa_Davis Copa_Davis NP00000 l’ el da0cs0 ell pp3cs000 any_1968 1968 W ? ? Fit Tecnologies de la Llengua 29 Processos: desambiguació morfològica Qui qui quipt0cn000 pt0cn000 qui pr0cn000 va vaanar anarvaip3s0 vaip3s0 anar vmip3s0 guanyar vmn0000 guanyarguanyar guanyar vmn0000 la la elelda0fs0 da0fs0 ell pp3fsa00 la ncms000 Copa_Davis NP00000 Copa_DavisCopa_Davis Copa_Davis NP00000 l’ el el da0cs0 da0cs0 ell pp3cs000 any_1968 WW any_19681968 1968 ?? ??Fit Fit Tecnologies de la Llengua 30 Processos: Chunking Qui va guanyar la Copa Davis l’any 1968? S_{ sn_{ Qui } sv_{ va guanyar } sn_{ la Copa_Davis } sn_{ l’any_1968 } ? } Tecnologies de la Llengua 31 Processos: anàlisi sintàctica Qui va guanyar la Copa Davis l’any 1968? S sn-SUBJ sv gv sn-CD sn-CCTemp Qui va guanyar la Copa Davis l’any 1968? Tecnologies de la Llengua 32 1.1. Extracció d’informació. Reconeixement de noms propis México np00g00 el_centroizquierdista_Cuauhtémoc_Cárdenas npmss10 , Fc , fc 23_may w en sps00 México, 23 may (EFE).El conservador Vicentevmn0000 Fox cedió hoy ante sus rivales, ( Fpa posponer el oficialista Francisco Labastida y elpara centroizquierdista Cuauhtémoc Cárdenas, EFE np00o00 sps00 en posponer para el próximo viernesel eltdms0 debate que estaba previsto para esta ) Fpt noche. . Fp próximo_viernes w - Fg el tdms0 El_conservador_Vicente_Fox npmss10 debate ncms000 cedió vmis3s0 que pr3cn000 Mexico, 23 may (EFE).- Today, the conservative politician Vicente Fox gave in hoy rg000 estaba vmii3s0 before his rivals, the pro-government politician Francisco Labastida and the ante sps00 previsto vmp00sm center-left politician Cuauhtémoc Cárdenas, to postpone until next Friday the sus dp3CP00 para sps00 debate that was planned for tonight. rivales nccp000 esta dd3fs00 , Fc noche ncfs000 el_oficialista_Francisco_Labastida npmssp0 . Fp y cc00 det tw-polític masculí singular NP El_conservador_Vicente_Fox npmss10 Tipus semàntic: polític * detectar NPs * classificar-los semànticament * assignar-los informació morfològica Tecnologies de la Llengua 33 Processos: reconeixement d’entitats alcalde, anarcosindicalista, anarquista, cacique, canciller, caudillo, cónsul, dictador, diplomático, diputado, dirigente, gobernador, guerrillero, ministro, parlamentario, político, presidente, reformista, senador, sindicalista, socialista, terrorista, vicepresidente, etc. alpinista, atleta, boxeador, ciclista, corredor, deportista, entrenador, esquiador, fubtolista, gimnasta, jinete, jugador, motociclista, nadador, regatista, seleccionador, submarinista, tenista, etc. S0 SERES SP PERSONAS S1 POLÍTICOS, MILITARES, ARISTÓCRATAS S2 DEPORTISTAS S3 RELIGIOSOS S4 ARTISTAS Y/O INTELECTUALES S5 PROFESIONALES LIBERALES, EMPRESARIOS S6 CIENTÍFICOS S7 FAMILIAS, DINASTÍAS, TRIBUS, ETNIAS familia, dinastía, tribu, etnia, grupo_étnico, etc. antropólogo, arqueólogo, astrónomo, biólogo, cardiólogo, cirujano, doctor, físico, geógrafo, geólogo, investigador, lingüista, matemático, psiquiatra, etc. Tecnologies de la Llengua abad, arzobispo, cardenal, diácono, hermano, monje, obispo, papa, prelado, prior, rabino, etc. académico, actor, actriz, artesano, artista, bailaor, bailarina, barítono, biógrafo, cantante, cantaora, cantaor, cantautora, cantautor, caricaturista, cineasta, director, etc. abogado, presidente, director, administrador, arquitecto, banquero, comercial, constructor, directivo, empresario, fiscal , fotógrafo, industrial, informático, juez, letrado, magistrado, etc. 34 1.2. Extracció d’informació Aplicacions potencials Alimentació de bases de dades relacionals que després poden ser consultades i actualitzades amb nova informació. La indexació pel contingut de les plantilles permetria aplicar uns sistemes de recuperació més acurats Cercadors d'Internet: indexació per les paraules rellevants, NPs, expressions multiparaula Gestió de la informació documental d’institucions, hospitals, banca, etc. Tecnologies de la Llengua 35 1.2. Extracció d’informació. Aplicacions relacionades Classificació de documents Assignar a cada document, d’una col·lecció, una o més categories (classes). Cal predefinir les classes o categories. Tècniques estadístiques: aprenentatge automàtic a partir d’exemples. Mineria de dades Trobar, en una estructura de dades, agrupacions que responen a un determinat comportament o que tenen propietats similars. Marquèting: perfils de destinataris de propaganda. Resum automàtic Plantilla = resum del document Indexació automàtica Tecnologies de la Llengua 36 1.2. Extracció d’informació Universitat de Sheffield: http://www.dcs.shef.ac.uk/research/groups/nlp/extraction/ • AVENTINUS • ECRAN • GATE http://gate.ac.uk/ • LaSIE • Others Universitat de Barcelona i U. Pompeu Fabra Grup d’anàlisi del discurs Tecnologies de la Llengua 37 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 38 1.3. Recuperació d’informació Un sistema de RI : donada una consulta plantejada per un usuari trobar els documents més rellevants d’ acord amb la consulta. Els documents poden pertànyer Línees de millora a una col·lecció a una biblioteca digital o ser localitzats per algun cercador d’ Internet. Tècniques de PLN en el tractament de la pregunta Selecció de passatges i/o fragments Competicions del TREC (http://trec.nist.gov) Cercadors d’Internet: Yahoo, Google, AltaVista, ... Tecnologies de la Llengua 39 1.3. Recuperació d’informació Objectiu últim: Fer preguntes lliures Recuperar els documents precisos Processos: a) Representació dels textos que es volen recuperar Indexació de documents (EI) Identificar els termes que descriuen el contingut b) Representació de la consulta Descripció d’allò que es busca explicitar el contingut c) Comparació de les representacions o recuperació de documents d) Avaluació dels documents i retroalimentació de la cerca Tecnologies de la Llengua 40 1.3. Recuperació d’informació a) Representació dels textos: Indexació Manual Tècniques de documentació Yahoo: cada document es classifica a mà en termes d’un thesaure Automàtica - Predefinit - Tècniques d’EI - Processament del text: Lematització / stemming Termes multiparaula Paraules funcionals Tecnologies de la Llengua 41 1.3. Recuperació d’informació b) Representació de la consulta Cerques booleanes (AND, OR, NO, etc.) Cerques en llenguatge natural (text lliure) Són les més habituals Tractament de la cerca: - Tècquines d’encaix d’esquemes (pattern matching) - Anàlisi superficial Q-GO: català http://www.q-go.com/es/solutions/ - Multilingüisme Representació lògica Tecnologies de la Llengua 42 1.3. Recuperació d’informació c) Comparació de representacions cerca i documents d) Avaluació dels documents i retroalimentació de la cerca Selecció per part de l’usuari dels documents més rellevants Incorporar aquesta informació (ponderar-los) Criteris d’avaluació: Precisió: % de documents rellevants d’entre els que s’han retornat Cobertura: % de documents rellevants, d’entre tots els que ho són Tecnologies de la Llengua 43 1.3. Recuperació d’informació Tècniques de PLN - Anàlisi morfològica i lematitazació Documents Cerca - EI dels documents - Anàlisi sintàctica (superficial) de la cerca - Expansió semàntica de cerca amb WordNet Possibilitat de cerques multilingües Tecnologies de la Llengua 44 1.3. Grups de recerca Grup de Processament del llenguatge de la UNED http://nlp.uned.es/ http://www.lsi.uned.es Projecte HERMES Sistema de RI multilingüe: català, castellà, anglès Tecnologies de la Llengua 45 Tecnologies de la Llengua 46 Tecnologies de la Llengua 47 Tecnologies de la Llengua 48 Tecnologies de la Llengua 49 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 50 1.4. Sistemes de pregunta-resposta (P-R) Un sistema de P-R parteix d’ una consulta expressada en llenguatge natural No ha de retornar un document rellevant (és a dir, que contingui la resposta) sinó la pròpia resposta Si els sistemes de RI convencionals utilitzen tècniques bàsicament estadístiques, els sistemes de P-R utilitzen cada vegada més tècniques de PLN Apareix a les competicions del TREC a partir del TREC-8 (1999) Tecnologies de la Llengua 51 1.4. Sistemes de pregunta-resposta (P-R) Sistemes de P-R accesibles a través d’ Internet: START, Omnibase http://www.ai.mit.edu/projects/infolab/globe.html IO search engine http://www.ionaut.com:8400/ Webclopedia http://www.isi.edu/natural-language/projects/webclopedia/ AskJeeves http://www.ask.com LCC http://www.languagecomputer.com/ AnswerBus http://www.answerbus.com Q-GO http://www.q-go.com/es/solutions/ Tecnologies de la Llengua 52 1.4. Disciplines relacionades amb els sistemes de P-R Cerca de Resposta A partir d’una base de dades de preguntes i respostes (FAQ) es tracta de localitzar la(s) pregunta(s) més pròxima a la plantejada per a tornar la resposta(s) FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/ Tecnologies de la Llengua 53 1.4. Grups de recerca Grup de Processament del llenguatge de la Universitat d’Alacant http://www.dlsi.ua.es/projectes/ Tècniques de PLN: Anàlisi morfològica Anàlisi sintàctica Tractament de l’anàfora i la correferència TUSIR: “Desarrollo de un sistema de comprensión de textos aplicado a la recuperación de información” TIC2000-0664-C02-02 Prototip a Telefònica (interfície de veu) Tecnologies de la Llengua 54 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 55 1.5. Què és la TA? La TA s’ocupa del disseny, la implementació, l’avaluació i l’ús de programes d’ordinador per traduir textos d’un idioma a un altre. Problemes Ambigüitat del llenguatge Coneixement del món: És massa extens per poder-lo introduir en un programa d’ordinador És massa complex per poder-lo formalitzar. Qualitat de traducció depèn de: Grau de proximitat entre llengües Tipus de coneixement: informació lèxica, morfològica, sintàctica. El grau de qualitat baixa semàntica i pragmàtica. Tipus de text que s’ha de traduir. Tecnologies de la Llengua 56 1.5. Què és la TA? Aquests nois volen més entrepans (DDMP NCMS) V3PPI DQ (NCMP) STE V OD Estos chicos quieren más bocadillos Estos chicos vuelan más bocadillos VOLER [(SN (+animat); SN(tot)] Aquest cotxe vol més benzina Aquests matins volen més ocells (DDMP NCMS) V3PPI DQ (NCMP) CCT/STE V STE/OD Estas mañanas quieren más pájaros Estas mañanas vuelan más pájaros Mañana llegará Demà arribarà Matí arribarà Tecnologies de la Llengua 57 1.5. Què és la TA? Text origen Llengua-1 Sistema de TA ANÀLISI Gramàtica Text destí Llengua-2 GENERACIÓ Diccionaris Tecnologies de la Llengua Coneixement del món 58 1.5. Què és la TA? Factors a tenir en compte en el disseny d’ un sistema de TA: Bilingüe (dues llengües) o multilingüe Totalment automàtic /interactiu L’estratègia a seguir: Sistema de traducció directa Sistema de traducció basats en transferència Sistema d’interlingua Memòries de traducció Tecnologies de la Llengua 59 1.5. Què és la TA? Traducció directa Sistemes de traducció directa: Són els primers que apareixen Diccionaris monolingües i bilingües molt grans Tractament de diferents tipus d’unitats lèxiques +/- Mòdul d’anàlisi morfològica Coneixement lingüístic (morfosintàctic) molt limitat No es fa anàlisi sintàctica del text Sistemes per a PCs Ràpids Qualitat baixa Llengües properes Tecnologies de la Llengua 60 1.5. Què és la TA? Traducció directa Diccionaris Text d'origen monolingües + bilingües Text destí SYSTRAN (Lewis 1992, Wheeler 1987) SPANAM (Vasconcelos 1985) AutomaticTrans (en part) Tecnologies de la Llengua 61 1.5. Què és la TA? Sistemes basats en transferència: Sistemes de TA en què s’apliquen tècniques de processament del llenguatge (PLN) Traducció en tres fases: 1. Anàlisi 2. Transferència 3. Generació METAL-Siemens (Sail-Labs, Comprendium, Internostrum) TAUM-MÉTEO GETA EUROTRA Tecnologies de la Llengua 62 1.5. Què és la TA? Sistemes basats en transferència Anàlisi morfològica Analitzador Morfològic Analitzador Anàlisi sintàctica Sintàctic 1. Anàlisi Gramàtica d'anàlisi Arbre sintàctic Constituents Funcions Tecnologies de la Llengua 63 1.5. Què és la TA? Sistemes basats en transferència 2. Transferència: - triar la traducció correcta per a cada paraula - aplicar les regles de transducció d’arbres Arbre sintàctic de la llengua font Diccionaris bilingües Arbre sintàctic transferit Condicions canvi d'ordre Tecnologies de la Llengua 64 1.5. Què és la TA? Sistemes basats en transferència 3. Generació, tasques pròpies de la llengua destí: Col·locar les paraules de les frases segons regles d’ordre de constituents de la llengua destí Inserció o eliminació de material lèxic Generació de les formes flexives adequades Combinació i contracció d’elements lèxics. ... Tecnologies de la Llengua 65 1.5. Què és la TA? Sistemes basats en transferència Bons resultats entre llengües properes (català-castellà) Procés de postedició Postedició: entre la correcció d’estil i la revisió final Resultats acceptables entre llengües distants (català-anglès) + Postedició Informació aproximada entre llengües molt distants (rus-anglès, xinès-català) Tecnologies de la Llengua 66 1.5. Què és la TA? Sistemes Interlingua: Interlingua = Llenguatge formal per representar el significat. Anàlisi: Anàlisi morfològica Anàlisi sintàctica Representació del significat: p.e.una xarxa semàntica (Conceptes i relacions) Generació: Representació sintàctica del significat en la llengua destí Diccionari bilingüe Expansió morfològica Tecnologies de la Llengua 67 1.5. Què és la TA? Sistemes interlingua Representació interlingua Anàlisi Semàntica Generació Morfosintàctica Expansió morfològica Anàlisi Morfosintàctica Frase d'entrada Frase de sortida ATLAS-I, ATLAS-II Tecnologies de la Llengua 68 1.5. Què és la TA? Memòries de traducció Memòries de traducció: No realitzen un procés autèntic de traducció. Compara les frases del text de la llengua origen amb les del corpus que té emmagatzemat. Dominis restringits Grau de similitud 80% Text d’origen Memòria De traducció Tecnologies de la Llengua Text destí 69 1.5. Traducció automàtica Primers sistemes Sistemes integrats en un entorn de hardware Monousuari Basats en traducció directa Actualment Entorn PC Multilloc de treball (en xarxa) Administrador Traductor monolloc de treball (professional) Adaptacions personals lexicó Memòries de traducció Definició de filtres (traducció del you, del passat, ...) Mòduls adaptables a d’altres aplicacions Servei de traducció Basats en qualsevol de les estratègies presentades i també mixtos Tecnologies de la Llengua 70 1.5. Traducció automàtica Opció A (català-castellà) Llengües properes Grans volums de textos Rapidesa Dominis, subllenguatges Poca postedició Opció B (rus-català) Llengües molt distants (diferent sistema d’escriptura) Incomprensió total Saber de què va un text Poca demanda Opció C (català-anglès) Llengües distants Grans volums de textos Postedició Llarg desenvolupament Tecnologies de la Llengua 71 1.5. Traducció automàtica. Sistemes per al català Internostrum basat en transferència (sintaxi superficial) castellà-català (valencià) http://www.torsimany.ua.es/ SALT Intern a la Generalitat de València Ara adaptat al català central; CD http://www.cult.gva.es/dgoiepl/salt/ AutomaticTrans Traducció directa, memòries de traducció http://www.automatictrans.es Comprendium caracteríatiques sistemes actuals català-castellà, castellà-català català-anglès, anglès-català http://comprendium.es Tecnologies de la Llengua 72 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 73 2. Tècniques i recursos per al Processament del Llenguatge Aplicació tècniques recursos TA anàlisi superficial - Lexicó - Gramàtica - Analitzador M. Pàgines Web amb recursos d’EL per al català: http://clic.fil.ub.es http://lsi.upc.es/~padro/ Tecnologies de la Llengua 74 2. Nivells de descripció lingüística/processament Nivell fonètic Nivell fonològic Nivell lèxic Nivell morfològic Nivell sintàctic Nivell lògic Nivell semàntic Nivell pragmàtic Nivell il·locutiu Tecnologies de la Llengua 75 2. Tècniques i recursos per al Processament del Llenguatge Tècniques de PLN Enfocaments diferents amb què es pot dur a terme una tasca de PLN Desambiguació basada en regles basada en estadística Anàlisi sintàctica superficial (chunking) ... encaix d’esquemes Recursos de PLN Programes, dades ... per al PLN P.e.: lexicons, gramàtiques, analitzadors, corpus, Tecnologies de la Llengua 76 2. Problemes de Comprensió de la Llengua Ambigüitat lèxica Ambigüitat sintàctica Ambigüitat semàntica Referència Tecnologies de la Llengua 77 2. Ambigüitat lèxica (1) Es va asseure al banc (2) Es va asseure al banc i va anar a la finestreta (3) L’avió va localitzar el banc i va notificar la seva posició Tecnologies de la Llengua 78 2. Ambigüitat sintàctica (4) La venedora de diaris del barri (5) En Pere va veure l’ home dalt de la muntanya amb uns prismàtics Tecnologies de la Llengua 79 2. Ambigüitat semántica (6) En Pere va donar un pastel als nens Un per a tots? Un per a cada un? Tecnologies de la Llengua 80 2. Referència (7) ell li va dir, després, que el posés damunt Qui va dir? A qui? Quan, després de què? Que posés què? Damunt d’on? Tecnologies de la Llengua 81 2. Propostes de solució El Model racionalista. N. Chomsky Una parte considerable del conocimiento que se debe utilizar para el TL puede ser fijado de antemano y debe ser prescrito, codificado e incorporado como conocimiento inicial para cualquier proceso de TL. El Model empirista. Z. Harris El conocimiento lingüístico se puede inferir a partir de la experiencia, que se puede recoger a través de corpus textuales, mediante la utilización de unos pocos mecanismos simples como la asociación o la generalización. ( Firth "podemos conocer una palabra por la compañia que lleva") Tecnologies de la Llengua 82 2. Evolució de la LC (1) Lingüística normativa i descriptiva Estructuralisme (Saussure, 1916) Gramàtica Transformacional generativa (Chomsky, “Aspects” 1965) Teoria Estándard Teoria Estàndard extesa (1970) Semàntica Generativa (Lakoff, Fillmore, 70) Gramàtica de Casos (Fillmore 70) Montague (1973, PTQ) Tecnologies de la Llengua 83 2. Evolució de la LC (2) Teoria GB (Chomsky, 83) Gramàtica d’ Estructura Sintagmàtica Generalitzada GPSG (Gazdar et al,85) Gramàtica Lèxico-funcionals LFG (Kaplan,Bresnan,82) Gramàtica d’Estructura Sintagmàtica Regida pel Nucli, HPSG (Pollard,Sag,93) Gramàtica de Cláusules Definides DCG (Warren,Pereira,80) Gramàtica Categorial (Steedman,88) Teoria-Formalisme Tecnologies de la Llengua 84 2. Evolució de la LC (2) Semàntica i Ontologia (Katz, Fodor) Semàntica Lèxica Semàntica de Prototips Semàntica de Situacions (Perry,Barwise, 1983) Lingüística textual i de corpus Lingüística del discurs Teoria del diàleg Tecnologies de la Llengua 85 Novetats i perspectives de l’Enginyeria Lingüística 1. Aplicacions de l’Enginyeria Lingüística 1.1. Correctors de textos 1.2. Extracció d’informació 1.3. Recuperació d’informació 1.4. Sistemes de pregunta-resposta 1.5. Traducció automàtica 2. Tècniques i recursos per al Processament del Llenguatge 2.1. Analitzadors morfològics i sintàctics 2.2. Xarxes semàntiques 2.3. Tècniques de desambiguació 2.4. Reconeixement i classificació d’entitats 2.5. La WEB semàntica Tecnologies de la Llengua 86