Traducción máquina Técnicas y aplicaciones

Anuncio
Traducción automática
Técnicas y aplicaciones
Isabel Cuadrado Gutiérrez
David Ferrer Figueroa
Traducción automática

Es el subcampo de la lingüística computacional que
investiga el uso de programas para traducir texto o voz
entre distintos idiomas.
Historia




En el s. XVII Descartes propuso crear un lenguaje
universal.
En el s. XIX Champollion consiguió descifrar los
jeroglíficos de la Piedra Rosetta tras buscar patrones y
similitudes entre los símbolos
En 1949 A.D. Booth propone utilizar ordenadores para la
traducción automática
En la década de 1950 se lleva a cabo exitosamente el
Experimento de Georgetown
Tipos de traducción automática



Traducción basada en reglas
Traducción basada en contexto
Traducción basada en corpus
Tipos de traducción automática

Basada en reglas

Basada en diccionario

Basada en transferencia

Basada en interlingua
Ejemplo de traducción basada en
diccionario
Tipos de traducción automática

Traducción basada en contexto



Tiene en cuenta el contexto de las palabras a la hora de
traducir.
Es un método iterativo.
Proporciona muy buenos resultados (90% de aciertos)
Tipos de traducción automática

Traducción basada en corpus

¿Qué es un corpus?



Conjunto lo más extenso y ordenado posible de datos o textos científicos,
literarios, etc., que pueden servir de base a una investigación. (Real Academia
Española)
Se basa en analizar textos reales con sus respectivas traducciones.
Dos tipos:


Basados en métodos estadísticos.
Basados en ejemplos.
Tipos de traducción automática

Traducción basada en Corpus

Basados en métodos estadísticos.


En primer lugar obtenemos el corpus bilingüe.
Seguidamente realizamos la etapa de alineación.






Crear correspondencia entre palabras de un idioma y otro.
A partir de observación de pares de oraciones construye las asociaciones.
Cuanto más grande sea el corpus con más certeza creamos las asociaciones.
Búsqueda entre nuestras asociaciones las que encajan en nuestra oración.
Problema: ambigüedades, por ello se emplean dos modelos, de traducción y de lenguaje.
Se emplean modelos estadísticos para estimar la probabilidad de que dadas dos frases
una sea la traducción de la otra.
Tipos de traducción automática

Traducción basada en Corpus.

Basado en ejemplos
 Realizar la traducción basándonos en ejemplos de los que
ya conocemos su traducción.
 El sistema toma las decisiones que producirán el texto de
salida.


Basada en memorias: el sistema extrae todos los ejemplos que
encuentra pero el traductor humano construye las frases
adecuadas.
Emplear unidades más pequeñas que la oración para
obtener mejores resultados.
Servicios de Traducción Automática

Empresas más importantes dedicadas
a la traducción automática:

Systran



Compañía
Número de idiomas
Asia Online
77
Google Translate
65
Systran
36
Apertium
42
WorldLingo
43
PROMT
43


Una de las empresas más antiguas (Dr.
Peter Toma,1968).
Comenzó con la traducción basada en
reglas, pero migró al uso de corpus
paralelos.
Es uno de los sistemas más utilizados,
integrado en aplicaciones como Yahoo o
el traductor de google
Ha trabajado durante muchos años para
el departamento de defensa de EEUU y
Comisión Europea.
Google Translate


Realiza la traducción de unos 65 idiomas,
empleando en muchos de ellos la
traducción intermedia al inglés.
Emplea como sistema de traducción el
basado en corpus con métodos
estadísticos.


Obtiene un resultado tras analizar los
textos equivalentes más probables.
Las fuentes de datos provienen de
traducciones realizadas por personas.
Conclusiones



Mejora de técnicas de aprendizaje máquina para adquirir el
significado de palabras y la gramática de forma automática,
empleo de técnicas estadísticas como redes neuronales.
Inconveniente: el sistema obtenido es muy sensible al corpus
de entrenamiento utilizado. Buenos resultados en tareas de
dominio restringido.
Sistemas útiles y rentables basados en sublenguajes: jurídico,
científico, etc.



Sistema Meteo(Canadá) produciendo partes meteorológicos.
Sistemas muy alejados de una buena traducción para textos de
lenguaje coloquial.
Hace falta todavía trabajar mucho para obtener un sistema
generalizado que proporcione traducciones de alta calidad.
¿PREGUNTAS?
Descargar