Traducción automática Técnicas y aplicaciones Isabel Cuadrado Gutiérrez David Ferrer Figueroa Traducción automática Es el subcampo de la lingüística computacional que investiga el uso de programas para traducir texto o voz entre distintos idiomas. Historia En el s. XVII Descartes propuso crear un lenguaje universal. En el s. XIX Champollion consiguió descifrar los jeroglíficos de la Piedra Rosetta tras buscar patrones y similitudes entre los símbolos En 1949 A.D. Booth propone utilizar ordenadores para la traducción automática En la década de 1950 se lleva a cabo exitosamente el Experimento de Georgetown Tipos de traducción automática Traducción basada en reglas Traducción basada en contexto Traducción basada en corpus Tipos de traducción automática Basada en reglas Basada en diccionario Basada en transferencia Basada en interlingua Ejemplo de traducción basada en diccionario Tipos de traducción automática Traducción basada en contexto Tiene en cuenta el contexto de las palabras a la hora de traducir. Es un método iterativo. Proporciona muy buenos resultados (90% de aciertos) Tipos de traducción automática Traducción basada en corpus ¿Qué es un corpus? Conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación. (Real Academia Española) Se basa en analizar textos reales con sus respectivas traducciones. Dos tipos: Basados en métodos estadísticos. Basados en ejemplos. Tipos de traducción automática Traducción basada en Corpus Basados en métodos estadísticos. En primer lugar obtenemos el corpus bilingüe. Seguidamente realizamos la etapa de alineación. Crear correspondencia entre palabras de un idioma y otro. A partir de observación de pares de oraciones construye las asociaciones. Cuanto más grande sea el corpus con más certeza creamos las asociaciones. Búsqueda entre nuestras asociaciones las que encajan en nuestra oración. Problema: ambigüedades, por ello se emplean dos modelos, de traducción y de lenguaje. Se emplean modelos estadísticos para estimar la probabilidad de que dadas dos frases una sea la traducción de la otra. Tipos de traducción automática Traducción basada en Corpus. Basado en ejemplos Realizar la traducción basándonos en ejemplos de los que ya conocemos su traducción. El sistema toma las decisiones que producirán el texto de salida. Basada en memorias: el sistema extrae todos los ejemplos que encuentra pero el traductor humano construye las frases adecuadas. Emplear unidades más pequeñas que la oración para obtener mejores resultados. Servicios de Traducción Automática Empresas más importantes dedicadas a la traducción automática: Systran Compañía Número de idiomas Asia Online 77 Google Translate 65 Systran 36 Apertium 42 WorldLingo 43 PROMT 43 Una de las empresas más antiguas (Dr. Peter Toma,1968). Comenzó con la traducción basada en reglas, pero migró al uso de corpus paralelos. Es uno de los sistemas más utilizados, integrado en aplicaciones como Yahoo o el traductor de google Ha trabajado durante muchos años para el departamento de defensa de EEUU y Comisión Europea. Google Translate Realiza la traducción de unos 65 idiomas, empleando en muchos de ellos la traducción intermedia al inglés. Emplea como sistema de traducción el basado en corpus con métodos estadísticos. Obtiene un resultado tras analizar los textos equivalentes más probables. Las fuentes de datos provienen de traducciones realizadas por personas. Conclusiones Mejora de técnicas de aprendizaje máquina para adquirir el significado de palabras y la gramática de forma automática, empleo de técnicas estadísticas como redes neuronales. Inconveniente: el sistema obtenido es muy sensible al corpus de entrenamiento utilizado. Buenos resultados en tareas de dominio restringido. Sistemas útiles y rentables basados en sublenguajes: jurídico, científico, etc. Sistema Meteo(Canadá) produciendo partes meteorológicos. Sistemas muy alejados de una buena traducción para textos de lenguaje coloquial. Hace falta todavía trabajar mucho para obtener un sistema generalizado que proporcione traducciones de alta calidad. ¿PREGUNTAS?