Lenguaje natural vs. lenguaje artificial Juan Carlos Torres Moreno, mexicano especialista en Procesamiento del Lenguaje Natural, participó en evento internacional de sistemas en la UPAO y explica la relación entre el lenguaje humano y el lenguaje en las computadoras Juan Carlos Torres Moreno, experto en informática. El Procesamiento del Lenguaje Natural, una rama de la inteligencia artificial, es una disciplina fascinante, orientada a facilitar, mediante sistemas informáticos, la comunicación entre el hombre y la computadora (texto y voz) por medio del lenguaje humano. ¿Cómo esto es posible? ¿Qué problemas se presentan para este trabajo? El doctor en computación Juan Carlos Torres Moreno, mexicano, responsable Equipo de Investigación en Procesamiento del Lenguaje Natural – LIA de la Université d'Avignon et des Pays de Vaucluse (Francia), llegó a Trujillo para participar del VI Congreso Internacional de Ingeniería de Software, Telecomunicaciones y Sistemas de la UPAO y nos ofreció algunas interesantes ideas sobre el tema. ‐Doctor, ¿cuál es el principal problema que afronta el Procesamiento del Lenguaje Natural (PLN)? ‐Bueno, no es un problema, son muchos problemas, porque para los humanos es fácil hablar, aprender idiomas, comunicarse, pero para el PLN no es una tarea fácil, son muchas tareas y problemas, como, por ejemplo, generación de textos, resumen automático, clasificación de documentos, traducción automática, clasificación temática, búsqueda de información, recuperación de información. ‐¿Hasta qué punto se utiliza la lingüística en el PLN? ‐La lingüística fue creada para explicar el idioma y el lenguaje humano, las tesis de la lingüística son válidas para el lenguaje humano, pero para el lenguaje procesado por computadoras tiene limitaciones; sin embargo, es valioso porque es un análisis muy fino, el análisis PLN estadístico es muy grosero. Entonces, se debe conjugar los dos enfoques. Primero un análisis estadístico de base, de grandes masas de documentos, y luego un análisis fino para analizar las frases al detalle, una vez que la ambigüedad ya no existe. ‐¿Cómo funciona la búsqueda de información en Google? ‐Por ejemplo, quiero buscar un término, como Universidad, UPAO, Perú, Trujillo, escribo palabras claves, o puedo escribir una frase completa: “dónde está la UPAO en el Perú”. Lo que hace Google es eliminar los artículos y signos de puntuación y solamente guarda las palabras claves más importantes. Éstas después las va a normalizar, por ejemplo, Universidad, universitario, colegio, educación superior probablemente las lleve a un solo término. Así, la sigla UPAO va a estar indexada. ‐¿Y qué hace luego? ‐Lo que hace Google, en particular, es recorrer la internet visible en alrededor de un mes, donde hace una búsqueda de todos los sitios posibles que puede indexar y al final de este mes tiene una base, denominada base de datos invertida, de los sitios de Internet con sus palabras claves, quiere decir que si yo hago una búsqueda en Google, la búsqueda fue indexada por lo menos hace un mes. Hay otros mecanismos, como los artículos periodísticos o la cosa que es muy nueva, Google lo pone artificialmente para que aparezca arriba porque, de lo contrario, no aparecería, pero, en general, tarda un mes para que aparezca en la internet visible, que representa un 15 o 20 por ciento de la internet total. ‐¿Entonces, hay una internet invisible? ‐Exacto, está representada por las páginas dinámicas. Son las páginas creadas automáticamente, de base de datos, que están con clave, mi cuenta bancaria no la puede ver nadie más que yo. Es un masa de un 80 por ciento, el resto, lo visible, es lo que los robots de búsqueda recorren en un mes, aproximadamente. ‐¿Será difícil confrontar el lenguaje de programación y el lenguaje natural? ‐Es muchísimo más preciso el lenguaje formal, de programación, es conciso, no ambiguo y tiene una sintaxis estricta. El lenguaje natural, en cambio, tiene una cantidad de palabras inmensa, nadie sabe el número de palabras en español ni en francés ni en inglés. Y no es un número astronómico, pero es muy grande. ‐¿Cómo un ser humano reconoce un idioma y cómo lo hace la computadora? ‐El mecanismo mental es difícil de explicar, no lo sé, pero sí sé que una persona aún desconociendo un idioma puede saber si es alemán, francés o ruso, aunque no que sepa ninguno de los tres. ¿Cómo funciona el mecanismo mental? Es difícil, probablemente es un mecanismo asociativo, de cómo haya uno leído o visto imágenes. ¿Como hace la máquina? A través de un cálculo de probabilidades con los n‐gramas de letras. Cada letra tiene una frecuencia de aparición diferente en cada idioma, en ruso, por ejemplo, las r son más frecuentes; en español la letra ñ es característica. Más o menos funciona así, contando las frecuencias de letras. ‐¿Cómo aumenta esta certeza de reconocimiento del idioma para la computadora? ‐Para tener la mayor certeza hay que ir a grupos de cinco letras, hay de dos (bigramas), tres (trigrama), etc., de esa manera el porcentaje de identificación del idioma es altísimo, cien por ciento prácticamente. No logramos reproducir el mecanismo mental exacto de cómo el humano reconoce el idioma, pero la computadora logra al 100% la tarea. Lo importante es llegar a la solución. (CGM)