PROCESAMIENTO DEL LENGUAJE NATURAL M.C. CAROLINA ROCÍO SÁNCHEZ PÉREZ PRIMAVERA 2012 Introducción ¿Qué es el lenguaje? El lenguaje se configura como aquella forma que tienen los seres humanos para comunicarse. Se trata de un conjunto de signos, tanto orales como escritos, que a través de su significado y su relación permiten la expresión y la comunicación humana. ¿Qué es el lenguaje? Y la Wiki dice que… Se llama lenguaje a cualquier tipo de código semiótico estructurado, para el que existe un contexto de uso y ciertos principios combinatorios formales. Existen contextos tanto naturales como artificiales. El lenguaje humano se basa en la capacidad de los seres humanos para comunicarse por medio de signos. Principalmente lo hacemos utilizando el signo lingüístico. El lenguaje humano puede estudiarse en cuanto a su desarrollo desde dos puntos de vista complementarios: la ontogenia, que remite al proceso de adquisición del lenguaje por el ser humano, y la filogenia. El lenguaje animal se basa en el uso de señales sonoras, visuales, y olfativas, a modo de signos, para señalar a un referente o un significado diferente de dichas señales. Dentro del lenguaje animal están los gritos de alarma, el lenguaje de las abejas, etc. Los lenguajes formales son construcciones artificiales humanas, que se usan en matemática y otras disciplinas formales, incluyendo lenguajes de programación. Estas construcciones tienen estructuras internas que comparten con el lenguaje humano natural, por lo que pueden ser en parte analizados con los mismos conceptos que éste. ¿Qué es el lenguaje natural? El lenguaje natural es la forma de comunicación que el ser humano aprende de su ambiente y usa para comunicarse con los demás. Para expresar sus ideas, emociones y necesidades, esperando cierta clase de respuesta por parte de su interlocutor. Órganos que participan en el lenguaje El órgano principal para el aprendizaje del lenguaje es el cerebro. El cerebro recibe todos los impulsos que mandan otros órganos que participan en el lenguaje: Músculos de la laringe. La lengua. Cuerdas vocales. Órganos que participan en el lenguaje Las neurociencias son disciplinas que estudian el sistema nervioso, su composición y funcionamiento. En el lenguaje se interesa en precisar las partes responsables de su manejo e interpretación. Sabemos que el cerebro está dividido en hemisferios cerebrales. Órganos que participan en el lenguaje El hemisferio izquierdo, es la parte motriz capaz de reconocer grupos de letras formando palabras, y grupos de palabras formando frases. En lo se refiere al habla, la escritura, la numeración, las matemáticas y la lógica, como a las facultades necesarias para transformar un conjunto de informaciones en palabras, gestos y pensamientos. Órganos que participan en el lenguaje El proceso de construcción de una frase está regido por un cierto número de ideas relacionadas entre sí. El hemisferio almacena conceptos que luego traduce a palabras (amor, amour, amore, love, liebe). El cerebro comprende las ideas , los conceptos y los almacena en un lenguaje no verbal, que luego traduce a un lenguaje o idioma aprendido por el individuo. Órganos que participan en el lenguaje La corteza cerebral se divide en 4 regiones Lóbulo frontal, parietal, temporal y occipital. El parietal es el encargado del habla y el lenguaje. Se ocupa del reconocimiento de estímulos sensoriales específicos, la capacidad de usar símbolos como un medio de comunicación (el lenguaje) y la capacidad de desarrollar las ideas y las respuestas motoras necesarias para llevarlas a cabo. Órganos que participan en el lenguaje Estos órganos coordinan la producción del habla, derivan sus impulsos nerviosos de distintos centros y están gobernados por un centro común en el cerebro. Los impulsos son llevados al cerebro mediante nervios. El nervio hipogloso es el motor de los músculos extrínsecos de la lengua y el vago es el motor de 2 músculos de la faringe y laringe. Órganos que participan en el lenguaje Mientras estudiaba el cerebro, F. J. Gall llegó a la conclusión de que el lóbulo frontal estaba especializado en el habla. Un admirador de la obra de Gall ofreció 500 francos a cualquiera que pudiera encontrar un paciente con lesión en el lóbulo frontal y sin un trastorno en el habla. Órganos que participan en el lenguaje Este reto impulsó al neurocirujano Paul Broca a realizar exámenes a pacientes con pérdida del habla. Broca realizó exámenes en distintos casos, donde cada uno de los trastornos en el habla iba acompañado de una lesión en el lóbulo frontal izquierdo, por lo que esa zona llegó a llamarse “zona de Broca” Órganos que participan en el lenguaje Poco después que Broca informará de sus descubrimientos, Carl Wernicke identificó una segunda zona del cerebro relacionada también con el lenguaje. La zona de Wernicke está situada en el lóbulo temporal, una parte del cerebro situada sobre la oreja. Ambas zonas están relacionadas con distintos aspectos del lenguaje. Órganos que participan en el lenguaje Una lesión en la zona de Broca producía un trastorno del habla caracterizado por lentitud y dificultad al hablar y una articulación deficiente lo cual hace difícil la comprensión de las palabras. En este trastorno (afasia) el lenguaje puede tener sentido pero no se puede expresar como una oración completa. Órganos que participan en el lenguaje Por ejemplo al preguntarle acerca de una cita con el dentista, un paciente dijo “Si… lunes.. Papá y Jhon.. miércoles nueve en punto.. Diez en punto… doctores… y … dientes”. La información parece estar presente, pero es difícil comprenderlo y las oraciones están incompletas. Los pacientes tienen dificultad para expresarse, pero no para comprender el lenguaje. Órganos que participan en el lenguaje Las lesiones en la zona de “Wernicke” producen un tipo distinto de afasia. Las oraciones pueden estar gramaticalmente correctas y el habla puede ser normal, pero las oraciones no tienen sentido. Órganos que participan en el lenguaje Se pidió a un paciente que describiera un grabado donde había 2 niños robando galletas a espaldas de una mujer, el paciente respondió: “Mamá está aquí lejos trabajando su trabajo para hacer a ella mejor, pero cuando ella está mirando los dos niños mirando en la otra parte. Ella está trabajando otro tiempo” El habla es normal y las palabras están unidas en algo que parecen oraciones, pero carecen de sentido. Órganos que participan en el lenguaje Las lesiones en la zona de Wernicke además de perturbar el lenguaje hablado también alteran la comprensión del lenguaje. Los pacientes con afasia fuerte de este tipo no pueden comprender ni siquiera palabras solas. Órganos que participan en el lenguaje Las diferencias en las afasias llevaron a Wernicke a formular un modelo de cómo el cerebro produce el lenguaje. Cuando se oye una palabra, la señal pasa a la zona de “Wernicke” donde es comprendida como un mensaje verbal. Órganos que participan en el lenguaje El lenguaje hablado se origina en la zona de Wernicke. Donde se forman las oraciones con sentido. Entonces la oración se transfiere a la zona de Broca. La zona de Broca es responsable de la programación de los músculos de la cara, la lengua y la laringe para que la persona emita la oración formada en la zona de Wernicke. Órganos que participan en el lenguaje Una lesión en la zona de Broca afecta el habla y una lesión en la zona de Wernicke deja el habla intacta, pero perturba la comprensión del lenguaje y la formación de oraciones con sentido. EL PLN El PLN La ciencia ficción ha abordado el lenguaje como una capacidad en las máquinas: HAL de Odisea 2009 Robots ¿Otros ejemplos? El PLN En la vida real El test de Turing Suzzete Watson en Jeopardy día 1 Watson en Jeopardy dia 3 ¿Otros ejemplos? ¿Qué es el PLN? Por Procesamiento de Lenguaje Natural(PLN) se entiende la habilidad de la máquina para procesar la información comunicada, no simplemente las letras o los sonidos del lenguaje. ¿Qué es el PLN? Conjunto de métodos y técnicas eficientes desde un punto de vista computacional para la comprensión y generación de lenguaje natural. Se considera una subdisciplina de la IA Computadora lenguaje lenguaje comprensión generación ¿Qué es el PLN? El término PLN es normalmente utilizado para describir la función de componentes de SW o HW en un sistema de computadora el cual analiza o sintetiza lenguaje escrito o hablado. El término “natural” se indica para distinguir habla o escritura humana de lenguajes más formales, como notaciones lógicas o matemáticas, o lenguajes computadora como java, lisp y C++. ¿Qué es el PLN? Entendimiento del lenguaje Natural (ELN) está asociado con la meta más ambiciosa de tener un sistema realmente capaz de comprender el lenguaje natural como lo haría un ser humano. Áreas de estudio relacionadas El lenguaje es estudiado en varias disciplinas académicas diferentes. Cada disciplina define su propio conjunto de problemas y tiene sus propios métodos para abordarlos. Áreas de estudio relacionadas Lingüística: Es el estudio del lenguaje encargado de explicar la composición y empleo del lenguaje. Estudia la estructura del lenguaje, considerando preguntas como porqué ciertas combinaciones de palabras forman sentencias pero otras no. O porqué una sentencia puede tener algún significado pero no otros. Entre sus áreas de estudio se encuentran la sintaxis, gramática, semántica, morfología y la fonología. Áreas de estudio relacionadas La psicolingüística, estudia los procesos de producción y comprensión del lenguaje humano. Considera preguntas tales como, cómo la gente identifica la estructura apropiada de una sentencia y cuando deciden sobre el significado apropiado de las palabras. Áreas de estudio relacionadas La filosofía considera cómo las palabras pueden significar cualquier cosa y como ellas identifican objetos en el mundo. Los filósofos también consideran que significa tener creencias, metas e intenciones, y como estas capacidades cognitivas se relacionan al lenguaje. Áreas de estudio relacionadas La meta de la lingüística computacional es desarrollar una teoría computacional del lenguaje, utilizando las nociones de algoritmos y estructuras de datos de las ciencias de la computación. Para construir un modelo computacional, se debe aprovechar lo conocido de otras disciplinas. Áreas de estudio relacionadas Disciplina Lingüística Problemas típicos ¿Cómo forman frases y sentencias las palabras ? Psicolingüística ¿Cómo las personas identifican la estructura de las sentencias? ¿Cómo se identifican los significados de las palabras? ¿Cuándo toma lugar el entendimiento? Filosofía ¿Qué es el significado y cómo las palabras y sentencias lo adquieren? ¿Cómo las palabras identifican objetos en el mundo? Lingüística ¿Cómo se identifica la estructura de las computacional sentencias? ¿Cómo se puede modelar el conocimiento y el razonamiento? ¿Cómo se puede utilizar el lenguaje para logar tareas específicas? Herramientas Intuiciones sobre significado y “buena-formación”; modelos matemáticos de estructura. Técnicas experimentales basados en medir el desempeño humano, análisis estadístico de observaciones. Argumentación del lenguaje natural utilizando intuición sobre contraejemplos, modelos matemáticos. Algoritmos, estructuras de datos, modelos formales de razonamiento y representación; técnicas de IA (métodos de búsqueda y representación) Historia del PLN El PLN es una disciplina con una larga trayectoria. Nace en la década de 1960, como un subárea de la Inteligencia Artificial y la Lingüística, con el objeto de estudiar los problemas derivados de la generación y comprensión automática del lenguaje natural. ¿Y después? Tarea….. El PLN Regresemos al video de HAL de Odisea 2009 ¿qué etapas podemos distinguir tiene que hacer la supercomputadora? Se requieren 6 niveles de procesamiento. El PLN Reconocer /Generar Señal sonora Secuencia de palabras Para lograr esto son necesarios conocimientos de Fonética: naturaleza física de los sonidos. Fonología: cómo los sonidos funcionan en una lengua El PLN Es necesario conocer otras características del lenguaje. Como que los sustantivos tienen género y número Pero que cas-a no es el femenino de cas-o. El PLN Saber que es posible formar palabras de otras agregando prefijos o sufijos a las existentes In-creíble (negación) Calmada-mente (mente transforma adjetivo en adverbio) Morfología: estudio de la estructura interna de las palabras. El PLN Es necesario conocer el orden correcto en el que las palabras deben decirse para que lo que se dice tenga sentido “Dave, lo siento, que no puedo hacerlo, me temo” “Lo puedo Dave siento que no temo me hacerlo” Sintaxis: estudio de la estructuración (orden y agrupamiento de las palabras en unidades mayores) El PLN Sintaxis Abre las compuertas, HAL Baja las persianas, HAL. Saca los dados, HAL. Suelta los perros, HAL. Estructura V+ART+SUST+SP+SUST El PLN No sólo debe saber de sintaxis. Debe comprenderse el significado de lo que Dave está diciendo. Semántica léxica: Significado de cada palabra. Semántica composicional: Significado de la combinación de palabras para obtener significados mayores. El PLN Y si todavía queremos agregar algo. Se presenta un uso educado del lenguaje. Lo siento, Dave. Me temo que no puedo hacerlo. La respuesta podría haber sido: “No” o “De ninguna manera” Son conocimientos de: Pragmática: estudio del modo en el que el contexto influye en la interpretación del significado. Cómo el lenguaje se utiliza para ciertos fines. Discurso: estudio de las unidades mayores a la oración. Fonética La fonética estudia la acústica (la formación y propagación de los sonidos) y la fisiología (como funcionan los órganos al producir sonido) de las expresiones pronunciadas, representadas como fonemas. Cada fonema representa un sonido. El problema: no siempre está ilustrado por una sola letra. El español posee fonemas que se identifican como vocales a/e/i/o/u/ y fonemas que se realizan en consonantes: d/f/l/m/ñ/p/t Fonética Sin embargo hay cosas “extrañas”. El fonema /b/ corresponde a 2 letras (b y v) al igual que el fonema /y/ y el fonema /rr/ Corresponden a 3 letras: el fonema /k/ (que se describe con la “k”, la “qu”); la “c” que precede a las vocales “a”, “o”, “u” (ca, co, cu) y el fonema /s/ (que se escribe con las letras “s”, “z”, “c” seguida de “e” o de “i”). El fonema /g/ corresponde a la letra “g” cuando va antes de “a”, “o”, “u” (ga, go, gu) o a la letra doble gu, antes de “e” o “i” (gue, gui) Fonética El fonema /j/ corresponde a la letra “j” y también a la letra “g”, solamente cuando va seguida de vocales “e” e “i” (ge, gi). Hay letras dobles, ch(fonema ch), ll (fonema y), qu (fonema k), rr (fonema rr) y gu (seguida de “e” o de “i”). Fonética “r” a veces representa al fonema /r/ (arete) y a veces al fonema /rr/ (rata). “h” no corresponde a ningún sonido, ni representa ningún fonema, sólo tiene valor ortográfico. “w” no se usa más que en palabras procedentes del inglés (suena como “u”) o procedentes del alemán (suena como “b”). Fonética Los problemas en fonética computacional están relacionados con el desarrollo de sistemas de reconocimiento de voz y síntesis del habla. Sistemas de reconocimiento de voz La computadora puede reconocer las palabras pronunciadas en el micrófono. Fonética En los sistemas de síntesis de habla hay mucho más éxito. Existen sistemas que hablan bastante bien, incluso sin el acento de robot pero aún no suenan completamente con una persona. Loquendo Vocal Technology and Services. Son utilizados básicamente por personas con deficiencias de la vista. Fonología La fonología estudia cuál es el valor de los fonemas desde el punto de vista de su función en la lengua. El fonema es el elemento más simple de la lengua. Es la unidad fonológica que se caracteriza por ser diferenciadora de significado, pero carente de significado en si misma. El fonema /l/, por si solo carece de significado; pero si en la palabra “ley” se sustituye por el fonema “rr” (rey), resulta una diferencia de significado. Fonología Investiga: Que diferencias fónicas están relacionadas con diferencias de significado. Que relaciones establece un fonema con los demás dentro de un paradigma y como se da este: Pala (/p/). mala (/m/) sala (/s/), tala (/t/), bala (/b/), gala (/g/), jala (/j/) -ala el fonema omitido determina la diferencia de la palabra; también indica cómo se combina con otros para formar palabras y frases. Morfología Estudio de la estructura interna de las palabras (sufijos, prefijos, raíces, flexiones) y el sistema de categorías gramaticales de los idiomas (género, número). Morfología Los problemas de morfología computacional están relacionados con el desarrollo de sistemas de análisis y síntesis morfológica automática. El desarrollo de estos módulos es aún costoso, hay que construir grandes diccionarios de raíces. Con alrededor de 100,000 elementos. Sintaxis Estudio del orden y agrupamiento de las palabras en unidades mayores. Es la parte de la gramática que estudia la concordancia o armonía que entre varias clases de palabras ha establecido el uso. Indicar el orden de los elementos que componen a la oración. Sintaxis La sintaxis computacional debe tener métodos para análisis y síntesis automática. Construir la estructura de la frase o generar la frase basándose en su estructura. El desarrollo de los analizadores sintácticos (parsers) todavía es un problema abierto, especialmente para los idiomas que no tienen un orden de palabras fijo. Como el español. Sintaxis En el inglés el orden de las palabras es fijo, por eso las teorías basadas en el inglés no son tan fácilmente adaptables para el español. Semántica Corresponde al estudio del significado El propósito de la semántica es “entender” la frase. ¿Qué significa entender? Hay que conocer el sentido de todas las palabras e interpretar las relaciones sintácticas. Los investigadores están más o menos de acuerdo que los resultados del análisis semántico deben ser redes semánticas. Se representan todos los conceptos y las relaciones entre ellos. Semántica Otra representación muy similar son los grafos conceptuales. Lo que se necesita saber es cómo hacer la transformación de un árbol sintáctico a una red semántica. Este problema no tiene todavía una solución general. Semántica Definir los sentidos de las palabras, es de por sí una tarea muy difícil, aún si se hace manualmente. Los resultados de la definición de los sentidos de las palabras existen en forma de diccionarios. Semántica Problema principal: siempre existe un círculo vicioso en las definiciones, las palabras se definen a través de otras palabras. Si definimos gallo como “el macho de la gallina” y gallina como “la hembra del gallo”, no ayudaremos a alguien que quiere averiguar que cosas son. Normalmente los ciclos son más largos e inevitables. Semántica La semántica computacional puede ayudar a resolverlo buscando un conjunto de palabras a través de las cuáles se definirán todas las demás palabras: el vocabulario definidor. Otro problema específico es evaluar automáticamente la calidad de los diccionarios. Semántica Una aplicación del análisis semántico es la desambigüación automática de sentidos de palabras. Gato: felino, herramienta o una persona. Para saber cuál de los sentidos se usa en un contexto se pueden aplicar diferentes métodos para analizar las demás palabras presentes. Semántica El gato se acostó en el sillón y estaba maullando. El mecánico usó un gato para subir el automóvil. Acostarse y maullar indican que es un felino. Mecánico, subir y automóvil dan preferencia al sentido una herramienta. El mecánico compró un gato y lo llevó en su carro. No se puede definir el sentido, ni siquiera una persona lo puede hacer sin un contexto más amplio. Pragmática Estudio de cómo el lenguaje se utiliza para cumplir objetivos. Se dice que la pragmática trata de las relaciones entre la oración y el mundo externo. Pragmática Un ejemplo famoso: Usted y yo estamos comiendo juntos y yo le pregunto a usted si puede pasarme la sal, usted contesta que sí… y sigue comiendo. Seguramente la respuesta es formalmente correcta, porque usted realmente puede pasarme la sal y eso es lo que contiene literalmente la pregunta, pero la intención fue pedir la sal y no preguntar sobre la posibilidad de pasarla. Lo que interesa a la pragmática son las intenciones del autor del texto o del hablante. Pragmática Como se encuentran muchos problemas ya en el nivel semántico, normalmente es difícil continuar la cadena de análisis en el siguiente nivel, aunque siempre hay que tomarlo en cuenta. Discurso Estudio de las unidades mayores a la oración. Normalmente no hablamos con una oración aislada, sino con varias oraciones. Estas oraciones tienen ciertas relaciones entre sí. Las oraciones hiladas forman una nueva entidad llamada discurso. Discurso En el análisis del discurso existe un problema muy importante: la resolución de correferencia. Las relaciones de correferencia también se llaman anafóricas. He visto una nueva casa ayer. Su cocina era excepcionalmente grande (su=de la casa) Llegó Juan. Él estaba cansado (el=Juan) Discurso Las anteriores son relaciones de correferencia y la computadora tendría que interpretarlas correctamente para poder construir las representaciones semánticas. Existen algoritmos de resolución de correferencia bastante buenos, alcanzando un 90% de exactitud, resolver el 10% restante todavía es una tarea difícil. Niveles en el PLN Ambigüedad Si todo está definido… ¿porque es difícil el procesamiento del lenguaje natural? La ambigüedad es el mayor problema del PLN. ¿Qué es la ambigüedad? Ambigüedad Ambiguo: que admite distintas interpretaciones. Homonimia: dos palabras con misma forma que tienen distintos significados. Distinta etimología, distintas entradas en el diccionario Homografía vino (bebida) / vino (llegó) Homofonía: ola /hola, as/has/haz, cocer /coser Ambigüedad El LN posee propiedades que merman la efectividad de los sistemas de recuperación de información textual. La variación lingüística es la posibilidad de utilizar diferentes palabras o expresiones para comunicar una misma idea. La ambigüedad lingüística se produce cuando una palabra o frase permite más de una interpretación. Ambigüedad Ambos fenómenos inciden en la recuperación de información. La variación lingüística provoca el silencio documental: La omisión de documentos relevantes para cubrir la necesidad de información, ya que no se han utilizado los mismos términos que aparecen en el documento. Ambigüedad La ambigüedad implica el ruido documental: La inclusión de documentos que no son significativos, se recuperan también documentos que utilizan el término pero con significado diferente al requerido. Estas dos características dificultan considerablemente el tratamiento automatizado del lenguaje. Ambigüedad Polisemia: una palabra con múltiples significados (una entrada en el diccionario con distintos significados). El hombre desciende del mono y el mono desciende del árbol. Banco, capital Ambigüedad en los niveles de análisis A nivel fonético Homofonía Ola As /hola /has/haz Segmentación Ató dos palos / a todos, palos Entre el clavel y la rosa, su majestad escoja. Ambigüedad en los niveles de análisis A nivel morfológico una misma palabra puede adoptar diferentes roles morfo-sintácticos en función del contexto en el que aparece. Deja la comida que sobre sobre la mesa de la cocina, dijo llevando el sobre en la mano. sobre es ambigua morfológicamente Puede ser un sustantivo masculino singular, una preposición, y también la 1ra. o 3ra. persona del presente del verbo sobrar. Ambigüedad en los niveles de análisis Ambigüedad a nivel morfológico Nosotros ¿El plantamos papas. verbo plantar está conjugado en pasado o en presente? Ambigüedad en los niveles de análisis Nivel sintáctico: estudio de las relaciones establecidas entre las palabras para formar unidades superiores. Se produce ambigüedad por la posibilidad de asociar a una frase más de una estructura sintáctica. Posibilidad de expresar lo mismo pero cambiando el orden de la estructura sintáctica de la frase. María vio a un niño con un telescopio en la ventana. Ambigüedad en los niveles de análisis La interpretación de la dependencia de los dos sintagmas preposicionales, con un telescopio y en la ventana, otorga diferentes significados a la frase: María vio a un niño que estaba en la ventana y que tenía un telescopio. María estaba en la ventana, desde donde vió a un niño que tenía un telescopio, María estaba en la ventana, desde donde miraba con un telescopio, y vió a un niño. Ambigüedad en los niveles de análisis Los hombres y las mujeres que hayan cumplido 60 años pueden solicitar una pensión. [Los hombres y las mujeres que hayan cumplido 60 años] pueden solicitar una pensión. [Los hombres] y [las mujeres que hayan cumplido 60 años] pueden solicitar una pensión. Ambigüedad en los niveles de análisis Ambigüedad a nivel semántico Todos los hombres aman a una mujer. Todos los estudiantes leyeron un libro. ¿Es la misma mujer/libro para todos? Para cada hombre/estudiante existe una mujer/libro. Ambigüedad en los niveles de análisis A nivel semántico, donde se estudia el significado de una palabra y el de una frase a partir de los significados de cada una de las palabras que la componen. La ambigüedad se produce porque una palabra puede tener uno o varios sentidos (polisemia). Ambigüedad en los niveles de análisis Luís dejó el periódico en el banco. banco puede ser: entidad bancaria o un asiento. La interpretación de esa frase va más allá del análisis de los componentes que forman la frase, se realiza a partir del contexto en que es formulada. Ambigüedad en los niveles de análisis También hay que tener en cuenta la variación léxica que hace referencia a la posibilidad de utilizar términos distintos a la hora de representar un mismo significado (sinonimia): Coche / Vehículo / Automóvil. Ambigüedad en los niveles de análisis Ambigüedad a nivel pragmático Llego a las ocho. Espérame ?A qué hora llegarás¿ Llego a las ocho. Espérame Previsión Nunca llegas en hora Llego a las ocho. Espérame Promesa Eso me lo vas a tener que decir cara a cara Llego a las ocho. Espérame. Amenaza Ambigüedad en los niveles de análisis A nivel pragmático, basado en la relación del lenguaje con el contexto en que es utilizado, en muchos casos no puede realizarse una interpretación literal de los términos utilizados. En ocasiones el sentido de las palabras que forman una frase tiene que interpretarse a un nivel superior recurriendo al contexto en que es formulada. Se moría de risa. No puede interpretarse literalmente el verbo morirse, debe entenderse en un sentido figurado. Ambigüedad en los niveles de análisis Otra cuestión es la ambigüedad de anáfora. Por la presencia en la oración de pronombres y adverbios que hacen referencia a algo mencionado con anterioridad. Ella le dijo que los pusiera debajo. Ambigüedad en los niveles de análisis La interpretación de esta frase tiene diferentes incógnitas ocasionadas por la utilización de pronombres y adverbio: ¿quién habló?, ¿a quién?, ¿qué pusiera qué?, ¿debajo de dónde?. Para otorgar un significado a esta frase debe recurrirse nuevamente al contexto en que es formulada. Ambigüedad en los niveles de análisis Ambigüedad a nivel de discurso Tomé el dulce del escritorio y lo comí Tomé el dulce que estaba en el escritorio y comí el dulce. Tomé el dulce que estaba en el escritorio y comí el escritorio. Ambigüedad en los niveles de análisis Ambigüedad a nivel discurso El profesor dijo al estudiante que terminara la tarea. El estaba muy preocupado de cuánto le faltaba para pasar. A nivel discurso también se maneja la referencia a la misma entidad Relación entre sentencias Miguel le pego al hombre. El había robado su bicicleta. Ambigüedad en los niveles de análisis ¿Es posible resolver la ambigüedad? Juan No puede ser el pato quien lleve la escopeta. Puse Las mató al pato con la escopeta. la camisa en la lavadora y la lavé. lavadoras lavan. La ropa se lava. Se requiere conocimiento del mundo. Ambigüedad en los niveles de análisis Con todos los ejemplos expuestos queda evidenciada la complejidad del lenguaje y que su tratamiento automático no resulta fácil ni obvio. Limitaciones y ventajas Entonces, el PLN es difícil porque… Puede existir alta ambigüedad en todos los niveles. Es complejo y sutil. Implica razonar acerca del mundo. Se debe considerar la inserción en un sistema social de gente que interactúa: Exponiendo, convenciendo, ordenando, insultando. Cambiando a lo largo del tiempo. Aplicaciones del PLN Se pueden distinguir 2 motivaciones para desarrollar modelos computacionales. La motivación científica es obtener un mejor entendimiento de cómo funciona el lenguaje. Reconoce que cualquiera de las otras disciplinas tradicionales no tienen las herramientas para completamente atacar el problema de cómo la comprensión y producción del lenguaje funcionan. Aplicaciones del PLN Aún si se combinan todas las aproximaciones, una teoría comprensiva sería muy compleja para ser estudiada utilizando métodos tradicionales. Pero si se podrían realizar esas teorías complejas como programas y entonces probarlas para observar que tan bien se desempeñan. Aplicaciones del PLN Al observar donde fallan, se pueden mejorar incrementalmente. Los modelos computacionales pueden brindar predicciones específicas sobre el comportamiento humano. Esto puede llevar a adquirir un mejor entendimiento de cómo el procesamiento del lenguaje humano funciona. Aplicaciones del PLN La motivación práctica o tecnológica es que las capacidades del PLN revolucionaran la forma en que las computadoras son utilizadas. Ya que la mayoría del conocimiento humano es “grabada” en forma lingüística, las computadores que puedan entender el LN, tendrían acceso a toda esa información. Además interfaces de LN permitirán que sistemas complejos sean más accesibles. TAREAS: Leer el artículo Procesamiento de Lenguaje Natural y sus Aplicaciones por Alexander Gelbukh. Revisar el capítulo 2 del libro Procesamiento automático del español con enfoque en recursos léxicos grandes y elegir 1 aplicación, buscar ejemplos de ese tipo de aplicación y elaborar una presentación de máximo 15 minutos.