Dossier de prensa ¿Qué es el Procesamiento del Lenguaje Natural (PLN)? El Procesamiento del Lenguaje Natural (PLN) es el camino hacia una comprensión automática cada vez más profunda de la lengua escrita o hablada por los humanos, mediante tecnología digital. Los sistemas informáticos procesan fácilmente datos, es decir, información que tiene una estructura y un significado único y explícito (información estructurada). Pueden manejar fácilmente tablas con millones de datos numéricos, por ejemplo. Pero el lenguaje humano (lenguaje natural) es información no estructurada, que se caracteriza por tener más de un contexto y por contener información no explícita. Por ello es mucho más difícil de procesar automáticamente. Sin embargo, el volumen de textos y registros sonoros digitalizados o que se producen directamente en formato digital es abrumador, y el desarrollo de Internet conlleva un crecimiento exponencial de la información textual digital. Un ejemplo relevante de ello es el procesado de información no estructurada que realiza Google. ¿Qué aplicaciones prácticas Lenguaje Natural (PLN)? tiene el Procesamiento del El PLN es una tecnología transversal y ya se utiliza cuando se realizan acciones cotidianas, como correctores ortográficos y gramaticales, predictores de texto en aplicaciones móviles, traducción automática y aprendizaje de idiomas y enseñanza online, consultas en buscadores de Internet, asistentes online disponibles en las páginas web y asistentes personales del móvil o el encaminamiento de una llamada a un call center. Menos conocidas son aplicaciones como el resumen automático de documentos, análisis de opinión a partir de textos de redes sociales, búsqueda inteligente de información y minería de datos en informes clínicos Fecha: 20/10/2015 Página 1 de 10 para descubrir evidencias médicas e interacciones entre medicamentos y enfermedades, mejora de la calidad y capacidad de la tramitación administrativa y la accesibilidad de las personas con discapacidad, entre otras. ¿Qué es el Plan de Impulso de las Tecnologías del Lenguaje? El Plan de Impulso de las Tecnologías del Lenguaje es una acción del Gobierno incluida en la Agenda Digital para España, coordinada por la SETSI y elaborada con la participación de los Ministerios de Presidencia, Industria, Energía y Turismo; Economía y Competitividad; Hacienda y Administraciones Públicas; Cultura, Educación y Deporte; Asuntos Exteriores y Cooperación, y Sanidad, Servicios Sociales e Igualdad. Es un plan a 5 años dotado con un presupuesto de 90 millones de euros, de los cuáles 14 millones están previstos para 2016 en los Presupuestos Generales del Estado. Para su elaboración se encargó un informe a un Comité de Expertos del que formaban parte representantes de los sectores investigador, industrial, institucional y de las AA.PP. Se vertebra en torno a cuatro ejes, en los que se contemplan 29 medidas: Eje I: Apoyo al desarrollo de infraestructuras lingüísticas Eje II: Impulso de la Industria del Lenguaje Eje III: La Administración como impulsor de la Industria del Lenguaje Eje IV: Proyectos faro ¿Con qué objetivo se pone en marcha el Plan de Impulso de las Tecnologías del Lenguaje? El Plan de Impulso de las Tecnologías del Lenguaje se pone en marcha con el objetivo general de impulsar la industria del procesamiento del lenguaje natural y la traducción automática en lengua española y lenguas cooficiales. Fecha: 20/10/2015 Página 2 de 10 Este planteamiento general puede descomponerse en los siguientes objetivos específicos: 1. Aumentar el número, calidad y disponibilidad de las infraestructuras lingüísticas en español y lenguas cooficiales: asegurando la accesibilidad a todos los recursos y procesadores que se incluyen en el Plan, apoyando su creación y fortaleciendo a las instituciones y grupos que investigan en esta área. 2. Impulsar la Industria del lenguaje: fomentando la transferencia de conocimiento entre el sector investigador y la industria: ayudando a la internacionalización de las empresas e instituciones del sector y mejorando la difusión de los proyectos actuales y los beneficios de las tecnologías del lenguaje. 3. Incorporar a la Administración como impulsor del sector de procesamiento de lenguaje natural y la traducción automática: mejorando la calidad y capacidad del servicio público con la incorporación de las tecnologías de procesamiento de lenguaje natural y de la traducción automática, actuando, además como tractor de la demanda y apoyando la generación, estandarización y difusión de recursos lingüísticos creados en el contexto de la actividad de gestión pública propia de la Administración. El Plan pretende que el impulso a las tecnologías del lenguaje se realice de forma coordinada, buscando sinergias y evitando duplicidad de esfuerzos, conforme a las recomendaciones de la Comisión para la Reforma de las Administraciones Públicas (CORA). ¿Por qué se pone en marcha el Plan de Impulso de las Tecnologías del Lenguaje? En cuanto a los motivos por los que se pone en marcha el Plan, en el sector hay un alto potencial de internacionalización del español y de Fecha: 20/10/2015 Página 3 de 10 cooperación con Iberoamérica, se trata de un mercado en fuerte crecimiento asociado a la innovación y el desarrollo, y la AGE está poniendo en marcha nuevos servicios públicos para ciudadanos y empresas en sectores estratégicos como la Sanidad, el Turismo y la Educación. Además, hay un excelente nivel investigador en PLN, con una adecuada coordinación y una buena gobernanza del idioma español gracias al papel desempeñado por la RAE y la Asociación de Academias de la Lengua Española en Iberoamérica. Sin olvidar, la gran cantidad de recursos lingüísticos que ya están disponibles en la AGE, como fuente principal de datos abiertos de interés lingüístico para la industria y la investigación. Como conclusión, hay que decir entonces, que se dispone de los medios y es necesario impulsar y coordinar las actuaciones desde la AGE para aprovechar esta oportunidad y evitar la pérdida de competitividad económica e industrial de España e Iberoamérica, el subdesarrollo digital del Español, la extinción digital de las lenguas cooficiales y la fuga de investigadores y profesionales con el consiguiente deterioro del sector investigador español. El Plan también se pone en marcha para ayudar a las PYMES a alcanzar la capacidad industrial suficiente para competir en el mercado internacional y completar la cadena de valor en España, y para facilitar la transferencia de conocimiento del sector investigador al industrial debido al carácter transversal y multidisciplinar del PLN. ¿Cómo se articula el Plan de Impulso de las Tecnologías del Lenguaje? El Plan de Impulso de las Tecnologías del Lenguaje se articula en cuatro ejes que contemplan 29 medidas. Eje I: Apoyo al desarrollo de infraestructuras lingüísticas. El objetivo de este eje es el desarrollo de procesadores (reconocedores de entidades, desambiguadores, calculadores de Fecha: 20/10/2015 Página 4 de 10 proximidad semántica, etc.) y recursos lingüísticos (corpus paralelos, diccionarios, taxonomías, etc.) que sirvan de combustible para el desarrollo de la industria española de procesamiento de lenguaje natural y de traducción automática. El Eje I, consta de una única línea de actuación, Desarrollo de infraestructuras lingüísticas, que contempla cuatro medidas dirigidas a seleccionar políticas de licencias y mecanismos de protección de datos personales adecuados, adquirir o desarrollar herramientas comunes y facilitar el acceso público a las infraestructuras lingüísticas existentes. Eje II: Impulso de la Industria de las Tecnologías del Lenguaje. Se pretende apoyar la transferencia de conocimiento entre el sector investigador y la industria, así como la internacionalización de las empresas e instituciones que componen el sector. Este Eje consta de dos líneas de actuación que contemplan catorce medidas. La primera de las líneas, Mejora de la visibilidad y de la transferencia del sector, incluye entre sus actuaciones la elaboración de un plan y la planificación y coordinación de acciones encaminadas para mejorar la visibilidad. La línea 2, Apoyo a la internacionalización y comercialización del sector, incluye entre sus medidas la elaboración de un plan de internacionalización, la cooperación con Iberoamérica, la integración del procesamiento del lenguaje natural y traducción automática dentro de los ámbitos que se financian en la Acción Estratégica de Economía y Sociedad Digital de la Agenda Digital para España, incluir el sector del PLN en uno de los prioritarios en Invest in Spain para ampliar la inversión extranjera en España y estudiar la posibilidad de ayudas a incubadoras o aceleradoras, o de plantear proyectos de hermanamiento entre empresas pequeñas y empresas grandes. Eje III: La Administración Pública como impulsor de la Industria del Lenguaje. Se propone la creación de sendas Fecha: 20/10/2015 Página 5 de 10 plataformas comunes de procesamiento del lenguaje y de traducción automática para las Administraciones Públicas. Además, la política de reutilización de la información del sector público (RISP) representa un cauce para el desarrollo de estos recursos lingüísticos. El Eje III consta de dos líneas de actuación, que contemplan diez medidas. La línea 1, Plataformas de procesamiento de lenguaje natural y traducción automática en las Administraciones Públicas, contempla entre sus medidas la elaboración de un plan de desarrollo de dichas plataformas y la creación de una plataforma común para las AA.PP. La segunda de las líneas, Recursos lingüísticos de las administraciones públicas y política de reutilización de la información del sector público, incluye medidas como la identificación y catalogación de los corpus de información del sector público susceptibles de convertirse en recursos lingüísticos, la elaboración de un plan de generación de recursos lingüísticos a partir de la información del sector público y la habilitación de las herramientas comunes necesarias para generar y explotar estos recursos lingüísticos. Eje IV: Proyectos faro de tecnologías de procesamiento de lenguaje natural. Los proyectos faro son proyectos de aplicación de las tecnologías del lenguaje natural, emprendidos por las Administraciones Públicas en sectores estratégicos (Sanidad, Turismo y Educación) que pretenden servir de demostración de sus capacidades y beneficios, generar industria y crear recursos reutilizables en otros proyectos. También servirán de aprendizaje para futuros desarrollos. Complementan las demás medidas del Plan para el Impulso de la Industria del Lenguaje Natural, que son de naturaleza horizontal, transversal, con actuaciones en sectores concretos que abarquen toda su cadena de valor y den lugar a productos y servicios acabados. Fecha: 20/10/2015 Página 6 de 10 Este Eje, consta de una única línea de actuación, Proyectos faro de tecnologías de procesamiento del lenguaje natural de las administraciones públicas, que contempla como medida la realización de un conjunto limitado de proyectos de aplicación de las tecnologías del lenguaje natural en servicios públicos estratégicos de gran impacto social. En concreto, los proyectos faro son los siguientes: Sanidad: o Asistencia primaria multilenguaje para españoles desplazados y extranjeros en España. o Explotación de historiales clínicos y prospectos farmacológicos para ayuda a la decisión médica. Turismo: o Inteligencia turística para AAPP: Minería de opinión en redes sociales sobre establecimientos, servicios y destinos turísticos. Descubrimiento de rutas turísticas. o Traducción automática de guías turísticas, portales web y comercio electrónico. Educación: o Enseñanza online: Simplificación de textos para enseñanza especial y la formación a lo largo de la vida. Asistencia al profesorado y análisis de opinión. o Asistencia para la creación de cursos online (MooC). Traducción automática a lenguas cooficiales y variantes iberoamericanas del español. ¿Cuál es la situación actual del sector? Hay un gran momentum en Europa para el PLN y la Traducción Automática (TA).. Con las últimas incorporaciones de nuevos países, Europa tiene un gran interés por superar las barreras que supone el multilingüismo y necesita infraestructuras comunes que minimicen los costes del multilingüismo, tal como se refleja en la Fecha: 20/10/2015 Página 7 de 10 Estrategia 2020 de la UE con la creación de un Mercado Único Digital. España debe tener voz propia en PLN y TA, ya que su experiencia en la gestión de sus 4 lenguas co-oficiales le ha supuesto un bagaje único en el continente y reconocido por el resto de los países de la UE. Actualmente hay una primacía del inglés en la industria mundial de PLN y TA. Sólo la mitad de las aplicaciones disponibles en inglés lo están también para el español y menos aún para las lenguas cooficiales. Hay que aumentar la cantidad, calidad, variedad y disponibilidad de los recursos y herramientas para el español, sus variantes americanas, y las lenguas co-oficiales en España. Hay un gran desconocimiento de las potencialidades de las tecnologías de PLN y TA, la especificidad de estas técnicas, la complejidad en los perfiles que precisan y los recursos a modo de infraestructuras necesarios, dificultan su expansión y desarrollo en su uso. Es necesario visibilizar su potencial con acciones de difusión y formación para los profesionales, con proyectos demostradores que aumenten la demanda del mercado nacional e internacional y con la contratación y compra pública de esta tecnología, que es el gran eje vertebrador para impulsar la industria del PLN en nuestro país. El mercado de estas tecnologías está creciendo rápidamente a nivel mundial y se espera que alcance los 65.000 M€ en 2020, según el Informe publicado por LT-Innovate. El español es la segunda lengua más hablada del mundo, después del inglés, y la tercera en número de hablantes (500 millones). Actualmente hay 52 millones de hablantes en EE.UU. Se prevé que en 2030 sea la segunda lengua de intercambio económico en el mundo. Esta expansión supone una oportunidad de negocio para que las empresas españolas sean líderes del mercado, por eso es preciso consolidar la oferta de productos de calidad y mejorar su comercialización para liderar el mercado internacional. Teniendo en cuenta que el uso del mismo idioma aumenta por tres la cuota de exportaciones de España y que nueve de cada diez hablantes se encuentran fuera de nuestras fronteras, hay que apostar por la internacionalización de los productos para español ya Fecha: 20/10/2015 Página 8 de 10 disponibles. Para conseguirlo es preciso fomentar los convenios bilaterales con las administraciones latinoamericanas y aprovechar el trabajo realizado por instituciones como la RAE y el IEC para regular y estandarizar el español, con una dimensión panhispánica y que forman parte de redes con Iberoamérica y EEUU. Es preciso crear conciencia sectorial y fomentar la colaboración entre todos los agentes implicados: Administración, industria y grupos de investigación. Es necesario crear una organización empresarial nacional que represente los intereses de la industria de PLN y TA. España cuenta con 30 grupos de investigación y 160 investigadores en PLN y TA pero no hay plataformas para la transferencia de conocimiento. En este sentido, el Plan contempla la creación de un foro multilateral que reunirá a los agentes del sector (empresas, universidad, AA.PP., instituciones que trabajan en la regularización y estandarización del español, etc.). Fomentando la colaboración entre empresas y grupos de investigación, se facilita la reutilización de datos y herramientas, y se reducen las inversiones que realiza el sector privado, permitiendo incrementar su efectividad en otros ámbitos como la innovación o la promoción comercial. El PLN es un tecnología clave para el análisis de big data no estructurado y habrá una explosión de productos innovadores por parte de las start-ups y spin-offs que ya surgen en Europa y Norteamérica. Para estar al mismo nivel que otros países, es preciso fomentar el nacimiento de spin-off en el seno de la universidad española, apostando por la I+D+i y montando laboratorios virtuales que reúnan la infraestructura lingüística y tecnológica, la capacidad de computación de altas prestaciones y la formación necesarias para empresas del sector PLN y TA, TIC y futuras start-ups. Fecha: 20/10/2015 Página 9 de 10 En este sentido, está previsto, en el Plan, que la plataforma PLN de la Administración se pueda abrir para su uso por el sector investigador y PYME. Con ello, se aprovecha la experiencia que tienen los investigadores españoles en transferencia del conocimiento y en el establecimiento de modelos de colaboración, debido a su participación en proyectos, asociaciones y grupos de estandarización europeos e internacionales. Fecha: 20/10/2015 Página 10 de 10