Evaluación comparativa de dos sistemas comerciales de reconocimiento de voz Lluís de Yzaguirre i Maura Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra de_yza@upf.es Esta comunicación va a presentar el caso real de una evaluación comparativa de dos sistemas comerciales de reconocimiento de voz para la que fue requerida la Unitat de recerca en Enginyeria Lingüística del IULA-UPF. Dicho grupo ha iniciado recientemente una línea de trabajo en el campo de lo oral, protagonizada por un proyecto de supervisión ortológica en cooperación con Catalunya Ràdio e integrada también por otros proyectos. Por obligación contraída con la persona jurídica solicitante de la evaluación, se evitarán referencias concretas a los programas comerciales evaluados; creemos que, a pesar de ello, merece la pena presentar los aspectos metodológicos de dicha evaluación. 1. Metodología Para poder comparar el rendimiento de los programas de reconocimiento de voz, nuestra primera preocupación fue la de garantizar que ambos eran sometidos al mismo estímulo. Ello requería utilizar una grabación, la misma con ambos programas, que implicaba la eliminación de todas aquellas palabras clave o comandos de voz que fueran distintos entre ambos programas. Se preparó un programa verbalizador de puntuación que resolviera esta cuestión, unificando bajo una misma solución aquellos signos de puntuación que fueron tratados de manera distinta por ambos programas. Véase una muestra de texto tratado con el verbalizador de puntuaciones: El presente Real Decreto se justifica por la necesidad de desarrollar el artículo 5 de la Ley 7 BARRA 1998 COMA de 13 de abril COMA sobre Condiciones Generales de la Contratación COMA en su apartado 3 que dice textualmente DOS PUNTOS COMILLAS en los casos de contratación telefónica o electrónica será necesario que conste en los términos que reglamentariamente se establezcan la aceptación de todas y cada una de las cláusulas del contrato COMA sin necesidad de firma convencional PUNTO En este supuesto COMA se enviará inmediatamente al consumidor justificación escrita de la contratación efectuada COMA donde constarán todos los términos de la misma PUNTO COMILLAS NUEVO PÁRRAFO Al llevar a cabo dicho desarrollo han de ponderarse diversos factores PUNTO En primer lugar COMA las normas de derecho interno ya en vigor que regulan para diversos supuestos los efectos jurídicos de la contratación a distancia y la comunicación telemática ABRIR PARÉNTESIS como es el Real Decreto GUIÓN ley 14 BARRA 1999 COMA de 17 de septiembre COMA sobre firma electrónica CERRAR PARÉNTESIS COMA así como la jurisprudencia relativa a esta problemática PUNTO También y ya en el ámbito comunitario habrán de tenerse en cuenta las Directivas relacionadas con esta materia ABRIR PARÉNTESIS Directiva 97 BARRA 7 BARRA CE COMA del Parlamento Europeo y del Consejo COMA de 20 de mayo COMA sobre contratos a distancia CERRAR PARÉNTESIS así como la existencia de otros proyectos normativos en este campo ABRIR PARÉNTESIS proposición de Directiva en relación con la firma electrónica CERRAR PARÉNTESIS y la iniciativa europea sobre comercio electrónico PUNTO Por ello COMA una norma de desarrollo como la proyectada ha de procurar ser consecuente en relación con los distintos aspectos de la materia ya regulados o en proceso de serlo PUNTO NUEVO PÁRRAFO Como puede verse, la puntuación aparece destacada de la misma manera que es habitual en el procedimiento de adiestramiento o entrenamiento de algunos programas de reconocimiento de voz; con ello se facilita que el locutor que graba el texto de prueba consiga ser sistemático en la verbalización de los signos de puntuación. El texto que se escogió fue el de un decreto-ley relacionado con las telecomunicaciones que incluía nombres propios, terminología especializada, referencias complejas y profusión de signos de puntuación. Su duración resultó superior a los 24 minutos de dictado. Se procedió al entrenamiento mínimo de ambos sistemas de reconocimiento con la misma voz con la que se grabó el texto de prueba y a continuación se probó cada uno de los sistemas ajustando la posición del micrófono de reconocimiento respecto al altavoz del equipo de reproducción. Se realizó una operación de reconocimiento con cada uno de los sistemas para la totalidad del texto. En ambos casos los programas sugirieron la incorporación de palabras al diccionario de usuario, sugerencias que fueron acatadas por el usuario. Después de una primera prueba, se procedió a completar el entrenamiento hasta llegar a un mínimo de una hora en cada programa y se repitió la operación de reconocimiento con ambas aplicaciones. Para comparar los textos resultantes del reconocimiento, se preparó un programa de confrontación que leía tres ficheros, conteniendo respectivamente el texto original y los dos resultados de reconocimiento. Los ficheros resultantes fueron editados para incluir códigos que indicaran las discrepancias respecto al original agrupadas en dos categorías: errores propiamente dichos y alternativas formales aceptables. Veremos a continuación algunos ejemplos de cómo se modificó la interpretación respecto al texto esperado (donde hay una llave se codifica una alternativa, con el texto esperado en primer lugar y el texto observado en segundo lugar). Si no hay texto observado, indica que la palabra fue omitida. Si sólo hay una palabra o variante, indica que no se considera un error sino una alternativa aceptable, como por ejemplo "setiembre" por "septiembre". {existencia(asistencia} {Derecho(De hecho} de resolución. Título {competencial.(con tendencia a.} compilación de derecho civil foral o {Fuero(fueron} nuevo de Navarra. {de(} {setiembre} véase un ejemplo de texto continuo con la codificación usada: {Al(} {llevar(Allanaran} {a(} cabo dicho desarrollo han de ponderarse diversos factores. En primer lugar, las normas de derecho interno ya en vigor que regulan para diversos supuestos los efectos jurídicos de la contratación a distancia y la comunicación telemática (como es el Real {decreto - Ley} 14/1999, de 17 de {setiembre}, sobre firma electrónica), así como la jurisprudencia relativa a esta problemática. También y ya en el ámbito comunitario habrán de tenerse en cuenta las directivas relacionadas con esta materia (Directiva 97/7/CE, del Parlamento europeo y {del(el} Consejo, de {20(Ley} de mayo, sobre contratos a distancia) así como la existencia de {otros(los} proyectos normativos en este campo (proposición de Directiva en relación con la firma electrónica) y la iniciativa europea sobre comercio electrónico. Por ello, una norma de desarrollo como la {proyectada(orientada} {ha(a} de procurar ser consecuente en relación con los distintos aspectos de la materia ya reguladas o en proceso de serlo. El programa de confrontación genera un listado como el siguiente que confronta el original y los dos reconocimientos y además acumula número de errores y número de variantes admisibles: 123 124 125 126 127 128 129 130 131 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 2 2 2 2 2 2 2 2 2 3 3 4 5 5 5 5 5 5 la la la proyectada proyectada {proyectadaCorientada} ha ha {haCa} de de de procurar procurar procurar ser ser ser consecuente {consecuenteCconsecuentes} consecuente en en en relación relación relación Finalmente, se procedió a una confrontación de resultados de la primera prueba con los de la segunda prueba y de la primera aplicación con la segunda aplicación. 2. Resultados Nuestras pruebas nos permitieron evaluar por separado el rendimiento de cada programa antes y después de la ampliación del entrenamiento y confrontarlos entre sí en cada una de las dos pruebas. Sin dar otros detalles, podemos señalar que el programa que dio mejores resultados con el entrenamiento mínimo requerido para empezara a trabajar fue el que relativamente mejoró menos en la segunda prueba. Además de la valoración numérica, nuestro procedimiento nos aportó una base de datos de errores que facilitó enormemente el trabajo contrastivo. Dada la premura de tiempo con que se nos solicitó el dictamen, no hubo oportunidad de profundizar en el tratamiento de los errores detectados pero aportaremos algunas sugerencias en el párrafo siguiente. 3. Mejoras necesarias Desde nuestro punto de vista, son dos los aspectos que habría que añadir a los que nosotros hicimos para hacer más satisfactoria la evaluación de este tipo de herramientas. En primer lugar, sería interesante poder obtener un coeficiente global a partir de haber asignado a cada error o variante un valor de ponderación; lo difícil en este caso es objetivar el valor relativo de cada error; creemos que podría hacerse con una encuesta pasada a un colectivo de correctores profesionales o examinadores de lengua, haciéndoles puntuar cada error como si se tratara de una prueba de selectividad, por ejemplo. Para minimizar las consecuencias de cambios progresivos de criterio, los errores se presentarían en una secuencia aleatoria, mezclando los de ambos procesos. En segundo lugar, sería útil realizar un estudio con varios grupos de usuarios (administrativos, docentes, cuadros medios, directivos...) del tiempo necesitado por cada uno de ellos para ajustar el texto obtenido con el reconocimiento al texto ideal; habría que medir también la cantidad y calidad de las "reparaciones" necesarias omitidas, para detectar aquellos errores cuya gravedad no es intrínseca sino derivada de la facilidad que tengan en pasar desapercibidos. 4. Conclusión Nos parece evidente que los usuarios de cualquier clase de programa necesitan bancos de prueba que les ayuden a decidir que programa compran según su valoración de calidad/precio. Dichos bancos de prueba deben modificarse para cada nueva generación de un producto para evitar perversiones del proceso de mejora generacional. La metodología que hemos propuesto aquí tiene un interés limitado a casos en que se disponga de poco tiempo y de pocos recursos humanos y se nos ha hecho evidente que una evaluación a fondo necesita un planteamiento más ambicioso. En concreto, se nos ha hecho evidente la conveniencia de acumular información sobre cómo adaptan los usuarios dichos programas a sus necesidades. Considerando que estos programas permiten exportar el perfil de usuario, sería bueno que algún centro de investigación no vinculado a las empresas que desarrollan dichos programas realice una colecta de perfiles de usuario y de registros de entrenamiento. También sería interesante negociar con las empresas productoras de dichos programas de una fórmula estándar de alimentar el funcionamiento del programa mediante ficheros de voz, en cuyo caso se podría pedir a los donantes de voz que facilitaran también su propio fichero de voz con el texto del banco de pruebas grabado en el mismo equipo y con el mismo micrófono con el que realizaron el entrenamiento. Finalmente, creemos que, en interés de los usuarios, habría que proponer un estándar de verbalización de los signos de puntuación que simplificara la migración por parte del usuario de un sistema a otro, especialmente cuando lleve mucho tiempo habituado a una determinada pauta de dictado.