VALIDACIÓN SEMÁNTICA Y ESTIMACIÓN DE COMPETENCIA DE SISTEMAS BASADOS EN CONOCIMIENTO Rizzi, F., Britos, P., Rossi, B. y García Martínez, R. Centro de Ingeniería de Software e Ingeniería del Conocimiento (CAPIS). ITBA. rgm@itba.edu.ar 1. Introducción Cuando se evalúan los sistemas basados en el conocimiento (KBSs) es a menudo difícil encontrar métricas útiles para evaluar el funcionamiento global de un sistema. La mayoría de la literatura trata sobre validación, verificación y prueba en las cuales la preocupación primaria se centra en la corrección y consistencia de las bases de datos y las bases de reglas. Otros sistemas tratan la modificabilidad, facilidad de empleo, y el costo. Sin embargo, estas características pueden no ser suficientes para determinar cuan bien realiza su tarea un sistema. Un KBS completo y consistente no necesariamente puede crear soluciones de alta calidad. Sería útil tener un método para estimar la competencia total de KBS's. La competencia se utiliza en este contexto para significar la capacidad del sistema de funcionar de una manera que agregue valor dentro de su entorno de resolución de problemas. En el presente trabajo se presentan, a modo de contraste, primero un método de validación semántica del conocimiento subyacente de un KBS, y luego un método de estimación de la competencia de tales sistemas. Se tratará la aplicación de dicha competencia en términos del nivel de la experiencia y de la calidad de la solución. 2. Validación de la consistencia semántica Aún cuando el conocimiento experto se haya codificado correctamente en una base de conocimiento, el KB producirá probablemente errores si el conocimiento experto subyacente es incorrecto. Por lo tanto, es importante validar el conocimiento experto detrás de la base de conocimiento. Esto es particularmente importante porque hay varias maneras en las cuales los errores pueden arrastrarse en el conocimiento sobre el cual se construye un sistema experto. Algunos de estos errores son: • • • • El experto está equivocado o sus conocimientos son anticuados; de hecho, todos los expertos son probablemente incorrectos o anticuados en algunos tópicos. La base de conocimiento estaba correcta cuando fue escrita, pero el conocimiento ha cambiado. El ingeniero del conocimiento entendió mal al experto. Los errores fueron introducidos en mantenimiento. Cuándo un hecho dado se ha codificado en la base de conocimiento, cómo puede validarse que éste representa un correcto conocimiento? Una manera es hacer un experimento de modo que: • • • Se obtiene un tipo de resultado si el hecho representa conocimiento actualmente aceptado. Otro resultado se espera si el hecho no representa conocimiento actualmente aceptado. Hay una prueba estadística que discrimina a un nivel aceptable de confidencia entre estos dos casos. La especialidad llamada Consenso Cultural dentro de la antropología proporciona técnicas para validar conocimiento de una manera estadísticamente rigurosa. Estas técnicas se pueden aplicar para validación del conocimiento en las bases de conocimiento. El método básico para validar un ítem de conocimiento es: • • • Preguntar a un panel de expertos cuando es verdadero o falso. Indicar las respuestas TRUE/FALSE. Analizar los resultados estadísticos. 2.1 Crear una prueba de TRUE/FALSE Durante la encuesta a los expertos para que indiquen si el ítem del conocimiento es verdadero o falso, es importante no predisponerlos dejando al experto saber qué respuesta conviene con la asunción actual en la base de conocimiento. Se debe presentar los ítems para la validación en un contexto en el cual VERDAD y FALSO sean igualmente probables a priori. Independientemente de la verdad del ítem(s) que es probado, seguir el siguiente procedimiento: 1. Comenzar con una colección de preguntas de TRUE/FALSE donde la mitad sea verdad y la mitad sea falso, y que estén sobre el dominio de la base de conocimiento. Es importante que el experto no pueda distinguir aquellas que prueban realmente conocimiento del KB. 2. Dispersar las preguntas de TRUE/FALSE que prueban realmente ítems del KB uniformemente en la lista de preguntas. 3. Ajustar la prueba en caso de necesidad de modo que VERDAD y FALSO tenga probabilidades aproximadamente iguales. 2.2 Ejecutar la prueba En la aplicación del método del consenso cultural a la validación de la base de conocimiento, hay algunos elementos que se deben manejar cuidadosamente para conseguir información máxima de la prueba. Primero, el ingeniero del conocimiento debe entender y explicar a los expertos que no son ellos sino la base de conocimiento que se está probando. Los ítems en la prueba representan las aserciones en las cuales se basa la base de conocimiento, y éstos están siendo validados por los expertos. La razón de usar a expertos múltiples no es una carencia de confianza en ellos, sino un deseo de validar las asunciones hechas en la base de conocimiento a un nivel de confianza estadísticamente significativo. Es importante explicar esto a todos los expertos utilizados en la validación de la base de conocimiento para asegurarse de que no se genere ninguna hostilidad hacia el ingeniero del conocimiento o el proyecto. Tal hostilidad privaría al proyecto de contribuciones valiosas por parte de los expertos a la base de conocimiento. En segundo lugar, los expertos utilizados para la validación deben ser instruidos cuidadosamente en asignar un ítem como falso si no es siempre verdad. Esto es para proteger contra la posibilidad real de que algunas de las reglas en la base de conocimiento tengan condiciones de entrada que sean demasiado amplias. La prueba se puede incluso dar en una forma donde hay tres respuestas a cada pregunta, VERDAD, FALSO y A VECES VERDAD. A VECES VERDAD y FALSO puede ser combinado como FALSO, es decir, el ítem no es considerado verdad, cuando se cuantifica la prueba. 2.3 Formular el experimento Una vez que se han obtenido los resultados de la prueba del conocimiento, se debe construir un experimento utilizando los mismos para validar los ítems. Para hacer esto, la prueba se debe dar a un grupo de expertos de modo de evaluar y registrar los resultados. Se debe realizar la prueba con bastantes expertos de modo que la corrección de cada ítem del conocimiento resultante de la misma pueda ser distinguida de resultados de pruebas ocasionales. A continuación se muestra un método estadístico simple para validar ítems de la base de conocimiento. 2.4 Análisis de los resultados de la prueba Un ítem de la base de conocimiento es validado estadísticamente si: • • La mayoría de los expertos contesta que el ítem del KB es verdad Los expertos que no piensan que el ítem del KB es verdad, son en número, menos que un cierto umbral pre-asignado, tradicionalmente 5 por ciento o 1 por ciento. La tabla 1 muestra la chance de encontrar el acuerdo unánime, de modo que los resultados experimentales son debido a dicha chance más que a la creencia en la veracidad del ítem del KB. Número de Expertos Nivel de Confianza 1 50% 2 75% 3 87,5% 4 94,75% 5 96,88% 6 98,48% 7 99,22% N 1-1/2**N Tabla 1: Nivel De ConfianzaEsto significa que es probablemente una buena idea pedir que por lo menos cuatro expertos verifiquen cada asunción importante que sostiene la base de conocimiento. Cuando cuatro o más expertos convienen unánimemente, la asunción es razonablemente validada. El acuerdo de seis a siete expertos proporciona un alto nivel de la confianza en la asunción. La tabla 2 muestra los resultados de los niveles de confianza cuando un experto discrepa con el resto del grupo: Número de Expertos Nivel de Confianza 1 0% 2 5% 3 50% 4 68,75% 5 81,25% 6 89,06% 7 93,75% 8 96,48% 9 98,05% 10 98,93% 11 99,41% 12 99,68% Tabla 2: Niveles de confianza con un experto discrepandoEsto significa que cuando discrepa un experto en un grupo de ocho, el ítem del KB está validado a un nivel razonable y validado a un alto nivel cuando discrepa un experto en un grupo de diez. En general, si hay N expertos de quienes M discrepan, el nivel de la confianza alcanzado por este acuerdo está: 1 - (1 / 2**N) * SUM(m = 0 a M)combinaciones(M, N) donde el número combinaciones(M, N) es el número de combinaciones de los M objetos elegidos de N. Esto se computa como: combinaciones(M, N) = M!*(N-M)!/N! donde K! es el factorial de K. 2.5 Acuerdo Total Entre Expertos El método de validación explicado basado en consenso cultural se apoya sobre una asunción de que los expertos comparten el mismo conocimiento básico, es decir, las mismas ideas sobre cómo solucionar los problemas cubiertos en la base de conocimiento. A veces, sin embargo, los expertos no coinciden en su conocimiento básico y en la forma de encarar una clase de problemas. Para detectar si todos los expertos llevan el mismo procedimiento básico para solucionar problemas, se debe realizar lo siguiente: 1. Agrupar los expertos: Representar cada experto como un vector de respuestas en la prueba de TRUE/FALSE. Encontrar luego un agrupamiento de los expertos basados en estos vectores. 2.Chequear semejanzas: Verificar si todos los expertos pertenecen al mismo grupo. 2a. Grupo común: Si todos los expertos pertenecen al mismo grupo, entonces el cómputo de la confianza del ítem sigue siendo válido. 2b. Más de un grupo: Si hay más de un grupo entre los expertos, se debe realizar el análisis de las diferencias entre expertos, según se verá a continuación. Entonces la consistencia cultural de los ítems individuales del KB debe ser reexaminada. 2.6 Estudio del desacuerdo entre expertos Cuando los expertos no coinciden, según lo evidenciado por la existencia de más de un grupo de expertos, las aproximaciones siguientes son útiles: 1. Desechar: Si puede ser determinado, entrevistándose con otros expertos, que un experto, que no es parte de un grupo grande de expertos, representa una escuela pequeña de pensamiento dentro de su especialidad, y si el grupo grande de expertos soluciona con éxito los problemas para los cuales se piensa el sistema experto, eliminar al experto de la muestra de validación. 2. Elegir un subconjunto válido de expertos: Si dos grupos de expertos trabajan a partir de asunciones totalmente diversas, escoger un grupo que alcance resultados óptimos y utilícelos ambos como la fuente del conocimiento y como expertos para la validación. No intente incluir dos escuelas que están en conflicto de conocimientos en la misma base. 3. Utilizar diferentes aproximaciones como subsistemas: Si las aproximaciones representadas por los distintos grupos de expertos solucionan óptimamente problemas de diversos subconjuntos del dominio, puede ser posible construir un sistema donde las aproximaciones diferenciadas residen en subsistemas expertos separados. Estos subsistemas podrían ser evaluados conjuntamente para determinar una conclusión total. Puesto que este método conduce a un sistema más complejo, más costoso, debe ser utilizado solamente cuando las aproximaciones no son adecuadas por sí mismas. 4. Analizar los desacuerdos: la existencia de dos o más grupos de expertos puede ser un síntoma de controversias sin resolver dentro de la especialidad profesional que provee la experiencia al sistema experto. En este caso, el equipo del desarrollo del sistema experto necesita decidir si hay suficiente acuerdo entre expertos para construir un sistema que dé soluciones confiables en el dominio para el cual se piensa. 3. Método de estimación de la competencia de un KBS Se presenta en este apartado el “QUality and Experience Method”; lo abreviamos QUEM. Sucintamente, es un método para evaluar el nivel de la experiencia de un sistema basado en el conocimiento y de la calidad de sus soluciones. Se utilizan a jueces expertos para evaluar la calidad de las soluciones generadas por los expertos humanos y KBSs. Entonces se construye una " función de la habilidad" (Skill function) para los expertos humanos, la cual relaciona experiencia y calidad de la solución. Se utiliza la función de la habilidad y el ranking de la calidad de KBS's para estimar el nivel de la experiencia de KBS's. QUEM proporciona una manera cuantitativa de estimación del nivel de la experiencia de un KBS, de comparación de dos KBSs, o de comparación del nivel de experiencia de un KBS con el de sus usuarios. Esta última comparación es de particular importancia si un KBS va a ser utilizado como ayuda a los usuarios humanos. La comprensión del nivel de habilidad del KBS es importante en la determinación de cómo el sistema debe ser utilizado y en predecir si los usuarios lo validarán. Es a menudo necesario que el nivel de habilidad del KBS sea igual o exceda el de sus usuarios. Si el KBS produce soluciones de una sofisticación y de una calidad más bajas que el usuario, éste puede considerar el sistema como un obstáculo. Además, la valoración de un nivel de la experiencia de KBS's también permite que los desarrolladores midan cuan bien han capturado la experiencia en el dominio. 3.1 Los desafíos de desarrollar una métrica de calidad La calidad es en general difícil de medir debido a la dificultad de cuantificar. Aún si podemos generar una función para describir calidad, puede ser igualmente difícil cuantificar los componentes. En QUEM inicialmente se procuró construir tal función de la calidad integrada por factores que los expertos creyeron eran importantes: coste, viabilidad, y confiabilidad del plan. Sin embargo, pronto se encontró que era inadecuado. Después de muchos ajustes de la función de la calidad se encontró que sus resultados no se asemejaban con los de los expertos. Además, se concluyó que era imposible lograr una función de la calidad mas acertada por la razón que muchos de los factores componentes, tales como confiabilidad, eran muy difíciles de cuantificar exactamente. Predecir la confiabilidad requiere conocimiento de una variedad amplia de situaciones, que son difíciles de capturar sin un cuerpo grande de datos empíricos. Debido a éstos factores difíciles de cuantificar, la tarea de construir una métrica de calidad es muy dificultosa. Sin embargo, se encontró que los expertos podían hacer aseveraciones de la calidad, y que ellos tienden a convenir entre sí en dichas aseveraciones. Una razón de que los expertos puedan tener éxito en evaluar la calidad allí donde una función de la calidad falla, es que los expertos pueden estimar factores de calidad difíciles de cuantificar, tales como confiabilidad, porque tienen un amplio rango de experiencia empírica. Los expertos humanos varían en sus aseveraciones, pero esa variabilidad puede ser medida (por ejemplo, teniendo varios expertos que clasifiquen independientemente la misma solución) y considerada. Una ventaja en esta aproximación es que los expertos puede todavía medir calidad sin explícitamente saber la función de calidad. Las medidas descritas aquí son adecuadas para medir la calidad en cualquier dominio en el cual se puede demostrar una fuerte correlación entre la experiencia y la calidad de la solución. Después, se necesita idear un sistema de puntaje en el cual los jueces humanos puedan indicar sus juicios sobre la calidad. El sistema de puntaje debe permitir que los juicios de calidad de diversos jueces puedan ser comparados. Se utilizó un puntaje desde peor a mejor solución. Esto facilita la homologación de los puntajes asignados por los distintos jueces. 3.2 El método QUEM el procedimiento de QUEM requiere unos o más sistemas basados en el conocimiento para la comparación, un conjunto de problemas, varias personas con diferentes niveles de experiencia, y dos o más jueces expertos. Los jueces expertos deben tener experiencia igual o mayor que todas las personas seleccionadas. Además, la experiencia en el dominio tanto del KBS, jueces, y las personas, debe ser muy similar. 3.2.1 Procedimiento detallado el procedimiento QUEM para determinar el nivel de experiencia del KBS es: 1) Solucionar: Todas las personas expertas y todos los KBSs deben solucionar el conjunto de problemas planteados. 2) Ordenar: Para cada problema, agrupar todas las soluciones. Si hay tres problemas, habrá tres grupos de soluciones. 3) Asignar puntaje: Todos los jueces deben independientemente asignar un puntaje a todas las soluciones en cada grupo de la mejor calidad a la peor calidad. Etiquetar la solución peor de cada grupo con el número 1. Sucesivamente numerar cada solución, asignando el número más alto a la mejor solución. 4) Ajustar puntajes: Si un juez clasifica varias soluciones como iguales en calidad, los puntajes deben ser normalizados para poderlos comparar con los de otros jueces. Por ejemplo, supongamos que el juez A tiene 6 soluciones que clasifica de 1 a 6, mientras que el juez B clasifica las mismas 6 soluciones pero clasifica 2 soluciones como peores, 3 como intermedio, y 1 como la mejor, produciendo el ranking 1, 1, 2, 2, 2, y 3. El puntaje del juez B debe ser ajustado si se va a comparar con el juez A. Para ello se hace lo siguiente: Se dividen en tres grupos: (1, 1) (2, 2, 2) (3). Todos los puntos deben ser renumerados secuencialmente comenzando por el menor y agrupándolos según el paso anterior: (1, 2) (3, 4, 5) (6). Después, renumerar nuevamente asignando el promedio de cada grupo a cada uno. Así, el puntaje ajustado del juez B sería: 1.5, 1.5, 4, 4, 4, y 6. 5) Calcular el promedio de las personas: Calcular el puntaje de calidad promedio para cada persona experta y para cada KBS. Para todos los problemas utilizando el puntaje ajustado. 6) Graficar los Promedios para las Personas: Graficar los años de experiencia de cada experto humano en el eje de las ordenadas y su ranking promedio de calidad en las abscisas. 7) Encontrar la “Función de habilidad” para los datos: Trazar una línea o curva para dichos datos (utilizando regresión lineal u otros métodos apropiados). Llamar a esto la “función de habilidad”. Por ejemplo, si tenemos n expertos humanos y datos de la forma (xi, yi), para i = 1, ..., n, siendo xi el ranking de calidad promedio del sujeto iésimo e yi los correspondientes años de experiencia. Podemos modelar una relación lineal entre x e y utilizando regresión lineal simple dando por resultado la función de la habilidad y = b0 + b1x donde 8) Construir las bandas de confianza: Construir las bandas de confianza de 95 por ciento a partir de esta función. Estas bandas muestran la variación de performances individuales que uno puede esperar encontrar en cualquier nivel dado de calidad. Las bandas de confianza son cruciales para análisis puesto que una estimación puntual de la experiencia no es útil sin una cierta idea de cuan exacta es la estimación. Denotemos xm el ranking de calidad medio de un KBS. Utilizando el modelo de la regresión lineal descrito arriba, nuestra estimación de experiencia del KBS es ym = b0 + b1xm. Un intervalo de la confianza de 95 por ciento para esta estimación se da por en donde T(n-2,0.025) es el coeficiente de 95 por ciento de confianza basado en la distribución t y Se^2 es una estimación de la cantidad de ruido en la relación entre el ranking de calidad medio y nivel de experiencia. Todas estas cantidades son resultados estándares de salida de paquetes de estadística. Observe que el ancho del intervalo de la confianza es dependiente del tamaño de la muestra, ruido en el sistema y la distancia entre xm del promedio del ranking medio de los expertos humanos. 9) Construir una estimación de la experiencia y el intervalo: Para cada KBS en el estudio, a) Insertar el ranking medio de calidad del KBS en la “función de habilidad” de modo de obtener la estimación de experiencia para el KBS. b) Nuevamente tomar el ranking medio de calidad del KBS e insertarlo en la ecuación para la banda de confianza superior. Repetir para la banda inferior de confianza. Los 2 números producidos representan el intervalo de experiencia para el KBS. Los resultados de este proceso son: • • • • una estimación de la experiencia para el KBS. Este valor indicar el valor más probable del nivel de experiencia del KBS Un intervalo de experiencia mostrando el rango de niveles de experiencia humana que podría alcanzarse con el KBS con una confianza del 95 %. Una función de habilidad para humanos relacionando años de experiencia con calidad de solución. Bandas de confianza que muestran el rango esperado de habilidad en usuarios teniendo una cierta cantidad de experiencia. 3.3 Las aplicaciones de QUEM QUEM se pueden utilizar en una variedad de maneras. Puede ser utilizada: 1) Para estimar el nivel de experiencia de un KBS. 2) Identificar un cambio en el nivel de experiencia entre dos versiones de un mismo KBS. 3) Comparar dos o más KBSs en el mismo dominio. 4) Comparar 2 KBSs sin relación que funcionen en diversos dominios. Para comparar dos KBSs sin relación, se deben realizar dos pruebas separadas de QUEM y comparar luego los niveles de experiencia que resulten. Un grupo separado de jueces y de personas expertas con conocimiento apropiado del dominio debe ser seleccionado para cada prueba. 5) Estimar cuantitativamente la ayuda que brinda a un usuario en su nivel de habilidad. Ejecutando dos ensayos de resolución de problemas: uno sin la ayuda del KBS y uno con el KBS. 3.4 Las limitaciones QUEM puede proporcionar información útil para un dominio solamente cuando los usuarios muestran mejora en la habilidad (medida con la calidad de la solución) a través del tiempo. Pero la experiencia puede no aportar habilidad en todos los dominios. La existencia de tal relación puede ser determinada aplicando QUEM; si se encuentra fácilmente una función de habilidad representativa entonces existe tal relación. El caso inverso es mas difícil de demostrar. Si no se encuentra fácilmente una función, no implica que la relación no exista. Podría también significar que no eligieron bien a las personas o a los jueces, el rango de los niveles de la experiencia era demasiado estrecho, etc. 4. Ejemplo: Evaluación de un KBS de manufactura. Se realizo un experimento con un sistema experto diseñado parar generar automáticamente un plan de manufactura aplicable a equipos de mecanizado a control numérico, CNC, dada una descripción de la pieza a mecanizar. Para crear el plan se debe seleccionar y secuenciar las operaciones de manufactura, elegir las diferentes herramientas, posición de las piezas, etc. La habilidad consiste en crear planes de alta calidad incluyendo la capacidad de seleccionar las operaciones apropiadas, detectar interacciones, y optimizar el plan globalmente. Se examinaron dos versiones del sistema KBS llamados maquinista 1 y maquinista 2 con 2 años y medio y 5 años y medio de desarrollo respectivamente. Se seleccionaron 7 personas expertas con diferentes años de experiencia (2,2,5,5,7,8 y 10) y dos jueces con 15 y 18 años de experiencia. Se prepararon 3 problemas a resolver por los KBS y las personas. Como resultado de aplicar QUEM siguiendo el procedimiento se obtuvieron los siguientes resultados: Rankings de calidad asignados por los jueces a las soluciones Juez 1 P2 P3 P1 Juez 2 P2 P3 Solver Experiencia P1 Persona 1 2 2 2 8 1 1 1 Ranking 2.50 Persona 2 2 1 1 5 2 5 5 3.17 Persona 3 5 3 − 4 7 − 2 4.00 Persona 4 5 5 3 7 4 4 4 4.50 Persona 5 7 4 5 6 3 3 3 4.50 Persona 6 8 8 8 1 8 8 7 6.67 Persona 7 10 − 7 9 − 6 − 7.33 Maquinista 1 * 6 6 3 5 2 6 4.67 Maquinista 2 * 7 4 2 6 7 8 5.67 A continuación se muestra el gráfico de la ecuación de regresión lineal llamada función de habilidad. Ranking Medio de Calidad y Función de Habilidad Años de Experiencia 12,00 10,00 y = -1,98 +1,62x 8,00 6,00 4,00 2,00 1 2 3 4 5 6 7 Calidad de Solución Promedio Luego se grafican las bandas de confianza para dicha función de habilidad. x (m) = KBS Máquina de solución de calidad media y (m) = KBS Máquina estimando el nivel exponencial 10 8 6 Intervalo de Experiencia Años de Experiencia (y) 12 4 2 x (m) 2 4 6 8 Solución de Calidad Media (x) 5. Discusión 5.1 Los cambios en el índice de la mejora de la habilidad del KBS El lado positivo es que el nivel de habilidad del KBS en todas las etapas es mayor que el número de personas/año requeridos para desarrollar el sistema. El lado negativo, después de 3 años adicionales de desarrollo intensivo en el maquinista 1, el nivel de la experiencia del sistema fue mejorado solamente por otro año. Una interpretación es que este estudio estima solamente el impacto del incremento de experiencia en la calidad de la solución. Sin embargo, no refleja todos los adelantos en la capacidad total del sistema. El rango de problemas es también una parte importante de la competencia. El maquinista 2 puede solucionar un rango mucho más amplio de problemas que el maquinista 1. 5.2 Ventajas El método de QUEM para medir el nivel de la experiencia de un KBS tienen varias ventajas. Permite que las medidas sean adquiridas sobre un sistema parcialmente desarrollado sin requerir que el KBS esté completamente terminado, correcto, o que sea amplio en la cobertura de problemas. Tales medidas son importantes para permitir que los desarrolladores del sistema KBS prueben la validez básica de su aproximación antes de realizar un esfuerzo adicional que significa hacer el sistema más completo y robusto. Además, puede ser utilizado en los dominios en los cuales una función de calidad es difícil de cuantificar exactamente. 6. Conclusiones El objetivo del presente trabajo ha sido contrastar dos maneras de evaluar un sistema experto de modo de intentar contestar la siguiente pregunta: "cuan experto es mi sistema experto?" El método del consenso cultural proporciona una manera cualitativa de evaluar la validez semántica de un sistema experto pero no nos brinda una medida cuantitativa. Tiene gran utilidad para comparar sistemas entre sí y fundamentalmente para validar el sistema experto en un dominio reducido del conocimiento donde existen pocas escuelas de pensamiento, o bien, existen varias escuelas pero es posible dividir el dominio en subdominios sobre los que se ocupará un subsistema diferente del sistema experto en cuestión. Los métodos de verificación, validación y prueba, sobre los que hay muchos trabajos, se utilizan para evaluar un funcionamiento del KBS mediante comparaciones cualitativas. Por ejemplo, el " sistema x se desempeña mejor que el sistema y, " que no es lo mismo decir que ambos sistemas se desempeñan bien. Aquí es cuando el procedimiento QUEM permite que un desarrollador mida cuantitativamente el nivel de experiencia de un KBS. Esta medida permite que los mismos contesten a las preguntas por ejemplo, "cuánto mejor es el sistema x que el sistema y? " o " cuántos años de experiencia representa los datos introducidos en el KBS? " Algunas otras ventajas de QUEM son que puede ser utilizada en cualquier dominio en el cual aumentar experiencia conduce a la calidad de solución creciente medible. Además, puede ser utilizada en un sistema que esté en desarrollo y que puede no estar enteramente completo o correcto en todos los aspectos, mientras puede construir soluciones. Puede ser utilizada para medir el nivel de la experiencia de un KBS individual, comparar varios KBSs que funcionen en el mismo o en dominios sin relación, o estima la cantidad por la cual un KBS ayuda a elevar el nivel de habilidad del usuario. Referencias Turner-Fairbank Highway Research Center. 1993. Verification, Validation, and Evaluation of Expert Systems Handbook, Volume I, 1st. Edition (Ver. 1.2). U.S. Department of Transportation, Federal Highway Administration, Research and Development Caroline C. Hayes and Michal I. Parzen. 1997. QUEM: An achievement Test for Knowledge-Based Systems, IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 6, November/December 1997.