Order effect y presencia de erratas en estudios de usuarios con eye tracking Mari-Carmen Marcos Luz Rello Universitat Pompeu Fabra Web Research Group y DigiDoc Roc Boronat 138 08018 Barcelona +34 935 422 496 Universitat Pompeu Fabra Web Research Group y NLP Groups Tanger 122 08018 Barcelona +34 935 422 964 mcarmen.marcos@upf.edu luzrello@acm.org RESUMEN Este artículo presenta un estudio de usuarios con eye tracking en el que se ponen a prueba dos posibles causas de sesgo en los resultados: el orden en el que se presentan los textos, y la presencia de erratas. Los resultados muestran que la intensidad de la lectura es significativamente mayor en el primer texto que en el último que leen, y en la palabra con errata. Estos sesgos deben evitarse en el diseño de experimentos que impliquen lectura, especialmente si se aplican métricas de eye tracking. Categorías y Descriptores de Materia H.5.2 [User Interfaces]: Evaluation / Methodology Términos Generales Design, Experimentation, Performance. Human Factors, Measurement, Palabras clave Eye tracking. Estudios de usuarios. Test de usuarios. Tareas. Diseño de experimentos. Sesgos 1. INTRODUCCIÓN Los estudios con usuarios en laboratorio requieren un gran control para evitar sesgos que desvirtúen los resultados. Los factores que pueden intervenir introduciendo sesgos son muchos, unos vienen derivados de la propia muestra de personas que participan en el test (su motivación, su conocimiento, su estado anímico, su edad, su cultura, etc.), y otros están relacionados con el propio diseño del experimento (la redacción de las tareas, el orden en que deben realizarlas, la complejidad de éstas, la duración del test, etc.). Se da además que en los estudios con usuarios existen diversos condicionantes que hacen que el comportamiento de los usuarios no sea un reflejo fiel de su forma de actuar fuera del contexto de la investigación. Uno de los efectos más conocidos es el llamado Hawthorne effect: frente a un observador, los usuarios son más activos de lo habitual [12]. Cuando los estudios de usuarios incorporan métricas, el diseño del Actas del XIV Congreso Internacional de Interacción PersonaOrdenador. Celebrado en el Marco del CEDI 2013, del 17-20 de septiembre de 2013 en Madrid, España. Congreso promovido por AIPO – Asociación para la Interacción Persona-Ordenador. experimento requiere aun mayor pulcritud para que los resultados sean fiables. En este artículo hemos realizado un tests de usuarios para poner a prueba dos conocidos motivos de sesgo en los estudios con usuarios: el orden en que se presentan de las tareas (order effect) y la presencia de erratas en los textos. Nuestra hipótesis de partida es que ambos factores influyen en los datos resultantes de los tests con usuarios. Para acometer este estudio, las sesiones de testeo han sido grabadas con un dispositivo de eye tracking, que permite medir el tiempo de lectura. El resto del artículo se organiza de la siguiente forma: la sección 2 presenta los trabajos previos realizados sobre legibilidad, order effect y presencia de erratas en los textos testeados. La sección 3 explica la metodología aplicada; la sección 4 contiene los resultados, y finalmente la sección 5 recoge las conclusiones. 2. TRABAJOS RELACIONADOS 2.1 Eye tracking y lectura Los primeros estudios sobre legibilidad se realizaron en los años 30 con sujetos que leían sobre papel, y posteriormente algunos de esos primeros resultados fueron validados aplicando técnicas de seguimiento de la mirada con los primeros dispositivos de eye tracking [15, 20]. La investigación en este campo ha sido abundante y ha contemplado distintas metodologías, a menudo combinadas, para llegar a conclusiones sobre cuál es la presentación óptima de un texto; principalmente los autores se han interesado por la eficiencia en la lectura, para lo que han medido la velocidad de lectura de los usuarios, el grado de comprensión lectora y las preferencias de presentación de los textos. A partir de los años 90, los estudios que hacen uso del eye tracking para medir la lectura aplican esta técnica a textos presentados en pantalla [1, 2]. Más recientemente se han estudiado distintas variables para determinar cuál es la mejor combinación para la lectura en pantalla, llegando a la conclusión de que, en general, mayores valores benefician la legibilidad y agradan más a las personas: tamaños de letra grande, amplio espacio entre caracteres y entre líneas, y mayor ancho de línea, entre otros, al menos para textos en español testeados con lectores nativos [18]. En los estudios referenciados, la métrica utilizada casi siempre es “fixation duration”, es decir, el tiempo que dura cada fijación que la persona realiza sobre el texto, entendiendo por una fijación la permanencia de la vista fija sobre una zona concreta de la pantalla. Existen otras métricas que son indicio de la intensidad de la lectura y que hemos aplicado en el presente estudio, las presentaremos en la sección 3.5. 2.2 Order effect Sobre el efecto que tiene el orden de presentación de elementos en estudios en los que participan usuarios hay evidencia de que los elementos presentados en primer lugar reciben más atención. El trabajo de [3] ya lo indica así, ellos lo denominan "primacy effect" y achacan esta atención a que el usuario llega con la mente fresca, sin haber procesado antes una información similar. Este efecto se ha observado en distintos contextos como las opciones escogidas en las encuestas, los ítems más seleccionados en los menús de navegación de una página web, los resultados escogidos en una búsqueda, o los estudios de usabilidad web. El estudio de [8] muestra cómo las primeras opciones que se dan como posibles respuestas son más escogidas que las que se ponen al final de la lista, que apenas son vistas. Siguiendo esta lógica se han planteado estudios que pretenden saber si los usuarios ven antes los ítems que se les ha pedido localizar (por estar predispuestos a ello) y si retienen en la memoria aquellos ítems que están al final de la lista de elementos de cada menú [4, 14] inversamente a lo esperado, sus resultados indican que no se da este efecto, al menos en los menús testeados. Sí que se obtienen resultados muy significativos en los estudios sobre el efecto del orden de los resultados obtenidos en una búsqueda: los usuarios suelen preferir los que están más arriba aunque no sean necesariamente los más relevantes [6, 7, 9, 13]. Por otro lado, el orden en el que se presentan las tareas es un motivo de sesgo para los resultados. En la primera tarea el usuario está más alerta porque aun no ha tomado confianza con la situación, con lo que va a hacer, con lo que le espera. A medida que avanzan las tareas aumenta la confianza, el usuario se relaja y su comportamiento cambia. Los estudios científicos llaman a esto order effect y en el diseño de los experimentos a menudo se palia introduciendo aleatoriedad y/o rotación en el orden de las tareas. La aleatoriedad (randomization) consiste en presentar a cada usuario un orden distinto, asignado aleatoriamente; la rotación (counterbalance) consiste en hallar todas las posibles combinaciones en el orden de las tareas de manera que se disponga de una muestra de usuarios que cubra todas las opciones posibles, como el diseño latin square. Al aplicar estos cambios en el orden en que se presentan las tareas se palia el efecto que puede tener, que normalmente suele consistir en que la primera tarea se realiza con más incertidumbre, se tarda más, y suele tener un peor resultado, mientras que la última suele ocurrir todo lo contrario: se tarda menos en realizar y se realiza con mayor éxito. 2.3 Presencia de erratas La atención que las personas ponemos en la lectura depende directamente de la tarea que vayamos a realizar. Cuando el objetivo de la lectura es la revisión de un texto en busca de errores, la lectura es más detenida y más intensa que cuando leemos con intención de comprender un texto, como se demuestra en [11]. Ocurre también que las personas tendemos a fijarnos en lo distinto, en lo que nos resulta difícil, no esperábamos o no habíamos predicho. De hecho, un estudio realizado con eye tracking muestra que las palabras menos frecuentes reciben más fijaciones que las conocidas [5, 17], algo que también sucede cuando se trata de erratas: según el estudio de [16], las fijaciones son más y de mayor duración en el texto con erratas, y la duración de lectura total del texto también es mayor, con lo que el rendimiento baja en los textos con errores; al mismo tiempo, el porcentaje de respuestas acertadas en el test de comprensión lectora descendió un 30% con respecto a los que leyeron el texto sin erratas. 3. METODOLOGÍA Se prepararon varios textos y se pidió a un grupo de personas que los leyeran, de forma seguida y una sola vez, mientras la sesión se grababa con un eye tracker. Los datos se utilizaron para dos experimentos: el Experimento 1 estudiará el order effect, y el Experimento 2 la presencia de erratas. Participantes. 88 personas voluntarias, hablantes nativos de español y lectores frecuentes, participaron en este estudio. 34 eran hombres y 54 mujeres, de entre 17 y 57 años, en promedio 26,03 años. Textos. Se prepararon 14 páginas de texto, de las cuales analizaremos el comportamiento visual en la primera y la última, extraídas de la novela Los impostores, de Lucas Sánchez. Ambas se mantenían invariables tanto en el orden que ocupaban en la secuencia de páginas como en su layout, (tamaño de letra, tipo de fuente, color de fuente y fondo, interlineado y ancho de línea), y se presentaban en pantalla. El texto inicial se componía de 93 palabras, y el texto final de 91 De cara a obtener métricas comparables entre ambos textos, para el Experimento 1 (order effect) se han excluido de los datos extraídos del texto 1 las fijaciones realizadas sobre 3 palabras: dos que forman una frase en un párrafo aparte y la palabra con errata (“siencio”). De esta forma ambos textos se componen de 91 palabras para analizar y no contienen ninguna errata. En relación al Experimento 2, el texto utilizado ha sido el inicial con sus 93 palabras, contabilizando en él únicamente las fijaciones producidas en las palabras objeto de estudio: “silencio” escrito correctamente, y su variación con errata “siencio”. A diferencia de [16], las métricas del Experimento 2 fueron tomadas para cada palabra, y no para el texto completo. Laboratorio. Los tests tuvieron lugar en diciembre de 2012 en la Universitat Pompeu Fabra. Se usó el modelo de eye tracker Tobii 1750, con resolución de 50Hz, que consiste en un monitor provisto de sensores con luz infrarroja capaces de detectar la pupila del usuario, seguir sus movimientos y grabarlos. Para la grabación se utilizó el programa Tobii Studio 2.2.7. Métricas. Se han analizado los datos provenientes de cuatro métricas que proporciona Tobii Studio: - Fixation Duration: tiempo que dura cada fijación, calculado en segundos. - Total Fixation Duration: suma de todas las fijaciones realizadas sobre el área de interés delimitada (AOI). En el Experimento 1 se marcaron los texto completos de la página inicial y de la página final. En el Experimento 2 se marcaron como AOIs la palabra correcta y la palabra con errata. Métrica calculada en segundos. - Fixation Count: número de fijaciones realizadas sobre cada AOI. - Total Visit Duration: tiempo de lectura en cada AOI. Incluye parpadeos y otras situaciones en las que eventualmente el usuario no esté mirando la pantalla. Calculada en segundos. Según los estudios de [10, 19], las métricas de eye tracking aplicadas a la lectura de textos se interpretan de la siguiente manera: a mayor tiempo de lectura, mayor carga cognitiva, por lo tanto mayor dificultad en la lectura. Análisis estadístico. Para el Experimento 1 se han registrado datos válidos de 87 usuarios. En el Experimento 2 se han registrado datos de 79 usuarios (el resto no presentaba fijaciones en ninguna de las dos palabras estudiadas). Dado que es un mismo grupo de personas las que se someten a ambas condiciones en cada caso, se aplicarán tests de comparación de promedios para datos pareados: t-test de datos pareados para los datos paramétricos y test de Wilcoxon para los datos no paramétricos. Para la extracción y el análisis de los datos se usó la versión 3.0.2 de Tobii Studio. Para el análisis estadístico se ha utilizado el programa R en su versión 2.15.3. Tabla 2. Experimento 1. Order effect. Parte superior: promedio (x ) medido en segundos y desviación típica (DT) para las métricas Fixation Duration y Total Fixation Duration. Parte inferior V de Wilcoxon y valor p de la comparación de promedios Fixation Count 4. RESULTADOS 4.1 Experimento 1. Order effect Este experimento compara el comportamiento de lectura en dos textos: uno que se muestra al comienzo de la sesión y otro que se muestra al final. Debido al order effect es de esperar que las personas lean con mayor detenimiento el primer texto que se les presenta, ya que tienen incertidumbre sobre la situación, no saben qué tipo de lecturas van a tener que leer, si va a haber preguntas o no, si serán largas o cortas, etc. Se ha aplicado el test Shapiro-Wilk a los datos para saber si su distribución es normal. Los datos para las métricas Fixation Duration y Total Fixation Duration siguen una distribución normal, así que en estos dos casos se utilizarán tests paramétricos (Tabla 1). En cambio las métricas Fixation Count y Total Visit Duration no siguen esta distribución esperada, por lo que en estos casos se usarán tests no paramétricos (Tabla 2). Tabla 1. Experimento 1. Order effect. Parte superior: promedio (x ) medido en segundos y desviación típica (DT) para las métricas Fixation Count y Total Visit Duration. Parte inferior valor t, intervalo de confianza (df) y valor p de la comparación de promedios con un paired t-test Fixation Duration DT x DT Inicial 0,19 0.03 19,42 7,04 Final 0,18 0.03 17,70 5,89 t 3,75 3,32 df 86,00 85,00 <0,000* 0,001 valor p x DT x Inicial 99,53 30,08 26,71 7,02 Final 94,97 25,82 25,43 6,25 El resultado del test de comparación de promedios indica que hay una diferencia significativa entre el comportamiento de los usuarios al leer el texto inicial y el texto final. Esta diferencia se da para la métrica Fixation Duration, que es significativamente mayor en el texto inicial que en el texto final (Fixation Duration: PromedioInicial=0,19, PromedioFinal=0,18; t=3,75, df=86, valor p<0,000*). También es significativa la diferencia entre el tiempo total que los usuarios dedican a fijar su mirada en el texto, siendo mayor en el texto inicial (Total Fixation Duration: PromedioInicial=19,42, PromedioFinal=17,70; t=3,32, df=85, valor p=0,001). En cambio no se obtienen diferencias significativas en el número de fijaciones realizadas en cada texto ni en la duración total de la lectura. DT V 2126,5 2280,5 valor p 0,128 0,078 4.2 Experimento 2. Presencia de erratas En este caso se trata de comparar el comportamiento de lectura en una palabra en particular que aparece dos veces en el mismo párrafo, una vez escrita correctamente y otra vez con una errata que consiste en la falta de una letra: “silencio” y “siencio”. Ya que los datos de las distintas métricas extraídas no siguen una distribución normal, se han aplicado tests no paramétricos en la comparación de las muestras. El mapa de calor revela diferencias en la intensidad de las miradas, que es mayor en la palabra con errata (Figura 2). Este resultado se constatan en las cuatro métricas, para las que se observan diferencias significativas (Tabla 3). Tabla 3. Experimento 2. Presencia de erratas. Parte superior: promedio (x ) medido en segundos y desviación típica (DT) para las métricas Fixation Duration, Total Fixation Duration, Fixation Count y Total Visit Duration. Parte inferior: V de Wilcoxon y valor p de la comparación de promedios Total Fixation Duration x Total Visit Duration Fixation Duration Total Fixation Fixation Count Duration x x DT DT x DT Total Visit Duration x DT Correcta 0,20 0,07 0,35 0,22 1,78 0,99 0,37 0,24 Errata 0,24 0,15 0,68 0,70 2,77 2,17 0,73 0,75 V 1125,0 789,5 281,0 743,5 valor p 0,039 <0,000* <0,000* <0,000* Figura 2. Mapa de calor del tiempo relativo que los usuarios miran las palabras. El rojo representa mayor duración de las fijaciones. 5. Discusión y trabajo futuro Hemos presentado un estudio de usuarios en el que se mide el comportamiento visual de las personas durante la lectura de textos en pantalla. Los resultados, obtenidos por primera vez con un eye tracker, muestran dos factores que influyen: Order effect. Las personas invertimos más tiempo en leer el primer texto que el último en una secuencia de textos. El motivo puede ser que el usuario se siente más en confianza con las tareas que se le pide que realice a medida que avanza en ellas. Por ello, en el diseño de tareas para tests con usuarios será indispensable proporcionar los ajustes necesarios, como añadir una primera tarea "placebo" para romper ese primer momento, y aplicar o bien una aleatoriedad al orden de las tareas o una rotación que asegure que todas las tareas ocupan todos los puestos posibles. Presencia de erratas. Las personas dedicamos más tiempo a leer las palabras con erratas. Esto implica que la carga cognitiva que requiere procesar una palabra incorrecta es superior. Por ello es importante ser pulcros con los textos que los usuarios han de leer durante un test, sobre todo si se controla el tiempo. En próximos experimentos se contrastarán los resultados con una mayor muestra de textos, estudiando el comportamiento visual según se avanza en la lectura de ellos, serán de mayor extensión, de distintos estilos narrativos; se pedirá a los usuarios que realicen tareas que impliquen leer, pero planteadas de modo que el objetivo de la tarea no sea leer sin más. También se mejorará el diseño del experimento introduciendo rotación en los textos analizados, de manera que la mitad de los usuarios vean primero el inicial y la otra mitad vieran primero el final, y viceversa; y con mayor número y variedad de erratas. 6. AGRADECIMIENTOS Trabajo parcialmente financiado por el proyecto Hypergraph (TIN2009-14560-C03-01) del Ministerio de Ciencia e Innovación de España. Gracias a los participantes, y gracias a J. Bustillo, J. Costa y E. Lamarca por su soporte en las sesiones de testeo. 7. REFERENCIAS [1] Beymer, D., Russell, D. R., and Orton, P. Z. 2008. An eye tracking study of how font size and type influence online reading. BCS HCI 2008, 15-18 [2] Beymer, D., Russell, D. R., and Orton, P. Z. 2005. Wide vs. Narrow Paragraphs: An Eye tracking Analysis. Interact 2005. Lecture Notes in Computer Science, 3585/2005, 741-752. [3] Deese. J., and Kaufman, R.A. 1957. Serial effects in recall of unorganized and sequentially organized verbal material. Journal of Experimental Psychology, 54, 3, 180-187. [4] DeWitt, A. 2010. Examining the Order Effect of Website Navigation Menus With Eye tracking. Journal of Usability Studies, 6,1, (November 2010) 39-47, http://www.upassoc.org/upa_publications/jus/2010november/ JUS_DeWitt_November_2010.pdf [5] Do Canto Angonese, B. 2011. Memoria del proyecto de Ingenieria Informatica. http://www.recercat.net/bitstream/handle/2072/196697/PFC_ BibianaDoCantoAngonese.pdf?sequence=1 [6] Eisenberg, M., and Barry, C. 1988. Order effects: A study of the possible influence of presentation order on user judgments of document relevance. Journal of the American Society of Information Science, 39, 5, 293-300. [7] Enquiro. 2005. Did-It, Enquiro and Eyetools uncover search's golden triangle, http://web.archive.org/web/20070103095330/http://www.enq uiro.com/eye-tracking-pr.asp http://web.archive.org/web/20070103095330/http://www.enq uiro.com/eye-tracking-pr.asp [8] Galesic M., Tourangeau R., Couper M.P., and Conrad F.G. 2008. Eye-Tracking Data New Insights on Response Order Effects and Other Cognitive Shortcuts in Survey Responding Public Opin Q.; 72, 5, 892-913. [9] Joachims, T., Granka, L., Pan, B., Hembrooke, H., Radlinksi, F., and Gay, G. 2007. Evaluating the accuracy of implicit feedback from clicks and query reformulations inWeb search. ACM Transactions on Information Systems, 25, 2. [10] Just, M., and Carpenter, P. 1980. A theory of reading: From eye fixations to comprehension. Psychological Review, 87, 329-354. [11] Kaakinen JK, and Hyönä J. 2010. Task effects on eye movements during reading. J Exp Psychol Learn Mem Cogn. 36, 6, 1561-1566. [12] Lew, L., Nguyen, T., Messing, S., and Westwood, S.J. 2011. Of course I wouldn't do that in real life: advancing the arguments for increasing realism in HCI experiments. CHI EA '11, CHI '11 Extended Abstracts on Human Factors in Computing Systems, 419-428. [13] Marcos, M. C., and González-Caro, C. 2010. El comportamiento de los usuarios en la página de resultados de los buscadores: un estudio basado en la técnica de eye tracking. El Profesional de la Información, 19, 4 (julioagosto 2010), 348-358. [14] Murdock, B.B. 1962. The serial position effect of free recall. Journal of Experimental Psychology, 64, 482-488. [15] Paterson, D.G., and Tinker, M.A. 1947. The Effect of Typography upon the Perceptual Span in Reading. American Journal of Psychology, 60 (1947), 388-396. [16] Rello, L., and Baeza-Yates, R. 2012. Lexical quality as a proxy for web text understandability. In: The 21st International World Wide Web Conference (WWW 2012), Lyon, France. [17] Rello, L.; Baeza-Yates, R.; Dempere, L., and Saggion, H. 2013. Frequent words improve readability and short words improve understandability for people with dyslexia. Interact 2013: 14th IFIP TC13 Conference on Human-Computer Interaction (Cape Town, South Africa, 2013). [18] Rello, L., and Marcos, M. C. 2012. An Eye tracking Study on Text Customization for User Performance and Preference. LA-Web 2012 (Cartagena, Colombia, 25-27 October 2012), 64-70. [19] Sereno, S., and Rayner, K. 2003. Measuring word recognition in reading: eye movements and event-related potentials. Trends in Cognitive Sciences, 7, 11, 489-493. [20] Tinker, M.A., and Paterson, D.G. 1955. The Effect of Typographical Variations upon Eye Movement in Reading. Journal of Educational Research, 49, 171-18.