Order effect y presencia de erratas en estudios de usuarios

Anuncio
Order effect y presencia de erratas en estudios de
usuarios con eye tracking
Mari-Carmen Marcos
Luz Rello
Universitat Pompeu Fabra
Web Research Group y DigiDoc
Roc Boronat 138
08018 Barcelona
+34 935 422 496
Universitat Pompeu Fabra
Web Research Group y NLP Groups
Tanger 122
08018 Barcelona
+34 935 422 964
mcarmen.marcos@upf.edu
luzrello@acm.org
RESUMEN
Este artículo presenta un estudio de usuarios con eye tracking en
el que se ponen a prueba dos posibles causas de sesgo en los
resultados: el orden en el que se presentan los textos, y la
presencia de erratas. Los resultados muestran que la intensidad de
la lectura es significativamente mayor en el primer texto que en el
último que leen, y en la palabra con errata. Estos sesgos deben
evitarse en el diseño de experimentos que impliquen lectura,
especialmente si se aplican métricas de eye tracking.
Categorías y Descriptores de Materia
H.5.2 [User Interfaces]: Evaluation / Methodology
Términos Generales
Design, Experimentation,
Performance.
Human
Factors,
Measurement,
Palabras clave
Eye tracking. Estudios de usuarios. Test de usuarios. Tareas.
Diseño de experimentos. Sesgos
1. INTRODUCCIÓN
Los estudios con usuarios en laboratorio requieren un gran control
para evitar sesgos que desvirtúen los resultados. Los factores que
pueden intervenir introduciendo sesgos son muchos, unos vienen
derivados de la propia muestra de personas que participan en el
test (su motivación, su conocimiento, su estado anímico, su edad,
su cultura, etc.), y otros están relacionados con el propio diseño
del experimento (la redacción de las tareas, el orden en que deben
realizarlas, la complejidad de éstas, la duración del test, etc.).
Se da además que en los estudios con usuarios existen diversos
condicionantes que hacen que el comportamiento de los usuarios
no sea un reflejo fiel de su forma de actuar fuera del contexto de
la investigación. Uno de los efectos más conocidos es el llamado
Hawthorne effect: frente a un observador, los usuarios son más
activos de lo habitual [12].
Cuando los estudios de usuarios incorporan métricas, el diseño del
Actas del XIV Congreso Internacional de Interacción PersonaOrdenador. Celebrado en el Marco del CEDI 2013, del 17-20 de
septiembre de 2013 en Madrid, España.
Congreso promovido por AIPO – Asociación para la Interacción
Persona-Ordenador.
experimento requiere aun mayor pulcritud para que los resultados
sean fiables. En este artículo hemos realizado un tests de usuarios
para poner a prueba dos conocidos motivos de sesgo en los
estudios con usuarios: el orden en que se presentan de las tareas
(order effect) y la presencia de erratas en los textos. Nuestra
hipótesis de partida es que ambos factores influyen en los datos
resultantes de los tests con usuarios. Para acometer este estudio,
las sesiones de testeo han sido grabadas con un dispositivo de eye
tracking, que permite medir el tiempo de lectura.
El resto del artículo se organiza de la siguiente forma: la sección 2
presenta los trabajos previos realizados sobre legibilidad, order
effect y presencia de erratas en los textos testeados. La sección 3
explica la metodología aplicada; la sección 4 contiene los
resultados, y finalmente la sección 5 recoge las conclusiones.
2. TRABAJOS RELACIONADOS
2.1 Eye tracking y lectura
Los primeros estudios sobre legibilidad se realizaron en los años
30 con sujetos que leían sobre papel, y posteriormente algunos de
esos primeros resultados fueron validados aplicando técnicas de
seguimiento de la mirada con los primeros dispositivos de eye
tracking [15, 20]. La investigación en este campo ha sido
abundante y ha contemplado distintas metodologías, a menudo
combinadas, para llegar a conclusiones sobre cuál es la
presentación óptima de un texto; principalmente los autores se han
interesado por la eficiencia en la lectura, para lo que han medido
la velocidad de lectura de los usuarios, el grado de comprensión
lectora y las preferencias de presentación de los textos.
A partir de los años 90, los estudios que hacen uso del eye
tracking para medir la lectura aplican esta técnica a textos
presentados en pantalla [1, 2]. Más recientemente se han
estudiado distintas variables para determinar cuál es la mejor
combinación para la lectura en pantalla, llegando a la conclusión
de que, en general, mayores valores benefician la legibilidad y
agradan más a las personas: tamaños de letra grande, amplio
espacio entre caracteres y entre líneas, y mayor ancho de línea,
entre otros, al menos para textos en español testeados con lectores
nativos [18].
En los estudios referenciados, la métrica utilizada casi siempre es
“fixation duration”, es decir, el tiempo que dura cada fijación que
la persona realiza sobre el texto, entendiendo por una fijación la
permanencia de la vista fija sobre una zona concreta de la
pantalla. Existen otras métricas que son indicio de la intensidad de
la lectura y que hemos aplicado en el presente estudio, las
presentaremos en la sección 3.5.
2.2 Order effect
Sobre el efecto que tiene el orden de presentación de elementos en
estudios en los que participan usuarios hay evidencia de que los
elementos presentados en primer lugar reciben más atención. El
trabajo de [3] ya lo indica así, ellos lo denominan "primacy effect"
y achacan esta atención a que el usuario llega con la mente fresca,
sin haber procesado antes una información similar. Este efecto se
ha observado en distintos contextos como las opciones escogidas
en las encuestas, los ítems más seleccionados en los menús de
navegación de una página web, los resultados escogidos en una
búsqueda, o los estudios de usabilidad web.
El estudio de [8] muestra cómo las primeras opciones que se dan
como posibles respuestas son más escogidas que las que se ponen
al final de la lista, que apenas son vistas. Siguiendo esta lógica se
han planteado estudios que pretenden saber si los usuarios ven
antes los ítems que se les ha pedido localizar (por estar
predispuestos a ello) y si retienen en la memoria aquellos ítems
que están al final de la lista de elementos de cada menú [4, 14]
inversamente a lo esperado, sus resultados indican que no se da
este efecto, al menos en los menús testeados.
Sí que se obtienen resultados muy significativos en los estudios
sobre el efecto del orden de los resultados obtenidos en una
búsqueda: los usuarios suelen preferir los que están más arriba
aunque no sean necesariamente los más relevantes [6, 7, 9, 13].
Por otro lado, el orden en el que se presentan las tareas es un
motivo de sesgo para los resultados. En la primera tarea el usuario
está más alerta porque aun no ha tomado confianza con la
situación, con lo que va a hacer, con lo que le espera. A medida
que avanzan las tareas aumenta la confianza, el usuario se relaja y
su comportamiento cambia. Los estudios científicos llaman a esto
order effect y en el diseño de los experimentos a menudo se palia
introduciendo aleatoriedad y/o rotación en el orden de las tareas.
La aleatoriedad (randomization) consiste en presentar a cada
usuario un orden distinto, asignado aleatoriamente; la rotación
(counterbalance) consiste en hallar todas las posibles
combinaciones en el orden de las tareas de manera que se
disponga de una muestra de usuarios que cubra todas las opciones
posibles, como el diseño latin square.
Al aplicar estos cambios en el orden en que se presentan las tareas
se palia el efecto que puede tener, que normalmente suele
consistir en que la primera tarea se realiza con más incertidumbre,
se tarda más, y suele tener un peor resultado, mientras que la
última suele ocurrir todo lo contrario: se tarda menos en realizar y
se realiza con mayor éxito.
2.3 Presencia de erratas
La atención que las personas ponemos en la lectura depende
directamente de la tarea que vayamos a realizar. Cuando el
objetivo de la lectura es la revisión de un texto en busca de
errores, la lectura es más detenida y más intensa que cuando
leemos con intención de comprender un texto, como se demuestra
en [11].
Ocurre también que las personas tendemos a fijarnos en lo
distinto, en lo que nos resulta difícil, no esperábamos o no
habíamos predicho. De hecho, un estudio realizado con eye
tracking muestra que las palabras menos frecuentes reciben más
fijaciones que las conocidas [5, 17], algo que también sucede
cuando se trata de erratas: según el estudio de [16], las fijaciones
son más y de mayor duración en el texto con erratas, y la duración
de lectura total del texto también es mayor, con lo que el
rendimiento baja en los textos con errores; al mismo tiempo, el
porcentaje de respuestas acertadas en el test de comprensión
lectora descendió un 30% con respecto a los que leyeron el texto
sin erratas.
3. METODOLOGÍA
Se prepararon varios textos y se pidió a un grupo de personas que
los leyeran, de forma seguida y una sola vez, mientras la sesión se
grababa con un eye tracker. Los datos se utilizaron para dos
experimentos: el Experimento 1 estudiará el order effect, y el
Experimento 2 la presencia de erratas.
Participantes. 88 personas voluntarias, hablantes nativos de
español y lectores frecuentes, participaron en este estudio. 34 eran
hombres y 54 mujeres, de entre 17 y 57 años, en promedio 26,03
años.
Textos. Se prepararon 14 páginas de texto, de las cuales
analizaremos el comportamiento visual en la primera y la última,
extraídas de la novela Los impostores, de Lucas Sánchez. Ambas
se mantenían invariables tanto en el orden que ocupaban en la
secuencia de páginas como en su layout, (tamaño de letra, tipo de
fuente, color de fuente y fondo, interlineado y ancho de línea), y
se presentaban en pantalla.
El texto inicial se componía de 93 palabras, y el texto final de 91
De cara a obtener métricas comparables entre ambos textos, para
el Experimento 1 (order effect) se han excluido de los datos
extraídos del texto 1 las fijaciones realizadas sobre 3 palabras: dos
que forman una frase en un párrafo aparte y la palabra con errata
(“siencio”). De esta forma ambos textos se componen de 91
palabras para analizar y no contienen ninguna errata. En relación
al Experimento 2, el texto utilizado ha sido el inicial con sus 93
palabras, contabilizando en él únicamente las fijaciones
producidas en las palabras objeto de estudio: “silencio” escrito
correctamente, y su variación con errata “siencio”. A diferencia de
[16], las métricas del Experimento 2 fueron tomadas para cada
palabra, y no para el texto completo.
Laboratorio. Los tests tuvieron lugar en diciembre de 2012 en la
Universitat Pompeu Fabra. Se usó el modelo de eye tracker Tobii
1750, con resolución de 50Hz, que consiste en un monitor
provisto de sensores con luz infrarroja capaces de detectar la
pupila del usuario, seguir sus movimientos y grabarlos. Para la
grabación se utilizó el programa Tobii Studio 2.2.7.
Métricas. Se han analizado los datos provenientes de cuatro
métricas que proporciona Tobii Studio:
- Fixation Duration: tiempo que dura cada fijación, calculado en
segundos.
- Total Fixation Duration: suma de todas las fijaciones realizadas
sobre el área de interés delimitada (AOI). En el Experimento 1 se
marcaron los texto completos de la página inicial y de la página
final. En el Experimento 2 se marcaron como AOIs la palabra
correcta y la palabra con errata. Métrica calculada en segundos.
- Fixation Count: número de fijaciones realizadas sobre cada AOI.
- Total Visit Duration: tiempo de lectura en cada AOI. Incluye
parpadeos y otras situaciones en las que eventualmente el usuario
no esté mirando la pantalla. Calculada en segundos.
Según los estudios de [10, 19], las métricas de eye tracking
aplicadas a la lectura de textos se interpretan de la siguiente
manera: a mayor tiempo de lectura, mayor carga cognitiva, por lo
tanto mayor dificultad en la lectura.
Análisis estadístico. Para el Experimento 1 se han registrado
datos válidos de 87 usuarios. En el Experimento 2 se han
registrado datos de 79 usuarios (el resto no presentaba fijaciones
en ninguna de las dos palabras estudiadas). Dado que es un mismo
grupo de personas las que se someten a ambas condiciones en
cada caso, se aplicarán tests de comparación de promedios para
datos pareados: t-test de datos pareados para los datos
paramétricos y test de Wilcoxon para los datos no paramétricos.
Para la extracción y el análisis de los datos se usó la versión 3.0.2
de Tobii Studio. Para el análisis estadístico se ha utilizado el
programa R en su versión 2.15.3.
Tabla 2. Experimento 1. Order effect. Parte superior:
promedio (x ) medido en segundos y desviación típica (DT)
para las métricas Fixation Duration y Total Fixation Duration.
Parte inferior V de Wilcoxon y valor p de la comparación de
promedios
Fixation Count
4. RESULTADOS
4.1 Experimento 1. Order effect
Este experimento compara el comportamiento de lectura en dos
textos: uno que se muestra al comienzo de la sesión y otro que se
muestra al final. Debido al order effect es de esperar que las
personas lean con mayor detenimiento el primer texto que se les
presenta, ya que tienen incertidumbre sobre la situación, no saben
qué tipo de lecturas van a tener que leer, si va a haber preguntas o
no, si serán largas o cortas, etc.
Se ha aplicado el test Shapiro-Wilk a los datos para saber si su
distribución es normal. Los datos para las métricas Fixation
Duration y Total Fixation Duration siguen una distribución
normal, así que en estos dos casos se utilizarán tests paramétricos
(Tabla 1). En cambio las métricas Fixation Count y Total Visit
Duration no siguen esta distribución esperada, por lo que en estos
casos se usarán tests no paramétricos (Tabla 2).
Tabla 1. Experimento 1. Order effect. Parte superior:
promedio (x ) medido en segundos y desviación típica (DT)
para las métricas Fixation Count y Total Visit Duration. Parte
inferior valor t, intervalo de confianza (df) y valor p de la
comparación de promedios con un paired t-test
Fixation Duration
DT
x
DT
Inicial
0,19
0.03
19,42
7,04
Final
0,18
0.03
17,70
5,89
t
3,75
3,32
df
86,00
85,00
<0,000*
0,001
valor p
x
DT
x
Inicial
99,53
30,08
26,71
7,02
Final
94,97
25,82
25,43
6,25
El resultado del test de comparación de promedios indica que hay
una diferencia significativa entre el comportamiento de los
usuarios al leer el texto inicial y el texto final. Esta diferencia se
da para la métrica Fixation Duration, que es significativamente
mayor en el texto inicial que en el texto final (Fixation Duration:
PromedioInicial=0,19, PromedioFinal=0,18; t=3,75, df=86, valor
p<0,000*). También es significativa la diferencia entre el tiempo
total que los usuarios dedican a fijar su mirada en el texto, siendo
mayor en el texto inicial (Total Fixation Duration:
PromedioInicial=19,42, PromedioFinal=17,70; t=3,32, df=85,
valor p=0,001). En cambio no se obtienen diferencias
significativas en el número de fijaciones realizadas en cada texto
ni en la duración total de la lectura.
DT
V
2126,5
2280,5
valor p
0,128
0,078
4.2 Experimento 2. Presencia de erratas
En este caso se trata de comparar el comportamiento de lectura en
una palabra en particular que aparece dos veces en el mismo
párrafo, una vez escrita correctamente y otra vez con una errata
que consiste en la falta de una letra: “silencio” y “siencio”. Ya que
los datos de las distintas métricas extraídas no siguen una
distribución normal, se han aplicado tests no paramétricos en la
comparación de las muestras.
El mapa de calor revela diferencias en la intensidad de las
miradas, que es mayor en la palabra con errata (Figura 2). Este
resultado se constatan en las cuatro métricas, para las que se
observan diferencias significativas (Tabla 3).
Tabla 3. Experimento 2. Presencia de erratas. Parte superior:
promedio (x ) medido en segundos y desviación típica (DT)
para las métricas Fixation Duration, Total Fixation Duration,
Fixation Count y Total Visit Duration. Parte inferior: V de
Wilcoxon y valor p de la comparación de promedios
Total Fixation
Duration
x
Total Visit Duration
Fixation
Duration
Total
Fixation
Fixation
Count
Duration
x x
DT
DT
x
DT
Total
Visit
Duration
x
DT
Correcta 0,20 0,07 0,35 0,22 1,78 0,99 0,37
0,24
Errata 0,24 0,15 0,68 0,70 2,77 2,17 0,73
0,75
V
1125,0
789,5
281,0
743,5
valor p
0,039
<0,000*
<0,000*
<0,000*
Figura 2. Mapa de calor del tiempo relativo que los usuarios miran
las palabras. El rojo representa mayor duración de las fijaciones.
5. Discusión y trabajo futuro
Hemos presentado un estudio de usuarios en el que se mide el
comportamiento visual de las personas durante la lectura de textos
en pantalla. Los resultados, obtenidos por primera vez con un eye
tracker, muestran dos factores que influyen:
Order effect. Las personas invertimos más tiempo en leer el
primer texto que el último en una secuencia de textos. El motivo
puede ser que el usuario se siente más en confianza con las tareas
que se le pide que realice a medida que avanza en ellas. Por ello,
en el diseño de tareas para tests con usuarios será indispensable
proporcionar los ajustes necesarios, como añadir una primera
tarea "placebo" para romper ese primer momento, y aplicar o bien
una aleatoriedad al orden de las tareas o una rotación que asegure
que todas las tareas ocupan todos los puestos posibles.
Presencia de erratas. Las personas dedicamos más tiempo a leer
las palabras con erratas. Esto implica que la carga cognitiva que
requiere procesar una palabra incorrecta es superior. Por ello es
importante ser pulcros con los textos que los usuarios han de leer
durante un test, sobre todo si se controla el tiempo.
En próximos experimentos se contrastarán los resultados con una
mayor muestra de textos, estudiando el comportamiento visual
según se avanza en la lectura de ellos, serán de mayor extensión,
de distintos estilos narrativos; se pedirá a los usuarios que realicen
tareas que impliquen leer, pero planteadas de modo que el
objetivo de la tarea no sea leer sin más. También se mejorará el
diseño del experimento introduciendo rotación en los textos
analizados, de manera que la mitad de los usuarios vean primero
el inicial y la otra mitad vieran primero el final, y viceversa; y con
mayor número y variedad de erratas.
6. AGRADECIMIENTOS
Trabajo parcialmente financiado por el proyecto Hypergraph
(TIN2009-14560-C03-01) del Ministerio de Ciencia e Innovación
de España. Gracias a los participantes, y gracias a J. Bustillo, J.
Costa y E. Lamarca por su soporte en las sesiones de testeo.
7. REFERENCIAS
[1] Beymer, D., Russell, D. R., and Orton, P. Z. 2008. An eye
tracking study of how font size and type influence online
reading. BCS HCI 2008, 15-18
[2] Beymer, D., Russell, D. R., and Orton, P. Z. 2005. Wide vs.
Narrow Paragraphs: An Eye tracking Analysis. Interact 2005.
Lecture Notes in Computer Science, 3585/2005, 741-752.
[3] Deese. J., and Kaufman, R.A. 1957. Serial effects in recall of
unorganized and sequentially organized verbal material.
Journal of Experimental Psychology, 54, 3, 180-187.
[4] DeWitt, A. 2010. Examining the Order Effect of Website
Navigation Menus With Eye tracking. Journal of Usability
Studies, 6,1, (November 2010) 39-47,
http://www.upassoc.org/upa_publications/jus/2010november/
JUS_DeWitt_November_2010.pdf
[5] Do Canto Angonese, B. 2011. Memoria del proyecto de
Ingenieria Informatica.
http://www.recercat.net/bitstream/handle/2072/196697/PFC_
BibianaDoCantoAngonese.pdf?sequence=1
[6] Eisenberg, M., and Barry, C. 1988. Order effects: A study of
the possible influence of presentation order on user
judgments of document relevance. Journal of the American
Society of Information Science, 39, 5, 293-300.
[7] Enquiro. 2005. Did-It, Enquiro and Eyetools uncover
search's golden triangle,
http://web.archive.org/web/20070103095330/http://www.enq
uiro.com/eye-tracking-pr.asp http://web.archive.org/web/20070103095330/http://www.enq
uiro.com/eye-tracking-pr.asp
[8] Galesic M., Tourangeau R., Couper M.P., and Conrad F.G.
2008. Eye-Tracking Data New Insights on Response Order
Effects and Other Cognitive Shortcuts in Survey Responding
Public Opin Q.; 72, 5, 892-913.
[9] Joachims, T., Granka, L., Pan, B., Hembrooke, H., Radlinksi,
F., and Gay, G. 2007. Evaluating the accuracy of implicit
feedback from clicks and query reformulations inWeb
search. ACM Transactions on Information Systems, 25, 2.
[10] Just, M., and Carpenter, P. 1980. A theory of reading: From
eye fixations to comprehension. Psychological Review, 87,
329-354.
[11] Kaakinen JK, and Hyönä J. 2010. Task effects on eye
movements during reading. J Exp Psychol Learn Mem Cogn.
36, 6, 1561-1566.
[12] Lew, L., Nguyen, T., Messing, S., and Westwood, S.J. 2011.
Of course I wouldn't do that in real life: advancing the
arguments for increasing realism in HCI experiments. CHI
EA '11, CHI '11 Extended Abstracts on Human Factors in
Computing Systems, 419-428.
[13] Marcos, M. C., and González-Caro, C. 2010. El
comportamiento de los usuarios en la página de resultados de
los buscadores: un estudio basado en la técnica de eye
tracking. El Profesional de la Información, 19, 4 (julioagosto 2010), 348-358.
[14] Murdock, B.B. 1962. The serial position effect of free recall.
Journal of Experimental Psychology, 64, 482-488.
[15] Paterson, D.G., and Tinker, M.A. 1947. The Effect of
Typography upon the Perceptual Span in Reading. American
Journal of Psychology, 60 (1947), 388-396.
[16] Rello, L., and Baeza-Yates, R. 2012. Lexical quality as a
proxy for web text understandability. In: The 21st
International World Wide Web Conference (WWW 2012),
Lyon, France.
[17] Rello, L.; Baeza-Yates, R.; Dempere, L., and Saggion, H.
2013. Frequent words improve readability and short words
improve understandability for people with dyslexia. Interact
2013: 14th IFIP TC13 Conference on Human-Computer
Interaction (Cape Town, South Africa, 2013).
[18] Rello, L., and Marcos, M. C. 2012. An Eye tracking Study on
Text Customization for User Performance and Preference.
LA-Web 2012 (Cartagena, Colombia, 25-27 October 2012),
64-70.
[19] Sereno, S., and Rayner, K. 2003. Measuring word
recognition in reading: eye movements and event-related
potentials. Trends in Cognitive Sciences, 7, 11, 489-493.
[20] Tinker, M.A., and Paterson, D.G. 1955. The Effect of
Typographical Variations upon Eye Movement in Reading.
Journal of Educational Research, 49, 171-18.
Descargar