Tema VI. Procedimientos empíricos para estimar la precisión de las puntuaciones proporcionadas por los tests INDICE o o o o o Introducción Procedimientos basados en la correlación entre dos conjuntos de puntuaciones Procedimientos que requieren una sóla administración del test Factores que afectan al coeficiente de fiabilidad La variabilidad de la muestra La longitud del test Limitaciones temporales para responder al test Estimación de la puntuación verdadera BIBLIOGRAFÍA RECOMENDADA Muñiz, J. (1998). Teoría Clásica de los Tests. Madrid: Pirámide. Contenidos: Capítulo 2, apartados: 2.2; 2.3; 2.6 (no 2.6.3); y 2.7 (hasta 2.7.3, incluido). 2 Introducción En el tema anterior presentamos la TCT para el estudio de la precisión de las puntuaciones aportadas por el test. El estudio de fiabilidad es uno de los controles de calidad a los que el test debe ser sometido antes de poder ser utilizado para el objetivo de medición. El coeficiente de fiabilidad es un indicador de la precisión de las puntuaciones observadas, en el sentido del grado de confianza que podemos tener en ellas como "estimadores" de las puntuaciones verdaderas de los sujetos. Sin embargo, el coeficiente de fiabilidad es una cantidad teórica, que tampoco puede conocerse de forma directa sino que debe ser estimada por algún procedimiento empírico diseñado de manera que se respeten los supuestos teóricos del modelo de tests paralelos para mantener la relación entre el coeficiente y el índice de fiabilidad. Esta condición suele cumplirse fundamentalmente de dos formas: 1. Administrando únicamente un test: obviamente el test es una forma paralela de sí mismo. 2. Administrando dos tests paralelos. Aunque es imposible en la práctica construir dos tests estrictamente paralelos, existen desarrollos teóricos que muestran como es posible el cálculo del estimador del coeficiente cuando se cuentan con formas “razonablemente” paralelas. Existen diversos procedimientos para el cálculo del estimador del coeficiente de fiabilidad. Presentar tales procedimientos, las condiciones de realización, las posibles fuentes de error que es necesario tener en cuenta y su interpretación, son los objetivos de este tema. A ellos habría que añadir el estudio de los factores que afectan al coeficiente de fiabilidad, y de la estimación de la puntuación verdadera. Existen dos criterios a la hora de elegir el procedimiento para estimar la fiabilidad más adecuado (Crocker y Algina, 1986). Uno sería elegir aquel que alcance la estimación basándose en el supuesto de que se dispusiera de medidas estrictamente paralelas. Por tanto el estudio de fiabilidad se diseñaría para minimizar el efecto de la falta de paralelismo utilizando medidas lo “más” paralelas posibles. El segundo criterio es elegir aquel procedimiento más ajustado al objetivo final del test. El usuario debe identificar las fuentes de error más probables que pueden contaminar sus puntuaciones y diseñar el estudio de forma que estos errores pudieran ocurrir para evaluar su efecto. En general, el procedimiento elegido debe ser aquel que dicte el objetivo del test. La exposición de este tema sigue este criterio. 3 1. Procedimientos basados en la correlación entre dos distribuciones de puntuaciones Se trata de procedimientos empíricos que requieren bien la administración de dos formas paralelas de un test o bien la administración en dos ocasiones del mismo test. A continuación, se describen cada uno de ellos. 1. 1 Procedimiento de Formas Paralelas En general, es frecuente encontrar la utilización de diferentes formas de un test (formas o tests paralelos) en la evaluación de rendimiento y aptitudes, ya que los usos de las puntuaciones suelen requerir que los sujetos sean re-evaluados, y no es deseable someterlos al mismo conjunto de ítems. También suele ocurrir que se desea tener dos formas paralelas del test para evitar que los sujetos copien sus respuestas. Imagine que se está celebrando una oposición para cubrir la oferta de empleo público de la Junta de Andalucía. Para evitar que los candidatos copien las respuestas de otros opositores próximos, se administran dos exámenes diferentes: tipo A y tipo B. Es sensato pensar que los opositores tienen derecho a que su puntuación no dependa del tipo de examen que les haya tocado realizar, es decir, que su puntuación hubiese sido aproximadamente la misma de haber realizado la otra forma del examen. En este caso, el constructor del test debe estar interesado en minimizar el error de medida cometido por diferencias en el contenido de ambos exámenes. Por supuesto, existen también otras fuentes de error de medida que están influyendo en las puntuaciones. Para intentar resolver la cuestión de hasta qué punto los errores de medida están afectando en esa situación, el constructor del test debe estimar el coeficiente de fiabilidad del test a través del procedimiento de formas paralelas. Este procedimiento requiere construir dos formas paralelas del test que son administradas al mismo grupo de sujetos, dejando entre ambas administraciones un intervalo de tiempo. Es decir, se administra el test 1, se deja pasar un tiempo, y se administra el test 2. En concreto, el procedimiento detallado sería como sigue. 1. Selección de una muestra representativa de sujetos. El término “representativa” hace alusión, no sólo a que el número de sujetos debe ser suficientemente alto, sino también, a que los sujetos deben ser de características similares a aquellos con los que está previsto usar finalmente el test. Esta obligatoriedad de contar con una muestra de sujetos representativa es extensible al resto de los 4 procedimientos aunque en adelante no repitamos esta consideración en la presentación de los distintos métodos. 2. Administración del test. Un test es un instrumento de medida estandarizado. Dicha estandarización afecta de manera fundamental a la forma de administrar el test. En otras palabras, las condiciones de administración del test (tiempo dado a los sujetos, instrucciones, etc.) deben ser similares a las condiciones en las que está previsto usar finalmente el test. Por otro lado, a la hora de determinar dichas condiciones es necesario tener en cuenta que el momento de la administración es una importante fuente de error de medida. Por tanto, el responsable del estudio deberá diseñar un “control experimental” para minimizar en lo posible dichos errores (p. e., ruido excesivo, posibilidad de que los sujetos copien, de que adivinen las respuestas, mala iluminación, etc.). Por último, y al igual que con el paso anterior, todas estas consideraciones son extensivas al resto de los procedimientos por lo que no se repetirán en adelante. 3. Dejar transcurrir un intervalo de tiempo. Si recordamos la lógica general de los procedimientos para el cálculo de la fiabilidad veremos como éstos se basan en obtener medidas repetidas de los mismos objetos bajo las mismas condiciones. Con esta premisa principal la determinación del intervalo de tiempo tendrá como objetivo minimizar la posibilidad de cambios tanto de los sujetos (debidos a aprendizaje, fatiga, recuerdo, etc.), como de las condiciones. En el caso que nos ocupa, no es previsible la influencia del recuerdo dado que los sujetos no volverán a enfrentarse a la misma tarea (los tests no son idénticos en contenido, aunque están muy relacionados). Por tanto, como norma general, se aconseja que el intervalo de tiempo sea breve, para evitar cambios en los sujetos, pero lo suficientemente largo para evitar la aparición de la fatiga. En definitiva, el intervalo temporal en la aplicación de este procedimiento puede consistir en unos pocos minutos, los suficientes para que los sujetos descansen entre una y otra medición. 4. Administración de una forma paralela del test a la misma muestra de sujetos. Podemos reinterpretar la definición formal de tests paralelos diciendo que son dos tests que miden lo mismo y de la misma manera. Esta característica es congruente con nuestro objetivo de medir a los mismos sujetos bajo las mismas condiciones. Sin embargo, la falta de paralelismo entre las formas del test constituye habitualmente el principal atentado que se comete en la estimación de la fiabilidad mediante este procedimiento. En efecto, es prácticamente imposible construir dos formas de un test que sean completamente paralelas y, a pesar de que existen desarrollos teóricos que demuestran que no es necesario un paralelismo estricto, sino que bastaría con formas “razonablemente” equivalentes, cualquier coeficiente calculado mediante este procedimiento se verá influido tanto por errores aleatorios de medida como por la falta de similitud entre las formas. También es conveniente contrabalancear el orden de administración de los tests, de forma que para la mitad de los sujetos el orden de administración sea test1-test2, mientras que 5 para el resto sea test2-test1. 5. Cálculo de la correlación entre las puntuaciones de ambas administraciones. Este coeficiente de correlación constituiría directamente una estimación del coeficiente de fiabilidad del test. Debido a la influencia ya señalada del grado de paralelismo entre las formas, el coeficiente obtenido mediante este procedimiento se denomina coeficiente de equivalencia. Cuanto mayor sea el coeficiente, más seguro puede estar el usuario del test de que las diferentes formas (test1 y test2) pueden ser intercambiables. Aunque no existen criterios rígidos a la hora de evaluar el coeficiente de equivalencia, los manuales de tests de rendimiento estandarizados muestran coeficientes desde 0.8 hasta incluso más de 0.9. Es necesario mencionar que el informe de fiabilidad del test debe ir acompañado de datos como medias, desviaciones típicas y errores típicos de medida para cada forma, y deben ser bastantes similares si el coeficiente de equivalencia es interpretado como un estimador de la fiabilidad del test. El cuadro siguiente muestra las características más relevantes de este procedimiento. Procedimiento Fuentes de error Apropiado No apropiado Formas paralelas (Coeficiente de equivalencia) Falta de equivalencia entre las formas Rasgos inestables, tareas fáciles de recordar. Rasgos estables, tareas difíciles de recordar. 1. 2 Procedimiento del Test-Retest Hay ocasiones en que, para el objetivo de medida, es suficiente con la administración de un solo test, pero el usuario está interesado en conocer el grado de estabilidad de las puntuaciones del test en momentos diferentes. ¿Variaría la puntuación si en lugar de pasar el test en esta ocasión lo hiciera dentro de un tiempo? En esta situación, el mismo test se administra en diferentes ocasiones. El procedimiento de cálculo para la estimación del coeficiente de fiabilidad consiste en pasar el test en dos ocasiones diferentes, dejando transcurrir un intervalo entre ambas administraciones, y calcular la correlación entre los dos conjuntos de puntuaciones. En este procedimiento, además de los consabidos errores aleatorios de medida, la principal fuente de error que puede atentar contra la fiabilidad será el cambio en las puntuaciones de los sujetos debido a las fluctuaciones que puedan producirse en los mismos como consecuencia del paso del tiempo entre una administración y otra. Estas fluctuaciones pueden 6 ser de diferentes tipos: aprendizaje, maduración, etc. Al mismo tiempo, es necesario controlar la posibilidad de recuerdo de las respuestas por parte del sujeto (dejando pasar un lapso de tiempo suficientemente largo). El coeficiente de fiabilidad, en este caso, nos dará información sobre la estabilidad de las puntuaciones y, por ello, se denomina coeficiente de estabilidad. Este procedimiento es muy similar al anterior, las diferencias radican en la duración del intervalo entre administraciones y en la ausencia de una forma alternativa del test. Es el mismo test el que se pasa en las dos ocasiones (el test se considera paralelo a sí mismo). Concretamente los pasos para realizarlo son: 1. Selección de una muestra representativa de sujetos. 2. Administración del test. 3. Dejar transcurrir un intervalo de tiempo. Al igual que en el procedimiento de formas paralelas será necesario fijar el intervalo de tiempo con el objetivo de que no varíen ni los sujetos ni las condiciones de medida. En este caso sí es posible la influencia del recuerdo puesto que los sujetos volverán a contestar a los mismos ítems. Esto aconsejaría aumentar la duración del intervalo pero tal incremento podría tener consecuencias sobre las características de los sujetos. Por tanto, como norma general se aconseja establecer un intervalo de tiempo entre administraciones lo suficientemente amplio como para que los sujetos olviden las respuestas que dieron en la primera administración del test, pero no tan amplio como para que los sujetos cambien (en términos de aprendizaje, maduración, etc.). La determinación de dicho intervalo dependerá, por tanto, de: a) La naturaleza de la tarea que se demanda a los sujetos (más o menos fácil de recordar), y b) Las características o naturaleza de la variable medida (más o menos estable a través del tiempo). Habitualmente, el intervalo empleado en este procedimiento es sensiblemente mayor que el usado en el procedimiento de formas paralelas. 4. Administrar nuevamente el test a la misma muestra de sujetos. 5. Cálculo de la correlación entre las puntuaciones de ambas administraciones. El resultado será una estimación del coeficiente de fiabilidad que, en este caso y como se ha comentado con anterioridad, recibe el nombre de coeficiente de estabilidad, debido precisamente a que uno de los factores por los que se ve afectado es la estabilidad temporal de las puntuaciones que proporciona. Existen, de nuevo, pocos criterios a la hora de interpretar el coeficiente de estabilidad. Entre los coeficientes más altos que se 7 encuentran en los manuales de tests de aptitudes, están aquellos que van desde más de 0.7 hasta aquellos que sobrepasan el 0.9. Respecto a tests de personalidad, suelen estar en torno a 0.8. La interpretación del coeficiente de estabilidad supone responder a algunas cuestiones. Un coeficiente bajo, ¿debe interpretarse como una falta de estabilidad de las puntuaciones que ofrece el test o en el sentido de que el rasgo medido en sí es inestable? Si el usuario del test tiene razones para pensar que la variable puede cambiar a lo largo del tiempo, ha violado uno de los supuestos de la TCT y el coeficiente obtenido no es adecuado para estimar la fiabilidad de las puntuaciones del test. Una cuestión diferente es si las puntuaciones de los sujetos en la segunda administración del test se han visto influenciadas por la primera, en términos de efectos de memoria, práctica, aburrimiento,…, o cualquier otra consecuencia. Este procedimiento, por tanto, representa una forma no del todo segura a la hora de estimar el coeficiente de fiabilidad teórico. Sin embargo, la información acerca de la estabilidad de las puntuaciones es crítica para los usuarios de los tests en muchas situaciones prácticas de medida. Procedimiento Fuentes de error Apropiado No apropiado Test-Retest (Coeficiente de estabilidad) Cambio en los sujetos. Recuerdo o aprendizaje de la tarea. Rasgos estables, tareas difíciles de recordar. Rasgos inestables, tareas fáciles de recordar. 1. 3 Procedimiento del Test-Retest con formas paralelas El coeficiente de fiabilidad también puede ser estimado a través de una combinación de los dos procedimientos anteriormente descritos. Puede ser definido como un procedimiento de formas paralelas en el que se incrementa la duración del intervalo entre administraciones o bien como un procedimiento test-retest en que la segunda administración se realiza con una forma paralela. El coeficiente obtenido se ve afectado por los elementos que influyen en los dos procedimientos anteriores, por lo que recibe el nombre de coeficiente de estabilidad y equivalencia. Por ello, habitualmente se obtiene coeficientes más bajos que los de estabilidad o equivalencia con el mismo grupo de sujetos. El procedimiento, en resumen, seria el siguiente: 1. Selección de una muestra representativa de sujetos. 2. Administración de una forma del test. Conviene contrabalancear el orden de presentación de los dos tests, al igual que en el procedimiento de formas paralelas. 3. Dejar transcurrir un intervalo de tiempo. En este caso, el lapso 8 sería más semejante al del procedimiento Test-Retest, con las mismas consideraciones salvo en lo referente a la posibilidad de recuerdo o efectos de práctica, ya que los dos tests difieren en contenido. 4. Administrar el segundo test a la misma muestra de sujetos. 5. Cálculo de la correlación entre las puntuaciones de ambas administraciones. En este caso el coeficiente se denomina de coeficiente de equivalencia y estabilidad. Procedimiento Fuentes de error Test-Retest con Formas paralelas (Coeficiente de equivalencia y estabilidad) Cambio en los sujetos. Recuerdo o aprendizaje de la tarea. Falta de equivalencia entre las formas. 2. Procedimientos que requieren una sóla administración del test Hay ocasiones en que el usuario del test está interesado en la fiabilidad de las puntuaciones obtenidas en una sola administración del test. Además el usuario no tiene especial interés en comprobar la estabilidad de esas puntuaciones a lo largo del tiempo porque, por ejemplo, espera que varíen. Ese suele ser el caso de los tests de rendimiento en el que el paso del tiempo significa una modificación en las puntuaciones de los sujetos bien porque éstos olvidan la materia de examen, bien porque aprenden más contenidos. Tampoco tiene especial interés en las respuestas de los sujetos a un conjunto específico de ítems, sino que su objetivo principal es conocer hasta qué punto la puntuación en ese conjunto puede ser generalizable a todos los ítems que podría haber sido utilizados para operativizar el área de contenido. Una forma de examinar el grado de generalizabilidad de esas puntuaciones al dominio es determinar el grado de consistencia de las respuestas de los sujetos, es decir, ver si los sujetos responden consistentemente a lo largo del conjunto de ítems utilizados en esa ocasión concreta. Los procedimientos desarrollados para dar cumplimiento a ese objetivo se denominan métodos de consistencia interna. Los procedimientos de consistencia interna que vamos a presentar aquí se basan en las correlaciones entre diversas partes del test, bien entre dos mitades, bien entre todos los ítems. En ese sentido, el supuesto de medidas paralelas se cumplen desde la perspectiva de utilizar partes del tests o ítems como medidas, más que el test en conjunto (p.e. test-retest) 9 o dos tests (p.e. formas paralelas). Es decir, se trata de evaluar si dos mitades del test se comportan como subtests paralelos, o si los ítems del test son paralelos unos a otros. Si la ejecución de los sujetos es consistente a lo largo de las subpartes del test (mitades o ítems), el usuario del test puede tener confianza en que esa ejecución concreta traducida en la puntuación del test, puede ser generalizable al dominio de interés (al resto de ítems que podrían haberse utilizado para el mismo objetivo). En los procedimientos de consistencia interna, la mayor fuente de error viene representada por errores en la elección de los ítems. Estos pueden no ser homogéneos, y por tanto la correlación entre conjuntos de ítems no será elevada. Items homogéneos son aquellos que miden lo mismo, es decir, representan el mismo dominio. Cuando los ítems representan diversas áreas (geografía, matemáticas, arte,…), los sujetos probablemente no mostrarán el mismo nivel de ejecución para todos los ítems y el coeficiente calculado será bajo. En tal caso convendría calcular coeficientes de consistencia interna para cada área o dividir el test en dos mitades de forma que estén emparejados en el contenido respecto a cada área. Incluso cuando los ítems representan una única área (p.e. historia), pero presentan diferentes grados de dificultad, también el coeficiente será bajo. Uno de los procedimientos descrito más adelante, dos mitades, permite soslayar esta dificultad al emparejar ambas mitades con respecto a la dificultad de los ítems. Por último, incluso si representan el mismo área y son semejantes en cuanto a dificultad pero están pobremente redactados (son técnicamente deficientes), los sujetos tendrán problema a la hora de responder a ellos y se obtendrá una baja consistencia interna. Por tanto, la consistencia interna es un índice tanto de la homogeneidad de los ítems como de su calidad técnica. Los procedimientos vistos anteriormente tenían como rasgo común la necesidad de dos administraciones, en cambio, los procedimientos que vamos a presentar en este apartado necesitan una sola administración del test para ser realizados. Vamos a ver a continuación dos grupos fundamentales de tales procedimientos: 2. 1 Procedimientos basados en la correlación entre dos mitades Los procedimientos anteriores tenían como rasgo común la necesidad de dos administraciones, en cambio, el procedimiento de dos mitades y el coeficiente alfa, necesitan de una sola administración para ser realizados. A pesar de que en este procedimiento los sujetos responden una sola vez a un único test, la lógica de la repetición sigue estando presente. En este caso las “medidas repetidas” del mismo objeto se obtienen separando el test en dos mitades y calculando la puntuación del sujeto en cada mitad. Ambos subtests se consideran paralelos. 10 Vamos a presentar dos formas de estimar el coeficiente de fiabilidad: a) través del cálculo de la correlación entre las dos mitades del test aplicando la fórmula de Spearman-Brown; y b) mediante la fórmula de Rulon. Las etapas comunes para llevar a cabo estos procedimientos son: 1. Selección de una muestra representativa de sujetos. 2. Administración del test. 3. Dividir el test en dos mitades. Este es el punto más conflictivo del procedimiento. El usuario del test dispone de muchas posibilidades a la hora de dividir el test en dos mitades y es previsible que el resultado final no sea el mismo en todos los casos. Para decidir cual es la mejor forma de dividir el test debemos recordar el principio de que la fiabilidad se calcula como la estabilidad en las puntuaciones de los mismos objetos en las mismas circunstancias. En este caso las “mismas circunstancias” aluden a las dos mitades del test. Al igual que en el caso de los tests paralelos ambas mitades (dos medios tests en definitiva) deben ser equivalentes. Una posible estrategia consiste en asignar aleatoriamente los ítems a las dos mitades del test. Sin embargo, este método puede producir dos mitades no paralelas si, por ejemplo, los ítems representan más de un área de contenido o difieren en la dificultad que suponen para la muestra de sujetos. Otra estrategia clásica para conformar las dos mitades consiste en ordenar los ítems en dificultad, numerarlos, y asignar los impares a uno mitad y los pares a otra. Sin embargo, puede ser necesario refinar la estrategia anterior cuando se trate de tests heterogéneos que abarquen más de un área de contenido o ejecución. En esta situación resulta conveniente agrupar primero los ítems por áreas de contenido para posteriormente realizar la ordenación por dificultad y la asignación a las mitades dentro de cada conjunto de ítems. De esta forma se obtendría dos mitades semejantes en cuanto a contenido, lo que siempre favorecería la consistencia interna. * Pasos específicos para el procedimiento mediante SpearmanBrown: 4. Calcular la correlación entre las puntuaciones de las dos mitades. Conviene señalar que, al contrario que en los casos anteriores, el coeficiente de correlación obtenido no corresponde al coeficiente de fiabilidad del test. Tal coeficiente de correlación se ha calculado entre dos medios tests paralelos. Indica, por tanto, el coeficiente de fiabilidad de “medio test” obtenido por el procedimiento de formas paralelas. Esto es, indica el coeficiente de equivalencia entre las mitades del test. 5. Estimación del coeficiente de fiabilidad del test. Para ello es necesario corregir el valor de correlación obtenido en el punto 11 anterior mediante la fórmula Spearman-Brown: R12= 2 rAB/(1+rAB) Donde R12 indica el coeficiente de fiabilidad del test y rAB la correlación entre las dos mitades. Como hemos visto, el coeficiente de fiabilidad obtenido es una función del grado de equivalencia entre sus partes. Su valor representa el grado en que el test es homogéneo, por esta razón el coeficiente de fiabilidad obtenido por el procedimiento de dos mitades es un coeficiente de consistencia interna. *Paso específicos para el procedimiento de Rulon: Calcular las puntuaciones D: para cada sujeto se calcula la puntuación D que viene definida como: D = A - B; donde A es la puntuación del sujeto en la mitad A y B, la puntuación del sujeto en la mitad B. La varianza de estas deferencias se utiliza como estimación de la varianza de las puntuaciones error en la definición del coeficiente de fiabilidad según la TCT, como se describe a continuación: X1 X 2 Sustituyendo muestrales: las E2 1 2 X varianzas X1 X 2 por sus respectivos estimadores S E2 1 2 SX A continuación, se debe sustituir la varianza error por la varianza de las puntuaciones D: X1 X 2 S D2 1 2 SX Debe plantearse la pregunta de bajo qué condiciones los dos procedimientos, Spearman-Brown y Rulon, proporcionan resultados semejantes. En el caso en que las varianzas de las puntuaciones observadas (SA2 y SB2) de las dos mitades sean iguales o casi iguales (la relación entre ambas, SA2/SB2 , esté entre 0.9 y 1.1), ambos procedimientos dan resultados virtualmente idénticos. Sin embargo, según difieren ambas varianzas, el procedimiento de Spearman-Brown da resultados mayores. El problema de utilizar cualquiera de estos procedimientos basados 12 en las dos mitades es que, en función de qué ítems contengan cada mitad, el coeficiente será distinto. En concreto, existen 1/2k! [(1/2k)!]2 formas de combinar los ítems del test en dos mitades (k es el número de ítems) y, por tanto, ese es el número de diferentes coeficientes de fiabilidad que pueden calcularse a través del procedimiento de dos mitades. Este problema suscitó intentos para desarrollar procedimientos que dieran lugar a una única estimación del coeficiente de fiabilidad. Estos procedimientos son los que veremos a continuación. 2. 2 Procedimientos basados en las covarianzas entre los ítems Los dos procedimientos que vamos a ver a continuación fueron desarrollados independientemente por Cronbach (1951), y Kuder y Richardson (1937). Los tres estimadores llegan al mismo resultado y, por ello, se los conoce por el nombre genérico de coeficientes alfa. Los pasos comunes para el cálculo del estimador serían: 1. Selección de una muestra representativa de sujetos 2. Administración del test 3. Cálculo del estimador 2. 2. 1 Coeficiente alfa Fue desarrollado para calcular el grado de consistencia interna de los ítems. La siguiente fórmula es aplicable tanto a ítems dicotómicos (sólo admiten dos respuestas: verdadero/falso, sí/no, acuerdo/desacuerdo,..), como a ítems de elección múltiple (con más de una alternativa de respuesta). La expresión formal es: 2 k ˆ i ˆ 1 2 k 1 ˆ X , donde ˆ es el estimador del coeficiente de fiabilidad, k el número de ítems del test, ˆ i2 es la varianza de las respuestas de los sujetos al ítem i, y ˆ X2 la varianza de las puntuaciones observadas del test. Si asumimos que todos los ítems son paralelos entre sí, el coeficiente ˆ sería un estimador directo del coeficiente de fiabilidad del test. Sin embargo, en la mayoría de las situaciones de medida esta suposición es insostenible al 100 %, por lo que la afirmación se restringe y se dice que ˆ X1X 2 , es decir, ˆ es el límite inferior del coeficiente de fiabilidad. Si ˆ 13 =0.8, podremos decir que X1 X 2 es, al menos, 0.8. Puede ser mayor, pero no menor. 2. 2. 2 Fórmulas de Kuder-Richarson Como se ha comentado anteriormente, también este procedimiento llega a la misma estimación que el anterior. Sin embargo, las fórmulas KR20 y KR21 sólo son utilizables con ítems dicotómicos, lo que restringe su utilización. Para ítems con más de dos alternativas de respuesta se debe utilizar el alfa de Cronbach. La expresión para el estimador KR20 es: KR20 k pi qi 1 2 k 1 ˆ X Donde piqi es la expresión de la varianza para el ítem dicotómico i. Como puede observarse, la fórmula es idéntica a la de Cronbach pero está expresada únicamente para su utilización con ítems dicotómicos. Si se asume que todos los ítems poseen la misma dificultad, podría utilizarse la fórmula KR21, más simple de calcular porque no necesita computarse la varianza ítem por ítem. KR21 k ˆ k ˆ 1 2 ˆ k 1 k X , donde ̂ es la media de la puntuación total de los sujetos en el test. Sin embargo, si la dificultad de los ítems varía, es necesario tener en cuenta que la estimación a través de la fórmula KR21 será sistemáticamente menor que la obtenida a través de la KR20. 2. 2. 3 Consideraciones sobre alfa y Kuder-Richarson Se trata de consideraciones generales sobre la interpretación de las estimaciones proporcionadas por ambos procedimientos: 1. El coeficiente alfa puede ser utilizado como un índice de consistencia interna. Al interpretarlo es necesario tener en cuenta que no aporta información sobre la estabilidad de las puntuaciones del test ni sobre la equivalencia de las puntuaciones respecto a otra forma paralela del test. 2. Puede ser considerado como el límite inferior del coeficiente de fiabilidad. Si ˆ =0.7, podemos decir que al menos el coeficiente de fiabilidad es de 0.7. No podemos asegurar que sea mayor, ni cuanto mayor. 14 3. El coeficiente alfa sería la media teórica de todos los posibles estimadores del coeficiente de fiabilidad calculado a través de la fórmula de Rulon. Dicho de otra forma, si se estima el coeficiente a través del procedimiento de dos mitades asignando aleatoriamente los ítems a cada una de ellas y se calcula con la fórmula de Rulon, alfa sería el valor esperado de esa estimación. 4. Una interpretación errónea de alfa es que un valor relativamente alto de alfa implica que los ítems del test son unidimensionales. Debido a que alfa depende de la covariación entre los ítems del test, otros factores diferentes de la unidimensionalidad pueden estar afectando a la covarianza. Finalmente considerar los aspectos más procedimiento reflejados en el siguiente cuadro. Procedimientos Fuentes de error Dos mitades Falta de equivalencia entre las mitades Coeficientes alfa. Falta de calidad técnica de los ítems o ausencia de homogeneidad relevantes Apropiado de este No apropiado Test velocidad1. Pruebas de contenido homogéne o. 3. Factores que afectan a la estimación del coeficiente de fiabilidad Es necesario considerar que la estimación del coeficiente de fiabilidad es sensible a una serie de factores. En concreto la estimación depende de: 1. La homogeneidad de la muestra donde ha sido calculado. 2. La longitud del test 3. El límite de tiempo que se les da a los sujetos para completar el test. 3. 1 La variabilidad de la muestra Se ha dicho anteriormente que el coeficiente de fiabilidad era una cantidad teórica que no podía conocerse con exactitud, sino que era necesario estimarla a través de las respuestas de un conjunto de sujetos a 1 Más adelante, en el apartado de Factores que afectan al coeficiente de fiabilidad, se ofrecerá una explicación al respecto. 15 un conjunto de ítems. Pues bien, es necesario tener en cuenta que si queremos utilizar la información proporcionada por la estimación del coeficiente de fiabilidad, ésta será útil en la medida en que se aplica a otra muestra de semejante homogeneidad a aquella donde fue calculado. De no ser así, la estimación del coeficiente variará sensiblemente. En concreto, la fiabilidad del test disminuirá si el test ha de aplicarse a una muestra más homogénea. Recuérdese que más homogénea implica menor variabilidad entre los sujetos, es decir, menores diferencias entre ellos. Siempre que elijamos una muestra donde se espera una reducción en la varianza de las puntuaciones observadas, ˆ X2 , será necesario modificar la estimación del coeficiente de fiabilidad para adaptarlo a esta nueva condición. Por ejemplo, si se calcula el coeficiente en un grupo de sujetos, pongamos un curso de matemáticas de 3º de B.U.P., pero queremos aplicar el test en un grupo de sujetos con un expediente académico elevado en matemáticas, es de esperar que entre este segundo grupo las diferencias con respecto al rendimiento en matemáticas será menores que la existente en toda la clase. Esta reducción en la variabilidad de los sujetos con respecto a la puntuación en el test supondrá una reducción en la fiabilidad del test. El estimador debe ser corregido. Considérese el cálculo del coeficiente en cada una de las dos muestras. Dado que en las dos muestras se utiliza el mismo test, el error típico de medida (una propiedad del test) será el mismo en cada una de ellas. S X21 1 RXX ' S X2 2 1 RXX ' ,donde los subíndice 1 y 2 hacen referencia a las dos muestras. Asumamos que hemos calculado el coeficiente Rxx en la muestra 1, con variabilidad S X2 1 , y queremos saber cuál sería el valor de RXX en la muestra dos, con variabilidad S X2 2 . Sólo nos resta despejar RXX : S X2 1 1 R XX ' R 1 2 S X2 ' XX Esta expresión nos permite corregir la estimación del coeficiente de fiabilidad cuando queremos aplicar el test en una muestra con variabilidad S X2 2 , diferente a aquella correspondiente a la muestra donde fue estimado originalmente, S X2 1 . Nótese que el nuevo coeficiente es inversamente proporcional a la fracción S X2 1 / S X2 2 . Por tanto, cuanto menor sea esta fracción mayor será el coeficiente. O lo que es igual, cuanto mayor sea S X2 2 , la variabilidad de la nueva muestra, con respecto a S X2 1 , mayor será el nuevo estimador. 16 Como consecuencia, a la hora de utilizar un test es necesario comparar las varianzas de la muestra donde queremos aplicarlo con aquella en la que fue calculado. Si las varianzas son muy diferentes, será necesario realizar un estudio de fiabilidad en una muestra apropiada a las características de nuestra nueva población de sujetos. 3. 2 La longitud del test Un aspecto del test que afecta tanto a la varianza de las puntuaciones observadas como a la varianza de las puntuaciones verdaderas y, por tanto, al coeficiente de fiabilidad, es la longitud del test. Ya se adelantó esta idea en el apartado del cálculo del estimador mediante el procedimiento de división del test en dos mitades. Allí se indicó la necesidad de corregir la correlación entre las mitades A y B, RAB, ya que esa estimación correspondía a un test de longitud ½ respecto del test original. Imagínese la situación en que disponemos de dos tests para medir el mismo constructo, el primero con un solo ítem y el segundo con 10 ítems. Obviamente, tendremos más confianza en la puntuación del segundo test, ya que hace un muestreo más a fondo el constructo que queremos medir. La fórmula de Spearman-Brown proporciona la relación entre coeficiente de fiabilidad y longitud del test: R XX kR12 1 k 1R12 ,donde R XX es el estimador del coeficiente de fiabilidad del nuevo test con longitud k veces el test original, y R12 el estimador del coeficiente de fiabilidad del test original. Obsérvese que k no es el número de ítems del test original ni del test final, sino el número de veces que es necesario multiplicar la longitud original para obtener la longitud actual. Por ejemplo, en el procedimiento de dos mitades, k es igual a 2. Por tanto k no tiene por qué ser entero ni mayor que 1. En efecto, podríamos estar interesados en conocer cuál sería el valor del estimador para un test con un tercio de ítems de nuestro test original. En ese caso k=1/3 , es decir, k= 0.33. Para calcular k se puede utilizar la siguiente fórmula: k= nº ítems del test final/nº de ítems del test original. Cuando la longitud del test para el cual queremos aplicar la fórmula crece con respecto al número de ítems del test original, k será mayor que uno. Si el test actual posee menos ítems que el test original, k será menor que 1. Según aumenta el número de ítems, lo hará el estimador del coeficiente de fiabilidad. Sin embargo este crecimiento no se corresponde 17 con un incremento lineal, sino que viene definido por una curva negativamente acelerada. Esto supone que los incrementos en el estimador del coeficiente de fiabilidad serán cada vez menores según va aumentando k. Por ejemplo, duplicar la longitud de un test con R12=0.60, supone obtener un nuevo estimador R XX =0.75; triplicar la longitud dará como resultado R XX =0.81; pero quintuplicar la longitud supondría un incremento solo de R XX =0.88. Obsérvese que de triplicar la longitud a quintuplicarla sólo se ganan 7 centésimas, mientras que al duplicarlo se ganan 15. Por tanto, llegados a cierto punto los débiles incrementos en el estimador no justifican el esfuerzo de construir más ítems para añadir al test. Es necesario hacer notar que la fórmula de Spearman-Brown es un reflejo de la fiabilidad sólo cuando los ítems que se añaden (o eliminan) son paralelos en contenido y dificultad respecto a los ítems originales del test. Si se añaden ítems que no sean paralelos, el incremento en la fiabilidad no será real. 3. 3 Restricciones temporales En los llamados tests de velocidad el sujeto se enfrenta a ítems de dificultad baja, pero debe responder en un tiempo limitado, que está pensado para que nadie conteste todos los ítems. Interesa conocer cuántos ítems ha realizado correctamente. En los tests de potencia, la dificultad de los ítems es mayor, pero el sujeto dispone de un tiempo más que suficiente para completar los ítems cuya respuesta conoce. En los tests de velocidad, el grado de rapidez que un sujeto es capaz de desarrollar entra a formar parte de la varianza de las puntuaciones verdaderas. Este grado influirá en todas las repetidas administraciones del test. Por tanto cuanto se calcula es estimador del coeficiente con los procedimientos de dos administraciones, como ese factor influye en ambas administraciones, no tiene importancia a la hora de comparar ambas ejecuciones del sujeto. Sin embargo, cuando el usuario del test está interesado en conocer la consistencia interna del test, ésta se verá inflada artificialmente en los tests de velocidad. Este efecto es especialmente importante cuando se utiliza el procedimiento de dos mitades a través de la numeración de los ítems y la asignación de pares-impares a las dos mitades. Una vez que se ha acabado el tiempo de realización del examen, todos los ítems no contestados, pares e impares, estarán perfectamente correlacionados (sus puntuaciones serán cero) independientemente de si los ítems son homogéneos en contenido o no. Lo mismo puede aplicarse a cualquiera de los procedimientos de consistencia interna. Por ellos, se aconseja utilizar el procedimiento de test-retest o formas paralelas para estimar la fiabilidad de los tests de velocidad. 18 4. Estimación de la puntuación verdadera Aunque la puntuación verdadera de un sujeto nunca puede determinada con exactitud. Sin embargo es posible estimarla utilizando los datos de un grupo de sujetos que contestan al test. Esta estimación se basa en la ecuación de regresión para predecir un valor de Y a partir de un valor conocido de X: Y ' XY Y X X Y X Sustituyendo Y por V, la puntuación verdadera, la ecuación de regresión nos permite estimar V a partir de X, la puntuación observada del sujeto en el test: V ' XV V X X V X Dado que XV es el índice de fiabilidad del test y es igual a v/x, podemos sustituir la expresión del recuadro por el coeficiente de fiabilidad, que es el cuadrado del índice, y como V X , podemos formular la ecuación así: V ' XX ' X X V Expresando las puntuaciones en diferenciales (recuérdese que la puntuación diferencial se obtiene restando la media de la puntuación directa): v ' XX ' x Donde v’ es la puntuación verdadera diferencial predicha por la ecuación, XX’ el coeficiente de fiabilidad el test, y x la puntuación observada diferencial. ¿Qué relación existe entre la predicción de la puntuación verdadera, v’, y el coeficiente de fiabilidad? Cuando éste es bajo, v’ tiende a estar cerca de la media del test, X , por un fenómeno denominado regresión a la media. Con una fiabilidad baja, esa es la predicción que nos da la fórmula. Según aumenta el coeficiente de fiabilidad, v’ tenderá a estar mas alejado de la media del grupo y más cercano a x. Si el coeficiente fuese 1 (no habría errores de medida) v coincidiría exactamente con x. Cuando la interpretación de las puntuaciones se quiere hacer comparándolas con la media del grupo, no es necesario estimar la puntuación verdadera, ya que obtendremos la misma ordenación que 19 utilizando las puntuaciones observadas en el test (puesto que V=X). El cálculo de la estimación de la puntuación verdadera es más útil cuando se quiere interpretar las puntuaciones comparándolas con un criterio. Veamos un ejemplo de esta última utilidad. Supongamos que se construye un test para asignar a estudiantes a grupos especiales de enseñanza. Los sujetos con puntuación igual o menor a 80 pasarán a una clase para sujetos con problemas de aprendizaje, mientras que aquellos con una puntuación igual o superior a 130 pasarán a una clase para sujetos con habilidades superiores. Dos sujetos obtienen las puntuaciones observadas 79 y 132. ¿Qué decisión debe tomarse respecto a cada uno? Si nos fijamos sólo en las puntuaciones observadas el primero pasaría a la clase de sujetos con problemas de aprendizaje y el segundo a aquella para sujetos con habilidades superiores. Pero, ¿están justificadas estas decisiones a la luz de sus puntuaciones verdaderas estimadas? Sea 100 la media del test y 0.9 el estimador del coeficiente de fiabilidad. Las respectivas puntuaciones verdaderas serían: T´= 0.9 (79-100)+100=81.1 T’=0.9 (132-100)+100=128.8 Como puede verse, ninguna de las dos decisiones sería correcta teniendo en cuenta la fiabilidad del test. Las puntuaciones verdaderas de los sujetos difieren de las puntuaciones observadas. Aunque sigue siendo cierto que la puntuación del primer sujeto es menor que el del segundo, ninguno cae dentro de los intervalos ( X80, X130) pensados para sujetos especiales. Otra forma de estimar la puntuación verdadera es construir un intervalo de confianza en torno a la puntuación observada utilizando el error típico de medida del test. Cuando el sujeto responde al test, la desviación esperada de sus errores de media es el error típico de medida del test, SE. Como las distribuciones de las puntuaciones observada y error siguen, según el modelo, una distribución normal, podemos decir que el 68% de las puntuaciones observadas están a 1SE de la media de la distribución de puntuaciones observadas, esto es, de la puntuación verdadera. El 95% de las puntuaciones observadas estarán a 2SE de la puntuación verdadera. Por tanto, si elegimos una puntuación observada al azar, X, podemos decir que la puntuación verdadera estará incluida en el intervalo X1SE con una probabilidad del 68%. O que estará incluida en el intervalo X2SE con una probabilidad del 95%. Como puede deducirse de este razonamiento, cuanto menor sea el error típico de medida del test, menor será el intervalo en torno a X y, como consecuencia, menor será el rango de puntuaciones dentro del intervalo, es decir, afinaremos más en torno a X. Por ello, cuanto más fiable sea el test, más “finos” podemos ser a la hora de construir el intervalo.