PRINCIPIOS DE PSICOMETRÍA Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado PRINCIPIOS DE PSICOMETRÍA CARMEN SANTISTEBAN REQUENA EDITORIAL SINTESIS Vallehermoso, 34 28015 MADRID Telf: (91) 593 20 98 Fax: (91) 445 86 96 Diseño y óleo de cubierta: Verónica Rubio Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A. © Carmen Santisteban Requena © EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34. 28015 Madrid Teléfono 91 593 20 98 http://www.sintesis.com ISBN: ISBN:978-84-975663-0-8 978-84-975683-4-0 Depósito Legal: M. 11.211-2009 Impreso en España - Printed in Spain Índice Prólogo 13 1. Psicometría y teoría de tests: Introducción La medición de los atributos psicológicos y los instrumentos que la hacen posible 1.1. Cuantificación y experimentación: Los inicios de la psicología como ciencia cuantitativa 1.2. Los fundamentos de la psicometría 1.3. La medición de las aptitudes mentales Algunos antecedentes 1.4. Tipos de tests 1.5. Variabilidad de las puntuaciones Distribución de las puntuaciones 1.6. La interpretación de las puntuaciones Las puntuaciones tipificadas (puntuaciones z) Las escalas y las normas 1.7. Teorías y modelos 1.8. La construcción del test La redacción de los ítems La administración de los tests Puntos clave Actividades 2. Teoría clásica de los tests El modelo lineal de Spearman 2.1. Formalización del modelo de Spearman Hipótesis 19 19 21 22 24 27 28 30 35 36 38 39 46 48 48 50 51 53 54 54 6 Principios de Psicometría 2.2. Relaciones e índices que se deducen de las hipótesis 2.3. Condiciones de paralelismo entre medidas: Consecuencias Medidas paralelas Medidas tau-equivalentes Comprobación del paralelismo Consecuencias prácticas Puntos clave Actividades 3. Fiabilidad Precisión de las medidas 55 60 60 64 65 66 73 73 75 3.1. El concepto de fiabilidad 3.2. Ecuaciones para definir y calcular la fiabilidad 76 78 Definiciones Ecuación para un test compuesto por subtests Valores e interpretación 78 80 81 3.3. Formas usuales de generar medidas repetidas 83 Test-retest Formas paralelas División en dos partes 3.4. Cálculo práctico de los coeficientes e índices de fiabilidad 3.5. Otras ecuaciones para el cálculo de la fiabilidad Ecuación de Rulon Ecuación de Flanagan y Guttman Puntos clave Actividades 4. Fiabilidad Variabilidad y longitud de las pruebas 4.1. Fiabilidad y variabilidad de las puntuaciones 4.2. Fiabilidad y longitud de las pruebas Ecuación de Spearman-Brown Los valores de k Variaciones de la fiabilidad con la longitud Cambios en la longitud para valores prefijados de la fiabilidad 4.3. Relaciones entre fiabilidad, longitud y varianza Puntos clave Actividades 84 84 85 86 90 91 94 95 96 99 99 103 104 108 108 111 116 119 119 Índice 5. Fiabilidad Consistencia interna: El coeficiente α 5.1. El coeficiente α y las ecuaciones de Kuder-Richardson Coeficiente α Ecuaciones de Kuder-Richardson 5.2. El coeficiente α: Cota inferior de la fiabilidad en tests compuestos 5.3. Casos particulares del coeficiente α Ecuaciones de Rulon y de Flanagan y Guttman Ecuación de Hoyt 5.4. El coeficiente β 5.5. Cálculo de α con técnicas de análisis de varianza 5.6. Coeficientes derivados del análisis factorial El coeficiente Ω El coeficiente θ 5.7. Variaciones de la fiabilidad Cuantía La fórmula de cálculo Aplicación de la ecuación de Spearman-Brown Puntos clave Actividades 6. Inferencias Estimación y contrastes de significación 6.1. Predicciones de la puntuación verdadera 6.2. Errores de medida, de estimación y de predicción Tipos de errores Relación entre los errores 6.3. Intervalos de confianza para la puntuación verdadera 6.4. Contrastes de medias Diferencias entre la media de una muestra y la de la población Diferencia de medias en muestras independientes Diferencia de medias en muestras relacionadas 6.5. Significación e inferencias de los coeficientes de fiabilidad Contrastes de coeficientes de correlación Contrastes para coeficientes α Puntos clave Actividades 7 121 122 123 123 125 130 130 131 136 138 141 141 143 144 144 145 146 149 150 153 153 156 157 159 159 164 165 167 168 173 174 176 179 180 8 Principios de Psicometría 7. Teoría de la generalizabilidad ¿Cómo afectan a las medidas distintas facetas y fuentes de error? 7.1. Conceptos básicos y terminología 7.2. Estudios G Diseño de una faceta Diseño de dos facetas 7.3. Estudios D Coeficientes de generalizabilidad y toma de decisiones Diseño de una faceta Diseño de dos facetas 7.4. Diseños anidados versus diseños cruzados Puntos clave Actividades 8. La validez ¿Qué es la validez? 8.1. El concepto de validez 8.2. Tipos de validez 8.3. Validez en relación con el contenido Validez de contenido versus validez aparente 8.4. Asociaciones con otras variables: Evidencias de validez convergente y discriminante 8.5. Validez en los procesos de respuesta 8.6. Validez en relación con el criterio 8.7. Validez de la estructura interna del test 8.8. Validez de constructo Puntos clave Actividades 9. La validez Evaluación de las evidencias de validez 9.1. Validación del contenido 9.2. El coeficiente de validez Validez y fiabilidad Validez y longitud Acotación del valor del coeficiente de validez Coeficientes derivados del coeficiente de validez Validez y representación muestral 183 184 189 189 193 196 197 198 201 204 205 206 209 209 211 216 218 218 221 222 223 224 227 227 229 230 231 232 236 239 240 243 Índice 9.3. Validez relativa al criterio Pronóstico mediante regresión lineal simple Pronósticos mediante una batería de predictores Selección de las variables predictoras 9.4. Evaluación de la validez convergente y discriminante Red nomológica y correlaciones El método de Westen y Rosenthal Matrices multirrasgo-multimétodo 9.5. Validez de la estructura interna del test Puntos clave Actividades 10. La validez Coeficiente de validez y toma de decisiones 10.1. Detección, clasificación y diagnóstico Sensibilidad y especificidad Curvas ROC 10.2. Interpretaciones y uso práctico del coeficiente de validez 9 247 247 250 252 253 255 256 257 260 264 265 267 267 270 273 276 BESD Tablas de Taylor-Russell 276 279 10.3. Análisis de la utilidad Puntos clave Actividades 284 290 291 11. Teoría de la respuesta al ítem Aspectos generales 11.1. Orígenes y objetivos de la teoría de la respuesta al ítem 11.2. Aspectos generales Dimensionalidad del espacio del rasgo Independencia local La curva característica del ítem (CCI) Regresión y curvas características 11.3. La puntuación verdadera y la escala de aptitud Puntos clave Actividades 293 294 297 297 299 306 307 310 312 313 10 Principios de Psicometría 12. Teoría de la respuesta al ítem Modelos 12.1. Modelos ojiva normal Tipos de modelos ojiva normal 12.2. Significado de los parámetros ai y bi 12.3. Modelos logísticos Modelo logístico de dos parámetros Modelo logístico de tres parámetros Modelo logístico de cuatro parámetros 12.4. El modelo de Rasch 12.5. Otros modelos 12.6. Estimación de los parámetros de los modelos El método de máxima verosimilitud Métodos condicionales y no condicionales Puntos clave Actividades 13. Teoría de la respuesta al ítem Funciones de información y aplicaciones 13.1. Funciones de información Función de información del ítem Función de información del test 13.2. Las funciones de información en diferentes modelos 13.3. Curvas de información Ponderaciones Aplicabilidad Bancos de ítems Tests adaptativos computarizados 13.4. Eficiencia relativa 13.5. La métrica y los valores de las funciones de información 13.6. Resumen de los procedimientos Puntos clave Actividades 14. El sesgo en los tests Sesgos y comportamiento diferencial de los ítems 14.1. El sesgo en los tests 14.2. Detección y estimación de sesgo en la evaluación del constructo 315 316 317 319 325 327 331 333 335 339 341 343 346 350 351 353 354 354 357 358 361 363 367 368 368 369 372 373 374 375 377 378 379 Índice Consistencia interna Índices de discriminación Rango de dificultad Análisis factorial Funcionamiento diferencial de los ítems 14.2. El método Mantel-Haenszel para estimar el DIF Significación estadística de los valores α MH 14.3. Estimación del DIF haciendo uso de las CCI Puntos clave Actividades 15. Medición y psicometría Medición, escalas e interpretación de las puntuaciones 15.1. Psicología, psicometría y medición 15.2. Métrica y espacios métricos 15.3. Medición, estructuras, representación y escalas El problema de la representación El problema de la unicidad El problema del significado 11 380 380 380 381 382 384 386 392 398 399 401 402 404 405 406 407 408 15.4. Medición directa e indirecta 15.5. Tipos de escalas 409 411 Escalas ordinales Escalas de intervalo y de razón Transformaciones admisibles 413 413 415 15.6. Interpretación de las puntuaciones: Escalas y normas Escalas estandarizadas Normas centiles Escalas de puntuaciones normalizadas Equiparación de puntuaciones La escala de aptitud θ en la TRI Puntos clave Actividades 417 419 419 421 423 426 427 428 Bibliografía 431 Índice de contenidos 445 Prólogo Los avances científicos y tecnológicos están cimentados en la cuantificación y en la experimentación, estableciendo la diferenciación entre ciencia y creencia. Esta diferenciación no es específica de las ciencias sociales y de la conducta, al enfrentarse con el reto de hacer ciencia en su intento de comprender y predecir la conducta humana, sino que abarca todos los campos del saber. La contraposición entre Astronomía y Astrología o entre Química y Alquimia son sólo dos ejemplos clásicos del divorcio entre ciencias y creencias, aunque estas últimas puedan incluir un gran bagaje de conocimientos acumulados durante siglos y se aborden con el mayor rigor filosófico, con la máxima seriedad y buenas intenciones. La aportación indiscutible del experimento, debidamente cuantificado, para la comprobación de teorías y de hipótesis generadas por el desarrollo científico, es la que ha convertido a la Psicología en una de las Ciencias con un desarrollo más espectacular durante el siglo XX, siendo la Psicometría la parte de la Psicología que sirve de soporte a esta cuantificación. Los conceptos métricos se introducen en ciencia para que, aprehendiendo el significado de algunas propiedades de los elementos, sujetos y objetos, poder estudiarlos de forma sistematizada y, a ser posible, de una forma generalizada. La medición es el núcleo de la ciencia y de sus aplicaciones, incluyendo a las ciencias del comportamiento. Los estudios que se abordan desde la psicología, la educación u otras ciencias sociales y políticas se basan en la posibilidad de obtener mediciones adecuadas de los atributos psicológicos y conductuales de los sujetos. Este libro trata de cómo obtener mediciones utilizando tests psicológicos como instrumentos de medida, evaluar la calidad de esas medidas y su aplicabilidad, que es el objetivo de la Psicometría. La exposición de estos temas se hace desde el supuesto de que el lector pueda no tener conocimientos previos de esta materia, por lo que los contenidos van fluyendo, desde el concepto a la técnica, 14 Principios de Psicometría de forma monótona hasta alcanzar un nivel en el que, si se quiere ir más allá, no se requieran nuevos conceptos, sino el uso de métodos y técnicas más avanzadas que permitan abordar muchos de los temas que ya se apuntan en el texto. El libro está dirigido a universitarios, tanto de grado como de posgrado, y a los profesionales de las ciencias de la conducta (psicología, educación, medicina, sociología, etc.), quienes pueden encontrar en este texto los fundamentos y la lógica de muchos de los procedimientos que utilizan en la práctica. Este libro no sustituye, ni es su objetivo, a aquellos textos que se centran en aspectos puramente técnicos en la construcción de tests, sin embargo, puede servir de ayuda y ser un buen complemento de esos otros. Para hacer su lectura comprensiva al mayor número de lectores posible, a veces se ponen ejemplos y se clarifican conceptos o expresiones provenientes de otros contextos. También se aclara el significado de algunos términos que son propios del ámbito de la estadística. Al ser un libro de fundamentos, se ha puesto el acento en los aspectos más básicos y conceptuales, aunque tratando en lo posible de dar una visión aplicada de cada uno de ellos, vinculando esos conceptos con aspectos técnicos y aplicaciones. Con esta finalidad en este libro se incluyen ejercicios, tablas, gráficos y ejemplos tomados de la literatura, que ilustran los métodos y los procedimientos. Para conseguir una mejor y más inmediata comprensión de dichos fundamentos, todos los ejercicios y ejemplos se han simplificado de tal manera que el lector pueda replicarlos con ayuda de una simple calculadora manual, sin que tenga necesariamente que acudir (aunque lógicamente puede hacerlo) a ninguno de los múltiples programas informáticos que hay disponibles. Por otra parte, un texto de fundamentos debe incluir deducciones formales que justifiquen el porqué de muchas de las afirmaciones y ecuaciones que se proponen. Este libro incluye deducciones cuyo grado de complejidad no exceda en exceso el propio de esta obra. Aun así, esos contenidos se insertan en el texto generalmente en forma de cuadros cuya lectura puede omitir el lector, al menos en una primera fase, sin que ello sea óbice para seguir adecuadamente el desarrollo del tema que se esté tratando, procurando en todo momento hacerlo asequible al tipo de lector al que va destinado. La organización de los contenidos de los capítulos se hace procurando que el lector vaya adentrándose en ellos de forma paulatina y que cada uno de los conocimientos que adquiere demande alguno o algunos de los que se exponen a continuación. Por ello, al finalizar cada capítulo se hace una breve recopilación de aquellos puntos o conceptos (Puntos clave) que el lector debe revisar antes de pasar al siguiente capítulo. El primer capítulo se dedica a introducir al lector Prólogo 15 en el significado de la medición psicológica, de sus orígenes y desarrollo, incidiendo en la importancia y el significado de las puntuaciones que se obtienen utilizando los tests, haciendo mención expresa a los modelos psicométricos. Se trata pues de una visión general que de alguna manera anticipa cuáles son los temas que se van a tratar posteriormente. Se recomienda, especialmente a aquellos lectores con un conocimiento previo de algunos aspectos de la Psicometría, que tras este capítulo primero aborden la lectura del capítulo 15. Probablemente habrá partes de dicho capítulo 15 que les resulten demasiado complejas o difíciles de entender, pero pueden pasar muy ligeramente por todo el capítulo y seguir con el normal ordenamiento del libro para reemprender su lectura cuando hayan asimilado los contenidos del resto de capítulos. En el capítulo 2 se presenta el modelo lineal que ha dado origen a la teoría clásica de los tests, dedicándose los capítulos 3 al 5 a tratar el concepto de fiabilidad, que es un concepto central en la teoría clásica, su estimación y su importancia en la construcción, desarrollo y aplicaciones de los tests. En esos capítulos se insiste en la diferenciación entre diversos tipos de fiabilidad, en los conceptos y en los procedimientos, dedicando en exclusiva el capítulo 5 al tratamiento de la consistencia interna. La comprobación de la significación de los indicadores de la fiabilidad, así como la de las estimaciones de las puntuaciones, se pone a prueba mediante los procedimientos de inferencia estadística, y es a lo que se dedica el capítulo 6. Una extensión del modelo clásico que intenta superar las limitaciones que el contexto clásico impone a la fiabilidad, aunque manteniéndose en el seno de los modelos lineales, se presenta en el capítulo 7, donde se exponen los conceptos básicos de la teoría de la generalizabilidad. Se incluyen en este capítulo explicaciones y ejemplos de los métodos y de las técnicas más básicas que se utilizan en esta teoría para realizar estudios de generalización y de decisión. Los capítulos 8, 9 y 10 se dedican al tratamiento de la validez. Se examina el concepto de validez, sus diferentes acepciones y clasificaciones en psicometría, posicionándonos en la visión más actualizada que reflejan las Normas de 1999 (AERA, APA & NCME, 1999, las últimas publicadas cuando este libro se imprime). Se examinan los diferentes métodos para evaluar la validez y su utilidad en el pronóstico y en el diagnóstico cuando para ello se utilizan tests. A lo largo de esos capítulos se ha tratado de poner el énfasis en el significado de la validez en cuanto a que es crucial que la posean los tests, desde su gestación hasta la interpretación de las puntuaciones que con ellos se obtienen, puesto que la validez es una condición imprescindible para poder establecer conclusiones. 16 Principios de Psicometría En los capítulos 11 al 13 se presenta la teoría de la respuesta al ítem. Los conceptos básicos se abordan en el capítulo 11, dedicando el 12 al tratamiento de los modelos concretos (ojiva normal, logísticos y el modelo de Rasch). Se explicita la forma y el significado de los modelos y de sus parámetros y cómo realizar la estimación, tanto de esos parámetros como del rasgo, esto es, del nivel de aptitud del sujeto que realiza la prueba. El capítulo 13 trata de la evaluación de la información que cada ítem aporta al test y la cantidad de información que proporcionan cada ítem y el test en los diferentes niveles del rasgo. Se introducen las expresiones de las funciones de información para los diferentes modelos, presentando algunas de sus aplicaciones. En el capítulo 14 se abordan los problemas de sesgo en los tests y sus conexiones con la validez, ya que la validez de un test implica ausencia de sesgos. Se presentan algunos métodos para detectar las fuentes y evaluar el sesgo, en los que se incluyen el estudio del comportamiento diferencial de los ítems. Especial énfasis se pone en advertir que diferentes fuentes de sesgo pueden llevar a la no equidad en la valoración de los sujetos y en las repercusiones personales y sociales que el uso de tests sesgados puede tener en diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.). Finalmente, el capítulo 15 se dedica a exponer el significado de la medición en general y de la medición psicológica en particular, y las propiedades que deben poseer las representaciones numéricas para que legítimamente estén representando las magnitudes de aquello que se desea evaluar. Se explicitan esas propiedades y cómo dan origen a las diferentes escalas. Por último, se presentan algunos tipos de escalas, cómo se puede operar con ellas, las transformaciones que admiten conservando sus propiedades y cómo se interpretan sus puntuaciones. Muchos lectores se pueden preguntar por qué este capítulo se ha situado al final, cuando debería ser el primero, pues las bases de la psicometría están en la medición. Las razones son que el tema de la medición no es un tema fácil que se pueda abordar en un primer capítulo, sin más conocimientos de sus implicaciones. Sin embargo, es más fácilmente comprensible si se presenta después de haber tratado con modelos, con puntuaciones, con transformaciones de las puntuaciones y haber percibido los problemas estructurales que conlleva la medición. Por ello, se ha recomendado que se aborde la lectura, aunque sea superficial, de este capítulo antes de empezar con el segundo, para volver a él cuando el lector lo considere conveniente y retomándolo como capítulo final. Prólogo 17 Hay que añadir que, además de los ejercicios y de las aclaraciones y deducciones que se dan en los cuadros que se insertan en los capítulos, se ha considerado que el conocimiento de los orígenes y de la evolución de aspectos cruciales en psicometría pueden ayudar a comprender mejor los conceptos y ser un incentivo sobre todo para aquellos lectores para los que ésta es su primera aproximación a la psicometría, además de que les permite situar en el marco adecuado los conocimientos actuales y contemplar con perspectiva una prospectiva hacia donde conducen los nuevos desarrollos. Para no interrumpir la lectura del tema, esta información se da en cuadros a los que el lector puede prestar atención en ese u otro momento. Con la convicción de que la información no es formación y que el conocimiento se adquiere con el trabajo personal, se proponen al final de cada capítulo, además del examen de los puntos más importantes tratados en el mismo, un conjunto de actividades que es recomendable que el lector realice, unas porque son una aplicación directa de lo expuesto en el capítulo, y otras porque suponen que el lector dé un paso más con su elaboración personal. Este libro está dedicado a Ángel Santisteban y Angustias Requena, mis padres, y a mi esposo Manuel Cortijo. Psicometría y teoría de tests: Introducción La medición de los atributos psicológicos y los instrumentos que la hacen posible 1 El término psicometría indica medición en psicología. La psicometría actual trata de las teorías, modelos, métodos, procedimientos y herramientas que se utilizan en la medición psicológica, en sentido amplio. En este texto se exponen las teorías y los modelos para el estudio de las diferencias individuales. Es conveniente conocer los orígenes de los tests e interpretar el significado de las puntuaciones que con ellos se obtienen para entender los principios básicos de la psicometría. Todo ello sin perder la perspectiva de que otras materias, entre las que se incluyen la medición psicofísica, son temas psicométricos que también estudian las diferencias individuales. En este capítulo se va a tratar: ã Los inicios de la psicología como ciencia cuantitativa. ã La psicometría y la medición de las aptitudes mentales. ã Los tipos de tests. ã La variabilidad e interpretación de las puntuaciones. ã Qué es un test y una breve reseña de las teorías y de los modelos que dan soporte a la construcción de los tests psicométricos. m1.1. Cuantificación y experimentación: Los iniciosm de la psicología como ciencia cuantitativam La psicología cuantitativa y experimental se puede decir que empieza con la publicación en 1860 de Elemente der psychophysick por el científico alemán Fechner, un físico preocupado por estudiar cuestiones psicológicas desde la medición y la experimentación. La medición y la experimentación son los procedimientos que 20 Principios de Psicometría comúnmente se consideran válidos en Ciencia, y son los que Fechner adopta para abordar la investigación de las relaciones entre estímulos y sensaciones, naciendo entonces la psicofísica como una nueva área científica de estudio. Tras la publicación de esta obra, y durante varias décadas, la psicofísica fue la principal rama de la psicología en la que se intentó la cuantificación y el establecimiento de relaciones entre las magnitudes, hasta que surgió el interés por la medición de las aptitudes mentales. A principios del siglo XX, la medición de aptitudes y el desarrollo de técnicas que la hicieran posible, fue cobrando tanta importancia que colocó a la psicofísica en un segundo plano, dejando de ser el ámbito único y preponderante de la psicología científica. Hacia mediados del siglo XX se avanza en la formalización y aparecen modelos para el estudio de algunos procesos psicológicos, así como el desarrollo de métodos para su medición. Se puede decir que la psicometría ha sido una de las mayores contribuciones que la psicología moderna ha hecho a la sociedad a lo largo del siglo XX. Es usual que muchos autores clasifiquen las tareas de cuantificación de las que se ocupa la psicometría en dos grandes grupos: a) la de las diferencias individuales, utilizando tests psicológicos como instrumentos de medición, que es lo que comúnmente se suele identificar con la psicometría y b) la cuantificación de los estímulos y de los efectos percibidos, o más precisamente, la de las características de las señales y la de los comportamientos de los sujetos que las reciben, que se suele identificar con la psicofísica, como materia independiente de la psicometría. No obstante, tanto si se utiliza una cuestión (ítem) planteada en el contexto de los clásicamente denominados tests (psicometría), como si se utiliza un estímulo físico (psicofísica), ambos se podrían considerar como señales o como estímulos. A esos estímulos son a los que el sujeto debe dar una respuesta, que es la que se evalúa en relación con las condiciones experimentales, entre las que deben destacarse las propias características del estímulo. Además, consideramos que tampoco está justificado llamar estudios de las diferencias individuales sólo a aquellos que se derivan de la aplicación de tests psicológicos, pues también existe un comportamiento diferencial de los sujetos cuando se aplican otros métodos como los psicofísicos. Lo que se puede afirmar es que una y otra rama, unas veces juntas y aliadas, otras veces independientes y aparentemente contrapuestas, se han enfrentado al reto de la medición y de la experimentación en el ámbito de la psicología, utilizando para su estudio y para la construcción de sus modelos métodos estadísticos y matemáticos, casi siempre de naturaleza probabilística. Ambas disciplinas han generado sus propios procedi- Capítulo 1. Psicometría y teoría de tests: Introducción 21 mientos de medición y han dado normas para la interpretación de las medidas con la determinación de umbrales, la construcción de escalas de puntuaciones, el escalamiento de los estímulos, etc. En la actualidad están emergiendo nuevas teorías y, sobre todo, nuevas técnicas para el estudio del comportamiento humano, abordándolo a través de la medida de la activación cerebral, son las llamadas técnicas de imagen o de neuroimagen. Las más relevates son la magnetoencefalografía (MEG), la resonancia magnética funcional (fMRI) y la tomografia de emisión de positrones (PET). Utilizando estas técnicas se están abriendo nuevos horizontes en el conocimiento de las actitudes, procesos atencionales, rasgos de personalidad, etc., cuyo estudio hasta ahora se había abordado con técnicas tradicionales. Las relaciones estímulo/s-respuesta/s se habían evaluado fundamentalmente mediante puntuaciones, número de errores, tiempos de reacción y tiempos de respuesta. Estos datos ahora se ven implementados con los que se obtienen a través de la medición de la activación cerebral. m1.2. Los fundamentos de la psicometríam La psicometría es un campo de conocimiento cuyo nombre, compuesto por psico y metría, la define como la medición de lo psicológico, o la medición en psicología. Esta definición es aparentemente tan amplia e inespecífica que hay autores que mencionan las dos ramas principales cuyo desarrollo se ha impulsado desde la psicometría, los métodos psicofísicos y los de construcción de tests. Algunos autores también definen la psicometría por sus objetivos, diciendo que sirve para obtener estimaciones de las características de los sujetos, y otros la consideran sólo en su acepción de herramienta para distintos fines, con lo que en casi todos los casos se está tomando la parte por el todo. Revisando la definición que se da en los manuales de diferentes países y en diferentes épocas, lo más frecuente es que todos los autores mantengan en sus definiciones ese carácter general de que la psicometría es medición en psicología, pero también muchas veces, bajo esa amplia generalización hay alguna palabra que la restringe, como llamarla método, o técnica, aunque la extiendan a todos los aspectos de la psicología. El alto grado en que la psicometría está al servicio de la medición psicológica y de los instrumentos adecuados para efectuarla hace olvidar que tiene un bagaje teórico propio y bien estructurado, que constituye un campo de conocimiento de donde se nutren sus modelos y se inspiran muchas de sus técnicas. 22 Principios de Psicometría En la literatura también se dan definiciones de la psicometría por extensión, enumerando y describiendo los aspectos que la integran, tanto los teóricos como sus aplicaciones. Por ello, al relacionar sus contenidos, hay autores que los reducen a la teoría de tests y otros que incluyen no sólo las teorías, sino los métodos estadísticos que se van desarrollado para contrastar y validar los modelos formales que se ajustan a esas teorías, dándoles soporte, permitiendo la experimentación y, por ende, avances tanto en la teoría como en la práctica psicométrica. m1.3. La medición de las aptitudes mentalesm Es una creencia común, y de hecho es de fácil comprobación, que las personas difieren en sus capacidades o aptitudes mentales. Basta con proponer un problema que implique algún tipo de razonamiento y muy probablemente, se presentarán distintas aproximaciones al problema y diferentes formas de solucionarlo, aun cuando los sujetos que responden tengan la misma edad, el mismo nivel cultural, vivan en la misma ciudad, etc. Se supone que las aptitudes mentales son características propias de las personas y también se asume que esas aptitudes son las principales responsables de las diferencias individuales que se observan en la resolución de diferentes tareas intelectivas, aunque hay que admitir la posible influencia de otras muchas variables, como por ejemplo, la motivación, los diferentes rasgos de personalidad, así como la de algunos factores ambientales o de contexto. Las teorías que se han desarrollado bajo la hipótesis de la existencia de diferencias individuales en las aptitudes mentales son muchas y variadas. Los primeros intentos formales de medición de las aptitudes mentales aparecen en la literatura con los trabajos de Binet (1903) y de Spearman (1904a, 1904b), intentándose su medición a través de determinadas pruebas. Estas pruebas, que se conocen universalmente bajo la denominación de tests psicométricos, y que se aplican bajo condiciones relativamente estandarizadas, suelen estar compuestas por un conjunto de cuestiones o de problemas que se presentan a las personas para que den su respuesta, a veces eligiendo entre diferentes alternativas o llegando a una determinada solución u otro tipo de respuesta, de acuerdo con unos criterios previamente establecidos. Las formas de plantear las cuestiones, así como los formatos de respuesta, son muy variados. Los tests son de diversa complejidad y las cuestiones que se plantean pueden ir desde una simple ase- Capítulo 1. Psicometría y teoría de tests: Introducción 23 veración con la que se pide consignar si se está o no de acuerdo, o el grado en que se está de acuerdo, o marcar o descubrir el elemento que sigue en una determinada secuencia lógica, hasta responder a algo más complejo, como puede ser dar la resolución de un problema del que se pide que se especifiquen los pasos para llegar a esa solución. A cada una de las cuestiones o problemas que se plantean en la prueba (test) es a lo que se le llama elemento, o más universalmente, ítem del test. El uso de las denominaciones test, en lugar de prueba, e ítem, en lugar de elemento, se han generalizado en la literatura, aun en los textos en español. En esta obra, salvo que se indique lo contrario de forma expresa, se utilizan indistintamente los términos prueba y test, como términos indiferenciables e intercambiables dentro de su contexto. Igualmente se hace con los términos elemento e ítem del test aunque, en algunos casos, se verá que está justificado el que se consideren elementos que son un compuesto, o sea, elementos que a su vez pueden estar compuestos por un conjunto de otros elementos o de ítems. Las respuestas a los ítems del test proporcionan una puntuación, que es la que se pone en relación con los niveles de la aptitud u otro rasgo que se pretende medir en los sujetos a los que se aplica la prueba. Otra cuestión relevante es saber si la prueba es aplicable a toda la población o solamente a algunos grupos específicos, así como las condiciones que se han de dar para poder extrapolar y/o generalizar los resultados. Por lo tanto, un test es un instrumento diseñado para inferir una medida de capacidades o ciertas características de los sujetos a través de las respuestas que dan a los ítems de ese test. Se puede decir también que es un instrumento para obtener una muestra de un comportamiento individual. Cada aptitud, actitud o característica que se quiera medir necesitará la construcción de una prueba o test diferente que contenga al menos un elemento que dé cuenta de ello. Los tests, los cuestionarios y otras medidas estandarizadas han sido las herramientas más utilizadas en psicología, extensiva e intensivamente, tanto en los ámbitos aplicados de la psicología clínica, del trabajo, educativa, etc., como en investigación. Su aplicación se demanda desde las empresas, generalmente en los procesos de selección de personal, o desde los ámbitos educativos, o por los servicios de salud, los gobiernos, etc. El uso de los tests está tan extendido que es difícil imaginar que cualquier persona a lo largo de su vida no haya cumplimentado algunas decenas de tests. Desafortunadamente en algunos casos se encuentran tests y cuestionarios que están escritos, administrados y/o interpretados por 24 Principios de Psicometría personas que no tienen un entrenamiento adecuado. Esta obra pretende ayudar a comprender los principios, los métodos y las destrezas técnicas necesarias para generar y usar los tests responsablemente. Algunos antecedentes Desde que Galton (1822-1911) tuvo la idea de medir las diferencias individuales de las aptitudes mentales por métodos puramente objetivos, son muchos los trabajos y procedimientos que se han desarrollado con el fin de construir instrumentos que sean adecuados para realizar tales mediciones. Entre los pioneros más destacados se encuentran Catell, quien acuñó en 1890 la expresión de test mental, y Binet (1857-1911), quien generó el primer test de inteligencia que resultó ser útil en la práctica y en el que, en su tiempo y posteriormente, se han inspirado un amplio grupo de tests muy conocidos y utilizados. En 1895 Binet y Henri publican un artículo en el que se alejan de la medición simple de aspectos sensoriales y motores, defendiendo el uso de tareas de carácter más complejo y, en consecuencia, la construcción de pruebas para medir memoria, atención, comprensión, etc. Mientras tanto, Ebbinghaus también trabaja con escolares aplicando tests de este tipo, proponiendo tareas como completar frases, hacer cálculos aritméticos, recordar palabras, etc. En 1904 el Ministerio de Instrucción Pública de Francia crea una comisión para tratar el problema de la instrucción a niños con bajos niveles de inteligencia, e implica a Binet en la búsqueda de una solución a este problema, quien, dada su experiencia, propone un test de inteligencia que se comienza a utilizar para la selección de estudiantes en las escuelas de París (Binet y Simon, 1905). También se debe a Binet la introducción del concepto de edad mental. Este concepto fue utilizado por Stern (1912) para establecer el denominado cociente de inteligencia (CI), definido como el cociente entre la edad mental y la edad cronológica y que ha tenido una gran trascendencia a lo largo de la primera mitad del siglo XX, al menos por su influencia en los numerosos estudios dirigidos a la determinación de las diferencias individuales en el campo de los procesos intelectivos. Con la definición del CI se estableció en el marco de la teoría psicométrica la primera escala de puntuaciones referida a las aptitudes mentales, o bien, se puede decir que se realizó la primera normalización de las puntuaciones, si la consideramos bajo ciertas condiciones de estandarización. Capítulo 1. Psicometría y teoría de tests: Introducción Cuadro 1.1 Alfred Binet (Niza, 1857-1911) estudiaba derecho en París, cuando teniendo veinte años se interesó por los estudios de hipnosis del neurólogo francés Jean Charcot, quien trabajaba en el hospital Salpetriere de París, de tal manera que abandonó sus estudios de leyes y se dedicó a las ciencias y la medicina. Se doctoró en ciencias naturales y comenzó a trabajar como investigador asociado en el laboratorio de la Sorbona en 1891, llegando en 1895 a ser director del laboratorio de Psicología Fisiológica de L’Ecole Pratique des Hautes Etudes, cargo que mantuvo hasta su muerte. Binet empezó trabajando sobre hipnosis e histeria, los temas de trabajo de su mentor, Charcot, para pasar posteriormente a realizar estudios sobre personalidad y psicología experimental. Binet estaba interesado en estudiar el razonamiento y en buscar formas de medir las funciones mentales superiores, como muestran sus publicaciones de esa época: La psychologie du raisonnement (1886), Le magnétisme animal (1887), On double consciousness (1887) y L’étude expérimentale de l’intelligence (1903), en la que utiliza los datos obtenidos examinando a sus propias hijas, Armande y Marguerite. En 1895 Binet fundó un laboratorio (en la Escuela de la Rue de la Grange aux Belles) para el estudio del desarrollo de la inteligencia y la revista L’Année Psychologique, donde publicó gran parte de su obra. Binet se interesó por los estudios de Galton y se inspiró en sus métodos para examinar a muchas personalidades famosas de la época, entre los que se encontraban brillantes jugadores de ajedrez, matemáticos, escritores y artistas. Pero son los estudios sobre la inteligencia de los niños, impelido por las demandas del gobierno, que deseaba poder distribuirlos en clases de acuerdo con sus capacidades cognitivas, los que producen el resultado de una herramienta útil para la medición de las diferencias individuales, la primera escala Binet-Simon (1905), que tiene de inmediato gran aceptación. Esta escala constaba de 30 ítems con tareas intelectivas complejas, aunque no estaba exenta de algunas senso-motoras y se aplicaba a niños con edad mental entre 3 y 13 años, edad que podía coincidir o no con su edad cronológica. Esta escala sufre sucesivas revisiones (Binet y Simon, 1908 y 1911) y se internacionaliza, adaptándola para su uso en Vineland (Nueva Jersey, EE UU), sobre todo tras la revisión que hace Terman (1916) de la Universidad de Stanford, siendo el test de Stanford-Binet y sus sucesivas revisiones (Terman y Merril, 1937, 1973; Becker, 2003) el test de inteligencia más conocido y comúnmente utilizado durante décadas. 25 26 Principios de Psicometría Por otra parte, los principios de la correlación y de la regresión enunciados por Galton, así como su hipótesis acerca de la existencia de un término único, al que se le podría denominar aptitud mental general de los humanos, ayudaron a Spearman a descubrir las intercorrelaciones positivas entre todas las medidas de las diferencias individuales en pruebas mentales complejas y a concluir que las actividades cognitivas son todas función de un factor general g y de un factor s específico de cada operación. Spearman es así pionero en el desarrollo de los métodos ahora conocidos bajo la denominación genérica de Análisis Factorial. Es imprescindible reseñar en este contexto psicométrico que, junto a las aportaciones anteriormente mencionadas, se fue desarrollado un importante cuerpo teórico acerca de las escalas de medida y que tiene su figura más significada en Thurstone. Cuadro 1.2 Sir Francis Galton (Birmingham, 1822-1911), para apoyar sus teorías sobre la herencia próximas a las de su pariente Darwin, hace experimentos y toma multitud de medidas sobre millares de sujetos. Aunque no es un matemático, es el primero en aplicar razonamientos estadísticos al estudio de las aptitudes mentales. La idea de la correlación (co-relation originalmente), como índice cuantitativo de la mayor o menor aproximación en ciertas características físicas entre personas relacionadas por un parentesco específico y la de la regresión, como la tendencia que en el proceso hereditario tienen los valores extremos en las estaturas de los sujetos a regresar hacia la media, son conceptos propuestos por Galton. Es Karl Pearson (1857-1936), estadístico de la Universidad de Londres, contemporáneo y colaborador de Galton, al que comúnmente se cita como fundador de la ciencia estadística, quien formaliza ambos conceptos y los hace manejables. Volviendo a las primeras décadas del siglo XX, hay que reseñar que la participación de EEUU en la primera Guerra Mundial (1914-1918) impulsa el desarrollo de los tests, pues los ejércitos se encuentran con la necesidad de evaluar y clasificar a los reclutas. Se da el paso definitivo de la aplicación individual a la colectiva Capítulo 1. Psicometría y teoría de tests: Introducción 27 y a los tests no verbales (los llamados tests beta), pues esos tests son imprescindibles para hacer posible su aplicación a analfabetos, o a extranjeros desconocedores de la lengua inglesa. Son muchos los autores cuyas aportaciones e influencia han sido relevantes, tanto en aspectos teóricos como metodológicos y de divulgación, así como en la generación de tests, aunque los objetivos y las limitaciones propias de esta obra no permiten que se haga mención a muchos de ellos. En un tratado sobre el tema ocuparían un lugar muy destacado, por ejemplo, obras como Theory of mental tests de Gulliksen (1950a), las aportaciones en la construcción de escalas de Guttman (1941) y de Stevens (1946) o uno de los tests de inteligencia más difundidos, el de Wechsler (1939) que se sigue utilizando en sus versiones WAIS para adultos (Wechsler, 1997), y WISC para niños (Wechsler, 2003), pues permiten diferenciar distintos tipos de inteligencia a través de las puntuaciones en sus subtests. También habría que hacer mención a las acciones individuales o institucionales que ayudaron a investigar, a difundir y a propiciar la utilización masiva de los tests. La creación de empresas para la difusión de los tests, como la de Catell, en los años veinte del siglo XX, y muy especialmente la creación del Educational Testing Service en 1947, han propulsado el gran desarrollo de la psicometría. m1.4. Tipos de testsm Los tests se han desarrollado con distintos propósitos y se identifican mediante multiplicidad de denominaciones, pues hay tests que reciben su nombre de los contenidos, o de la forma en que se van a interpretar las puntuaciones, o de la forma de dar la respuesta, o si hay un tiempo limitado que afecta a la ejecución, etc. También hay diferentes términos que se usan como sinónimos para la palabra test en diversos contextos, como son denominaciones tales como cuestionario, inventario y escala. Los tests referidos al contenido son los tests de inteligencia, de personalidad, de memoria, de actitudes, etc. Entre las denominaciones que se refieren a la interpretación y al uso destacan los tests referidos a la norma y los referidos al criterio, o al dominio. Los tests referidos a la norma se utilizan más en la interpretación que los referidos al criterio, cuyo uso está más ligado a la toma de decisiones, especialmente en el ámbito educativo. En los tests referidos al 28 Principios de Psicometría criterio se fija una puntuación de corte, en relación con un criterio, para establecer una división de los sujetos en dos categorías, los que sus calificaciones superan esa puntuación y los que no. Luego las interpretaciones de las puntuaciones de un sujeto en el rasgo y las decisiones que se derivan de ello están referenciadas al criterio establecido. En los tests referidos a la norma, lo que se comparan son las puntuaciones del sujeto en el test con las de una muestra representativa o con las de una población, es decir, con las del denominado grupo normativo. En las clasificaciones en relación con el tipo de respuesta, se suele distinguir entre los tests de respuesta abierta, en la que los sujetos pueden responder diciendo lo que les parezca oportuno, y los de respuesta cerrada, en los que los sujetos deben elegir entre diferentes alternativas que se les proponen. Los de respuesta cerrada a su vez pueden recibir la denominación en relación con el número de alternativas que presenta la respuesta, tests de respuesta multicategórica, o del tipo de variable con el que se valora la respuesta, tests de respuesta dicotómica, etc. Otra clasificación que se suele hacer es distinguir entre los que se denominan tests de velocidad y los tests de potencia o de fondo. La diferencia entre ambos es que, en un test de velocidad, los ítems suelen ser muy homogéneos, de similar dificultad y las diferencias individuales se manifiestan principalmente por el número de ítems resueltos correctamente en un tiempo limitado, que se considera que es insuficiente para que se cumplimente la totalidad del test. Por el contrario, un test de potencia suele comenzar con ítems fáciles que aumentan en dificultad a medida que se avanza en el test, y no hay teóricamente tiempo límite. En ambos casos, la puntuación en el test se suele obtener contabilizando el número de respuestas correctas, pero la interpretación de esa puntuación en uno y otro caso puede ser diferente. La identificación de un test como de velocidad o de potencia a veces no es obvia, y se han presentado algunos procedimientos para su clasificación que suelen basarse en el análisis de los errores por comisión y por omisión (algunos de estos procedimientos pueden consultarse en Santisteban, 1990a). m1.5. Variabilidad de las puntuacionesm Las puntuaciones de los tests se utilizan para establecer e interpretar las diferencias interindividuales e intraindividuales en las mediciones de los rasgos. Por Capítulo 1. Psicometría y teoría de tests: Introducción 29 lo tanto, una de las cuestiones más inmediatas es saber cómo se distribuyen esas puntuaciones. Esto implica conocer alrededor de qué valor se concentran esas puntuaciones, así como cuál es su dispersión y sus relaciones. Las medidas de tendencia central se obtienen con los valores de los estadísticos tales como la media aritmética, o la mediana. Las medidas de dispersión usuales son la varianza y su raíz cuadrada, la desviación típica. Entre las medidas que evalúan la asociación entre variables están la covarianza y la correlación. Todas estas medidas se van a utilizar muy a menudo en el texto, así que indicamos brevemente sus expresiones y notación. Usualmente se utilizarán letras latinas para los estadísticos calculados con valores muestrales, y las griegas para los parámetros poblacionales o cuando se da la forma genérica de una expresión. Medidas de tendencia central La media aritmética de una variable X de la que se tienen N observaciones es X = ∑Xi / N y se sustituirá X por µ si se refiere a la media poblacional. También se utilizará el operador esperanza matemática E para indicar esta operación: E (X) = X . Medidas de dispersión La varianza es una medida de dispersión, pues es un valor promedio de las desviaciones de los valores Xi con respecto a la media. Para una muestra de tamaño N es: s 2 ( X i − X )2 ∑ = N que se denotará por σ2 si es la varianza de la población. Las desviaciones típicas son s y σ respectivamente. También se utilizará el operador esperanza matemática para indicar esta operación, ya que: σX2 = E[X – E(X )]2. 30 Principios de Psicometría Medidas de asociación La covarianza entre dos variables X e Y se refiere a cómo covarían ambas variables. Es decir, como covaría Y con X y X con Y. La covarianza de X con Y se calcula mediante la expresión: Cov ( X , Y ) = ∑( X i − X ) ( Yi − Y ) N y de esta expresión se puede deducir que Cov (X, Y) = Cov (Y, X). Por ello, en esta obra, cuando se haga referencia a la covarianza de forma general, diremos covarianza entre las variables, pero cuando en una expresión hay que incluir la cuantificación de esa covarianza, se expresará como 2 Cov (X, Y). Si se usa el operador E, la covarianza responde a la expresión E {[X – E(X)] [Y – E (Y)]}. La correlación entre las variables X e Y viene dada por la expresión: rXY = Cov ( X , Y ) sX sY Distribución de las puntuaciones La representación gráfica de la distribución de las puntuaciones es un medio sencillo y muy útil para obtener información del test y de los sujetos a los que se les administra ese test. Un ejemplo y algunas de estas representaciones se dan a continuación. Ejemplo 1.1 La distribución de puntuaciones de un test X constituido por 6 ítems dicotómicos que se han administrado a una muestra de 200 sujetos se da en la Tabla 1.1, donde Ni es el número de sujetos que obtienen la puntuación Xi. En este caso la puntuación Xi se corresponde con el número de aciertos y fi = Ni / N es la frecuencia relativa. Cualquier puntuación, por ejemplo X 6 = 5, 31 Capítulo 1. Psicometría y teoría de tests: Introducción Tabla 1.1. Distribución de las puntuaciones de un test administrado a 200 sujetos. Xi 0 1 2 3 4 5 6 Ni fi 0 0 10 0.05 20 0.10 40 0.20 80 0.40 30 0.15 20 0.10 con frecuencia relativa f6 = 0.15 (f6 = 30 / 200), indica que de los 200 sujetos sólo un pequeño número obtiene esa puntuación. Esta simple descripción permite conocer, por ejemplo, que el 25% de la muestra presentan puntuaciones muy altas (5 o 6), en tanto que puntuaciones muy bajas (0, 1 o 2) las obtienen el 15%. Figura 1.1. Representación gráfica de la distribución de frecuencias de la Tabla 1.1. Los estadísticos que definen a la distribución anterior son: a) La media de las puntuaciones, que es X = 3.80. b) La desviación típica, que es sx = 1.25. c) La moda como valor más frecuente, que es Mo = 4. 32 Principios de Psicometría Las representaciones gráficas que corresponden a las distribuciones de las puntuaciones tendrán una forma geométrica u otra dependiendo de los valores de sus medidas de tendencia central (media, mediana, moda) y de sus medidas de dispersión (desviación típica o varianza, coeficiente de variación u otros momentos). El estudio de esas gráficas es muy útil para una primera aproximación al conocimiento del test y de cómo pudiera estar distribuido el rasgo en distintas muestras o en diferentes poblaciones. Distribución normal Si las puntuaciones se distribuyen según una ley normal, la media, la mediana y la moda coinciden. Las frecuencias se distribuyen simétricamente con respecto a esos valores pues la media es el centro de la distribución y el valor de mayor probabilidad. Una varianza o desviación típica mayor o menor indica que la curva estará más o menos apuntada, ya que la desviación típica mide la distancia entre la media y los puntos de inflexión. Un ejemplo de distribuciones normales con distinto apuntamiento se presenta en la Figura 1.2, en donde se puede observar que hay mayor concentración de puntuaciones (mayor número de sujetos) con valores próximos a la media en la más apuntada que en la más aplanada. Distribuciones de puntuaciones con estas características indican que el test tiene muchas cuestiones (ítems) de dificultad intermedia a las que responden correctamente la mayor parte de los sujetos. También se presupone que están incluidos en el test algunos ítems de muy alta dificultad, pues son muy pocos los sujetos que también los responden correctamente. También se podría inferir que el rasgo se distribuye normalmente en la población. Distribución uniforme Una curva de distribución de frecuencias que sea una línea recta paralela al eje X de las puntuaciones respondería a una distribución uniforme o rectangular, donde se puede considerar que todos los valores son modales, o bien, que no hay moda, pues todos tienen la misma frecuencia. Un test que genere este tipo de distribución en que todas las puntuaciones, sean altas, bajas o intermedias, las obtienen el mismo porcentaje de sujetos, sería muy poco útil para extraer conclusiones. Capítulo 1. Psicometría y teoría de tests: Introducción 33 Figura 1.2. Representación gráfica de dos distribuciones normales con media cero y desviaciones típicas 0.5 y 1. Distribuciones asimétricas Distribuciones asimétricas se obtienen cuando las frecuencias se concentran en un valor alejado de la media. En la Figura 1.3 se representan dos distribuciones asimétricas, una desviada a la izquierda (a) y otra a la derecha (b). Un test tendrá una distribución de puntuaciones desviada a la derecha si tiene muchos ítems fáciles, por lo que la mayor parte de los sujetos obtienen altas puntuaciones. En caso contrario, si el test tiene un gran número de ítems de alta dificultad, la mayor parte de los sujetos no darán respuesta correcta a ellos y la curva estaría desviada a la izquierda. Puesto que las desviaciones tienen relación con la diferencia que haya entre la puntuación media y la mediana, una distribución será más asimétrica cuanto mayor sea esta diferencia y un índice de esa asimetría es: δ= µ − Me σ 34 Principios de Psicometría denotando por Me a la mediana y siendo µ y σ la media aritmética y la desviación típica. Diversos índices de asimetría, así como el coeficiente de asimetría de Fisher se suelen incluir en los manuales de estadística. Figura 1.3. Distribuciones asimétricas de puntuaciones X en el test. Distribuciones con más de una moda La representación de las distribuciones de las puntuaciones permite que se pueda detectar si en esa población hay dos o más grupos que estén bien diferenciados con respecto a las mediciones del rasgo que representan esas puntuaciones. Esto se evidencia cuando en las distribuciones de puntuaciones de una población se presentan varios máximos o valores modales, lo que sugiere que en la población hay grupos que se comportan de forma diferente en el test, o que se diferencian en sus valores del rasgo (por ejemplo, hombres y mujeres, niños y adultos, etc.), o que el test esté sesgado a favor de alguno de esos grupos. Por ejemplo, una distribución bimodal como la que se presenta en la Figura 1.4 sugiere que hay dos grupos en esa población que se comportan diferencialmente, y si no era esperable, habrá que averiguar cuáles son las razones. Se han expuesto aquí algunas de las formas de las distribuciones más comunes y su significado. Entre otras, una de las cuestiones en las que se puede estar interesado es en la concentración de puntuaciones en torno a la media (apuntamiento) y sobre todo en la evaluación de la asimetría. Los índices para valorar tanto el apuntamiento (curtosis) como la asimetría se encuentran en los manuales de estadística y también se pueden consultar en Santisteban (1990a). Capítulo 1. Psicometría y teoría de tests: Introducción 35 Figura 1.4. Distribución bimodal. m1.6. La interpretación de las puntuacionesm Obtener una puntuación de 35 puntos en un cuestionario de agresividad, o de neuroticismo, o 22 puntos en un test de inteligencia no tiene ningún significado. Sin embargo, lo tiene decir que la distancia entre dos ciudades es de 200 km. La diferencia entre una información y otra es que la medida física va acompañada de la unidad de medida, en tanto que las psicológicas que se han dado no lo están. La medida física se ha realizado con un instrumento, el metro, que aunque es una medida arbitraria, se ha adoptado como unidad para medir longitudes. Para realizar las medidas psicométricas también se han generado instrumentos adecuados, que son los tests, sin embargo, las unidades de medida en los tests, además de ser arbitrarias, no cuentan con una unidad aceptada universalmente con la que comparar la medición de cada rasgo. No hay una unidad de medida de la inteligencia, ni del neuroticismo, ni de la agresividad o de otras características de los sujetos. Así pues, cuando se construye un test hay que tener muy claro desde su inicio qué es lo que se quiere medir, cómo se va a medir, cómo se van a obtener las puntuaciones, qué reflejan esas puntuaciones, cómo se pueden organizar para que se puedan establecer las correspon- 36 Principios de Psicometría dientes diferencias individuales que reflejen adecuadamente las diferencias que existen entre los sujetos en el rasgo, y cómo expresar todo ello para que quienes utilicen ese test puedan interpretar correctamente las puntuaciones que con él se obtienen. Son muchos los conceptos y los procedimientos implicados en todo lo anteriormente dicho, y se irán tratando a lo largo de esta obra. Sin embargo, antes de entrar a estudiar los modelos concretos en los que se puede basar la construcción de los tests, es conveniente clarificar algunos aspectos. Por ejemplo, que los números que representan puntuaciones en los tests deben estar conectados con el significado y la cuantía de aquello que se mide, que con ellos se puedan expresar tanto similitudes como diferencias, que se pueda operar con esas puntuaciones, que sean susceptibles de comparación con otras puntuaciones, etc. Otra cuestión interesante es el significado del número cero. El número cero es una puntuación que puede tener muchos significados. Una es la ausencia del atributo que se mide y otra puede corresponder a una cantidad, en principio arbitraria, para fijar el origen de una escala. Por ejemplo, el cero en una escala centígrada es un valor arbitrario que no significa ausencia de temperatura, sino el origen de esa escala, pudiendo existir temperaturas en grados centígrados menores y mayores que cero, es decir, positivas y negativas, que serán diferentes a las expresadas en otra escala (por ejemplo en grados Fahrenheit o en Kelvin). En psicología es difícil definir qué significa el cero, pues la ausencia del rasgo difícilmente se corresponde con la realidad, nadie tiene inteligencia cero, ni ausencia total de neuroticismo, o de agresividad. Se asigna el valor cero a multitud de situaciones, cuando no se ha alcanzado un cierto nivel en el rasgo, cuando se ha cometido un error, cuando no se completa una prueba, etc. También se suele utilizar el cero para fijar el origen de las escalas. Por lo tanto, la interpretación de las puntuaciones en los tests psicológicos, está relacionada con el significado que tiene el cero en ese test. Las puntuaciones tipificadas (puntuaciones z) Una puntuación aislada y sin referencia a alguna unidad de medida no tiene una clara interpretación. Al menos habría que conocer cómo es de alta o de baja esa puntuación en relación con otros sujetos y hacia qué valores tienden las puntuaciones de la población. Las puntuaciones tipificadas permiten algunas de esas comparaciones. Capítulo 1. Psicometría y teoría de tests: Introducción 37 Se llama puntuación tipificada z de una puntuación X a la que se obtiene mediante la relación: z= X−X X −µ o bien z = s σ Las puntuaciones tipificadas o puntuaciones estándar indican, por un lado, cuánto se desvían de la media µ de la población (o de la de la muestra), usando la desviación típica como unidad de medida de esas diferencias. Las puntuaciones estandarizadas permiten hacer algunas comparaciones. Por ejemplo, MC tiene 32 puntos en un test con µ = 30 y σ2 = 4 y JL y JM obtienen 42 puntos y 33 respectivamente en otro test que mide el mismo rasgo y cuya media y varianza son µ = 36 y σ2 = 9. ¿Se diferencian esos tres sujetos en sus niveles en el rasgo? Las puntuaciones directas de JL y JM son comparables en algún sentido, pues se obtienen con el mismo test. Para compararlas con las de MC se obtienen las correspondientes puntuaciones tipificadas de los tres sujetos, que son: z1 = 32 − 30 =1 2 z2 = 42 − 36 =2 3 z3 = 33 − 36 = −1 3 Esas puntuaciones z, en las que incluso una es negativa, se interpretarían mejor en ciertos contextos si vinieran dadas en valores enteros y positivos. Para ello se podría hacer una transformación a otras puntuaciones también tipificadas, pero con media y desviación típica determinadas. T = z σT + T o sea, z = T−T σT Si para la escala de puntuaciones transformadas se elige que la media sea 100 y la desviación típica 10, entonces las puntuaciones de MC, JL y de JM serían 110, 120 y 90, respectivamente. A estas puntuaciones y a su correspondiente escala se les suele llamar puntuaciones estandarizadas derivadas. 38 Principios de Psicometría Por lo tanto, una vez ordenadas las puntuaciones, la escala primaria estaría constituida por las puntuaciones directas, que hay que transformar en otras para hacerlas comparables. Las escalas y las normas La escala primaria de un test estaría constituida por todas las puntuaciones X ordenadas por su cuantía. Si calculadas la media µ y la desviación típica σ se resta µ y esas diferencias se dividen por σ, entonces se tendrá una nueva escala, formada por puntuaciones z, con origen en µ y cuya unidad de medida es σ. El paso de esta escala a una escala estandarizada con media cero y desviación típica uno es muy simple, ya que como se ha indicado antes, la puntuación z se puede asimilar a la de otra T, cuya distribución tenga media cero y desviación típica uno. El paso de puntuaciones directas a puntuaciones z (las estamos llamando típicas o estandarizadas) se ha realizado mediante una transformación lineal y posteriormente se ha pasado a puntuaciones estandarizadas derivadas también mediante otra transformación lineal. Luego mediante transformaciones lineales se pueden transformar las puntuaciones directas en estandarizadas y pasar de una escala estandarizada a otra. El paso de puntuaciones estandarizadas a normalizadas (que las puntuaciones z sigan distribuciones normales) no es posible hacerlo con una transformación lineal, además de que no es adecuado cuando la distribución de las puntuaciones se desvíe mucho de la normalidad, como se ha visto en los gráficos del Apartado 1.5. Desviaciones de la normalidad se dan en numerosos casos y es mucho más probable encontrarlas cuando se trata con muestras pequeñas. Entre las escalas que no resisten las transformaciones lineales están las escalas percentílicas (estas escalas y algunas escalas normalizadas más usuales se dan en el Apartado 15.6). A las transformaciones de las puntuaciones que mantienen su orden relativo y su significado, se les llama transformaciones admisibles. El establecimiento de esas puntuaciones y lo que ello conlleva en la ordenación de los sujetos, en relación con su nivel en el rasgo que se evalúa, dan origen a las normas del test, que son las que indican la posición del sujeto en el rasgo. Si el test se ha construido en el contexto de los modelos lineales, modelos que trataremos en los siguientes capítulos, esa posición se interpreta en rela- Capítulo 1. Psicometría y teoría de tests: Introducción 39 ción con la distribución de las puntuaciones en el grupo o población a la que pertenece (grupo normativo). El nivel del sujeto en el rasgo (la puntuación verdadera) se infiere y se interpreta en relación con esos parámetros y con el grado de precisión estimado para el test. Si el test se ha construido bajo los supuestos de modelos no lineales (que trataremos como modelos TRI) la interpretación de la posición del sujeto en el rasgo (su nivel en el rasgo), se hace de acuerdo con su respuesta y con las características del ítem (o de los ítems). Estas características las recoge una curva de probabilidad que proporciona información de cómo se relaciona la puntuación del sujeto con los valores del rasgo. La estimación y la interpretación de los niveles de un sujeto en el rasgo no se hace depender en estos modelos de cuántos sujetos del grupo han respondido correctamente a ese ítem o cuáles han sido sus puntuaciones en el test, sino que sólo va a depender de la forma de la curva que caracteriza a ese ítem y de cuál es la posición de esa curva (indica la dificultad de ítem) en relación con la escala de valores del rasgo. m1.7. Teorías y modelosm Desde que Galton en el siglo XIX tuvo la idea de medir las diferencias individuales de las aptitudes mentales por métodos puramente objetivos, son muchos los trabajos y procedimientos que se han desarrollado con el fin de construir instrumentos que sean adecuados para realizar tales mediciones. En esos desarrollos han intervenido figuras destacadas como algunas de las anteriormente citadas, o como Thomson, Thurstone, Hurt, Vernon, Jöreskog, etc., pero son las aportaciones de Galton, Pearson, Binet y Spearman las que constituyeron los pilares básicos en los que durante más de medio siglo se han sustentado las teorías de los tests psicométricos: – El modelo lineal de Spearman. – La tipificación o normalización de las puntuaciones. – La evaluación de las intercorrelaciones. Durante años, y aún hoy en día, se construyen instrumentos para la medida de las diferencias individuales utilizando los procedimientos que han surgido tomando como base teórica el modelo lineal de Spearman, propuesto en 1904 y des- 40 Principios de Psicometría de el que se ha generado la denominada teoría clásica de los tests (TCT). Una de las principales características de los tests construidos en el contexto de esta teoría es que las puntuaciones que obtiene un sujeto en el test se supone que están linealmente relacionadas con las que se consideran que son sus puntuaciones verdaderas, y hay que interpretarlas en relación a aquellas que se obtuvieron en el grupo normativo, que es el grupo que constituyó la muestra con la que se determinaron las características psicométricas del test y con la que se construyó la escala. Esta necesidad de referenciar la puntuación individual a la del grupo normativo no deja de ser una limitación, además de que puede producir importantes distorsiones en la interpretación de las puntuaciones, si los sujetos a los que se les administra el test no pertenecen a la población de la que la muestra era representativa. Cuadro 1.3 Las limitaciones arriba reseñadas propias de estos instrumentos de medida no justifican la fuerte corriente crítica que en los años cincuenta del siglo XX se produjo, especialmente en EE UU, contra la aplicación de los tests, acusándolos de toda clase de inexactitudes, arbitrariedades y sesgos provocadores de la toma de decisiones socialmente discriminadoras e injustas. La teoría y la práctica han demostrado que las deficiencias que a priori parecen ser propias de los instrumentos que tratan de medir capacidades humanas complejas a través de simples manifestaciones observables, son generalmente conocidas y controlables y que, por lo tanto, basta considerarlas para hacer un uso correcto del test. Asimismo se deberán tener en cuenta esas limitaciones al hacer la interpretación de las puntuaciones, puesto que es obvio que en cualquier proceso de medición, al hacer la interpretación de la medida, hay que tomar también en consideración las características del instrumento con el que se ha realizado esa medida. Una de las limitaciones del modelo de Spearman es que en su formulación se considera que una única variable error resume todos los errores aleatorios provenientes de distintas fuentes. Sin embargo, en cualquier modelo es fundamental identificar y separar los errores de medida, pues unos estarán directamente relacionados con el procedimiento de medición, otros con las condicio- Capítulo 1. Psicometría y teoría de tests: Introducción 41 nes ambientales, etc. Por ello, se han propuesto muchos modelos identificando diferentes componentes del error, como el denominado modelo platónico, pero un modelo que persiste y que permite un buen tratamiento de los datos es el que se conoce bajo la denominación de la teoría de la generalizabilidad (Cronbach et al., 1963; Gleser et al., 1965; Cronbach et al., 1972). En este modelo se reconoce que cada puntuación observada es una entre las muchas posibles, que todas están afectadas por múltiples fuentes de error y que, por lo tanto, el interés y la utilidad de esas puntuaciones está en el grado en que sean generalizables, con las debidas garantías, a una multiplicidad de situaciones, lo que los propios autores denominan universo de generalización. En estos modelos la cuestión clave no es preguntarse sólo por la fiabilidad del test, sino por la precisión con la que se puede realizar la generalización. El modelo estadístico que conecta la teoría de la generalizabilidad con el análisis de los datos es el análisis de la varianza, que sirve para identificar y evaluar las principales fuentes de error que afectan a las medidas. Otro modelo que se puede considerar como una extensión de la TCT es el modelo factorial simple. Spearman, al mismo tiempo que propone el modelo lineal anteriormente citado (Spearman, 1904a), publica otro artículo (Spearman, 1904b) mostrando cómo se puede reconocer si ese test mide un atributo común, a partir de los datos que aporta el test. Al igual que décadas después y tras múltiples desarrollos el primer artículo da origen a la TCT, este otro conduce al establecimiento del denominado modelo factorial simple, que en un principio se utilizó para comprobar la teoría sobre la estructura factorial de la inteligencia y que, posteriormente, se ha utilizado y se viene utilizando para detectar factores fundamentales en los procesos de cognición, factores de la personalidad, etc. El alejamiento del modelo de Spearman da lugar al inicio de una nueva concepción de la teoría de los tests donde el foco de atención se centra en la respuesta individualizada al ítem, más que en cómo los sujetos de un determinado grupo responden al test. Los modelos se expresan en función de las características del ítem, en lugar de en las del test. Por lo tanto, estos modelos están basados en la independencia entre los ítems y en las distribuciones probabilísticas de cada uno de ellos, a las que se les llama curva característica del ítem, que son las que describen el comportamiento de las puntuaciones en los ítems y sus relaciones con las medidas del rasgo. Un tema crucial en estos modelos es la búsqueda de estadísticos suficientes para las estimaciones de sus pará- 42 Principios de Psicometría metros, y esta cuestión es el eje fundamental sobre el que giran muchas de estas aproximaciones. Esta búsqueda de alternativas tratando de evitar las limitaciones del modelo de Spearman genera modelos que se desarrollan bajo la denominación de la teoría del rasgo latente, denominación que posteriormente fue sustituida en parte por la de teoría de la respuesta al ítem (TRI). Casi todos los aspectos, modelos y teorías del rasgo latente se contemplan y son objeto de posteriores desarrollos bajo la TRI. Esta última denominación se ajusta más fielmente a los conceptos ya citados que subyacen en dicha teoría y a los métodos de construcción de tests basados en ella, en cuanto a que en estos modelos el elemento central es el ítem, caracterizado por su forma probabilística y por las características diferenciales de las que lo dotan sus parámetros, con independencia de las características de las muestras particulares sobre las que que se aplican. No obstante, la consideración de la latencia del rasgo podría considerarse común a todos los métodos y teorías de los tests, puesto que son los tests psicométricos y otros instrumentos de medición estandarizados los que vienen a resolver el problema de la medición de esos rasgos inobservables (latentes), infiriéndose esas medidas desde las de sus manifestaciones observables. Las propuestas de modelos no lineales (TRI y de clase latente) se desarrollan a comienzos de los años sesenta del siglo XX, aunque se gestan con anterioridad, y generan nuevas formas de concebir los tests, de abordar el análisis de sus elementos y de inferir las medidas de los inobservables en los que se está interesado. Estas teorías y procedimientos no sustituyen ni destierran a los anteriores, sino que ambos conviven. Por ejemplo, cuando hay que indicar las propiedades psicométricas de un test o cuestionario, se suele dar su coeficiente alfa de consistencia interna, casi siempre calculado con métodos derivados de las teorías y modelos que hemos dado en denominar clásicos. En cuanto a la variable de interés, en la teoría clásica, al inobservable que se quiere evaluar se le llama puntuación verdadera (V) y en los desarrollos posteriores, a estas capacidades inobservables se las suele denominar genéricamente aptitud o rasgos (θ). En los modelos no lineales se pueden incluir modelos basados en las distribuciones probabilísticas como la distribución binomial de donde se deriva el modelo de error binomial, o en distribuciones de Poisson, que dieron lugar a los modelos poissonianos que usa Rasch, o en la distribución normal acumulada, con la que se generan los modelos de ojiva normal. Sin embargo, han sido las distribuciones logísticas, y en algunos casos la normal, las que se consideran de mayor interés y han Capítulo 1. Psicometría y teoría de tests: Introducción 43 recibido y siguen recibiendo mayor atención, siendo sus modelos objeto de un desarrollo espectacular. Entre los que originalmente fueron más tratados y mejor conocidos se encuentran los modelos logísticos de dos, tres o cuatro parámetros, pero es el modelo logístico de dos parámetros y sobre todo el denominado modelo de Rasch, que se puede asimilar a un modelo logístico de un parámetro, los modelos que más se han desarrollado tanto teóricamente como en las aplicaciones y de los que se han derivado muchos otros modelos. Actualmente muchos de estos modelos y procedimientos para generar tests a partir de ellos se han clasificado dentro de la denominación de modelos de la teoría de la respuesta al ítem (TRI). Una de las características de los modelos de la TRI, y la más destacada por todos los autores, porque establece una de las más claras diferencias con la teoría clásica, es que la interpretación de las puntuaciones de los sujetos no se realiza en relación con las puntuaciones del grupo normativo, sino que la estimación del nivel del rasgo que pretende medir el test está determinada por la forma matemática y la posición sobre el rasgo (la dificultad) que tenga la curva característica de cada ítem, expresada en forma probabilística, pues es la que relaciona la probabilidad de éxito en un ítem con la aptitud. Cuadro 1.4 Los antecedentes de la TRI se pueden situar en las primeras décadas del siglo XX, con los trabajos de Binet y Simon (1911) y los de Thurstone (1925) quien retoma la idea de los anteriores, escalando los ítems de acuerdo con la edad. En las décadas posteriores, Richardson (1936), Lawley (1943), Ferguson (1942) y Tucker (1946) son principalmente quienes establecen conexiones formales entre la TCT y la TRI, siendo a este último a quien se le debe la acuñación del término curva característica del ítem. En estas contribuciones se basan otras posteriores, como las de Lord (Lord, 1952, 1953a, 1953b; Lord y Novick, 1968). La figura clave en el desarrollo de estos modelos es Rasch, que en 1960 presenta un conjunto de modelos, entre los que el conocido modelo de Rasch es el que hasta el momento ha sido el más relevante en la TRI. Trabajos tan conocidos como los de Wright y Stone (1979) o los de Fischer y Molenaar (1995) tienen como base el modelo de Rasch. 44 Principios de Psicometría No dedicaremos en este capítulo mayor atención a los modelos TRI ni a sus referencias, ya que se tratan en otros capítulos de esta obra. Sin embargo, conviene clarificar aquí algunos conceptos sobre el análisis de estructura latente, pues algunos de los modelos que se incluyen en esa teoría no se tratan en esta obra, al igual que no podemos hacerlo con muchos otros modelos derivados del modelo de Rasch, o con modelos de respuesta politómica o los modelos multidimensionales, que son y se consideran modelos TRI, aunque los modelos clásicos TRI sólo tratan con modelos unidimensionales y con respuestas dicotómicas. En algunas clasificaciones, el análisis de estructura latente comprende un conjunto de modelos que abarca a todos los de la TRI y a los denominados de clase latente. La distinción entre ambos grupos de modelos se hace en relación con la distribución del rasgo (θ) en la población de sujetos, según se considere continua o discreta. En los modelos TRI se asume la continuidad del rasgo, suponiéndose que θ es discreta en los modelos de clase latente. Por otra parte, aun admitiendo la continuidad, el rasgo θ puede ser unidimensional, bidimensional o multidimensional y los ítems pueden ser dicotómicos o politómicos, aunque los modelos más desarrollados son los unidimensionales con ítems dicotómicos. La familia de modelos de Rasch, los logísticos de uno, dos o tres parámetros, el modelo de respuesta graduada de Samejima, los modelos de crédito parcial y muchos otros forman parte de los modelos TRI, y los modelos de clase latente, se clasifican según el número de clases que contienen, distinguiéndose a su vez unos modelos de otros, dentro del mismo tipo de clase, por las restricciones que se impongan a sus parámetros. La denominación de latente, como se ha indicado anteriormente, se desechó en los modelos anteriormente mencionados que se han encuadrado dentro de la denominación TRI. Sin embargo, se consideran en psicometría otro grupo de modelos a los que se les ha dado la denominación de modelos de variables latentes (LVM, usando sus siglas en inglés). Estos modelos incluyen tanto variables no observadas (latentes) como variables observadas (manifiestas) y el modelo expresa las relaciones matemático-probabilísticas entre las variables latentes y las observadas. El estudio de estos modelos es de gran interés en muchos campos y muy especialmente en sociología, economía, psicología y, en general, en todos aquellos ámbitos en los que el objeto de estudio puede considerarse como un conjunto o red de relaciones que constituyen un constructo hipotético, cuya medición no puede hacerse directamente, sino a través de Capítulo 1. Psicometría y teoría de tests: Introducción 45 esas relaciones. En una obra dirigida a quienes investigan en ciencias sociales, indicando cómo deben hacer los análisis e interpretar datos multivariantes (Bartholomew et al., 2002), se describen bastante minuciosamente esas relaciones para algunos constructos como la inteligencia, o en la medición de actitudes. Un tema básico en estos modelos es conocer la naturaleza de la escala de medición que se va a considerar, tanto para las variables latentes como para las manifiestas. Según sea la métrica que se adopte en una u otra escala, se tendrán diferentes modelos. La más simple de esas clasificaciones es la que dan Knott y Bartholomew (1999), que se resume en la Tabla 1.2. En esa tabla, se denominan variables métricas, a las que son medibles, es decir, aquellas que pueden tomar valores numéricos, ya sea de forma aislada (variables discretas) o continua. Cuando las variables categóricas son las manifiestas, los indicadores que se dan a las categorías son de tipo binario u ordinal y, por lo tanto, las distribuciones condicionales para los modelos LTM y LCM son distribuciones binomiales o multinomiales. Aun cuando la descripción de los modelos LVM ha sido muy somera, nos hemos permitido incluirla, pues éste será probablemente el único lugar de la obra donde se haga mención a estos modelos. Por el contrario, el modelo lineal (TCT) se tratará ampliamente en extensión y profundidad en diversos capítulos y de los modelos TRI se darán los conceptos básicos y se estudiarán con suficiente detalle los modelos unidimensionales más relevantes. Tabla 1.2. Modelos LVM según la métrica de las variables latentes y de las observadas. Variables latentes Variables observadas Métricas Categóricas Métricas Análisis Factorial (AF) Modelos de Rasgo Latente (LTM) Categóricas Modelos de Perfiles Latentes (LPM) Modelos de Clases Latentes (LCM) 46 Principios de Psicometría m1.8. La construcción del test m El proceso de construcción de un test requiere, en primer lugar, tener una definición clara y concreta del rasgo que se quiere medir. Tener definido el rasgo con precisión es una premisa ineludible que debe ir acompañada por una detallada exposición de cuáles son las relaciones existentes entre ese rasgo y sus manifestaciones observables, pues son imprescindibles para realizar las inferencias de los valores del rasgo. Las fases que se siguen en el proceso de construcción de un test son esencialmente las mismas, sea cual sea la teoría o el tipo de modelo que se adopte, siendo diferentes los supuestos y los métodos de análisis dentro de algunas de esas fases. Vamos a considerar algunas de ellas, aunque sea muy esquemáticamente. Como ya se ha indicado, el primer paso es tener una definición precisa del rasgo y establecer sus manifestaciones, indicando cuáles son medibles y cómo se van a utilizar para la medición del rasgo, teniendo en cuenta los objetivos del test. Este proceso debe ser realizado por expertos. El paso a una segunda etapa, que es en la que propiamente se puede considerar que se comienza el proceso técnico de construcción del test, exige que se haya cubierto de forma satisfactoria y rigurosa esa primera fase de discusión teórica mencionada. Insistiendo en que en esa fase se incluye que se hayan hecho las consideraciones pertinentes en relación con el tipo de test, por ejemplo, si es un test referido al criterio, así como el modelo de puntuación y el tipo de respuesta (si el ítem va a ser dicotómico o politómico, etc.) que se va a considerar. En una segunda etapa se procede a la enunciación de los ítems, en concordancia con lo establecido en la fase anterior. Esta tarea de producción o invención de ítems suele estar a cargo de especialistas, que enuncian un gran número de ellos, sometiendo posteriormente esos ítems enunciados a un minucioso análisis crítico o a un sistema de jueces. Como resultado de ese análisis se obtiene un grupo seleccionado de ítems, después de haberse desechado aquellos que se hubieran considerado inadecuados, o mal formulados, etc. El análisis subjetivo y racional de los ítems se complementa con una nueva depuración basada en datos cuantitativos obtenidos con procedimientos experimentales (estudios piloto). Una vez que se tiene un conjunto satisfactorio de ítems se administran a muestras representativas, a través de las cuales se determinan objetivamente las características de dichos ítems (del ítem en la TRI) o del test en su conjunto (en la TCT). En la Capítulo 1. Psicometría y teoría de tests: Introducción 47 TCT no es posible el análisis individualizado del ítem y todas las características (e.g., fiabilidad, dificultad, etc.) se refieren a las del test. En la TRI se suelen referir sólo al ítem y es también usual que los valores en el rasgo y los que caracterizan el ítem (e.g., dificultad, discriminación) se estimen conjuntamente a partir de los datos que aportan muestras muy grandes de las puntuaciones de los sujetos que han dado respuesta a ese ítem. Ello también conlleva que sea diferente la construcción de la escala con unos u otros modelos. En cualquier caso, la construcción de la escala y el establecimiento y redacción de las normas es la fase final en la construcción del test. Un punto importante que no se ha mencionado es el de la determinación de la estructura del constructo, es decir, si el test mide una sola dimensión, o si se está considerando a priori, o se puede deducir del análisis de los datos que el test está midiendo más de una dimensión de ese constructo. Una vez seleccionados los ítems que se consideran idóneos para la formación del test, se estudian las características del test resultante y se aplican técnicas para su estandarización o normalización, de manera que pueda hacerse una correcta interpretación de los resultados de su aplicación. El estudio de las características del test conlleva el análisis de su fiabilidad y de su validez, así como del alcance de sus predicciones. El concepto de fiabilidad y su cálculo sólo está asociado a aquellos tests que se construyan bajo los supuestos y métodos del modelo clásico. En cuanto a la interpretación de las puntuaciones que obtiene el sujeto en el test, y que son reveladoras del rasgo evaluado, en la teoría clásica se hace siempre con referencia al denominado grupo normativo, dando la puntuación tipificada, o el percentil al que pertenece la puntuación del sujeto, etc. En el contexto de la teoría del rasgo latente o de la respuesta al ítem, el procedimiento comúnmente utilizado es el de la estimación simultánea, tanto de los parámetros que describen las propiedades de los ítems como del nivel individual del rasgo, resultando así que ese valor obtenido para el rasgo no depende más que de la forma que tengan las denominadas curvas características (CCI) de cada uno de los ítems, y no depende de cuántos individuos de su grupo se sitúan en el mismo nivel en el rasgo. Dentro de los modelos de la respuesta al ítem, los tests se pueden componer trazando previamente la curva característica que se corresponda teóricamente con la del test deseado y eligiendo del banco de ítems aquellos que proporcionan la mayor cantidad de información, de acuerdo con las condiciones establecidas y en concordancia también con los objetivos del test. Esto permi- 48 Principios de Psicometría te que en estos tests se puedan construir tests “a la medida” de los sujetos y para propósitos específicos. La redacción de los ítems Una vez establecido que antes de construir el instrumento de evaluación hay que tener perfectamente especificada la naturaleza del concepto de aquello que se desea medir, las cuestiones (los ítems) deben expresarse de la forma más clara posible, utilizando palabras que sean usuales y expresiones que no sean ambiguas. Además, el lenguaje debe ser el apropiado para el tipo de personas a quienes está dirigido. Es evidente que no se pueden utilizar los mismos términos sobre un tema de participación política si la prueba está dirigida a juristas o si es para toda la población. En general, es preferible usar palabras cortas y evitar caer en frases gramaticalmente complejas o difíciles de comprender en una primera lectura, como puede suceder, por ejemplo, cuando se incluyen en la misma frase dos negaciones. Tampoco se deben enunciar frases que induzcan a dar una determinada respuesta, o aquellas difíciles de responder porque la persona considere que se le pregunta por algo estrictamente reservado, confidencial o de su intimidad. En la redacción de los ítems, en principio, es deseable la participación o el asesoramiento de expertos que sean buenos conocedores del tema de aquello que se desea medir, ya sea un determinado rasgo, una aptitud, actitud, conocimientos, etc. La administración de los tests Alfred Binet (Binet y Simon, 1905) ya entró en detalles sobre las condiciones de aplicación de los tests. Al presentar una de las escalas que construyó para la medición de la inteligencia, sugería que a los niños se les debería administrar el test en una habitación aislada y tranquila en la que el niño estuviese solo con la persona que administra el test y, a ser posible, con la presencia de un adulto responsable del niño, aunque en ningún momento y de ninguna manera podría intervenir. Después de más de un siglo, se sigue insistiendo en la importancia que tiene la correcta administración de los tests, que los administren personas entrenadas y que se sigan rigurosamente todas las condiciones establecidas para su Capítulo 1. Psicometría y teoría de tests: Introducción 49 administración. Generalmente estas normas se suelen tener por escrito, especialmente las instrucciones que se dan a los sujetos para que cumplimenten adecuadamente el test. La realización de la prueba es siempre individual, pero su aplicación puede hacerse de forma individual o administrarla en el mismo momento y lugar a muestras, o grupos concretos, en cuyo caso se habla de administración o aplicación colectiva, y a los tests que son suceptibles de este tipo de administración se les llama tests colectivos. Hay pruebas especialmente diseñadas para que su administración requiera que se realice de una de estas dos formas, aunque la administración individual o colectiva de muchas de ellas depende de las circunstancias y del propósito por el que se aplica. En cuanto a las interpretaciones que se hagan de las puntuaciones que se obtienen con los tests, hay que insistir en que deben ser consistentes con los datos estandarizados obtenidos de su administración a muestras muy amplias. El test debe venir acompañado de la información que muestre que cumple todas las propiedades psicométricas exigibles, así como de los datos estadísticos estandarizados que sean necesarios para que el usuario del test pueda interpretar correctamente las puntuaciones de los sujetos a los que ha administrado ese test. A esta información es a lo que generalmente se denomina normas del test, y su estandización es imprescindible para hacer las comparaciones e interpretaciones de los datos que se obtienen con su aplicación. De hecho, hay tests cuyas normas son diferentes para diferentes géneros, o grupos de edad, etc. Tests y otras medidas estandarizadas se han construido para la medición de la inteligencia, de diversas actitudes, rasgos de personalidad, etc. y se puede acceder a muchos de ellos porque están comercializados. No obstante, algunos tests tienen limitado su acceso y utilización, quedando restringida a expertos, como sucede en algunos casos de psicología clínica. Por el contrario, otros son de acceso libre y se pueden obtener solicitándolos a los autores, o están publicados en libros, o en revistas científicas o en sitios web, lo que es cada día más frecuente. El uso de tests ya construidos con probadas buenas cualidades psicométricas es deseable, no sólo porque la construcción de un test suele tener un coste elevado, tanto económico como en recursos humanos, sino también, y esto es mucho más importante, porque permite las comparaciones de diferentes estudios, ya sean aplicados o con propósitos investigadores. Aun así, muchos tests ya construidos necesitan modificaciones o adaptaciones y, en otros casos, se necesita su construcción porque no hay ningún test o cuestionario que con las debidas garantías dé cuenta de la variable que se desea evaluar. 50 Principios de Psicometría Puntos clave 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 La psicometría es una ciencia cuantitativa. La definición de la psicometría, en sentido amplio, se corresponde con su nombre, la medición en psicología. A veces se confunde psicometría con teoría y/o construcción de tests, reduciendo así su extensión y significado. El test (o el cuestionario) es el instrumento para hacer mediciones. Las primeras escalas de puntuaciones de las aptitudes mentales pueden considerarse que son el cociente intelectual (CI) y la escala de Binet-Simon. El primer modelo formal de puntuaciones fue el modelo lineal propuesto por Spearman, y su desarrollo ha dado lugar a la denominada teoría clásica de los tests (TCT). También se debe a Spearman la primera propuesta del modelo factorial simple. Los estadísticos descriptivos y las representaciones gráficas de las distribuciones de las puntuaciones en la población (o en la muestra), obtenidas con un test, o con un ítem, ayudan a conocer algunas de las características de ese test, o de ese ítem. La tipificación de las puntuaciones es un primer paso para poder compararlas y para el posterior establecimiento de la escala. El paso de puntuaciones directas a tipificadas y de ellas a otros valores estandarizados se hace mediante transformaciones lineales. La normalización de la escala no se hace mediante transformaciones lineales y no se debe realizar (ni a veces es factible) para distribuciones muy alejadas de la normalidad. A las transformaciones de las puntuaciones que mantienen su orden relativo y su significado, se las denomina transformaciones admisibles. Las inferencias sobre el valor del rasgo (puntuación verdadera) en los modelos TCT hay que hacerlas en relación con las características del grupo normativo. En los modelos TRI las inferencias son independientes del grupo al que pertenece el sujeto, pues se hacen en relación con las características del ítem al que responde. En la actualidad, la psicología, las ciencias sociales y de la conducta utilizan los modelos psicométricos llamados modelos de variables latentes, basados en las relaciones entre las denominadas variables latentes y las observadas o manifiestas. En la construcción de un test hay muchos aspectos técnicos que hay que considerar en cada una de las fases de su construcción, pero hay que ser extremadamente cuidadosos con los aspectos sustantivos, pues son los que dan soporte y sentido al test. 51 Capítulo 1. Psicometría y teoría de tests: Introducción Actividades r Discuta en un foro si la psicología merece o no el título de ciencia cuantitativa. r Abra un foro similar sobre la psicometría. r Reseñe las similitudes y diferencias entre psicometría y psicofísica, si cree que las hay. r Haga una breve reflexión sobre el test, concebido como instrumento de medida, comparándolo con otros instrumentos como, por ejemplo, el termómetro. r Discuta las diferencias, si las hay, entre teoría de los tests, psicometría y el uso de los tests. r La distribución de frecuencias que se dan en la siguiente tabla corresponde a un test con puntuaciones X. Calcule sus estadísticos, discuta la forma de su distribución, represéntela y discuta su significado. Xi 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Ni 0 10 20 50 80 50 20 10 0 r Repita la actividad anterior con los datos de la tabla siguiente. Verifique si todos los valores se presentan con la misma frecuencia relativa (f = 0.20). ¿Es la puntuación media igual a la varianza? ¿El 50% de los sujetos tienen valores iguales o inferiores a la media? ¿Se habría obtenido mayor varianza si la distribución de las puntuaciones de esos 100 sujetos hubiese sido normal? ¿Qué significado psicométrico se puede dar a esta distribución? Xi 0 1 2 3 4 Ni 20 20 20 20 20 r En la siguiente tabla se dan las distribuciones de frecuencias de las puntuaciones de una misma muestra de sujetos en dos tests. Represente ambas distribuciones de frecuencias y discuta las características de ambos tests. Puntuaciones 0 10 20 30 40 50 Test X1 600 1200 100 50 30 20 Test X2 20 30 50 100 1200 600 52 Principios de Psicometría r Calcule los valores de los índices de asimetría de las dos distribuciones de la actividad anterior y discuta si es aconsejable la normalización de sus puntuaciones. r Obtenga los datos estandarizados de las cuatro distribuciones dadas en las actividades anteriores. Discuta qué significado tienen esos valores y si sería conveniente pasarlos a una escala estandarizada derivada. r Busque en la literatura las referencias y haga un resumen de las contribuciones de Guttman, Stevens y Thurstone en la construcción de escalas. Teoría clásica de los tests El modelo lineal de Spearman 2 El objetivo de los modelos psicométricos es inferir con la precisión adecuada las puntuaciones de los sujetos en un rasgo, mediante las puntuaciones que se obtienen al aplicar una prueba diseñada para tal fin. El primer modelo de puntuación observada, a través del cual se intentó tratar el problema de la incertidumbre o error inherente a cualquiera de las medidas realizadas mediante la aplicación de un test, fue el presentado por Spearman en 1904, estableciendo las bases del modelo lineal de puntuaciones. La introducción de este modelo ha dado lugar a que se desarrolle una de las teorías más prolíficas en el campo de la psicometría, que por su utilidad y sencillez se ha adoptado para la construcción de numerosísimos tests estándar. Aun cuando posteriormente se han desarrollado nuevas teorías, la teoría basada en el modelo de Spearman, denominada teoría clásica de las puntuaciones verdaderas o también teoría clásica de los tests (TCT), sigue siendo influyente en nuestro tiempo, aun cuando se ha producido la expansión de una teoría más potente como es la teoría de la respuesta al ítem (TRI), en cuyo seno se han generado modelos no lineales y formas de análisis que vienen a resolver, no sólo algunos de los problemas inherentes a la TCT, sino otros muchos de gran importancia, como la determinación del sesgo que pueden conllevar los ítems que forman las pruebas. En este capítulo se va a tratar: ã Las hipótesis del modelo de Spearman, siendo una de ellas su forma algebraica. ã El significado de cada una de las variables que intervienen en el modelo. 54 Principios de Psicometría ã Los índices estadísticos que se derivan de las hipótesis del modelo y su significado. ã La definición de paralelismo entre medidas y sus implicaciones en el cálculo de la fiabilidad (precisión) de las pruebas. m2.1. Formalización del modelo de Spearmanm Las hipótesis básicas son las de un modelo aditivo lineal, donde la variable endógena o dependiente es la que corresponde a la puntuación X observada en las pruebas. La variable exógena o independiente V es la correspondiente a la supuesta puntuación verdadera de los sujetos en el rasgo, cuyo valor se pretende estimar. El modelo que propone Spearman es un modelo lineal muy simple cuyas características se encuentran en los manuales de estadística, de álgebra o incluso en los de otras disciplinas, puesto que es un modelo que se ajusta a muchas situaciones. Sin embargo, aquí se exponen las hipótesis y el significado del modelo que son específicas del contexto psicométrico. Hipótesis 1. Hipótesis fundamental: Cualquier puntuación observada X es función de dos componentes, que son la puntuación verdadera V del sujeto y el error e: X=V+e (2.1) En esta relación X juega el papel de una variable aleatoria sobre una población Π de individuos, que toma valores X = {xg} sobre g sujetos de una población de tamaño N (g = 1, …, N). La variable V es otra variable aleatoria asociada que toma valores V = vg sobre Π. 2. Hipótesis de nulidad de los errores: La media aritmética de los errores es cero, es decir que su esperanza matemática es cero: E (e) = 0 Capítulo 2. TCT: Modelo lineal de Spearman 55 Se supone además que los errores se distribuyen según una ley normal y que el modelo es homocedástico, es decir, que para cualquier i, j las varianzas de los errores son iguales: ( ) var (e i ) = σ e2i = σ e2j = var e j 3. No existe correlación entre las puntuaciones verdaderas y el error en una misma prueba: ρVe = 0 4. No existe correlación entre los errores. Para todo i, j se cumple: ρei ej = 0 5. No existe correlación entre las puntuaciones verdaderas y los errores en formas distintas de un mismo test o en tests diferentes. Esto es, para todo i, j, con i ≠ j, se tiene que: ρVi ej = 0 De estos cinco supuestos o hipótesis iniciales se deducen las relaciones que son básicas para el desarrollo de la TCT y se refieren a los valores esperados, a las varianzas de las puntuaciones y a las correlaciones entre ellas. m2.2. Relaciones e índices que se deducen de las hipótesism De las hipótesis precedentes se deducen importantes relaciones que son de gran utilidad, tanto en los desarrollos teóricos como en sus aplicaciones prácticas, puesto que permiten poner en conexión las distintas variables y dar significado a dichas relaciones. Las más importantes son las que llevan a poder estimar la precisión de las pruebas e inferir los valores de las variables no directamente observables (como V y e) a partir de la variable observable X, cuyos valores son los que se obtienen empíricamente en la aplicación de las pruebas. A estas puntuaciones las llamaremos indistintamente puntuaciones empíricas o puntuaciones observadas. 56 Principios de Psicometría Las más básicas y relevantes de estas relaciones son las siguientes: a) El valor esperado de la puntuación verdadera es igual al valor esperado de la puntuación observada: E [ V] = E [ X] (2.2) Es decir, bajo los supuestos del modelo, las medias de las puntuaciones observadas y las de las verdaderas coinciden. En efecto, puesto que X = V + e y que E (operador esperanza matemática) opera linealmente, la esperanza de la expresión anterior es: E [ X ] = E [ V + e] = E [ V ] + E [ e] Al ser E [e] = 0 por hipótesis del modelo, la ecuación anterior se reduce a E [X] = E [V], lo que indica que la media de las puntuaciones verdaderas es igual a la media de las puntuaciones observadas, siempre que éstas se hayan obtenido en pruebas repetidas y de forma independiente. b) La ecuación de regresión de la puntuación observada sobre la puntuación verdadera es la ecuación de una línea recta que pasa por el origen y cuya pendiente es la unidad. Esto se debe a que para todo valor g = 1, …, N, las medias condicionadas de las puntuaciones observadas sobre las verdaderas son: [ ] E X V = vg = vg Cuadro 2.1 La consecuencia b) se deduce fácilmente recordando que la línea de regresión de una variable X sobre otra Y es la línea representativa de las medias aritméticas de la variable X, condicionadas a cada uno de los valores o modalidades de la variable Y. En este caso, la regresión es de la variable X sobre cada uno de los valores V = vg, con g = 1, ... , N, por lo que las medias condicionadas son: 57 Capítulo 2. TCT: Modelo lineal de Spearman [ ] [ ] [ ] [ E X V = vg = E V + e V = vg = E V V = vg + E e V = vg ] Ahora bien, en la expresión anterior se tiene que, al ser E (e) = 0, y puesto que las puntuaciones verdaderas son independientes del error, dada una determinada puntuación verdadera V = vg, la esperanza matemática condicionada E [e V = vg] también es cero. Al ser E [e V = vg]=0, se tiene que: E [XV = vg] = E [VV= vg]. El valor medio de la variable V condicionado a que V tome exactamente el valor Vg es exactamente el valor vg , o sea, una constante. Por lo tanto, para todo valor g = 1, …, N, las medias condicionadas de las puntuaciones observadas sobre las verdaderas son: [ ] E X V = vg = vg La línea de regresión E [XV ] = V es una recta con pendiente unidad que pasa por el origen. Su gráfico es la bisectriz del primer cuadrante con V en abscisas y E [XV] = V en ordenadas. c) La varianza de las puntuaciones observadas es igual a la suma de la varianza de las puntuaciones verdaderas más la varianza de los errores. σ 2X = σ 2V + σ 2e (2.3) Ésta es una consecuencia inmediata de la hipótesis enunciada de no correlación entre la puntuación verdadera y el error. Para comprobarlo, basta tener en cuenta que la varianza de una suma de variables aleatorias es igual a la suma de las varianzas de cada una de las variables más las covarianzas de todos los posibles pares distintos de variables que se pueden formar. En este caso, se trata de la variable aleatoria X como suma de otras dos. Así, var (X ) = var (V + e) = var (V ) + var (e) + 2 cov (V , e) = σ 2V + σ e2 + 2 ρ Ve σ V σ e 58 Principios de Psicometría ya que la correlación entre las variables V y e es: ρ Ve = cov (V , e) σV σe y al ser por hipótesis ρVe = 0, el numerador de la expresión anterior es cero. Por lo tanto, la varianza de la puntuación observada se obtiene como la suma de las varianzas de la puntuación verdadera y la del error. d) El cuadrado del coeficiente de correlación lineal entre las puntuaciones observadas y sus correspondientes puntuaciones verdaderas es igual al cociente entre la varianza de las puntuaciones verdaderas y la varianza de las observadas. ρ2XV = σ 2V σ 2X (2.4) Este coeficiente sirve para establecer posteriormente el concepto de fiabilidad del test. Cuadro 2.2 La relación (2.4) se obtiene como consecuencia inmediata de la linealidad de la regresión. En efecto, si se considera la covarianza: ( ) cov X,V = E [ [X − E (X)] [V − E (V)] ] = E (X V) − E (X) E (V) sustituyendo X por V + e, y teniendo en cuenta las hipótesis del modelo, se obtiene: ( ) [( ) ] [ ] [ ] 2 2 = E [ V 2 + Ve] − [ E [ V ]] = E [ V 2 ] − [E [ V ]] = var ( V ) cov X,V = E V + e V − E V + e E V = Capítulo 2. TCT: Modelo lineal de Spearman 59 Se tiene pues que, bajo las hipótesis del modelo, se da la igualdad: ( ) ( ) cov X,V = var V = σ 2V que sustituida en la expresión general del cuadrado del coeficiente de correlación: ρ2XV ( ) σ 2V cov ( X, V ) 2 σ2 = = 2 2 = 2V σX σV σX σV σX 2 que es la igualdad (2.4) que se pretendía obtener. e) De las expresiones (2.3) y (2.4) se deduce la igualdad: ρ2XV = σ 2X − σ 2e σ 2X = 1− σ 2e σ 2X (2.5) f) El cuadrado de la correlación entre la puntuación observada y el error es igual a la razón de la varianza de los errores con respecto a la varianza de las puntuaciones observadas: ρ2Xe = σ 2e σ 2X (2.6) Esta relación la puede deducir el lector siguiendo un proceso análogo al que se ha seguido en el punto d) . g) Una nueva relación es la complementariedad a uno del cuadrado de los coeficientes de correlación dados en (2.5 ) y (2.6), ρ2XV + ρ2Xe = 1 cuya deducción es inmediata. (2.7) 60 Principios de Psicometría m2.3. Condiciones de paralelismo entre medidas: Consecuenciasm Una de las cuestiones de mayor importancia en el contexto de la TCT es el establecimiento de las condiciones de paralelismo entre las medidas. El cálculo práctico de los índices, como se definen en el modelo, no se puede llevar a cabo al tener que utilizar valores de variables no directamente observables, como ocurre por ejemplo con el de ρXV. El cálculo de esos índices y de algunos estadísticos es viable a través de las relaciones formales existentes entre medidas paralelas. Medidas paralelas Definición: Dos conjuntos de puntuaciones, sean estas X y X', se dice que son medidas paralelas si se cumplen las dos condiciones siguientes: a) Ambas tienen la misma puntuación verdadera: X′ = V + e′ X = V +e (2.8) b) Ambas poseen la misma varianza error: σ 2e = σ 2e′ (2.9) De estas condiciones es inmediato deducir importantes consecuencias, tales como que las medias aritméticas de las puntuaciones observadas en medidas paralelas coinciden, así como sus varianzas; que la correlación entre medidas paralelas es igual al cuadrado de la correlación entre las puntuaciones observadas y las verdaderas, o que la varianza de la puntuación verdadera es equivalente a la covarianza entre dos puntuaciones observadas que sean paralelas. Comprobemos que se verifican tanto las relaciones enunciadas como otras de interés. Relaciones derivadas de las condiciones de paralelismo: 1) Para dos variables X y X', con medidas supuestamente paralelas, se verifica que ambas variables tienen la misma media aritmética. Capítulo 2. TCT: Modelo lineal de Spearman E [ X ] = E [ X′] 61 (2.10) En efecto: Teniendo en cuenta la linealidad del operador esperanza matemática y la hipótesis del modelo de Spearman, que considera que los errores aleatorios se anulan en media, se tiene que: E [ X ] = E [ V + e] = E [ V ] + E [ e] = E [ V ] E [ X′] = E [ V′ + e′] = E [ V′] + E [e′] = E [ V′] Al ser E [e] = E [e' ] = 0 por hipótesis del modelo, y siendo además V = V' por las hipótesis de paralelismo, los segundos miembros de ambas igualdades coinciden y, por lo tanto, también coinciden los primeros, dándose la igualdad de medias entre ambas variables X y X' observadas. 2) Las varianzas de las puntuaciones observadas en dos variables X y X' son iguales, cuando se trata de medidas paralelas: Var (X) = Var (X' ) (2.11) Es inmediato comprobarlo en el modelo ya que las varianzas de ambas variables son: Var (X) = Var (V + e) = Var (V) + Var (e) + 2 cov (V, e) Var (X' ) = Var (V' + e' ) = Var (V' ) + Var (e' ) + 2 cov (V' , e' ) Si se considera que se cumplen las condiciones de paralelismo (2.8) y (2.9) y la hipótesis de no correlación entre las puntuaciones verdaderas y los errores, se obtiene que para medidas X y X' paralelas σ X2 = σ X2 ' . 3) La correlación entre medidas paralelas es igual al cuadrado de la correlación entre las puntuaciones observadas y las verdaderas e igual al cociente entre las varianzas de las puntuaciones verdaderas y las observadas (Cuadro 2.3). ρ XX ′ = ρ2XV = σ 2V σ 2X (2.12) 62 Principios de Psicometría Cuadro 2.3 Para obtener (2.12) basta con explicitar la expresión de la correlación lineal entre dos variables y hacer uso de las propiedades y restricciones del modelo anteriormente señaladas. ρ XX′ = ( ) = E [(X − E (X)) (X ′ − E (X ′))] = cov X, X ′ σ X σ X′ = [ ] σ X σ X′ [ ] [ ] E X X′ − E X E X′ σ X σ X′ Como consecuencia del paralelismo E [X] = E [X' ] y Var (X) = Var (X' ). Sustituyendo X y X' por sus componentes, de acuerdo con (2.1), se obtiene que ρ XX' = y [ ] [ [ ]] E X X' − E X σ 2X 2 = [ ] [ [ ]] E V2 − E V σ 2X 2 = σ 2V σ 2X = ρ2XV Así, en la práctica, pueden calcularse las cantidades inobservables σ 2V a partir de los valores de σ 2X y ρXX' . ρ2XV 4) Como consecuencia de lo anterior, es inmediato comprobar que la varianza de la puntuación verdadera es igual a la covarianza entre dos medidas paralelas. Var (V) = cov (X , X' ) (2.13) De la relación (2.12), se deduce que: σ V2 = σ X2 ρXX' (2.14) Sustituyendo el coeficiente de correlación por el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables se tiene que: Capítulo 2. TCT: Modelo lineal de Spearman σ 2V = σ 2X ρ XX ′ = σ 2X cov (X , X′) σ X σ X′ 63 = cov (X , X′) ya que σ X = σ X' debido al paralelismo. 5) Las intercorrelaciones entre formas paralelas de un test son todas iguales, y todas las formas paralelas de un mismo test tendrán la misma correlación con otro test cualquiera. Esta afirmación se deduce del teorema que enunciamos a continuación pero que no demostraremos aquí. Teorema: Si X1, X2, ... , Xj, ... , Xn son medidas paralelas, y es Z otra medida arbitraria distinta, no paralela a las anteriores, para todos los pares i, j, se verifica que: ρ X 1X 2 = ρ X 1X 3 = . . . = ρ X i X j = . . . y que ρ X1Z = ρ X 2Z = . . . = ρ X i Z = . . . 6) La varianza de las puntuaciones verdaderas es igual o menor que la de las observadas. En la relación (2.14) se observa que al multiplicar σ 2X (que es un valor positivo) por ρXX' (que sólo puede tomar valores entre 0 y 1), la varianza de la puntuación verdadera tomará valores menores a los de la observada, o iguales si ρXX' = 1. 7) La varianza de la variable error es igual a la varianza de las puntuaciones observadas por la diferencia a uno de la correlación entre medidas paralelas σ 2e = σ 2X (1 − ρ XX ′ ) (2.15) Esta relación se obtiene despejando σ 2e de la ecuación (2.3), y sustituyendo el valor de σ 2V por el de la ecuación (2.14) σ 2e = σ 2X − σ 2V = σ 2X − ( σ 2X ρ XX ′ ) = σ 2X (1 − ρ XX ′ ) 64 Principios de Psicometría 8) La correlación entre la puntuación observada y el error se puede calcular a través de la correlación entre dos medidas paralelas, según la siguiente expresión: ρ Xe = 1 − ρ XX ′ (2.16) ya que ρ2Xe = σ 2e σ 2X = σ 2X − σ 2V σ 2X = 1− σ 2V σ 2X = 1 − ρ XX ′ 9) La exigencia de paralelismo entre medidas es lo que permite hacer uso de las ventajas de los modelos homocedásticos, ya que la igualdad de varianzas entre los errores es una condición necesaria para el paralelismo. Los nueve puntos anteriores hacen explícito cómo, utilizando medidas paralelas, es posible obtener el valor de magnitudes o de relaciones tales como la varianza de las puntuaciones verdaderas, la correlación lineal existente entre las puntuaciones observadas y sus correspondientes verdaderas, etc. Medidas tau-equivalentes Las condiciones de paralelismo, que obliga a la igualdad de medias y de varianzas de las variables, es muy poco probable que se den en la práctica. Por ello, se han propuesto definiciones alternativas a la de paralelismo, con condiciones menos estrictas para las relaciones entre las puntuaciones con las que se va a calcular el coeficiente de fiabilidad. Entre esas definiciones están las de: Medidas tau-equivalentes, que exigen que sean iguales las puntuaciones verdaderas, pero no las varianzas error. Por lo tanto, en estas medidas se está suponiendo la igualdad entre las medias y las varianzas de las puntuaciones verdaderas, pero no entre las empíricas u observadas. Entre las puntuaciones observadas sólo se dará la igualdad de las medias, pero no la de varianzas. Capítulo 2. TCT: Modelo lineal de Spearman 65 Medidas esencialmente tau-equivalentes son las que no exigen la igualdad entre las varianzas error, pero tampoco entre las puntuaciones verdaderas, pues admiten que difieran en una constante aditiva. Por lo tanto, no se dará la igualdad de varianzas entre las puntuaciones observadas y tampoco entre sus medias, que diferirán en una constante aditiva. Además de las tau-equivalentes se han propuesto medidas congenéricas. Éstas son medidas en las que no se supone la igualdad entre las varianzas error y se admite que la relación entre las puntuaciones verdaderas sea una transformación lineal. Por lo tanto, no es de esperar ni la igualdad de medias ni la de varianzas entre las puntuaciones observadas. Comprobación del paralelismo La comprobación del paralelismo se realiza verificando si se cumplen los supuestos dados en (2.8) y (2.9). En la práctica lo que se comprueba es si se da la igualdad de medias y varianzas entre las puntuaciones observadas en dos pruebas con puntuaciones supuestamente paralelas. Es muy poco probable que se observe una estricta igualdad entre las medias y entre las varianzas, aun en el supuesto de que ambos conjuntos de puntuaciones correspondiesen a pruebas realmente paralelas. Por ello, hay que comprobar que las variaciones observadas se deben a causas ajenas a las pruebas, que han sido bien controladas las condiciones de su aplicación, etc. y que se pueda afirmar que las diferencias son efectivamente fluctuaciones aleatorias atribuibles al azar. Esta afirmación se hace en términos probabilísticos, tras los correspondientes contrastes, usando métodos estadísticos formales. Por lo tanto, cuando los valores de las medias y/o de las varianzas de las puntuaciones empíricamente obtenidas no coincidan, se procederá al contraste de hipótesis de las diferencias entre las medias, o entre las varianzas o a ambos contrastes. Finalmente, hay que puntualizar que en el paralelismo entre pruebas hay que analizar lo sustantivo, es decir, los contenidos, pues es previo a cualquier cuestión sobre la igualdad de los parámetros. 66 Principios de Psicometría Cuadro 2.4 En la literatura se encuentran trabajos como el de Gulliksen (1950a) en los que se presentan procedimientos adecuados para la justificación estadística del paralelismo pero, como bien señalan Lord y Novick (1968), no solamente es preciso comprobar que se cumplen las condiciones formales de paralelismo, sino que también es preciso examinar el contenido de los tests supuestamente paralelos. Consecuencias prácticas Se ha expuesto a lo largo de los apartados anteriores que la introducción de las condiciones de paralelismo proporciona un método de obtención de medidas a través de las cuales se puede conocer el valor de estadísticos o de los parámetros, cuyo cálculo en la práctica no se puede realizar aplicando las ecuaciones con las que originalmente se habían definido, puesto que ello entraña la utilización de valores inobservables. Los supuestos del paralelismo de las puntuaciones permiten calcular: a) La variabilidad de las puntuaciones verdaderas y la de los errores, medida a través de sus varianzas. Como consecuencia de las hipótesis del modelo, la media de las puntuaciones observadas es igual a la de las puntuaciones verdaderas, por lo que es necesario conocer cuál es la dispersión de esas puntuaciones con respecto a sus respectivas medias y compararlas. La comparación entre σ 2V y σ 2X puede realizarse por simple diferencia: σ 2X − σ 2V = σ 2e La razón σ 2V /σ 2X permite conocer el peso de la variabilidad atribuible al error: 1− σ 2V σ 2X = σ 2e σ 2X Capítulo 2. TCT: Modelo lineal de Spearman 67 b) La correlación entre las puntuaciones observadas y las verdaderas es el dato fundamental en el proceso de construcción de una prueba y en su aplicación. Carecería de sentido una prueba en la que no exista relación entre las puntuaciones que proporcione la prueba y las correspondientes puntuaciones verdaderas de los sujetos en el rasgo que con esa prueba se pretende evaluar. La correlación lineal entre puntuaciones verdaderas y observadas es posible conocerla a través del coeficiente de correlación lineal entre pruebas paralelas (ecuación (2.12)): c) La correlación lineal entre las puntuaciones observadas y los errores ρ Xe, también se puede calcular, sin más información que la que proporciona la correlación entre dos pruebas cuyas puntuaciones sean paralelas (ecuación (2.16)). d) La correlación entre medidas paralelas también permite conocer la varianza del error, mediante la expresión (2.15), que es un dato relevante en cualquier proceso de inferencia. A continuación se presentan algunos ejemplos para ilustrar lo anteriormente expuesto. Ejemplo 2.1 Antes de abordar un experimento, se quiere conocer la variabilidad de las puntuaciones verdaderas en un cierto rasgo de un grupo específico compuesto por 800 sujetos. Para la medición del rasgo se va a usar una prueba que contiene 50 ítems, pero de la que aún no se conoce su precisión. Para ello se han seguido los siguientes pasos: a) La variabilidad de las puntuaciones verdaderas se va a medir a través de su varianza. b) Los 800 sujetos han respondido a los 50 ítems en dos ocasiones separadas en el tiempo, manteniéndose las condiciones de aplicación de la prueba. c) Se han calculado las puntuaciones medias y las varianzas de las puntuaciones obtenidas en ambas ocasiones. d) Se ha contrastado el paralelismo entre ambas y con α = 0.05 se acepta la igualdad de medias y varianzas, siendo esos valores: X = 32 ; σ 2X = 6 68 Principios de Psicometría e) Se ha calculado el coeficiente de correlación lineal entre los dos conjuntos de puntuaciones obtenidas de ambas aplicaciones, siendo éste ρXX' = 0.82. f) Haciendo uso de la relación σ 2V = σ 2X ρXX' se obtiene que σ 2V = 4.92, que es la varianza que se pretendía conocer. Como se puede observar, la variabilidad de las puntuaciones verdaderas, medida a través de su varianza, es menor que la de las puntuaciones observadas. Ejemplo 2.2 El experimentador quiere elegir entre dos nuevas pruebas X1 y X2, de 50 ítems cada una, que han cumplimentado 900 sujetos. De las puntuaciones observadas se obtiene que: X 1 = 38 ; σ 2X = 12 1 X 2 = 42; σ 2X = 12 2 y los valores de los coeficientes de correlación lineal, calculados entre las puntuaciones iniciales y las obtenidas en las réplicas respectivas, son: ρ X1 X1′ = 0.72; ρ X 2 X′2 = 0.66 De esos datos, el psicómetra puede deducir que ( )( ) ( )( ) σ 2V = 12 0.72 = 8.64 1 y usando la prueba X2: σ 2V = 12 0.66 = 7.92 2 La varianza de las puntuaciones observadas es la misma en ambas pruebas, pero la variabilidad de las puntuaciones verdaderas es menor para la prueba X2 que para la prueba X1. De donde se deduce, según (2.3), que la varianza atribuible a la componente error para la prueba X2 sería mayor que la de la X1. Esto es, σ 2e = 12 − 8.64 = 3.36 1 σ 2e 2 = 12 − 7.92 = 4.08 Capítulo 2. TCT: Modelo lineal de Spearman por lo tanto, debe elegirse la prueba X1 frente a la X2, pues tiene menor varianza error. Esta conclusión se deriva de la menor fiabilidad del test X2, teniendo la misma varianza que el test X1. Ejemplo 2.3 Con el fin de medir un rasgo psíquico en escolares entre 8 y 10 años, se han enunciado veinte ítems para que constituyan un test, y se quiere conocer la precisión de ese test. Para ello, se ha construido una prueba análoga y se estudian las puntuaciones obtenidas al administrar esas pruebas, procediendo de la siguiente manera: a) Se eligió una muestra aleatoria representativa de la población objetivo, donde estaban debidamente representados todos los tipos de centros escolares con alumnos entre 8 y 10 años. Esa muestra tenía un tamaño de N = 1200 escolares. b) Todos los sujetos respondieron a los 20 ítems de ambas pruebas y a las puntuaciones de una se las denotó X y a las de la otra X' , en la presunción de que existiría paralelismo entre ambos conjuntos de puntuaciones. c) Se calcularon las medias y las estimaciones de las varianzas (las cuasivarianzas) s2 de las puntuaciones de ambas pruebas, siendo esos valores: X = 16.4 ; s2X = 12 X ′ = 14.2 ; s2X′ = 12 y ya que de cada escolar se tenían las puntuaciones de cada ítem en una y otra prueba, se calculó también la desviación típica de las diferencias entre los pares de valores (muestras apareadas), siendo ese valor sd = 4. d) Se observa la igualdad de varianzas, pero no la de las medias. ¿Se puede considerar que también las medias son iguales y que las diferencias son atribuibles al azar? e) Para resolver la cuestión anterior, se plantea un contraste estadístico. La hipótesis nula es que no existen diferencias entre las medias de ambos grupos, considerados como muestras relacionadas. f) El estadístico de contraste es: t= X − X' sd N−1 = 16.4 − 14.2 4 1199 = 19.01 69 70 Principios de Psicometría g) Al ser grande el tamaño muestral, bajo la curva de la distribución normal se delimitan las áreas de aceptación y de rechazo de la hipótesis nula de no diferencia entre las medias. El valor z = 19.01 sobre el eje de la variable, se encuentra entre los valores contenidos en el área de rechazo de la hipótesis nula, a niveles de probabilidad p > 0.99. Este resultado indicó que las pruebas X y X' no se podían considerar paralelas, e incluso que esos dos conjuntos de ítems pudieran estar midiendo aspectos diferentes. Ejemplo 2.4 En el experimento mencionado en el ejemplo anterior, se hicieron modificaciones. Se examinó el contenido de los ítems, en algunos de ellos se reformuló su redacción y cinco se redefinieron y se sustituyeron por otros nuevos. Se administraron nuevamente ambas pruebas a una muestra de similares características y con el mismo número de escolares. Los valores de las medias y de las varianzas obtenidas con ambas pruebas fueron: X = 16.80 ; s2X = 15.21 ; X ′ = 16.61 ; s2X′ = 13.69 ; sd = 4.37 Se desea conocer si tras estos cambios, ambos conjuntos de medidas se pueden considerar paralelas. Puesto que ni las medias ni las varianzas coinciden, lo indicado es hacer sendos contrastes de hipótesis, aunque ahora se observa que los valores de las medias son muy similares. a) Para contrastar la hipótesis H0 de igualdad de medias en la población H0 : µ = µ' H1 : µ ≠ µ' se utiliza el mismo estadístico de contraste que en el ejemplo anterior, obteniéndose que es: t= 0.19 = 1.46 0.13 Capítulo 2. TCT: Modelo lineal de Spearman Este valor experimental pertenece a la región de aceptación de H0, bajo la distribución normal, con un nivel crítico α = 0.05. Al ser una muestra grande z ≈ t y la zona de aceptación de la hipótesis nula comprende valores de la variable entre – 1.96 y + 1.96. Por lo tanto, con un nivel de confianza 1 – α = 0.95, se puede afirmar que no existe diferencia significativa entre ambas medias. b) El contraste de igualdad de varianzas se realiza mediante el estadístico (s t= 2 X − s2X′ ) N− 2 2 2 s X s X′ 1− rXX ′ = 1.94 Este estadístico, t de Student, al ser N suficientemente grande, se asimila a una distribución normal (también en este caso, al ser N = 1200 grande, varianzas y cuasivarianzas muestrales dan valores análogos). Delimitando bajo la curva de probabilidad N (0,1) las áreas de aceptación (1 – α) y de rechazo (α) de H0 se tiene que con a = 0.05 los valores que delimitan esas áreas son z = ± 1.96. Como el valor 1.94 está dentro de la región de aceptación de la hipótesis nula, se acepta con probabilidad 1 – α ≥ 0.95 la hipótesis nula de igualdad. Consecuencia. Se puede aceptar que las dos pruebas X y X' construidas al modificar las previas, podrían considerarse formalmente paralelas. Ejemplo 2.5 Se desea estudiar la fluidez verbal de 4 personas usando una prueba que consiste en que durante tres minutos escriban una columna de palabras que tengan sentido de las que se les ha dado escrita la primera sílaba. En una nueva ocasión, y en las mismas condiciones se les suministra una prueba supuestamente paralela a la anterior, con el fin de utilizar las relaciones entre medidas paralelas y discutir su variabilidad en relación con la de las puntuaciones verdaderas, así como su relación con el coeficiente de determinación. Las puntuaciones que cada persona obtiene en cada una de las pruebas se corresponden con el número de palabras con significado. Esas puntuaciones se dan en la Tabla 2.1. 71 72 Principios de Psicometría Tabla 2.1. Puntuaciones de cuatro sujetos en dos pruebas. Sujetos Pruebas X X' 1 2 3 4 30 22 18 14 40 32 40 28 El primer objetivo es comprobar si, en efecto, estas pruebas se comportan como paralelas con ese número reducido de sujetos. Las medias y las varianzas de las puntuaciones son: X = 32; s2X = 4 + 196 + 64 + 64 = 82; s X = 9.06 4 X ′ = 24 ; s2X′ = 4 + 100 + 64 + 16 = 46 ; s X′ = 6.78 4 Es evidente que ni las medias ni las varianzas coinciden. Realizados los respectivos contrastes, también se han rechazado las hipótesis de igualdad. Por lo tanto, no puede considerarse que estas pruebas se comporten como paralelas, ni tampoco como tau-equivalentes. El valor de la covarianza entre ambas puntuaciones tampoco se corresponde con la varianza de la puntuación verdadera. Ahora bien, si se calcula el coeficiente de correlación lineal entre ambos conjuntos de puntuaciones se obtiene que: rXX′ = [ ] [ ] [ ]= E X X′ − E X E X′ s X s X′ 60 60 = = 0.98 (9.06) (6.78) 61.43 lo que indica que existe una alta correlación lineal positiva entre las variables asociadas con ambos conjuntos de puntuaciones. Esto no implica, sin embargo, que exista paralelismo entre ellas. Capítulo 2. TCT: Modelo lineal de Spearman 73 Puntos clave 3 3 3 3 3 3 3 Un modelo lineal que relaciona la puntuación verdadera de un sujeto en un rasgo con la observada cuando realiza una prueba para la medición de ese rasgo, es el primer modelo formal y el pilar donde se ha apoyado el desarrollo de la denominada teoría clásica de los tests. Ese modelo lo propuso Spearman y, además de la linealidad en la relación entre la puntuación observada y la verdadera del sujeto, introduce otras hipótesis que afectan fundamentalmente al tratamiento de la componente error. En el contexto de este modelo se introduce el concepto de medidas paralelas entre puntuaciones observadas en las pruebas. Magnitudes no directamente calculables, como las varianzas de las puntuaciones verdaderas, o la de los errores, o la correlación entre puntuaciones observadas y verdaderas, se pueden obtener utilizando las propiedades de las correlaciones entre puntuaciones observadas que sean paralelas. El cuadrado de la correlación entre la puntuación observada y la verdadera es el coeficiente de determinación que, bajo los supuestos del modelo, equivale a la correlación entre medidas paralelas. La correlación entre medidas paralelas se utiliza como medida de precisión (fiabilidad), como se verá en los próximos capítulos. Es poco probable que en la práctica se obtengan medidas que cumplan las condiciones de paralelismo definidas en el modelo. Por ello, se ha propuesto que la fiabilidad se pueda calcular con medidas cuyas relaciones sean menos exigentes que las de paralelismo, como es la tau-equivalencia. Actividades r Explicite de forma adecuada cuál es el sentido y la importancia que tiene en el modelo de Spearman la hipótesis de nulidad de los errores. r Comente qué importancia tiene en el modelo de Spearman la hipótesis de no correlación entre puntuación verdadera y error. r Haga una reflexión escrita acerca de por qué es falso lo siguiente: por definición, son medidas paralelas aquellas en que sean iguales sus medias y sus varianzas. r Comente la afirmación que se hace en el texto de que es ilustrativo, útil y necesario conocer el error típico de medida. r Razone por qué dos conjuntos de medidas pueden estar muy altamente correlacionadas y no ser paralelas. Fiabilidad Precisión de las medidas 3 Una característica común a cualquier Ciencia es la evaluación de las variables implicadas en una determinada medida. Para ello, es primordial la determinación, tanto de la precisión con la que se realizan dichas medidas, como la que es exigible en cada caso concreto, ya sea bajo supuestos teóricos o empíricos. En la literatura psicométrica, a la precisión de los instrumentos de medida, o sea, la de los tests y de los cuestionarios, se la denomina fiabilidad. En este capítulo se va a tratar: ã La fiabilidad como índice o indicador de la precisión de las medidas obtenidas mediante los tests o los cuestionarios. ã Diversas expresiones que en la práctica se utilizan para calcular la fiabilidad. ã Hay diferentes tipos de fiabilidad, que no son formas alternativas para evaluar lo mismo, sino que son distintos caminos para evaluar diferentes aspectos de la fiabilidad. ã Los coeficientes (o los índices) de fiabilidad pueden evaluar la estabilidad de las medidas a lo largo del tiempo. ã Mediante los coeficientes (o índices) de fiabilidad se puede evaluar la consistencia intra-ítems, o sea, la homogeneidad de los elementos que componen la prueba u otras relaciones entre los ítems de un mismo test. ã La fiabilidad está afectada por el propio instrumento de medida, por el propósito para el que se construye y por el contexto. 76 Principios de Psicometría m3.1. El concepto de fiabilidadm Una vez que se ha generado un cuestionario o un test hay que conocer la fiabilidad y la validez de las medidas que se obtengan cuando se les administren esas pruebas a los sujetos a los que se desee evaluar. Al hablar de la fiabilidad de un test nos estamos refiriendo a la precisión de ese test, considerado como instrumento de medida, en correspondencia con el concepto de precisión que se tiene acerca de los instrumentos utilizados para las medidas físicas. El término fiabilidad se acuña en el contexto de la teoría clásica de los tests. Teniendo en cuenta que el objetivo de un test es el de poder inferir magnitudes que reflejen los inobservables psíquicos a través de sus manifestaciones observables, hay que ser cuidadosos con la interpretación dada a la fiabilidad pues, a veces, se confunde con otros conceptos como el de adecuación o de validez. La fiabilidad de una prueba o test se refiere, exclusivamente, a la precisión de esa prueba, utilizada como instrumento de medida, y nunca a si ese instrumento es idóneo para la medida de la aptitud, actitud, destreza o cualquier otro tipo de rasgo que se quiere evaluar a través de esa prueba. La cuestión de la idoneidad del instrumento de medida con respecto al rasgo que se desea evaluar es un problema de validez, que es otra de las características necesariamente exigibles a las pruebas psicométricas, cuya problemática se trata en los Capítulos 8, 9 y 10. Tanto la fiabilidad como la validez presentan distintas facetas, que reciben diferentes denominaciones y que tienen sus propios métodos de cálculo e interpretaciones. Cuadro 3.1 Si de una forma intuitiva y muy elemental queremos ilustrar el concepto de lo fiable incardinado con el de lo válido bastará con unos ejemplos muy asequibles a cualquier lector, si nos remitimos a instrumentos de medida que nos son familiares, porque habitualmente los manejamos. Pensemos en una báscula y en un reloj, pudiendo hacer, por ejemplo, las siguientes preguntas: a) ¿Sería aceptable en una prueba de velocidad que se diera como ganador a un corredor por una diferencia de un segundo con respecto a su inmediato seguidor si el cronómetro con el que se ha realizado el control de tiempos no precisa más que hasta segundos? Capítulo 3. Fiabilidad: Definiciones 77 b) ¿Estaría usted de acuerdo si al comprar unos gramos de un bien cuyo precio en el mercado es elevado, por ejemplo azafrán, observara que se utiliza para determinar su peso una balanza cuyas indicaciones vienen señaladas de cinco en cinco gramos? Las respuestas a ambas preguntas coinciden y son negativas. No nos parecería adecuado aceptar las medidas realizadas en cualquiera de los dos supuestos. Evidentemente, los instrumentos utilizados, el cronómetro y la balanza, son los instrumentos más adecuados para medir el tiempo y el peso, por lo tanto, son instrumentos válidos. Sin embargo, no aceptamos como buenas las medidas realizadas con ellos porque, aun siendo instrumentos válidos, no son lo suficientemente precisos como para servir a los propósitos a los que están dirigidos, no son fiables. Tampoco serían fiables un cronómetro que pudiera precisar hasta los milisegundos y una balanza de precisión, si las medidas que se obtuvieran con esos instrumentos estuvieran sujetas a variaciones ambientales no controladas, como pudiera ser la humedad, la temperatura, el nivel de carga de la batería que los alimenta, la posición, etc. Que el instrumento proporcione la medida con la precisión adecuada es necesario, pero no es suficiente para aceptarla, porque también debe mostrar que es válida. Por ejemplo, una balanza de precisión es fiable, pero no es un instrumento válido para medir tiempos. En psicología, una medida antropométrica, como el perímetro craneal, por precisa que sea, no se considera que sea válida para hacer inferencias acerca de la medida de la inteligencia. Sin embargo, aunque no están exentos de críticas, los tests psicométricos se consideran instrumentos adecuados para la medida de la inteligencia. La validez hay que determinarla para cada uno de los tests o cuestionarios que se construya, pues hay que asegurarse de que miden aquello que se pretende medir, y no otra cosa. Por lo tanto, a los instrumentos que se construyan para evaluar aptitudes, rasgos de personalidad, actitudes, etc., hay que exigirles que tengan la suficiente precisión (fiabilidad) y además hay que comprobar su validez. El problema de cómo medir la fiabilidad de los tests se aborda conceptualmente desde la misma perspectiva con la que otras ciencias plantean el problema de la precisión de sus instrumentos de medida, si bien la metodología de la que la psicometría hace uso suele ser diferente, llevando a veces a tener que construir otro instrumento análogo e intercambiable al que se denomina test paralelo. 78 Principios de Psicometría El control de la fiabilidad se realiza partiendo del mismo supuesto que en las medidas físicas. Si el instrumento de medida es preciso, las medidas repetidas serán semejantes y, salvo errores accidentales, se dará la constancia en las medidas. La constancia o estabilidad de las puntuaciones se evalúa mediante el coeficiente de correlación lineal entre dos conjuntos de puntuaciones, consideradas como paralelas, que usualmente se obtienen de la aplicación de dos formas del test a los mismos sujetos de la población que se estudia, o de la aplicación del mismo test en al menos dos ocasiones diferentes. La consistencia interna de las medidas se suele evaluar con correlaciones intra-test. La denominación genérica que se da a las correlaciones que son indicadoras de la fiabilidad de una prueba, es la de coeficiente de fiabilidad, o índice de fiabilidad. Formalmente, el valor del coeficiente de fiabilidad se corresponde con el cuadrado del valor del índice, expresando el primero la correlación entre dos conjuntos de medidas observadas, bajo la condición de que sean paralelas. El índice se corresponde conceptualmente con el coeficiente de correlación entre las puntuaciones observadas y sus correspondientes puntuaciones verdaderas. En el siguiente apartado se definen formalmente los coeficientes e índices de fiabilidad y la relación entre ellos, así como sus relaciones con las propiedades y características propias de las medidas consideradas como paralelas. m3.2. Ecuaciones para definir y calcular la fiabilidadm La fiabilidad se da en el contexto de la TCT y relaciona la medida X observada mediante el test con la puntuación verdadera V, que es inobservable. Definiciones La fiabilidad de un test se define como la variación relativa de la puntuación verdadera con respecto a la puntuación observada, calculada como la razón entre sus respectivas varianzas. Por lo tanto, la relación σ V2 / σ X2 es por definición la medida de la fiabilidad. Esta relación entre varianzas es formalmente igual al cuadrado del coeficiente de correlación lineal obtenido entre las puntuaciones observadas y las verdade- Capítulo 3. Fiabilidad: Definiciones 79 ras, como se demostró anteriormente (Cuadro 2.2). El coeficiente de fiabilidad se define como: ρ2XV = σ 2V σ 2X (3.1) A esta razón de varianzas se la llamó coeficiente de determinación en la ecuación (2.4) y se refiere en concreto a la determinación de la fiabilidad del test X. Al coeficiente de correlación ρXV se le denomina índice de fiabilidad. Como ya se ha indicado, es necesario buscar expresiones equivalentes a éstas para que, operando con valores observados, se calculen dichos coeficientes. La solución la encontramos en la definición de medidas paralelas y en sus propiedades expuestas en el Apartado 2.3, en donde se deduce la ecuación (2.12). Por lo tanto, la fiabilidad se puede obtener calculando la correlación lineal entre dos conjuntos de medias paralelas: ρ2XV = ρ XV = σ 2V σ 2X = ρ XX ′ = cov( XX′) = coeficiente de fiabilidad σ X σ X′ σV = ρ XX ′ = índice de fiabilidad σX Cuadro 3.2 Las ecuaciones (3.2) no tienen erratas, aunque desde un punto de vista formal no se puede hacer coincidir un coeficiente de correlación (entre X y X' ) con el cuadrado de otro (entre X y V), pues un coeficiente de correlación simple puede ser positivo o negativo, lo que nunca puede ser un cuadrado. Del mismo modo, aunque ρXX' fuese positivo, su raíz cuadrada podría ser un número tanto positivo como negativo, en cuyo caso, el valor del índice carecería de sentido. Las igualdades dadas en (3.2) se definieron así originalmente y han perdurado en la literatura del tema, por lo que hemos preferido conservarlas, en vez de hacer unas definiciones formalmente más correctas, pero que podrían inducir a confusiones al no ser usuales en el campo. (3.2) 80 Principios de Psicometría El cálculo de la fiabilidad, de acuerdo con las ecuaciones (3.2) presenta algunos problemas en la práctica, puesto que es poco probable que se dé la igualdad de medias y varianzas entre las puntuaciones muestrales observadas, como exigen las condiciones de paralelismo. Por ello, se han propuesto condiciones menos estrictas para las relaciones entre las puntuaciones, como las expuestas en el Apartado 2.3, pudiéndose realizar el cálculo del coeficiente de fiabilidad con puntuaciones empíricas que sean medidas paralelas o tau-equivalentes. Ecuación para un test compuesto por subtests La expresión general de cálculo de la fiabilidad como coeficiente de correlación entre medidas paralelas, como se indica en las ecuaciones (3.2), también es aplicable al cálculo de la fiabilidad de tests compuestos por varios subtests o por una batería de tests. Lo que hay que considerar, en este caso, es que el test X del que se quiere conocer su fiabilidad, está compuesto por k componentes: X = X1, …, Xk, y que al calcular la correlación entre las puntuaciones observadas y las verdaderas habrá que tener en cuenta toda la covarianza entre las variables. Esto es, hay que considerar todas las covariaciones posibles entre los pares de variables, que serán varianzas cuando sea i = j y términos de covarianza cuando i ≠ j, formándose así matrices cuadradas de dimensiones (k x k), en las que las varianzas serán los elementos de la diagonal principal. Si se denotan por ∑ VV ; ∑ XX ; ∑ XV las respectivas matrices de varianzas y covarianzas entre las puntuaciones verdaderas, entre las observadas y entre las observadas y las verdaderas, la correlación (que es el cociente entre la covarianza y las desviaciones típicas), se calculará mediante la expresión: ρ XV = I′ ∑ XV I [I′ ∑ XX I] 1 2 [I′ ∑ VV I] 1 2 (3.3) 81 Capítulo 3. Fiabilidad: Definiciones donde por I' e I se indican los correspondientes vectores unidad. Cuando se considera que los diferentes subtests no tienen la misma importancia, sino que se supone que unos tienen más influencia (más peso) que otros en la medición del constructo, a los subtests se les asigna una determinada ponderación, ai. En ese caso el test X es una combinación lineal de sus componentes, que se puede expresar como: X = a1X1 +... + akXk, y la ecuación (3.3) adopta la forma ρ XV = A′ ∑ XV A [A′ ∑ XX A] 12 [A′ ∑ VV A] 12 (3.4) donde A' (traspuesto de A) es el vector A' = (a1, …, ak). La asignación de los pesos a cada una de las componentes no es arbitraria, sino que se les asignan aquellos pesos que maximizan la fiabilidad del compuesto. Valores e interpretación Tanto el coeficiente como el índice de fiabilidad son valores positivos y están acotados. Pueden ser valores cualesquiera del intervalo [0, 1]. Que estos valores no pueden ser negativos se deduce del concepto y de la propia definición del coeficiente de fiabilidad, como cociente entre dos varianzas, que necesariamente son magnitudes positivas. El método de cálculo, como coeficiente de correlación lineal entre dos conjuntos de medidas X y X', pudiera llevar a pensar que pueden tomar valores en el intervalo [–1, 1], pero también por esta vía es fácil concluir que no es posible obtener valores menores que cero, si se tiene en cuenta que esas medidas son paralelas y se consideran las condiciones establecidas para el paralelismo. Que el coeficiente y el índice de fiabilidad no pueden tomar valores mayores que la unidad se debe a que σ V2 ≤ σ X2 . También se explica porque el cociente σ V2 / σ X2 se ha establecido que es equivalente a un coeficiente de correlación lineal. El coeficiente de fiabilidad alcanzará la cota superior de su valor cuando el cociente entre ambas varianzas sea la unidad, o bien, cuando la correlación lineal entre medidas paralelas sea la unidad. El menor valor del coeficiente, que es el valor cero, se alcanza cuando σ V2 = 0, o bien, cuando el coeficiente 82 Principios de Psicometría de correlación ρXX' resulte ser nulo, lo que indica que la covarianza entre las variables X y X' es cero. Por lo tanto: 0 ≤ σ 2V σ 2X = ρ XX ′ ≤ 1 (3.5) La interpretación de la bondad de un test en relación con su precisión se hace estableciendo un cierto paralelismo entre los valores que se obtienen para los coeficientes o los índices de fiabilidad y categorías tales como poco fiable, moderadamente fiable o muy fiable, consideradas entre las dos categorías extremas que son la ausencia de fiabilidad y la fiabilidad perfecta, pero no hay puntos de corte fijos y definidos para ningún tipo de partición entre esas supuestas categorías. La ausencia de fiabilidad se identifica con el valor ρXX' = 0. La fiabilidad perfecta se identifica con el valor ρXX' = 1 y esto teóricamente supone que no existe varianza error y que por lo tanto σ X2 = σ V2 , esto es, que toda la varianza de la puntuación observada se debe a la de la puntuación verdadera. Valores diferentes de cero y de uno son los usuales, diciendo que hay una escasa fiabilidad para valores próximos a cero, y que la fiabilidad es elevada cuando los valores de ρXX' son próximos a uno. Cuadro 3.3 Un test de fiabilidad moderada podría tener asociado un coeficiente de fiabilidad con un valor, por ejemplo 0.72, u otro similar, no pudiéndose dar normas fijas ni valores concretos que establezcan con exactitud si una prueba debe ser o no admitida como fiable, salvo que estos valores no sean significativamente diferentes de cero. Esta significación se obtiene, a determinados niveles de probabilidad, mediante el correspondiente contraste de hipótesis, poniendo a prueba la hipótesis nula de que el coeficiente de fiabilidad es cero. El nivel de precisión exigible al test está en función del tipo de prueba y del objetivo, u objetivos, para el que esa prueba se construye. El valor Capítulo 3. Fiabilidad: Definiciones 83 anterior de 0.72 puede considerarse una fiabilidad alta en algunos tipos de pruebas y baja para otras. Una forma rigurosa de proceder es la siguiente. Una vez estudiado y decidido cuál es el nivel mínimo de precisión exigible al instrumento de medida (test, cuestionario, etc.), se materializa esa exigencia fijando un cierto valor para el coeficiente de fiabilidad, por debajo del cual una menor precisión no sería admisible. Si el valor experimentalmente obtenido para ρXX' es un valor mucho menor que el fijado, se rechaza esa prueba, puesto que no alcanza el nivel mínimo de precisión deseado. Sin embargo, la apreciación de las simples diferencias entre el valor observado y el esperado puede ser equívoca. Antes de tomar la decisión, se debe hacer un contraste de hipótesis estadístico que revele a qué nivel de confianza se puede aceptar o rechazar la hipótesis de que el valor obtenido es significativamente igual al valor dado, y si el test debe ser admitido o no como fiable, bajo las condiciones previamente establecidas. La forma que en la práctica se utiliza para calcular la correlación que va a proporcionar el valor del coeficiente de fiabilidad ρXX' depende de la forma en que se obtengan las medidas supuestamente paralelas y es a lo que se va a dedicar el siguiente apartado. m3.3. Formas usuales de generar medidas repetidasm Puesto que la fiabilidad se determina formalmente mediante el coeficiente de correlación lineal entre medidas repetidas, realizadas con el mismo test y en las mismas condiciones, o con tests considerados equivalentes por proporcionar medidas paralelas, existen procedimientos que han venido a ser clásicos en el diseño de las pruebas para la obtención de la fiabilidad. Éstos son los denominados test-retest, formas paralelas y división del test en dos partes. Cada una de las modalidades tiene asociada una problemática distinta y, como se verá más adelante, no responden exactamente al mismo concepto de fiabilidad, pues en tanto que unos diseños llevan a su medida en el sentido de la estabilidad de las puntuaciones, otros indican cuál es la consistencia interna de la prueba. 84 Principios de Psicometría Test-retest Bajo esta denominación se indica que las puntuaciones repetidas X y X' se han obtenido aplicando el mismo test a los mismos sujetos y en las mismas condiciones en dos ocasiones diferentes, generalmente separadas en el tiempo. Si las correlaciones entre ambas aplicaciones son elevadas y las condiciones de aplicación de la prueba en las dos ocasiones son esencialmente iguales, entonces se considerará que la prueba es fiable en el sentido de que se observa una significativa estabilidad en las puntuaciones. Es evidente que, si se determina que el test se debe aplicar a los mismos sujetos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la verificación de que esas premisas se cumplen. Uno de los problemas a los que con mayor frecuencia se hace alusión en la literatura es al posible efecto de aprendizaje del sujeto durante la realización de la prueba, que influirá en sus resultados cuando esa misma prueba la realiza por segunda vez. Este efecto se elimina, o al menos puede quedar paliado, si se deja transcurrir un tiempo suficiente entre ambas aplicaciones de la prueba. Esta solución, sin embargo, no siempre es posible, bien porque no se puedan tener disponibles los mismos sujetos, o porque no se puedan reproducir las mismas condiciones en un tiempo posterior, o bien, porque el rasgo que se está evaluando pueda también sufrir variaciones en ese intervalo de tiempo, porque se produzca algún hecho o alguna intervención que lo modifique. Este último sería el caso, por ejemplo, cuando se aplicara un test para valorar un tipo de disfunción o patología, y entre una aplicación y otra de la prueba algunos de los sujetos estuvieran recibiendo tratamiento terapéutico. Formas paralelas Formalmente se entiende por formas paralelas de un mismo test a las que cumplen las condiciones dadas en el Apartado 2.3. En la práctica, se suelen construir dos pruebas de forma paralela que resulten ser prácticamente equivalentes, de manera que las pruebas pudieran ser intercambiables. Esta forma de obtener medidas repetidas, destinadas a la posterior obtención del coeficiente de fiabilidad de la prueba, elimina una de las dificultades que presenta el método del test-retest, puesto que ambas pruebas se aplicarían Capítulo 3. Fiabilidad: Definiciones 85 a los sujetos en el mismo momento y, por lo tanto, se tiene un control más directo de que el sujeto las realiza en las mismas condiciones, aunque se alargaría el tiempo de aplicación. En este caso, habría que tener en cuenta si la respuesta de una forma influye en la otra y la longitud de las pruebas. A veces es conveniente hacer un pequeño descanso entre aplicaciones, para que las respuestas no estén contaminadas por un efecto de fatiga en los sujetos que las cumplimentan. El gran inconveniente que tiene esta modalidad es el de que multiplica el esfuerzo en el proceso de construcción y selección de ítems. En la actualidad, en bastantes tipos de pruebas ya se han construido los ítems con anterioridad y se tiene disponible un gran banco de ítems de los que se conocen sus características, gracias a las técnicas de la teoría de la respuesta al ítem (TRI) que trataremos en capítulos posteriores. División en dos partes Se trata en este caso de poner en relación las puntuaciones entre dos partes del mismo test, actuando ambas como si fuesen dos formas paralelas. La división del test en dos partes se puede llevar a cabo de muy distintas formas, sin embargo, para realizarla correctamente con el propósito de calcular la fiabilidad, hay que tener en cuenta cómo se ha diseñado el test. En un test con ítems muy homogéneos, cualquier división en dos partes iguales se puede aceptar como adecuada. Por el contrario, en aquellos casos, muy usuales en la práctica del diseño y la construcción, en los que el test va creciendo en dificultad a medida que se avanza en su ejecución; o bien, en aquellos otros en que sin ser de dificultad creciente, se les ha introducido al principio un cierto número de ítems de pequeña dificultad con el fin de motivar al sujeto, no sería conveniente realizar una división en dos partes sin tener en cuenta dichas características. Los primeros ítems de una de las partes serían más fáciles que los de la otra si se hiciese, por ejemplo, la división eligiendo los n/2 primeros para una de las partes. Una de las divisiones en dos partes, que tiende a paliar las dificultades anteriormente mencionadas, es aquella en que se eligen por un lado los elementos que ocupan los lugares pares del test y por otro los impares, para utilizarlos como dos formas paralelas. De esta forma los ítems que componen las dos partes en las que queda dividido el test tienen dificultades similares. 86 Principios de Psicometría La fiabilidad obtenida correlacionando las partes de un mismo test proporciona coeficientes que no se pueden interpretar en el mismo sentido que la fiabilidad calculada utilizando los datos obtenidos al administrarlo de forma repetida, ya sea el mismo test en distintas ocasiones o sus formas equivalentes. Cuadro 3.4 Cuando en el Capítulo 5 se estudie el significado del coeficiente de fiabilidad alfa, se hará una discusión más amplia de la conveniencia de usar una u otra forma, dependiendo del contexto y de la finalidad del test. Otra de las anotaciones que debemos hacer aquí, saliendo al paso de posibles confusiones, es la de que las medidas repetidas (entre las que son usuales el test-retest, formas paralelas y división en dos partes) deben cumplir las condiciones formales de paralelismo para que se las utilice como medidas paralelas. Si las medias y las varianzas de las medidas repetidas no son significativamente iguales, no se puede hacer uso de todas aquellas propiedades de las medidas que se han deducido de las condiciones de paralelismo. Es relativamente frecuente encontrar en nuestro idioma la expresión división en dos mitades en vez de división en dos partes. Preferimos utilizar esta última, aclarando que aunque frecuentemente las dos partes son iguales, no es necesariamente así en todas las ocasiones y en esos casos de no equivalencia o de diferentes longitudes de las partes, el tratamiento es ligeramente distinto (véase por ejemplo Feldt y Brennan, 1989). Quizá con la expresión dos mitades se trate de evitar confusiones sobre la equivalencia e igualdad de longitud entre las partes. m3.4. Cálculo práctico de los coeficientes e índices de fiabilidadm En este apartado se dan tres ejemplos de cómo pueden calcularse en la práctica los coeficientes e índices de fiabilidad. Se utiliza un número reducido de sujetos para facilitar los cálculos, pero el lector debe entender que en realidad habrá que utilizar un número de sujetos muy superior para poder generalizar a una pobla- 87 Capítulo 3. Fiabilidad: Definiciones ción, cumpliendo siempre la condición de que las muestras sean representativas de dicha población. Ejemplo 3.1 Las puntuaciones X y X' que se dan en la Tabla 3.1 se han obtenido como resultado al administrar dos pruebas supuestamente paralelas a siete sujetos que se asume que son una muestra representativa de la población para la que se construye esa prueba. Las puntuaciones de X y X' varían entre cero y 15 puntos. Se trata de calcular la fiabilidad de la prueba y de discutir los procedimientos, así como los resultados. Tabla 3.1. Puntuaciones de siete sujetos en un cuestionario de quince ítems. Sujetos Puntuaciones 1 2 3 4 5 6 7 X 7 10 14 13 6 9 4 X' 9 11 13 13 7 7 3 Comoquiera que la modalidad elegida para calcular la fiabilidad de la prueba ha sido la de correlación lineal entre dos formas paralelas, el primer paso es comprobar si las puntuaciones X y X' se pueden considerar paralelas, contrastando la igualdad de sus medias y varianzas. Calculados esos estadísticos en ambas pruebas sus valores son: X = E( X ) = 1 i=7 63 ∑ Xi = = 9 ; N i=1 7 ∑ ( X i − X )2 X ′ = E( X ′) = 7 s2X = i=1 N 1 i=7 63 ∑ X i′ = = 9 N i=1 7 ∑ ( X i′ − X ′)2 7 = 80 = 11.43 ; s2X′ = 7 i=1 N = 80 = 11.43 7 obteniéndose que sX = sX' = 3.38. Los resultados permiten el uso de ambas pruebas como medidas paralelas, y puede calcularse el coeficiente de fiabilidad de la prueba, que según (2.12) es: 88 Principios de Psicometría rXX′ = 1 N ∑ ( X i − X )( X ′i − X ′) s X s X′ = 1 74 = 0.92 7 11.43 Por lo tanto, se infiere que el coeficiente e índice de fiabilidad de las pruebas son: ρ XX′ = 0.92 ; ρ XV = ρ XX′ = 0.96 El resultado obtenido indica que la prueba tiene una fiabilidad elevada. Puesto que el coeficiente de fiabilidad rXX' es menor (o igual) que la unidad, el valor del índice siempre será mayor (o igual) que el del coeficiente. En este ejemplo, los valores obtenidos para el índice y coeficiente de fiabilidad indican que la prueba es muy fiable. Si los datos, como se ha supuesto, se han obtenido de muestras representativas de las poblaciones, tanto de ítems como de sujetos, la prueba tiene suficiente precisión para utilizarla como instrumento de medida. Ejemplo 3.2 Supóngase ahora que los valores de X y X ' dados en la Tabla 3.1 no se han obtenido aplicando dos pruebas diferentes, supuestamente paralelas, sino en replicaciones de una misma prueba y que se desea conocer la fiabilidad de la prueba. Si las condiciones de aplicación en este ejemplo responden a las exigidas a la modalidad test-retest, detalladas en el Apartado 3.3, y los datos son idénticos a los de la Tabla 3.1, no hay necesidad alguna de contrastar nuevamente la hipótesis de paralelismo. El cálculo de la fiabilidad y su interpretación ya están dados en el ejemplo anterior. Ejemplo 3.3 En la Tabla 3.2 se presentan los datos de tres sujetos que han respondido a los ocho ítems de los que consta una prueba. Se quiere calcular la fiabilidad de la prueba de la que sólo es posible disponer de los datos relativos a una sola aplicación. En este caso hipotético, el único método posible es el de la división en dos partes. Una opción es la de correlacionar las puntuaciones de los ítems 1, 3, 5 y 7 con las de los ítems 2, 4, 6 y 8. Es decir, establecer la correlación entre los 89 Capítulo 3. Fiabilidad: Definiciones ítems que ocupan los lugares pares con los de los impares. Se trata de calcular la correlación entre los valores que se dan en la Tabla 3.3: Tabla 3.2. Datos de tres sujetos en una prueba de ocho ítems. Ítems Sujetos 1 2 3 4 5 6 7 8 a b c 10 9 10 10 12 8 8 6 10 4 4 6 6 7 8 9 8 6 8 9 10 8 6 8 Total 29 30 24 14 21 23 27 22 Tabla 3.3. Puntuaciones de los ítems en lugares impares y pares. Impares: X Pares: X ' 29 24 30 21 14 27 23 22 Calculada la correlación, el coeficiente es rXX' ≅ 0.52. En este caso se concluiría que la prueba es fiable, pero que su fiabilidad es muy moderada y que, salvando las precisiones que se han hecho en el Cuadro 3.3, esa fiabilidad debería mejorarse antes de aplicar la prueba. En otros apartados de esta obra (4.1, 4.2, 4.3 y 5.7) se dan indicaciones de cómo mejorar la fiabilidad de las pruebas. Cuadro 3.5 Los ejemplos anteriores se presentan en el marco de la TCT, que es donde se acuña el término fiabilidad, y están sujetos a más limitaciones de las que serían deseables en cuanto al número de ítems y de sujetos, habiendo acudido a pequeños tamaños con la finalidad de que el lector pueda hacer los cálculos sin el uso de programas de computador. Sin embargo, en los casos reales el volumen de cálculo no es un problema, pues los cálculos de coeficientes de fiabilidad en muchas de sus formas vienen implementados en programas de software como el SPSS. En todo caso, el lector debe tener 90 Principios de Psicometría siempre en cuenta que en un supuesto real debe asegurarse de que se cumplen las condiciones básicas que legitiman los procesos de inferencia que se realizan. En cualquier supuesto en el que sea necesario construir una prueba y, por lo tanto, conocer la fiabilidad de esa prueba, se tiene que tener en cuenta el tipo de prueba, la forma de obtener las medidas repetidas, las condiciones de aplicación, etc. Si, como es lo usual, el cálculo de la fiabilidad es uno de los pasos en el proceso de construcción de una prueba; cuyo objetivo último es el de aplicarla de forma estándar a una determinada población, hay que asegurarse de que los sujetos a quienes, con carácter experimental, se les administra la prueba, constituyen una muestra representativa de aquella población y de que el tamaño muestral elegido permite hacer posteriores inferencias con el nivel de confianza deseado. Esto significa que habrá que controlar, entre otras, variables socio-culturales, así como la edad y el sexo o el género, u otras. Además habrá que documentarse sobre los procedimientos estadísticos para que los tamaños de muestra sean los adecuados para hacer las inferencias con las debidas garantías. m3.5. Otras ecuaciones para el cálculo de la fiabilidadm En el caso en que se calcule la fiabilidad correlacionando los elementos situados en los lugares pares con los de los impares, se puede hacer uso de la ecuación de Rulon o de la de Flanagan y Guttman. Ambas ecuaciones, aunque se desarrollaron de forma independiente, son similares. Si se hace la división del test en dos partes, se puede poner en relación cada elemento situado en el lugar impar con su correspondiente par. Así, para un test con un número par de elementos n, si se denomina a los ítems por su número de orden en la composición del test, se pondrían en relación los elementos de las parejas: (1, 2), (3, 4), …, (2n –1, 2n). Conocidos los valores de la variable X (puntuación) de todos los sujetos en todos y cada uno de los ítems o elementos de la prueba, se pueden poner en relación todas las parejas de puntuaciones (Xi, Xp ), denotando por Xi a los ítems que ocupan una posición impar, y por Xp a aquellos que ocupan la posición par correspondiente. 91 Capítulo 3. Fiabilidad: Definiciones Ejemplo 3.4 Se quiere conocer las medias, las varianzas y las desviaciones típicas de los datos de la Tabla 3.4, que son los valores obtenidos en los 16 ítems de una prueba, que se administran a 8 sujetos, dando separadamente los valores en los ítems que ocupan un lugar impar o par, así como los valores de las diferencias entre ellos. Tabla 3.4. Valores obtenidos en una prueba que consta de 16 ítems. Sujetos Ximpar = Xi Xpar = Xp Xp-i = Xp – Xi 1 2 3 4 5 6 7 8 15 16 1 14 19 5 16 12 –4 10 18 8 9 10 1 10 7 –3 12 10 –2 10 12 2 Los valores medios, varianzas y desviaciones típicas de las tres variables consideradas son: σ 2X = 6.25 σ X i = 2.50 X p = 13 σ 2X = 15.75 σ X p = 3.97 X p−i = X p − X i = 1 σ 2X σ X p − i = 3.81 X i = 12 i p p−i = 14.50 Ecuación de Rulon Es una forma de cálculo de la fiabilidad mediante la expresión: ρ XX ′ = 1 − σ 2X p−i σ 2X (3.6) donde la puntuación total es X = Xp + X i y la de la diferencia entre los ítems que ocupan lugares pares e impares es Xp–i = Xp – X i . 92 Principios de Psicometría Cuadro 3.6 La ecuación (3.6) puede deducirse a partir de la expresión de la varianza de las variables Xp y X p–i, bajo los supuestos del modelo de Spearman. Si es n el número total de elementos de la prueba, la variable Xp–i tendrá n/2 elementos y la varianza de esa variable es: ∑ ( X p−i − X p−i )2 n/ 2 σ 2X p−i = 1 n/2 ∑ [( X p − X i ) − ( X p − X i )] n/ 2 = 2 1 n/2 Sustituyendo las puntuaciones observadas por sus correspondientes verdaderas, y teniendo en cuenta que tanto para los elementos de los lugares pares como para los de los impares se trata de una prueba realizada por los mismos sujetos en las mismas condiciones, estas puntuaciones verdaderas serán idénticas tanto si los ítems están en un lugar par o impar. Es decir, X p = V + e p y X i = V + e ¡, por lo tanto, X p = V = X i . Luego: σ 2X p−i = ∑ [( V + ep − V ) − ( V + ei − V )] n/2 2 = ∑ ( ep − ei )2 n/2 Esta expresión es equivalente a las siguientes: σ 2x p−i = + ∑ {[ep − E(ep )] − [ei − E(ei )]} 2 ∑ [ei − E(ei )] n/2 n/2 2 −2 = ∑ [ep − E(ep )] ∑ [ep − E(ep )] n/2 2 + [ei − E(ei )] = σ 2 n/2 ep + σ e2 i en las que se han sustituido los términos ep y ei por [ep – E(ep)] y [ei – E(ei)], respectivamente. Ello es posible ya que, si se tienen en cuenta las hipótesis del modelo E(ep ) = E(ei ) = 0. Por otra parte, al desarrollar el cuadrado de la diferencia, el término del doble producto expresa la covarianza entre los errores ep y ei que es nula, ya que por hipótesis los errores no están correlacionados. Luego σ 2Xp – i = σ 2e i + σ 2e p = σ 2e . Capítulo 3. Fiabilidad: Definiciones 93 Al sustituir σ 2e por su equivalente σ 2Xp – i en la expresión general del coeficiente de fiabilidad, se tiene que: ρ XX' = σ 2V σ 2X σ e2 = 1− σ 2X = 1− σ 2X p−i σ 2X que es la expresión dada para la ecuación de Rulon. De la ecuación de Rulon se deduce que la fiabilidad de una prueba se puede conocer si se conoce la varianza total de la prueba y la de la variable de las diferencias entre los elementos que ocupan los lugares pares e impares. La interpretación de esta expresión, como coeficiente de fiabilidad, es inmediata. Puesto que σ X2 ≥ σX2 p-i , el cociente entre ambas varianzas es positivo y menor o igual a la unidad, al estar σ X2 p-i en el numerador de (3.6). Por lo tanto: a) ρXX' toma los valores de un coeficiente de fiabilidad 0 ≤ ρXX' ≤ 1. b) El valor 0 para ρXX' se obtiene cuando σ X2 p-i = σ X2 . Toda la varianza es varianza error. c) El valor 1 para el coeficiente de fiabilidad (su cota superior) se alcanza cuando la varianza de las diferencias es cero. Cuadro 3.7 Siguiendo con el ejemplo de la Tabla 3.4, para calcular la fiabilidad mediante la ecuación de Rulon, además de la varianza de la variable Xp–i, habrá que calcular la de la variable X. Al ser esta variable aleatoria suma de otras dos, X = Xi + Xp, su varianza es la suma de las varianzas de cada una, más la covarianza entre ellas [2 cov (Xp, Xi)]. Las varianzas de ambas variables y la de las diferencias ya se han calculado anteriormente y la covarianza puede obtenerse de la relación: σ 2X p−i = σ 2X + σ 2X − 2 cov( X p , X i ) p i 94 Principios de Psicometría de donde 2 cov( X p , X i ) = σ 2X + σ 2X − σ 2X p i p−i = 15.75 + 6.25 − 14.50 = 7.50 resultando σ 2X = σ 2X + σ 2X + 2 cov( X p , X i ) = 15.75 + 6.25 + 7.50 = 29.50 p i Sustituyendo estos valores se obtiene: ρ XX′ = 1− σ 2X p−i σ 2X = 1− 14.5 = 0.51 29.5 para el valor de la fiabilidad de esa prueba. Ecuación de Flanagan y Guttman La ecuación que dan estos autores responde a la expresión: σ2 + σ2 4 ρ Xp Xi X pX i σ X p σ X i ρ XX ′ = 2 1 − = σ 2X σ 2X (3.7) donde todos los términos tienen el mismo significado que el dado anteriormente. Cuadro 3.8 La ecuación de Flanagan y Guttman se puede derivar directamente de la dada por Rulon, aunque, como ya se ha dicho, estos autores la desarrollan independientemente. Capítulo 3. Fiabilidad: Definiciones 95 La comprobación es inmediata, ya que: ρ XX′ = 1− = σ 2X p−i σ 2X = σ 2X − σ 2X σ 2X p−i = σ 2X + σ 2X + 2 ρ X p X i σ X p σ X i − σ 2X + σ 2X − 2 ρ X p X i σ X p σ X i p p i i σ 2X que se obtiene sustituyendo las varianzas de una suma (X = X p + Xi) y una diferencia (Xp –Xi) de variables por sus correspondientes expresiones, siendo ρXpXi el coeficiente de correlación lineal entre las variables Xp y Xi. Reordenando términos se obtiene la expresión: ρ XX′ = 4 ρ Xp Xi σ Xp σ Xi σ 2X que es equivalente a la ecuación de Rulon, pero cuyo cálculo aparenta ser más simple. Usando los datos de la Tabla 3.4 se obtiene que 15.75 + 6.25 ρ XX′ = 2 1− = 0.51 29.5 Sabiendo que ρXpXi σXpσXi = 3.75 (Cuadro 3.7) se obtiene también: ρ XX′ = (4 )( 3.75) = 0.51 29.5 resultados que coinciden con el obtenido anteriormente con la fórmula de Rulon. Puntos clave 3 La fiabilidad mide la precisión de las medidas en los tests y cuestionarios. Conceptualmente indica con qué fuerza (cuantía de la correlación) están linealmente correlacionadas las puntuaciones que se observan al aplicar la prueba y las 96 Principios de Psicometría 3 3 3 3 3 3 que serían las puntuaciones verdaderas de los sujetos en el rasgo que se pretende evaluar. La puntuación verdadera del sujeto no es directamente observable, por lo que se hacen hipótesis, en el contexto del modelo lineal de Spearman, para poder calcular esas correlaciones, utilizando solamente puntuaciones empíricas. Esto es posible cuando las correlaciones se calculan entre medidas paralelas o tauequivalentes. En tests compuestos por varios grupos formando una batería, la fiabilidad también se evalúa mediante correlación entre puntuaciones observadas y verdaderas, teniendo en cuenta que el cálculo de esa correlación se hace con puntuaciones empíricas y que intervienen todas las variables componentes. La fiabilidad en el sentido de estabilidad de las puntuaciones se obtiene con aplicaciones repetidas de una misma prueba, o de pruebas equivalentes. La fiabilidad que da cuenta de la consistencia interna entre los ítems o elementos de la prueba se puede obtener correlacionándolos. Hay diferentes formas de hacerlo, una de ellas es dividir el test en dos partes y correlacionar las puntuaciones de cada uno de los ítems de una parte con las de su correspondiente ítem en la otra. Las fórmulas de Rulon y de Guttman miden la consistencia interna y calculan la fiabilidad a partir de una sola aplicación del test, correlacionando (en el orden en que están dadas) las puntuaciones de los ítems que ocupan los lugares pares con los correspondientes que ocupan los lugares impares. La consistencia interna se suele calcular mediante coeficientes que no exigen el paralelismo, como el denominado coeficiente alfa, que se va a introducir en el quinto capítulo de este texto. Actividades r Piense en alguna característica que desee medir y formule un conjunto de preguntas. Discútalas con algún compañero y con el profesor. Prepare con ello un test. r Si la fiabilidad indica precisión ¿por qué tiene sentido definir su medida como el cociente entre dos varianzas? r Comente cuánto tiene de formal y/o de ingenioso inferir la fiabilidad de una prueba de la correlación entre medidas paralelas. r Si la fiabilidad no puede ser negativa ¿es correcto hablar de índice de fiabilidad, siendo éste la raíz cuadrada (que puede ser un valor positivo o nega- Capítulo 3. Fiabilidad: Definiciones 97 tivo) del valor de un coeficiente de correlación denominado coeficiente de fiabilidad? r Calcule la fiabilidad por distintos métodos, compare y discuta la diversidad de resultados a) desde el punto de vista de su valor b) desde el punto de vista de sus diferentes significados r Si no lo ha hecho en el ejercicio anterior, divida su test en dos partes, de dos formas diferentes, una en la que se conserve el orden de presentación (una parte la constituyen los 50% primeros ítems y el otro 50% los siguientes), la otra en pares, impares y aplique la fórmula de Rulon. ¿Cuáles son los resultados? ¿Son muy diferentes? Si es así, analice las posibles causas. r Explique en una página a qué se debe que distintas formas de calcular la fiabilidad tengan diferente significado: e.g., estabilidad versus consistencia interna. Fiabilidad Variabilidad de las puntuaciones y longitud de las pruebas 4 En el capítulo anterior se explicita que el valor que se obtiene para indicar la fiabilidad de un test puede depender, entre otras cosas, del tipo de fiabilidad que se mida, ya sea la estabilidad o la homogeneidad interna de las puntaciones. También, con sólo observar la ecuación (3.2), se puede inferir que la fiabilidad depende de la varianza de las puntuaciones observadas. En este capítulo se va a tratar: ã La fiabilidad calculada para un test está afectada por la variabilidad de las puntuaciones de la muestra sobre la que se calcula. ã Los cambios en la longitud de una prueba, ya sea porque se añaden nuevos elementos, o bien por supresión de algunos de los existentes, cambian la fiabilidad de esa prueba. ã Cómo afecta la varianza de las puntuaciones en el test a su fiabilidad. m4.1. Fiabilidad y variabilidad de las puntuacionesm Cuando se va a estimar la fiabilidad de una prueba, el valor que se obtiene para esa fiabilidad es mayor cuanto mayor es la varianza de las puntuaciones en esa prueba de los sujetos que componen la muestra. Al estudiar las propiedades de las pruebas (tests, cuestionarios, inventarios, etc.) son muchas las posibles muestras aleatorias representativas que se pueden extraer de una población en la que se pretende medir un rasgo mediante una determinada prueba. Por lo tanto, el coeficiente de fiabilidad de esa prueba, obtenido correlacionando medidas paralelas, mostrará valores diferentes, pues las puntuaciones, 100 Principios de Psicometría X y X', variarán de unos grupos a otros y de unas muestras a otras. En principio, se espera que esas diferencias no sean significativas si las muestras son realmente representativas de la población a la que representan. Es decir, la muestra debe reflejar toda la variabilidad que exista en la población en relación con aquello que se pretende medir. Por lo tanto, en el estudio de la fiabilidad es esencial tener en cuenta estas consideraciones, pues dado un valor para la fiabilidad, es necesario poder determinar hasta qué punto la medida dada de la precisión de la prueba está afectada por esa variabilidad. Este estudio se realiza comparando las varianzas de las puntuaciones obtenidas por diferentes muestras en las mismas pruebas. A continuación se van a establecer esas relaciones entre variabilidad de las puntuaciones y fiabilidad, es decir, entre heterogeneidad de las muestras y precisión de la prueba. Por simplicidad, aquí se va a ilustrar considerando sólo dos muestras, aunque es obvio que se puede generalizar a un número arbitrario de ellas. Sea una prueba X, siendo X' una prueba paralela, y sean A y B dos muestras aleatorias extraídas de la población para la que se construye la prueba X. Los dos pares de conjuntos de puntuaciones que se obtienen aplicando pruebas paralelas en las muestras A y B son (XA, X'A ) y (XB, X'B ) con: { } { } { } { } X A = X A j ; X′A = X′A j ; X B = X B j ; X′B = X′B j Correlacionando ambos pares de valores muestrales se obtienen los coeficientes de fiabilidad: rX A X ′A ; rX BX ′B teniendo así dos coeficientes de fiabilidad para una misma prueba. Se podrían obtener tantos coeficientes como muestras representativas diferentes se extraigan de esa población. Los coeficientes de fiabilidad se relacionan con las varianzas de las puntuaciones mediante (2.15) ( ) (1 − rX X′ ) s2eA = s2X A 1 − rX A X ′A s2eB = s2X B B B Capítulo 4. Fiabilidad: Varianza y longitud 101 y estas expresiones permiten poner en relación las varianzas de ambas muestras con los coeficientes de fiabilidad respectivos, si se tiene en cuenta la suposición de igualdad de las varianzas de los errores, s2eA = s2eB. En ese caso es: s2X A (1 − rX A X ′A ) = s2X B (1 − rX BX ′B ) (4.1) por lo que la relación entre ambas varianzas es: s2X A s2X B = 1 − rX BX ′B 1 − rX A X ′A (4.2) de donde se deduce que la fiabilidad de un test aumenta a medida que aumenta la varianza de las puntuaciones muestrales en dicho test, puesto que, como se observa en la ecuación (4.2), las varianzas de las puntuaciones en dos muestras diferentes son inversamente proporcionales a las diferencias a uno de las correspondientes fiabilidades obtenidas con esas muestras. Así, por ejemplo, si se da la desigualdad: rX BX ′B > rX A X ′A y puesto que ambos coeficientes de fiabilidad no pueden tomar más valores que aquellos contenidos en el intervalo [0,1], se tiene que: 1 − rX BX ′B < 1 − rX A X ′A ; y por lo tanto: s2X A s2X B <1 s2X A < s2X B De aquí se deduce que, para cualquier par de muestras ( J, L) se verifica la relación: s2X J > s2X L ⇔ rX JX ′J > rX L X ′L 102 Principios de Psicometría es decir, que la fiabilidad de un test obtenida con una muestra más homogénea en cuanto a sus puntuaciones en ese test, será menor que la fiabilidad obtenida para el mismo test con otra muestra en la que haya más variabilidad entre las puntuaciones de los sujetos. La fiabilidad en una de las muestras se puede obtener conociendo la calculada en otra y las varianzas de las puntuaciones en ambas muestras: rX BX ′B = 1 − s2X A s2X B (1− rX X′ ) A A (4.3) Al hacer deducciones, téngase siempre en cuenta que estas afirmaciones se hacen a partir del supuesto de igualdad de las varianzas error en ambas muestras. Si este supuesto no se cumpliera, se estaría sobrestimando la fiabilidad de aquella muestra que tuviera mayor varianza error. Si se conoce la fiabilidad de una prueba obtenida con dos muestras procedentes de la misma población, se puede inferir en qué muestra las puntuaciones son más homogéneas y estimar la relación que existe entre las varianzas. Ejemplo 4.1 Un cuestionario X, destinado a medir neuroticismo en estudiantes de doctorado, se ha administrado a dos muestras aleatorias, las muestras A y B. La muestra A se ha elegido mediante el procedimiento de muestreo estratificado con dos criterios de estratificación: tamaño de la universidad y tipo de estudios. La muestra B se ha elegido por el procedimiento de muestreo aleatorio simple. Los coeficientes de fiabilidad obtenidos con las muestras A y B son: rX A X′A = 0.90 ; rXB X′B = 0.80 Aplicando (4.2), se puede conocer la homogeneidad relativa de las muestras con respecto a las puntuaciones en el test: s2X A s2X B = 1− 0.80 =2 1− 0.90 Capítulo 4. Fiabilidad: Varianza y longitud 103 o sea, que la varianza de las puntuaciones en la muestra A es mayor (el doble en este caso) que en la B, lo que se refleja en que la fiabilidad obtenida con la muestra A es superior a la obtenida con la B. Si se conociera la varianza de las puntuaciones en ambas muestras y la fiabilidad en una de ellas, se podría calcular la fiabilidad de la otra muestra utilizando la relación (4.3). Por ejemplo, a partir de: rX A X′A = 0.90 ; s2X = 100 ; s2X = 50 A B se obtiene que el valor de la fiabilidad en la muestra B es 0.80. m4.2. Fiabilidad y longitud de las pruebasm En este apartado se estudia cómo afecta la longitud de la prueba a la precisión con la que esa prueba realiza la medida. La longitud de una prueba viene dada por el número de elementos o de ítems que la componen. Se puede comprobar que la fiabilidad de un test psicométrico aumenta con su longitud. Por lo tanto, se puede aumentar la precisión de una prueba si se aumenta su longitud mediante la adición de elementos paralelos. Aumentar la longitud de la prueba añadiendo elementos paralelos, no es, en general, directamente aplicable a los cuestionarios o inventarios que miden personalidad, o actitudes, y hay que tener en cuenta si la prueba está constituida por grupos de ítems que miden diferentes factores o dimensiones del rasgo o del constructo que se pretende medir. En este tipo de pruebas, la fiabilidad se suele obtener como coeficiente de consistencia interna y, además de exigir a la prueba una fiabilidad adecuada, hay que exigírsela también a cada una de las dimensiones o factores que componen la prueba. Cuadro 4.1 Es necesario hacer precisiones acerca de lo que se entiende por elemento, componente o ítem de una prueba, así como longitud. Los tests psicométricos están compuestos por ítems a los que podríamos llamar de forma redundante “elementos elementales”, y la longitud del test usualmente coin- 104 Principios de Psicometría cide con ese número de ítems. También a veces se considera elementos a ciertas agrupaciones de ítems, algunas de ellas conocidas en la literatura bajo la denominación de subtests y otras como dimensiones. El cálculo de la puntuación obtenida en el test se puede hacer sumando las puntuaciones en cada uno de los ítems, o bien en las de cada uno de los subtests o partes que componen la prueba. La medida total de la prueba se obtiene por adición de las medidas de sus componentes, refiriéndonos así a las componentes como a cada uno de los ítems, o bien, a cada uno de los elementos o de las partes constituyentes de la prueba. En adelante, a menudo se va a tratar con conceptos, ecuaciones y relaciones en los que se hace uso de la longitud de un test y, en otros casos, nos referiremos al número de componentes de un test. En el primer caso nos solemos referir al número de ítems del test, pero el segundo es más general, pues llamamos número de componentes al número de elementos o partes que integran el test, ya sean éstos de carácter elemental como son los ítems, o bien, conjuntos de ellos. El número de componentes coincidirá con el de ítems cuando cada una de esas componentes esté formada por un solo ítem. Lord y Novick, en su obra Statistical theories of mental test scores (1968, pág. 82), dicen que por longitud del test entienden el número de componentes que comprende el test compuesto, refiriéndose al test total o test compuesto como a la suma de las componentes y a la medida como a la medida compuesta y a sus partes como a las medidas componentes. En todo caso, cuando la notación que se dé a la longitud n de una prueba pueda resultar equívoca se explicitará a qué se está haciendo referencia. Ecuación de Spearman-Brown La ecuación que expresa la relación entre la fiabilidad y la longitud de un test es la denominada ecuación de Spearman-Brown. Esta ecuación permite calcular la fiabilidad RXX' de un nuevo test, construido a partir de otro establecido cuya fiabilidad rXX' es conocida, aumentando k veces su longitud con elementos paralelos. R XX ′ = k rXX ′ 1 + ( k − 1) rXX ′ (4.4) En esta ecuación se utiliza la letra r (minúscula) para indicar la fiabilidad inicial y R (mayúscula) para la obtenida por modificaciones del test inicial. 105 Capítulo 4. Fiabilidad: Varianza y longitud La ecuación (4.4) lleva el nombre de los dos psicólogos que simultánea e independientemente la propusieron, aunque en muchas ocasiones, en la literatura se refieren a ella como profecía, quizá porque con un simple cálculo, que no lleva más de unos segundos, se pueden predecir las variaciones de la fiabilidad del test inicial, al duplicar, triplicar, etc. la longitud de ese test. Esto es, con sólo calcular: rXX ′ ; 2 rXX ′ 3 rXX ′ … k rXX ′ ; ; ; 1 + rXX ′ 1 + 2 rXX ′ 1 + ( k − 1) rXX ′ se puede pronosticar la validez de los nuevos tests a partir del test inicial (k = 1). La ecuación (4.4) se suele interpretar considerando valores enteros y positivos de k, pero como tendremos ocasión de comprobar más adelante, esta relación es válida para cualquier valor de k real y positivo. La deducción de la ecuación de Spearman-Brown se realiza en el Cuadro 4.2. Por razones didácticas, se hace para k = 2 y luego se generaliza para cualquier aumento de la longitud un número de veces k ≥ 2. Cuadro 4.2 Deducción de la ecuación de Spearman-Brown A) Caso de longitud doble (k = 2) Supóngase construido un test X1 y una forma paralela de este test X'1. Si se construye otro test X2, y una forma paralela a él X'2, que tengan la misma longitud y que a su vez sean paralelos al test X1, se puede construir un nuevo test X, formado por X1 y por X2, cuya longitud será el doble que la del test X1 inicial. La fiabilidad del test X1 se mide mediante el coeficiente de correlación rX1X'1. La fiabilidad del nuevo test X = X1 + X2, en que se ha duplicado el número de elementos con respecto al contenido en el test X1, se calculará hallando la correlación lineal entre X y otro test paralelo a él, sea éste X' = X'1 + X'2: R XX′ = {[ ][ ]} cov( XX ′) E X − E( X ) X ′ − E( X ′) = σ X σ X′ σ X σ X′ 106 Principios de Psicometría Desarrollemos esta expresión, sustituyendo previamente tanto X como X' por la suma de sus componentes. Numerador {( ( )) (X1′ − E (X1′ ) + X 2 − E (X ′2 ))} = 4 rX X′ σ 2X ( ) E X1 − E X1 + X 2 − E X 2 1 1 1 donde el segundo miembro de la igualdad anterior resulta de considerar que la esperanza matemática de cada uno de los cuatro productos resultantes son covarianzas como la siguiente: {[ ] [X1′ − E ( X1′ )]} = cov (X1, X1′ ) = rX X′ σ X σ X′ = rX X′ σ 2X E X1 − E ( X1) 1 1 1 1 1 1 1 en donde, σ X1σ X'1 = σ 2X1 por tratarse de formas paralelas. Denominador: Por paralelismo, la varianza de la variable X es igual a la de X', por lo tanto, en el denominador de la expresión se tiene que σ Xσ X' = σ 2X . Como esta varianza es: [ ] σ 2X = E X − E( X ) 2 { = σ 2X + σ 2X + 2 rX1X 2 σ X1 σ X 2 1 ]} [ = E X 1 + X 2 − E( X 1 ) + E( X 2 ) 2 = 2 y por las condiciones de paralelismo se pueden considerar las siguientes igualdades: σ 2X = σ 2X ; rX1X 2 = rX1X′1 1 2 tomando entonces la varianza de X la expresión: σ 2X = 2 σ 2X + 2rX1X1′ σ 2X = 2 σ 2X (1+ rX1X1′ ) 1 1 1 Sustituyendo numerador y denominador de RXX' por las expresiones obtenidas se tiene que: Capítulo 4. Fiabilidad: Varianza y longitud R XX′ = 4 rX1X1′ σ 2X 1 2 σ 2X (1+ rX1X1′ ) 1 = 2rX1X1′ 1+ rX1X1′ que es la ecuación de Spearman-Brown para un test X cuya longitud es el doble de la del test inicial X1. B) Caso general Un desarrollo análogo al realizado anteriormente conduce a la ecuación general, al considerar un test X compuesto por un número k de tests paralelos, siendo: X = X1 + L + X k En el numerador de la expresión RXX' se obtendrán k × k = k2 productos covarianza, todos ellos equivalentes, pudiéndose denotar cualquiera de ellos por una expresión como la siguiente: ( ) cov X 1, X 1′ = rX1X1′ σ 2X 1 En el denominador, la varianza de X se puede sustituir por la expresión general de la varianza de una suma de variables: σ 2X = σ 2X + L + σ 2X + k (k − 1) σ X i σ X j rX iX j 1 K que, debido a la condición de paralelismo entre cualesquiera Xi, Xj, que se les ha impuesto, es equivalente a σ 2X = k σ 2X + k (k − 1) σ 2X rX1X′1 1 1 por lo que: R XX′ = k 2 rX1X′1 σ 2X k σ 2X 1 [1+ (k − 1) r ] 1 X 1X 1′ = k rX1X1′ 1+ (k − 1) rX1X1′ que es la ecuación general de Spearman-Brown. 107 108 Principios de Psicometría Los valores de k En la ecuación de Spearman-Brown se calcula el aumento de la fiabilidad cuando, bajo condiciones de paralelismo, se aumenta un número k de veces la longitud de la prueba. Sin embargo, también se puede utilizar esa expresión para recalcular la fiabilidad de una prueba al disminuir su longitud, al suprimir elementos paralelos. En este caso k tomaría valores menores que la unidad 1 (mayores que cero; 0 < k < 1), puesto que se ha convenido que k = 1 para el test inicial. Este proceso de supresión de elementos paralelos, al igual que el de adición, puede tener un interés práctico. Supóngase que se dispone de un test muy fiable pero que a su vez es muy largo, perdiendo por esta razón parte de su utilidad a efectos prácticos. Una primera pregunta sería ¿cuánto disminuirá la fiabilidad de este test si se eliminan un número nj de elementos paralelos? O bien esta otra, ¿cuántos elementos se pueden eliminar para que el nivel de fiabilidad sea uno predeterminado como admisible para esa prueba, aunque éste sea menor que el actual? Ambas cuestiones se resuelven usando la ecuación (4.4), dando a k valores positivos menores que la unidad, como se muestra posteriormente en el Ejemplo 4.4. Variaciones de la fiabilidad con la longitud La fiabilidad aumenta o disminuye con aumentos o disminuciones de la longitud de la prueba, pero esas variaciones no son proporcionales al número de elementos añadidos o suprimidos, como se puede deducir de la ecuación (4.4). En la Tabla 4.1 se dan los resultados de la fiabilidad calculada con la ecuación (4.4) para algunos valores de k y algunas fiabilidades iniciales, teniendo en cuenta que para el test inicial es siempre k = 1. Las variaciones de RXX' con k para estos mismos valores de rXX' se pueden observar también en la Figura 4.1, donde las curvas indican variaciones de la fiabilidad entre k = 0 y k = 8. Por lo tanto, en esa figura se pueden apreciar las variaciones de la fiabilidad cuando se aumenta (k > 1) o se disminuye la longitud (valores de k entre cero y uno). Se ha trazado una línea vertical (con trazo discontinuo) paralela al eje de ordenadas en k = 1 (cuya intersección con las curvas marca la fiabilidad inicial), con el objeto de apreciar mejor las variaciones de la fiabilidad (creciente o decreciente) a partir de esos valores iniciales de la fiabilidad. Se ha representado también con trazo discontinuo una línea horizontal para R = 1, que es la asíntota a la que tienden todas las curvas, con mayor o menor velocidad. 109 Capítulo 4. Fiabilidad: Varianza y longitud Tabla 4.1. Valores de fiabilidad (R) en función de la fiabilidad inicial (r) para algunos valores de k. r k = 0.5 k=2 k=4 k=6 k=8 0.1 0.3 0.5 0.7 0.9 0.053 0.176 0.333 0.538 0.818 0.182 0.462 0.667 0.824 0.947 0.308 0.632 0.800 0.903 0.973 0.400 0.720 0.857 0.933 0.982 0.470 0.774 0.889 0.949 0.986 Figura 4.1. Curvas de variación de fiabilidad en función de la longitud, para los valores de fiabilidad inicial dados en la Tabla 4.1. De la observación de la Figura 4.1 y los valores de la Tabla 4.1 puede inferirse que: a) Para un valor dado de rXX' el valor de RXX' aumenta con k. b) Este aumento es pequeño a partir de valores de k grandes, pues si se sustituye k por k + 1 en la ecuación (4.4) se obtiene prácticamente el mismo valor para RXX' . 110 Principios de Psicometría c) Las curvas para valores altos de k tienen menores pendientes (crecen más lentamente con k). d) Cuando se parte de fiabilidades relativamente bajas (rXX' < 0.50) es necesario un valor excesivamente grande de k para llegar a tener fiabilidades apreciables. e) Todas las curvas tienden asintóticamente (aunque con muy diferente velocidad) al valor asintótico de RXX' = 1. f) Al disminuir la longitud (k < 1) disminuye la fiabilidad y la cuantía de esa disminución depende de k y de la fiabilidad inicial. Formalmente se puede comprobar que siempre que rXX' < 1 se verifica la relación de desigualdad siguiente: 1 + (k – 1) rXX' > k rXX' y por lo tanto siempre debe cumplirse que RXX' ≤ 1. Consecuencias: Las consecuencias que se derivan de las relaciones entre fiabilidad y longitud son importantes en la práctica de la construcción de tests, pues permiten dar respuesta a preguntas tales como las siguientes: a) ¿Se puede conseguir un test con fiabilidad apreciable o moderadamente alta a partir de un test con muy escasa fiabilidad? b) ¿Se puede conseguir un test con fiabilidad unidad añadiendo elementos paralelos a un test inicial con rXX' elevada? c) ¿Hasta qué punto se debe alargar un test para aumentar su precisión? d) ¿Cuál sería la longitud total de un test, añadiendo elementos paralelos a uno dado, si se quiere obtener un determinado valor para su fiabilidad? e) ¿Se pueden acortar los tests? ¿Cómo evaluar las consecuencias en cuanto a la modificación de su fiabilidad? Las respuestas a estas preguntas u otras similares que se podrían plantear son inmediatas: A la cuestión a) hay que responder negativamente por razones prácticas, puesto que llegar a esos niveles de fiabilidad implicaría aumentos de longitud tales que Capítulo 4. Fiabilidad: Varianza y longitud 111 el test inicial quedaría reducido a una parte insignificante con respecto al test resultante. Eso es prácticamente inviable o, al menos, incoherente. Por ejemplo, para aumentar la fiabilidad de un test de 30 elementos y fiabilidad rXX' = 0.15 hasta valores del coeficiente de 0.60 o de 0.78 se tendrían que añadir al test inicial 225 elementos en un caso y 573 en el otro. De esta primera cuestión se deduce que los tests escasamente fiables deben despreciarse en su forma original y no tratar de mejorarlos aumentando su fiabilidad adicionándoles elementos paralelos. Para dar respuesta a la cuestión b) hay que considerar cuáles son las implicaciones que tiene el que se pueda obtener el valor uno para RXX' . Si es RXX' = 1, entonces 1= k rXX ′ 1 + ( k − 1) rXX ′ de donde se deduce que k rXX' = 1 + (k – 1) rXX' y esta igualdad sólo puede darse si rXX' = 1. Por lo tanto, la obtención de valores RXX' = 1 implica un test inicial en el que necesariamente tiene que ser rXX' = 1; y si este test era perfecto en cuanto a precisión, no cabe aumentar su longitud para aumentar su fiabilidad. Lo que sí se puede deducir de estas cuestiones es que para obtener valores de RXX' próximos a la unidad, es necesario partir de tests iniciales con valores de rXX' elevados. La respuesta a la cuestión c) implica a la respuesta dada a las dos cuestiones anteriores y a la propiedad de “frenado” que tiene la curva de crecimiento de la fiabilidad. En primer lugar se debe llegar a un test final con un número moderado de ítems y, si prescindiéramos de todos los inconvenientes que conlleva un test muy largo, todavía cabría preguntarse ¿para qué alargar un test si la ganancia en precisión puede ser realmente despreciable? Las consideraciones sobre el número de ítems y la ganancia en precisión deben combinarse conjunta y adecuadamente en cada caso particular. Las respuestas a las preguntas d) y e) están implícitas en lo anterior, sin embargo se van a tratar específicamente en el siguiente apartado. Cambios en la longitud para valores prefijados de la fiabilidad La cuestión sobre cuánto habrá que aumentar o disminuir la longitud de un test para obtener un determinado grado de precisión, puede surgir en la práctica por tres razones fundamentales: 112 Principios de Psicometría 1) Porque el objetivo último para el que se construye la prueba exige que ésta alcance un determinado nivel de precisión. 2) Porque el autor de un test desee investigar si es posible obtener una mejora apreciable en la precisión de la prueba con economía de medios. Es decir, si podría mejorar su precisión sin necesidad de añadir un gran número de elementos. 3) Porque desea acortar la prueba, o que esté interesado en utilizar solamente una de sus partes. En cualquiera de esas situaciones se puede hacer uso de la ecuación de Spearman-Brown, pues el propósito es el cálculo de k para conocer, a través de él, la longitud del nuevo test con fiabilidad prefijada. Esta relación viene dada por la ecuación: k= R XX ′ (1 − rXX ′ ) rXX ′ (1 − R XX ′ ) (4.5) La ecuación (4.5) puede deducirse fácilmente de (4.4) y permite calcular el número k de veces que hay que aumentar la longitud del test inicial para conseguir una precisión prefijada, dada por el valor asignado a RXX' . En todo ello, se está dando por supuesto que se ha cuidado lo sustantivo, es decir, que se han analizado los contenidos del test y de los ítems con los que va a aumentar la longitud, o de los que van a suprimir, en su caso. Ejemplo 4.2 Un test tiene 20 ítems y su coeficiente de fiabilidad es rXX' = 0.48. ¿Cuántas veces habría que aumentar su longitud para obtener otro con coeficiente de fiabilidad de al menos 0.73? ¿Cuántos ítems nuevos y paralelos sería necesario construir? En primer lugar se calcula k (1− 0.48) ≥ 00..73 = 2.93 48 (1− 0.73) y se observa que se necesitaría casi triplicar su longitud, o sea, habría que pasar de 20 a 59 ítems. Por lo tanto, para conseguir el objetivo deseado habría que 113 Capítulo 4. Fiabilidad: Varianza y longitud construir 39 nuevos ítems, o elegirlos de un banco de ítems paralelos, si lo hubiera. Dado que hay que construir el doble de los ítems que se tenían, una pregunta pertinente es si convendría desechar los 20 ítems de partida y empezar con unos nuevos ítems que tuvieran una fiabilidad inicial mucho mayor. Ejemplo 4.3 De un conjunto de ítems se han elegido 20 para construir un test con fiabilidad r = 0.52. Con el fin de aumentar la fiabilidad se ha convenido en añadir más ítems. Por ello, se desea conocer: a) Los valores de la fiabilidad en función del número de veces que se aumenta la longitud, tomando el test dado como test unidad. b) Basándonos en la información obtenida en a) ¿qué longitud y fiabilidad tendrá el test que se seleccionaría como adecuado, construido a partir del test inicial? c) ¿Cuál es el menor número de elementos que hay que añadir al test dado para conseguir un test con fiabilidad mayor, o al menos igual a r = 0.71? ¿Qué longitud resultaría para este nuevo test? d) Se ha tomado la decisión de que la longitud del test no supere los 28 ítems. En ese caso ¿qué fiabilidad se puede conseguir si el procedimiento seguido es el de añadir al test inicial ocho ítems paralelos? Solución: a) El cálculo de la variación de la fiabilidad se realiza aplicando la ecuación (4.4), obteniéndose los valores que se dan en la Tabla 4.2. Tabla 4.2. Valores de la fiabilidad del test X al multiplicar por k su longitud. k 1 2 3 4 5 6 RXX' 0.52 0.68 0.76 0.81 0.84 0.87 Con estos seis valores se observa que R crece con k, que ambas magnitudes están directamente relacionadas y que el crecimiento de RXX' se ve frenado a medida que k crece. 114 Principios de Psicometría b) Son varias las respuestas que se pueden dar a esta cuestión, dependiendo de los objetivos y de las condiciones en las que se construye el test, en su sentido más general. Se debe tener en cuenta la extensión, las características y las disponibilidades del banco de ítems, así como las cualidades psicométricas de cada uno de los ítems que se van a elegir para formar parte de la prueba. Si se desea que el test tenga una fiabilidad muy elevada, no parece que el test inicial del que aquí se parte sea muy adecuado para conseguirla añadiendo elementos paralelos. En cualquier caso, para aumentar la fiabilidad aumentando la longitud del test, se debe ser especialmente cuidadoso en el proceso, pues se pueden plantear problemas, como por ejemplo, el no paralelismo entre las puntuaciones que proporcionan los ítems, o que no se deba alargar lo que parece necesario, porque a partir de una determinada longitud, la fatiga influya significativamente en las respuestas, etc. En el caso hipotético en el que los ítems del test que se esta aquí considerando fuesen de rápida ejecución y que no aparecieran problemas especiales en su construcción, se optaría por un test conteniendo 80 elementos (k = 4). Esta decisión sólo se tomaría si, como se está suponiendo, la prueba no resultara excesivamente larga, por ejemplo, en un test de lectura donde los ítems fuesen palabras, u otro tipo de prueba en la que se den las condiciones indicadas. Con esa longitud, la fiabilidad esperada, que se obtiene a través de la igualdad (4.4), es un valor aceptable como medida de la precisión de la prueba. Además, a partir de ese valor, los cambios en longitud que se podrían realizar para aumentarla no estarían justificados. c) Para calcular el menor número de elementos que es necesario añadir al test inicial para que el nuevo test tenga fiabilidad igual o mayor que 0.71, se usa la ecuación (4.5), resolviendo la desigualdad: k ≥ 0.71 (1 – 0.52) / 0.52 (1 – 0.71) = 2.26 de donde se concluye que la longitud mínima del nuevo test debe ser: n ≥ (20) (2.26) = 45.2 y como no existen fracciones de ítems, diremos que el número mínimo de ítems requerido para que el nuevo test cumpla las condiciones exigidas es de 46. Al estar el test inicial constituido por sólo 20 elementos, habrá que añadirle al menos 26 elementos paralelos. Por lo tanto, la respuesta a la cuestión es que el menor número de elementos que hay que añadir al test inicial es 26 y que la longitud mínima que deberá tener el test con la precisión deseada es 46 elementos. Ahora bien, este resultado teórico lleva a plantearse una nueva cuestión que sería objeto de debate, pues ¿hasta qué punto conviene añadir tantos elementos? ¿incluso en un número superior a la longitud del test inicial? Capítulo 4. Fiabilidad: Varianza y longitud d) Si se determina cuál es la longitud máxima del test, que en este caso particular se ha fijado en 28 elementos, el cálculo de la fiabilidad máxima que se puede obtener con este número de elementos se puede encontrar teniendo en cuenta el valor k en ese aumento de la longitud. Aquí, el paso de 20 a 28 elementos supone una proporción en el aumento de la longitud de k = 1.4. Por lo tanto, según la ecuación (4.4), la fiabilidad que se podría conseguir para este nuevo test, añadiendo ocho elementos paralelos al test inicial, es: R= (1.4 )(0.52) = 0.60 1+ (1.4 − 1) 0.52 lo que indica un aumento apreciable de la fiabilidad que pasa de 0.52 a ser 0.60. Ejemplo 4.4 Se ha construido un test de comprensión verbal que consta de n 1 = 125 ítems y cuyo coeficiente de fiabilidad es 0.96. a) ¿Cuánto disminuirá la fiabilidad si, una vez determinado que por las condiciones en las que se debe administrar el test, el número idóneo de ítems es aproximadamente igual a 90? Planteado así, el test final tendrá una longitud n2 menor que la del inicial y la relación entre ambas, es n2 = k n1 (pues k = n2 / n1), que proporciona para k un valor de k = 90/125 = 0.72 < 1, ya que n2 < n1. La fiabilidad del nuevo test es: R XX′ = (0.72) (0.96) = 0.945 1 + (0.72 − 1) 0.96 que sigue siendo una fiabilidad elevada para la prueba, con la ventaja adicional de una reducción muy apreciable del número de ítems. La pérdida en fiabilidad de sólo quince milésimas se considera pequeña y, por lo tanto, la supresión de 35 ítems es plausible, e incluso se podría estudiar la conveniencia de eliminar algunos ítems más. b) Se piensa que sería adecuado un coeficiente de fiabilidad igual o mayor que 0.86. ¿Cuál es el número máximo de ítems o elementos que se pueden eliminar para mantener el nivel de precisión deseado? 115 116 Principios de Psicometría En este caso, utilizando la relación (4.5) se obtiene: k= 0.86 (1− 0.96) = 0.256 0.96 (1− 0.86) La longitud del nuevo test será n2 = 125k = 32 ítems. Por lo tanto, aun reduciendo el número de ítems aproximadamente a la cuarta parte, se obtendrían niveles de precisión que se han considerado aceptables para el test. m4.3. Relaciones entre fiabilidad, longitud y varianzam En los apartados anteriores se ha expuesto cómo afecta a la fiabilidad la varianza de las puntuaciones en el test obtenidas en distintas muestras. También se ha discutido en qué condiciones varía la fiabilidad cuando cambia la longitud del test. Estos temas, que se han expuesto de forma separada, están interrelacionados. La razón de que al aumentar la longitud del test con elementos paralelos aumente la fiabilidad es porque se supone que se aumenta la variabilidad y la varianza de la puntuación verdadera crece más rápidamente que la del error, disminuyéndose así la contribución de este término error a la varianza total observada, y obteniéndose tests más fiables. La comprobación formal de las relaciones entre fiabilidad, longitud y varianza, en el caso de doblar la longitud y en el caso general se aporta en los Cuadros 4.3 y 4.4, respectivamente. Estas deducciones no son necesarias, si se aplican ciegamente las fórmulas, pero son imprescindibles para comprender cómo se producen esas relaciones. Cuadro 4.3 Longitud doble: k = 2 Supóngase que se aumenta la longitud de un test X1 por adición de otro test paralelo X2 de manera que el test X = X1 + X2 es un test de longitud doble de la del test inicial Xl. Las varianzas de las puntuaciones observadas, verdaderas y del error de este nuevo test X vendrán dadas por las expresiones: 117 Capítulo 4. Fiabilidad: Varianza y longitud Var (X) = Var (X 1 + X 2 ) = σ 2X + σ 2X + 2rX1X 2 σ X1 σ X 2 1 2 1 2 1 2 Var (V) = Var (V1 + V2 ) = σ 2V + σ 2V + 2rV1V2 σ V1 σ V2 Var (e) = Var (e1 + e 2 ) = σ 2e + σ 2e + 2re1e2 σ e1 σ e2 Teniendo en cuenta el supuesto del modelo re1e2 = 0, y las condiciones de paralelismo por las que V1 = V2 ; σ 2e 1 = σ 2e 2 ; σ 2X1 = σ 2X2 ; rX1X'1 = rX1X2 = rX2X'2 las varianzas anteriores reducen sus expresiones a las siguientes: Var (X) = 2σ 2X (1+ rX1X1′ ) 1 Var (V) = 4 σ 2V 1 Var (e) = 2σ 2e 1 Al ser el coeficiente de fiabilidad, por definición, R XX′ = σ 2V σ 2X al sustituir las varianzas verdadera y observada por sus respectivas expresiones, se tiene que: R XX′ = σ 2V σ 2X = 4 σ 2V 1 2 σ 2X (1+ rX1X1′ ) 1 =2 σ 2V 1 σ 2X 1 ⋅ 2rX1X1′ 1 = 1+ rX1X1′ 1+ rX1X1′ (4.6) que es la expresión de la ecuación de Spearman-Brown para un test de longitud doble, obtenida anteriormente por otra vía. A través del procedimiento seguido en este cuadro se hace patente por qué aumenta la fiabilidad con el aumento de la longitud. En la expresión (4.6) se puede advertir que cuando un test inicial X1 duplica su longitud, la varianza de la puntuación verdadera de ese test, en el numerador, se multiplica siempre por 4, en tanto que la varianza de la puntuación observada, en el denominador, se multiplica por un valor menor (entre 2 y 4, siendo 4 solamente cuando la fiabili- 118 Principios de Psicometría dad inicial fuese uno). Si se duplica la longitud del test y teniendo en cuenta que σ X2 = σ V2 + σ e2 , la varianza de la puntuación verdadera crece en mayor proporción (casi el doble) que la de la observada, por lo que necesariamente se ve reducida la proporción de varianza error y el nuevo test resulta ser más fiable que el test inicial. Cuadro 4.4 Caso general Lo expuesto en el cuadro anterior se puede generalizar a la composición de k tests paralelos. Si el test X está compuesto por k elementos paralelos, X = X1 + … + XK, la longitud de este test es k veces la del X1 inicial. Debido a las condiciones del modelo, referidas en el Cuadro 4.3, y teniendo en cuenta que rVi V'i = 1 para todo i, las varianzas de las puntuaciones observadas, verdadera y error son: σ 2X = k σ 2X + k (k − 1) σ 2X rX1X1′ = k σ 2X [1+ (k − 1) rX1X1′ ] 1 1 1 σ 2V = k σ 2V + k (k − 1) σ 2V rV1V1′ = k σ 2V [1+ (k − 1)] = k 2 σ 2V 1 σ 2e = k σ 2e 1 1 1 + k (k − 1) σ 2e reie j 1 = k σ e2 1 1 Por lo tanto: R XX′ = k 2 σ 2V 1 k σ 2X [1+ (k − 1)rX1X1′ ] 1 =k σ 2V 1 σ 2X 1 ⋅ k rX1X1′ 1 = 1+ (k − 1)rX1X1′ 1+ (k − 1) rX1X1′ que es la ecuación de Spearman-Brown para el caso general en que se multiplica por k la longitud de un test. Una discusión análoga a la que se ha hecho en el caso de k = 2 se puede hacer con respecto a por qué hay un aumento de precisión cuando se aumenta la longitud. Esto se explica a tenor de las variaciones que sufren las varianzas de la puntuación verdadera y la del error, con respecto a las del test inicial. Al aumentar k veces la longitud del test X1 con elementos paralelos, la varianza de la puntuación verdadera queda multiplicada por k2 (pasa de σ V2 1 a k2 σ V2 1) y la del error sólo por Capítulo 4. Fiabilidad: Varianza y longitud 119 k (pasa de σ 2e1 a kσ 2e1), como se puede ver en las deducciones que se han hecho en el Cuadro 4.4. Por lo tanto, al aumentar la longitud con elementos paralelos, la varianza de la puntuación verdadera crece más rápidamente que la del error, disminuyéndose así la contribución de este término error a la varianza total observada, obteniéndose tests más fiables. Puntos clave 3 3 3 3 3 3 3 3 Las muestras de los participantes en el proceso de construcción de pruebas deben ser lo más heterogéneas posible en cuanto al rasgo del que se pretende hacer la medición, pues se ha demostrado que a mayor varianza de las puntuaciones observadas, mayor valor del coeficiente de fiabilidad. En el contexto del modelo de Spearman, se puede aumentar la fiabilidad de un test, añadiéndole elementos paralelos. La ecuación de Spearman-Brown se puede utilizar para calcular el aumento teórico de la fiabilidad cuando se aumenta k veces su longitud. El aumento de la fiabilidad con el de la longitud se produce porque al aumentar la varianza de las puntuaciones observadas, aumenta en mayor medida la de las puntuaciones verdaderas que la del error. La ecuación de Spearman-Brown puede ser útil para estimar cuántos elementos se deben añadir a un test inicial, cuya fiabilidad es conocida, para aumentar esa fiabilidad hasta un valor prefijado. Los tests con poca fiabilidad deben reformularse y no tratar de mejorarlos añadiendo elementos paralelos. La ecuación de Spearman-Brown también puede ser útil para estimar la reducción en el valor de la fiabilidad si se acorta la prueba. En la práctica hay que llegar a un compromiso entre fiabilidad y longitud, sin olvidar lo sustantivo de la prueba y que la ganancia en fiabilidad no se produce si no se aumenta la varianza de las puntuaciones. Actividades r Razone y escriba por qué no son ciertas o son imprecisas las siguientes afirmaciones: 1. Un test más largo es más fiable. 2. Al aumentar la longitud de un test aumenta su fiabilidad. 120 Principios de Psicometría 3. El aumento de la fiabilidad, añadiendo ítems paralelos, es proporcional al número de elementos añadidos. 4. La fiabilidad de un test crece linealmente con el aumento de su longitud. 5. Una curva exponencial describe adecuadamente el aumento de la fiabilidad de un test en relación con el número de veces que aumenta su longitud. r Haga un supuesto acerca de un test (número de ítems, fiabilidad, etc.) y calcule la fiabilidad que teóricamente podría obtenerse si dobla la longitud del test. Considere si es o no realista dicho valor, en cuanto a que se hubiera podido alcanzar experimentalmente. Discútalo a la luz de los valores de las varianzas. r Calcule la fiabilidad que teóricamente tendría el test si se elimina 1/3 de sus elementos. r Elija al azar 1/3 de los ítems de ese test (si la longitud n no es múltiplo de tres, redondee al número entero más próximo) y calcule la fiabilidad del test en el que se han suprimido esos elementos. Discuta el valor de esa fiabilidad comparándolo con la que había obtenido con el test completo. r Deduzca, explicando cada paso, las ecuaciones que justifican teóricamente que el aumento de la longitud de un test puede producir un aumento de su fiabilidad. r Haga consideraciones sobre lo que implica la afirmación de Lord y Novick en su obra Statistical theories of mental test scores (1968, pág. 82), cuando expresan que por longitud del test entienden el número de componentes que comprende el test compuesto. r Busque en la docimoteca uno o varios tests compuestos por subtests y/o por diferentes factores. Discuta las diferencias, si las hay, entre subtest y factor haciendo consideraciones sobre las fiabilidades del test total y de las partes. Fiabilidad Consistencia interna: El coeficiente α 5 Para calcular el coeficiente de fiabilidad en el contexto de la teoría clásica pueden seguirse distintos diseños para obtener medidas repetidas. Como se ha expuesto en el Capítulo 3 los métodos que comúnmente se tratan en los manuales son: (a) aplicación repetida del mismo test, método test-retest (b) aplicación de formas equivalentes del test y (c) subdivisión del test, generalmente en dos partes, correlacionando, por ejemplo, los elementos que ocupan los lugares pares con aquellos que ocupan los lugares impares, o la correlación ítem-test. Los métodos (a) y (b) de obtención de datos para calcular el coeficiente de fiabilidad proporcionan una estimación de lo que se podría llamar estabilidad de las puntuaciones, pues las magnitudes que se correlacionan son las puntuaciones obtenidas en la prueba en dos ocasiones diferentes, ya sea respondiendo a formas paralelas, ya sea respondiendo a la misma prueba en distintos momentos temporales. El diseño (c) da un sentido distinto a la fiabilidad. En este caso, la fiabilidad habría que interpretarla como consistencia interna entre los distintos elementos o partes del test, por ejemplo, si las partes elegidas son las dos mitades del test, la correlación entre las puntuaciones de ambas partes es un coeficiente de fiabilidad que no será un indicador de la estabilidad de las puntuaciones, sino de la consistencia existente entre las partes de ese test. De forma análoga se puede interpretar la correlación ítem-test, esto es, la correlación entre las puntuaciones de cada ítem particular con el resto de los ítems que componen el test. El coeficiente α aporta una forma diferente de concebir y calcular el coeficiente de fiabilidad, pues se basa en la magnitud de las covariaciones entre los distintos elementos en relación con la varianza total de la prueba, en lugar de en la correlación entre medidas paralelas. 122 Principios de Psicometría Todas las formas que se proponen para el cálculo de la fiabilidad son aceptables, la única condición es que se debe dar a la fiabilidad calculada mediante cada una de ellas su correcta interpretación. Los diseños que más se utilizan son los del tipo (c), entre otras razones, porque las dificultades y costes que en la práctica comportan los otros dos diseños son mucho mayores. El cálculo de la fiabilidad con valores obtenidos mediante cualquiera de los métodos es inmediato, aun cuando se maneje un gran número de datos, pues los métodos están implementados en el software de muchos de los paquetes comerciales. Una cuestión importante que hay que abordar es el análisis de los datos y el de las condiciones de aplicación de la prueba, ya que con un mismo test o cuestionario se pueden obtener distintos valores o estimaciones de su fiabilidad. Una discusión amplia acerca de las ventajas e inconvenientes que conllevan estos diseños y aproximaciones a la fiabilidad se puede ver en Stanley (1971). En este capítulo se va a tratar: ã La forma general de cálculo del coeficiente de fiabilidad que indica consistencia interna: el coeficiente α. ã Algunas formas derivadas de la forma general, aplicables en casos particulares y relaciones entre esas formas. ã Que α es la cota inferior de la fiabilidad de un test. ã El cálculo de la consistencia interna entre partes del test (subtests) que tienen un número diferente de elementos: el coeficiente β. ã El cálculo de α con técnicas de análisis de la varianza. ã El cálculo de algunos coeficientes de fiabilidad derivados de valores obtenidos con técnicas de análisis factorial. ã Cómo se interpreta la cuantía del coeficiente, cómo se puede detectar si su valor está sobrestimado o subestimado y en qué casos alguno de los métodos que se pueden considerar se cree que es el más apropiado. m5.1. El coeficiente α y las ecuaciones de Kuder-Richardsonm En psicometría se puede calcular la fiabilidad de una prueba relacionando diferentes partes de ella, como ocurre, por ejemplo, cuando se hace la división en Capítulo 5. Fiabilidad: Consistencia interna 123 dos partes. Para ello se hace uso de toda la información que proporcionan la varianza y la covarianza de los valores muestrales en los diferentes elementos que se considera que componen esa prueba. A este tipo de fiabilidad se la denomina consistencia interna y a la ecuación para calcularla, coeficiente alfa, que es el valor que estima la consistencia entre los elementos que componen la prueba. Coeficiente α Una forma general de cálculo de la fiabilidad como índice de la consistencia interna de las puntuaciones viene dada por la siguiente expresión: σ 2X − ∑ σ 2X i n α= n n −1 i=1 σ 2X n ∑ σ 2X i n i=1 = 1− 2 n −1 σX (5.1) donde X representa la prueba completa, formada por n componentes o elementos Xi (i = 1, 2, …, n), siendo σ 2X la varianza de las puntuaciones de la prueba y σ X2 i la varianza de la i-ésima componente. La diferencia entre las varianzas en el numerador de esta ecuación corresponde a la suma de las covarianzas entre todos los pares de elementos o componentes de la prueba. La ecuación (5.1) fue denominada coeficiente α por Cronbach en 1951, pudiéndose obtener como la cota inferior de la fiabilidad de un test. Ecuaciones de Kuder-Richardson La ecuación general del coeficiente α admite otras expresiones como casos particulares. Entre ellas, hay que considerar el caso en que cada una de las componentes Xi sea un único ítem, y que ese ítem sea dicotómico. Esto es, las componentes del test son sus n ítems y cada ítem no admite más que una de dos alternativas de respuesta, que son exhaustivas y mutuamente excluyentes, por ejemplo: correcto e incorrecto. Si las probabilidades asociadas a la respuesta 124 Principios de Psicometría correcta e incorrecta son pi y qi = 1 – pi, respectivamente, la varianza para todo elemento Xi será: σ 2X i = pi q i = p i (1 − pi ) Al sustituir esta expresión en la ecuación del coeficiente α, se tiene la ecuación (5.2), que es la número veinte de las obtenidas por Kuder y Richardson: n KR 20 = n −1 σ 2X − ∑ pi (1 − pi ) n i=1 σ 2X (5.2) donde pi es la proporción de sujetos que responden correctamente al ítem i. Esta proporción pi es una medida de la dificultad del ítem referida al grupo que constituye la muestra de examinados o grupo normativo. Si en lugar de tomar para cada ítem sus parámetros pi y qi se utiliza para todos ellos el mismo índice de dificultad, sustituyendo cada uno por la media aritmética de todos ellos, p = ∑ pi / n i se tiene otra versión para el coeficiente de fiabilidad, que es la ecuación número veintiuno de las obtenidas por Kuder y Richardson. 2 n σ X − n p (1 − p ) n KR 21 = = 2 n −1 n −1 σX npq 1 − 2 σX Cuadro 5.1 Los primeros trabajos publicados siguiendo esta metodología de cálculo de la fiabilidad fueron el de Kuder y Richardson en 1937 y el de Richardson y Kuder en 1939, en los que desarrollan, entre otras, las ecuaciones conocidas como KR20 y KR21. La denominación corresponde a las siglas de los autores y los números que las acompañan responden al orden en el que se calcularon. En esta misma línea y época se encuentran también los trabajos de Jackson y Ferguson publicados en 1941, menos citados en la literatura. (5.3) Capítulo 5. Fiabilidad: Consistencia interna 125 En general, entre estos dos coeficientes se da la desigualdad siguiente: KR 20 ≥ KR 21 La igualdad se producirá solamente en el caso en que todos los ítems tengan la misma dificultad, o sea, cuando para cualesquiera ítems i, j sea pi = pj , en consecuencia, qi = qj . Cuadro 5.2 Es fácil comprobar que KR20 = KR21 cuando todos los ítems tienen la misma dificultad. Si es p1 = p2 = … = pn , también será q1 = q2 = … = qn . Denotando genéricamente pi = p y qi = q, el término ∑ pi qi n i=1 en (5.2) será igual a npq = np q que es como aparece en la ecuación (5.3). m5.2. El coeficiente α: Cota inferior de la fiabilidadm en tests compuestosm Este apartado está dedicado a la obtención de la cota inferior de la fiabilidad en un test compuesto, demostrando que se verifica la desigualdad ρXX' ≥ α. O sea, se va a demostrar que el coeficiente de fiabilidad calculado correlacionando medidas paralelas es mayor que el calculado mediante α, dándose la igualdad sólo en el caso en que las componentes del test sean paralelas o, al menos, tau-equivalentes. En el Cuadro 5.3 se presenta la demostración para el caso más simple, que es aquel en que el test solamente está compuesto por la suma de dos componentes. Esta demostración la realizó en primer lugar Guttman en 1945, y por ello, estas relaciones se suelen conocer como las desigualdades o ecuaciones de Guttman. El caso más general en que el test esté compuesto por n componentes se presenta en el Cuadro 5.4. Las ecuaciones de Kuder-Richardson son un caso particular del coeficiente α cuando se alcanza la cota inferior. 126 Principios de Psicometría Estas relaciones se presentan en la literatura como dos teoremas (cuyas demostraciones se dan en los Cuadros 5.3 y 5.4), y se enuncian a continuación junto con sus corolarios: Teorema 1 Sean X1, X2 dos medidas cuyas respectivas puntuaciones verdaderas son V1 y V2; y sea X = X1 + X2 una medida compuesta con puntuación verdadera V. Entonces: σ2 + σ2 X X ≥ 2 1 − 1 2 2 σX ρ XX ′ = ρ2XV (5.4) Corolario 1 Si X1 y X2 son dos tests con puntuaciones paralelas, la expresión (5.4) para ρXX' es idéntica a la ecuación (4.4) con k = 2. Las dos componentes son el test inicial X1 y el test X2, compuesto por los elementos paralelos adicionados, actuando X1 y X2 como dos subtests para formar el test X de longitud doble. Cuadro 5.3 Para la demostración de (5.4) se parte de una desigualdad, que es trivial, al ser positivo o cero el cuadrado de cualquier valor. [σ V 1 − σ V2 ] 2 ≥0 y desarrollando el cuadrado se tienen las siguientes desigualdades: σ 2V + σ 2V − 2 σ V1 σ V2 ≥ 0; σ 2V + σ 2V ≥ 2 σ V! σ V2 1 2 1 2 y teniendo en cuenta: ρ V1V2 = cov( V1, V2 ) y que σ V1 σ V2 ρ V1V2 ≤ 1 127 Capítulo 5. Fiabilidad: Consistencia interna entonces: σ V1 σ V2 ≥ cov( V1, V2 ) ( ) ( σ 2V + σ 2V ≥ 2 cov V1 , V2 ≥ 2 cov V1 , V2 1 2 ) Por otra parte, sustituyendo esta desigualdad en: σ 2V = σ 2V + σ 2V + 2 cov( V1, V2 ) 1 σ 2V 2 ≥ 4 cov( V1, V2 ) El coeficiente de fiabilidad del test resulta ser: ρ2XV = σ 2V σ 2X ≥ 4 cov( V1, V2 ) σ 2X Por la igualdad de las covarianzas: cov (V1, V2) = cov (X1, X2), y teniendo en cuenta que σ 2X = σ 2X1 + σ 2X2 + 2 cov (X1, X2) ρ2XV ≥ 2 σ 2X − σ 2X − σ 2X 1 σ 2X 2 σ2 + σ2 X X2 = 21− 1 2 σX con lo que queda demostrado el teorema cuando sólo hay dos componentes. Teorema 2 Sean X1, X2, …, Xn un conjunto de n medidas con puntuaciones verdaderas V1, V2, …, Vn y sea X una medida compuesta por una suma de Xi, cuya puntuación verdadera es V. Entonces se verifica que: ρ XX ′ = ρ2XV n 2 ∑σ X n i=1 i ≥α= 1− n −1 σ 2X (5.5) 128 Principios de Psicometría Cuadro 5.4 Como en el teorema anterior, se parte de la desigualdad ( ) ( σ 2V + σ 2V ≥ 2 cov Vi , Vj ≥ 2 cov Vi , Vj i j ) Sumando para todo i ≠ j se tiene que: ∑ ∑σ 2Vi + σ 2Vj ≥ 2∑ ∑ cov( Vi, Vj ) i≠ j (a) i≠ j Teniendo en cuenta la identidad: ∑ ∑σ 2Vi + σ 2Vj = n∑ σ 2Vi + n∑ σ 2Vj = 2n∑ σ 2Vi n n i=1 j=1 n n n i=1 j=1 i=1 y la identidad: ∑ ∑σ 2Vi + σ 2Vj = ∑ ∑σ 2Vi + σ 2Vj + ∑ ∑σ 2Vi + σ 2Vj = 2∑ σ 2Vi + ∑ ∑σ 2Vi + σ 2Vj n n i=1 j=1 n i= j n i≠ j n n i=1 i≠ j con lo que la anterior desigualdad (a) es equivalente a la siguiente desigualdad: 2n∑ σ 2V − 2∑ σ 2V ≥ 2∑ ∑ cov( Vi, Vj ) n i=1 n n i=1 i i≠ j i o bien, a la expresión: (n − 1) ∑ σ 2V ≥ ∑ ∑ cov( Vi, Vj ) n i=1 n i≠ j i de donde: ∑ ∑ cov( Vi, Vj ) n ∑ σ 2Vi ≥ n i=1 i≠ j n−1 Capítulo 5. Fiabilidad: Consistencia interna y al ser: σ 2V = Var (∑ Vi ) = ∑ σ 2V + ∑ ∑ cov( Vi, Vj ) n n i=1 i=1 n i≠ j i sustituyendo en esta expresión el término ∑ σ 2Vi n i=1 por el segundo miembro en la desigualdad anterior, se obtiene que: ∑ ∑ cov( Vi, Vj ) n σ 2V ≥ i≠ j n−1 + ∑ ∑ cov( Vi, Vj ) = n i≠ j n n ∑ ∑ cov( Vi, Vj ) n − 1 i≠ j Al ser la varianza del test total X igual a la expresión: σ 2X = ∑ σ 2X + ∑ ∑ cov( X i, X j ) n i i i≠ j se obtiene que las covarianzas son iguales a la diferencia: σ 2X − ∑ σ 2X = ∑ ∑ cov( X i, X j ) = ∑ ∑ cov( Vi, Vj ) i i n n i≠ j i≠ j Por lo tanto, para el coeficiente ρXX' se obtiene la desigualdad siguiente: σ 2X − ∑ σ 2X n ρ XX′ = σ 2V σ 2X ≥ n n−1 i=1 σ 2X i n ∑ σ 2X n i=1 i = 1− n − 1 σ 2X Con lo que queda demostrado que el valor del coeficiente de fiabilidad de un test, obtenido por otro método, resultará ser mayor que el coeficiente alfa. 129 130 Principios de Psicometría Corolario 2 Si X1, X2, …, Xn son medidas paralelas, entonces la expresión de α es idéntica a la ecuación de Spearman-Brown para la fiabilidad de un test compuesto por n elementos. Este resultado lo puede comprobar fácilmente el lector teniendo en cuenta que al considerarse medidas paralelas, se da la igualdad entre las varianzas σ 2Xi para todo i (i = 1, 2, …, n). m5.3. Casos particulares del coeficiente αm La expresión dada para α mediante los teoremas de la sección anterior, tomada tanto como igualdad como desigualdad, ha generado muchas investigaciones como las de Kuder y Richardson (1937), Rulon (1939), Dressel (1940), Hoyt (1941), Guttman (1945), Cronbach (1951), Cureton (1950), etc.; dando a veces lugar a otras ecuaciones obtenidas como casos particulares de ésta más general. Éste es el caso de las ecuaciones de Kuder-Richardson, ya dadas, cuando las componentes del test son ítems dicotómicos. Es fácil demostrar que el coeficiente α se reduce a la ecuación KR20, también conocida bajo la nomenclatura α(20), así como la ecuación KR21 se conoce como α(21). Como se ha indicado anteriormente α(20) ≥ α(21), dándose la igualdad, si y sólo si, todas las pi son idénticas. Ecuaciones de Rulon y de Flanagan y Guttman La ecuación (3.7) de Flanagan y Guttman es un caso particular de la expresión (5.1) del coeficiente α, para el caso de un test que se divide en dos conjuntos de ítems correspondientes a los lugares pares e impares. En efecto, para n = 2 y sustituyendo ∑ σ 2X i = σ 2X impares + σ 2X pares en la expresión (5.1), se obtiene directamente la ecuación (3.7). En el Cuadro 3.8 se demostró que las ecuaciones de Flanagan y Guttman y de Rulon son equivalentes, por lo que la expresión (3.6) de la ecuación de Rulon puede considerarse también un caso particular de la expresión general (5.1) del coeficiente α. Capítulo 5. Fiabilidad: Consistencia interna 131 Ecuación de Hoyt En esta forma de cálculo de la fiabilidad, además de la varianza de la puntuación total, es necesario conocer la media de las covarianzas entre todos los pares de elementos i, j (i ≠ j) con i, j = 1, 2, …, n. En el Cuadro 5.5 se comprueba que la ecuación (5.6) de Hoyt se puede obtener de la expresión general (5.1) dada para el coeficiente alfa, en la que se sustituyen las covarianzas entre las componentes por la covarianza media: α= n2 ρX i X j σ X i σ X j σ 2X Cuadro 5.5 Para un test compuesto por n elementos: X = X1 + … + Xn se tiene que n n n n ∑ σ 2X + ∑ ρ X i X j σ X i σ X j − ∑ σ 2X σ 2X − ∑ σ 2X i i i n i≠ j i=1 = n i=1 i=1 α= 2 2 n−1 n−1 σX σX y teniendo en cuenta que hay n (n -1) términos de la forma ρXi Xj σ Xi σ Xj , se tiene que ∑ ρ X iX j σ X i σ X j = n (n − 1) ρ X iX j σ X i σ X j n i≠ j Sustituyendo en la ecuación anterior, se obtiene: 2 n n (n − 1) ρ X iX j σ X i σ X j n ρ X iX j σ X i σ X j α= = n−1 σ 2X σ 2X que es la ecuación dada por Hoyt para un test compuesto en el que se conoce la covarianza media de sus componentes, así como la varianza del compuesto. (5.6) 132 Principios de Psicometría En los siguientes ejemplos se obtendrá la fiabilidad con datos de muestras pequeñas, aunque la fiabilidad de las pruebas se determina en la práctica con muestras cuyo tamaño sea suficiente para poder hacer inferencias a la población con las suficientes garantías. Además, los cálculos se suelen hacer utilizando los programas que están implementados en muchos paquetes de software para estudios estadísticos y psicométricos. Ejemplo 5.1 En la Tabla 5.1 se dan las puntuaciones que han obtenido diez personas en un test compuesto por 6 subtests que miden el mismo rasgo. La covarianza media entre estos subtests es 0.68 y se desea calcular la consistencia interna de la prueba. Tabla 5.1. Puntuaciones totales en un test con seis componentes. Personas 1 2 3 4 5 6 7 8 9 10 Puntuaciones Xi 11 10 8 17 9 21 7 3 11 23 En este caso, se debe utilizar la ecuación de Hoyt (5.6), puesto que no se tienen más datos de los subtests componentes de la prueba que el promedio de sus covarianzas. La varianza de las puntuaciones en la totalidad de la prueba se puede calcular con los datos de la Tabla 5.1, siendo: [ ] σ 2X = E ( X i2 ) − E ( X ) Por lo tanto: α= 2 = 180.40 − 122 = 36.40 (36) (0.68) = 0.67 36.4 que es el valor estimado para el coeficiente de consistencia interna de la prueba. Ejemplo 5.2 Antes de asignar sujetos a distintos grupos, se ha considerado necesario disponer de una prueba breve donde se evidencien datos relativos a sus res- 133 Capítulo 5. Fiabilidad: Consistencia interna pectivas capacidades en fluidez verbal, habilidad numérica y razonamiento. Para tal fin se ha construido un test T compuesto por otros tres tests, que van a actuar como subtests componentes de ese test. El test A para evaluar la fluidez verbal consta de tres ítems consistentes cada uno de ellos en escribir el máximo número de palabras que completan frases, en un tiempo determinado. La puntuación en estos ítems se corresponde con el número de palabras escritas que tengan sentido. El test B, diseñado para evaluar la habilidad numérica, consta de seis ítems consistentes cada uno de ellos en la resolución de una operación numérica. En este test se le asigna valor 1 a la respuesta correcta y cero a la incorrecta. El test C es de razonamiento. Se plantean cuatro problemas, asignando a cada uno el valor 0 si la solución dada es incorrecta y 1 si es correcta. Se desea conocer la fiabilidad de cada uno de los subtests y del test compuesto usando los datos de 10 sujetos que se dan en la Tabla 5.2, considerándose que es una muestra aleatoria de la población a la que el test va destinado. Tabla 5.2. Puntuaciones de 10 sujetos en cada uno de los ítems de tres subtests. Test A Test B Test C Sujetos 1 2 3 1 2 3 4 5 6 1 2 3 4 1 2 3 4 5 6 7 8 9 10 4 5 3 6 4 8 4 2 5 9 6 4 4 8 4 8 3 1 4 8 1 1 1 3 1 5 0 0 2 6 0 1 0 1 0 1 1 1 1 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1 0 1 0 0 0 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 0 1 0 0 1 1 0 1 1 0 1 1 Total 50 50 20 7 5 7 5 7 5 7 8 7 6 Solución En primer lugar se habrá de elegir, de acuerdo con las características de los datos, cuál es el procedimiento más adecuado para calcular la fiabilidad, tanto de la prueba completa como la de cada subtest. La primera observación que se puede hacer es que sólo se dispone de un dato por persona e ítem, es decir, 134 Principios de Psicometría no se dispone de medidas repetidas obtenidas por procedimientos tales como test-retest o la aplicación de formas paralelas. En el test A, los sujetos pueden obtener puntuaciones cualesquiera dentro de los números enteros y positivos. En los tests B y C, sin embargo, las puntuaciones son dicotómicas, asignando cero al error y uno al acierto. La batería, por lo tanto, está compuesta por subtests con distinto sistema de puntuación y en este sentido también es heterogéneo. El cálculo de la fiabilidad para los cuatro tests T, A, B y C, a partir de los datos disponibles, obliga a que éste se realice a través del coeficiente alfa, en su forma general para el test total T y para el subtest A, y mediante las ecuaciones de Kuder-Richardson para los tests B y C. En la Tabla 5.3, deducida de la Tabla 5.2, se dan las puntuaciones de los sujetos en cada uno de los tests, para facilitar el cálculo de la media y de la varianza en cada uno de los subtests A, B y C, así como las del test total T. Subtest A Este subtest está compuesto por tres componentes que se corresponden con los ítems que lo forman. Las medias y las varianzas para cada una de las tres componentes Ai son: X A 1 = 5 ; X A 2 = 5 ; X A 3 = 2 ; σ 2A = 4.2 ; σ 2A = 5.2 ; σ 2A = 3.8 1 2 3 Los valores de la media y de la varianza de las puntuaciones en el test A (los dados en Tabla 5.3, donde XA = {11, 10, 8, 17, 9, 21, 7, 3, 11, 23}) son: X A = 12 ; σ 2A = 36.4 Aplicando la ecuación general de α dada en (5.1) se tiene: αA = 3 4.2+5.2+ 3.8 3 13.2 1− = 1 − = 0.956 2 36.4 2 36.4 Tabla 5.3. Puntuaciones totales de los sujetos en cada uno de los tests del compuesto. Puntuaciones Sujetos Tests 1 2 3 4 5 6 7 8 9 10 A B C 11 4 2 10 4 3 8 2 2 17 4 4 9 3 2 21 4 4 7 2 3 3 2 1 11 5 3 23 6 4 T 17 17 12 25 14 29 12 6 19 33 Capítulo 5. Fiabilidad: Consistencia interna Subtest B Para calcular la fiabilidad de este subtest se utiliza la ecuación (5.2), donde el número n de componentes coincide con el número de ítems dicotómicos, o sea, n = 6 y sus respectivas probabilidades son: p1 = 0.7; p2 = 0,5; p3 = 0.7; p4 = 0.5; p5 = 0.7; p6 = 0.5 q1 = 0.3; q2 = 0.5; q3 = 0.3; q4 = 0.5; q5 = 0.3; q6 = 0.5 siendo, por lo tanto: ∑ pi qi = 1.38 6 i=1 La media y la varianza de las puntuaciones en este subtest (Tabla 5.3) son: X B = 3.6 ; σB2 = 14.6 − ( 3.6)2 =164 . Sustituyendo los correspondientes valores calculados en la ecuación de α20, se tiene que: α 20 = 6 1.38 1 − = 0.19 5 1.64 La consistencia interna es un valor pequeño y habría que contrastar si es o no significativamente diferente de cero. Subtest C De forma análoga a lo indicado para el test B, se calculan para el test C las respectivas proporciones, siendo n = 4 en este caso. p1 = 0.7; p2 = 0.8; p3 = 0.7; p4 = 0.6 q1 = 0.3; q2 = 0.2; q3 = 0.3; q4 = 0.4 ∑ pi qi = 0.82 4 i=1 La varianza de las puntuaciones del test C es: ( ) σ C2 = 8.80 − 2.80 2 = 0.96 135 136 Principios de Psicometría luego: α 20 = 4 0.82 1− = 0.194 3 0.96 lo que indica que, como el anterior, este subtest posee una escasa consistencia interna. Valor que, de poder admitirse, habría que contrastar previamente si es significativamente diferente de cero. Test compuesto El test tiene tres componentes cuyas varianzas son: σ 2A = 36.40; σB2 = 1.64; σ C2 = 0.96 pudiéndose obtener además la varianza de las puntuaciones totales XT, que se dan en la Tabla 5.3. Los valores de la media y de la varianza de la variable XT son: ( ) X T = 18.40 ; σ 2T = 401.40 − 18.40 2 = 62.84 El coeficiente de fiabilidad para el test compuesto de los subtests A, B y C es: α= 3 σ 2A + σB2 + σ C2 3 38.9 1 − = 1 − = 0.571 2 2 σT 2 62.84 La consistencia interna del test compuesto resulta ser moderada y al interpretarlo se debe tener en cuenta la escasa fiabilidad de los subtests componentes B y C que forman parte de la prueba. m5.4. El coeficiente βm En el caso en que no se disponga de los datos de todos y cada uno de los ítems de un test, siendo los elementos de ese test los distintos subtests que lo forman, y si estos subtests tienen distinto número de elementos, el valor que proporciona el coeficiente α es una subestimación de la fiabilidad del compuesto. El coeficiente β (Raju, 1977), que es una generalización del coeficiente α, viene a solucionar este problema, coincidiendo su valor con el de α en el caso en que todos los subtests tengan el mismo número de elementos, como se demuestra en el Cuadro 5.6. La Capítulo 5. Fiabilidad: Consistencia interna 137 expresión de β, por lo tanto, incluye, además de las varianzas de cada uno de los componentes del test, su número de elementos. Para Xj subtests (j = 1, 2, …, k), que contienen un número nj de ítems, que en principio es diferente de unos subtests a otros, el coeficiente β es: σ 2X − ∑ σ 2X k β= σ 2X 1− j=1 j nj 2 ∑ j=1 n (5.7) k donde: σ 2X σ 2Xj es la varianza del test global, esto es, la de todas las puntuaciones que componen la batería. n = ∑ nj es la varianza de cada uno de los subtests. k j =1 es el número total de ítems que forman X. Cuadro 5.6 Comprobemos que el coeficiente α = β en el caso en que todos los subtests tuviesen la misma longitud. En efecto, si es n1 = n2 = … = nk, entonces, el número total de elementos será k veces el número de los de cualquiera de los subtests: n = ∑ nj = k nj k j =1 con lo que el término del denominador que multiplica a σ 2X en la ecuación (5.7) es: 2 k n n k 2 k k −1 j 1− ∑ = 1 − k = 1− 2 = n n k k j =1 138 Principios de Psicometría que sustituido en la ecuación (5.7) σ 2X − ∑ σ 2X k β= j=1 k − 1 σ 2X k σ 2X − ∑ σ 2X k j = k k −1 j=1 σ 2X j da como resultado la ecuación (5.1), que es la del coeficiente α para un test formado por k componentes. m5.5. Cálculo de α con técnicas de análisis de varianzam Los ítems de una prueba se puede considerar que son medidas repetidas de la variable que esa prueba pretende evaluar. Bajo esta perspectiva, se puede evaluar la consistencia interna de la prueba haciendo uso de las técnicas de análisis de la varianza, como ya lo hiciera Hoyt en 1941. Si es Xpi la puntuación del sujeto p en el ítem i, se pueden calcular las puntuaciones medias de N sujetos que responden a n ítems. En ese caso, para una prueba con n ítems o componentes, el cálculo de α se realiza mediante la igualdad: α= nF 1 + nF (5.8) donde F es una función de las medias cuadráticas entre sujetos (MCentre ) y la media cuadrática residual (MCres ) dada por la expresión: F= MCentre − MCres n MCres siendo cada MC igual a su suma de cuadrados (SC) dividida por los correspondientes grados de libertad (g.l.): 139 Capítulo 5. Fiabilidad: Consistencia interna ( ) 2 SCentre = n NE X p − X = n ∑ X p2 − n N X 2 p SCres = ∑ N MCentre = SCentre N −1 ∑ X pi2 + n N X 2 − n∑ X p2 − N∑ X 2i n p=1 i =1 p i MCres = SCres ( N − 1)( n − 1) Los análisis suelen involucrar un número considerable de datos y los cálculos se realizan con el software que incluyen los paquetes estadísticos para los ANOVA, aunque esos cálculos son muy simples cuando las variables son dicotómicas y la matriz de datos (N sujetos × n ítems) es de pequeñas dimensiones, como se ilustra en el ejemplo siguiente. Ejemplo 5.3 En la Tabla 5.4 se muestran los datos de las N = 10 sujetos, que responden al test C de cuatro ítems del Ejemplo 5.2, que pueden considerarse medidas repetidas. Tabla 5.4. Puntuaciones en los ítems y las totales de los ítems ( Ti ) y de los sujetos ( Tp ). Sujetos Ítems 1 2 3 4 Tp 1 2 3 4 5 6 7 8 9 10 Ti 0 1 1 0 2 1 1 1 0 3 1 0 0 1 2 1 1 1 1 4 0 1 1 0 2 1 1 1 1 4 0 1 1 1 3 1 0 0 0 1 1 1 0 1 3 1 1 1 1 4 7 8 7 6 28 140 Principios de Psicometría El cálculo de α utilizando técnicas de análisis de varianza requiere la evaluación de las siguientes cantidades: a) La suma de los cuadrados de todos los valores de la tabla: ∑ ∑ X pi2 = 28 p i b) El cuadrado de la media de todos los valores: T 2 28 2 X2 = = = 0.49 nN (4 )(10) c) La suma de los cuadrados de las medias de cada sujeto p: ∑ (X p ) p 2 T 2 22 + 32 + L + 32 + 4 2 p = ∑ = = 5.5 n 42 p=1 10 d) La suma de los cuadrados de las medias de cada ítem: ∑ (X i ) 2 i T 72 + 82 + 72 + 62 = ∑ i = = 1.98 102 1 N 2 4 con lo que se obtiene SCentre = n∑ X p2 − nN X 2 = 4 (5.5 − 4.9) = 2.40 p SCres = 28 + (4 )(10)(0.49) − (4 )(5.5) − (10)(1.98) = 5.80 MCentre = MCres = ( SCentre 2.40 = = 0.267 N−1 9 )( ) SCres 5.80 = = 0.215 27 n−1 N−1 En la construcción de F para el cálculo de α, téngase en cuenta que sólo intervienen las medias cuadráticas de los sujetos y residual, ya que se han considerado los ítems como medidas repetidas. F= MCentre − MCres nF = 0.060 ; α = = 0.194 n MCres 1+ nF Capítulo 5. Fiabilidad: Consistencia interna 141 El valor obtenido para α indica la escasa consistencia interna entre esos ítems, pudiéndose comprobar que el valor obtenido para α es el mismo que el obtenido en el Ejemplo 5.2, no dependiendo por lo tanto del procedimiento de cálculo utilizado. Esta forma de proceder marca los antecedentes de los conceptos y los métodos que se han generado en la teoría de la generalizabilidad que se tratará en el Capítulo 7 de esta obra, donde nuevamente veremos que por distintas vías se puede calcular y obtener el mismo valor para el coeficiente de fiabilidad α. m5.6. Coeficientes derivados del análisis factorial m Cuando se construye una prueba es una práctica común realizar un análisis factorial para detectar los posibles factores o dimensiones que están implícitos en ese rasgo o constructo que se desea medir. El análisis se realiza a partir de los valores que se obtienen al aplicar los n ítems que componen la prueba a una muestra representativa, o sea, se analizan las Xi (i = 1, 2, …, n) variables que la componen. Algunas de las relaciones entre los ítems se ponen de manifiesto a través de los valores de los pertinentes coeficientes que se estiman mediante esos análisis. La terminología del análisis factorial es necesaria, al menos para entender los términos usados en los Cuadros 5.7 y 5.8 como son comunalidad o valores propios. El lector interesado en estos índices puede consultar las referencias que de sus autores que se dan en este texto y para las técnicas de análisis factorial lo remitimos a las obras de Lawley y Maxwell (1971), Mulaik (1972), Gorsuch (1983), Bryant y Yarnold (1995) o Thompson (2004), entre muchas otras existentes en la literatura. El coeficiente Ω Éste es un coeficiente cuyo cálculo, además de tener en cuenta las varianzas de los ítems y las covarianzas entre ellos, incluye la denominada comunalidad del ítem (parte de la varianza de ese ítem que queda explicada por los factores comunes), que se estima cuando se realiza un análisis factorial. Por lo tanto, este coeficiente sólo tiene sentido calcularlo cuando se ha realizado un análisis para detectar los 142 Principios de Psicometría distintos factores o dimensiones que componen el rasgo o el constructo que se pretende medir. Este coeficiente omega, propuesto por Heise y Bohrnstedt (1970) se calcula mediante las ecuaciones (5.9) o (5.10) que se dan en el Cuadro 5.7. Cuadro 5.7 El coeficiente omega se define como ∑ σ 2X i − ∑ σ 2X i hi2 n Ω = 1− n ( i =1 i =1 ∑ cov X i, X j i, j ) (5.9) donde σ X2 i representa la varianza de cada uno de los ítems, h2i son cada una de sus comunalidades estimadas mediante la técnica de análisis factorial y el denominador es la suma de las covarianzas entre todos los pares posibles (i, j; i ≠ j) de ítems. Una forma alternativa de cálculo del coeficiente omega es: n − ∑ hi2 n Ω = 1− i =1 n + 2∑ ρ X iX j (5.10) i≠ j donde cada uno de los términos tiene el significado dado anteriormente y el término ∑ ρ X iX j i≠ j es la suma de las correlaciones entre los ítems. Obsérvese que en las ecuaciones (5.9) y (5.10), fijado el numerador, cuanto mayor es la covarianza o la correlación entre los ítems, menor es el cociente y, por lo tanto, mayor es el coeficiente Ω. Ahora bien, una mayor covarianza o correlación entre los ítems revela una mayor consistencia interna entre ellos, que es lo 143 Capítulo 5. Fiabilidad: Consistencia interna que el coeficiente Ω mide. El coeficiente Ω sobrestima el valor α de la consistencia interna. El coeficiente θ La consistencia interna de los ítems de un test se puede interpretar como que todos esos ítems miden un rasgo unitario. Si el rasgo tiene más de una dimensión, las técnicas de análisis factorial permiten detectar los diferentes factores que lo componen. Mediante esta técnica se obtienen los valores λ i, denominados valores propios de cada uno de los i factores, que informan de la varianza que explica cada uno de ellos (antes de hacer rotación de los factores). Los valores propios se ordenan de mayor a menor, de forma que el valor λ1 es el primer factor, o sea, que es el que explica mayor varianza. Cuanta más varianza explique un solo factor, más probable es que el test sea unidimensional. Cuadro 5.8 Carmines y Zeller (1979) propusieron el coeficiente theta para medir la consistencia interna, el cual toma la forma: θ= n 1 1− n − 1 λ1 (5.11) donde n es el número de ítems del test y λ1 es primer valor propio, es decir, el del factor que detenta la mayor varianza explicada. El valor del coeficiente θ está en relación directa con el de λ1. Para una longitud dada n, a mayor valor de λ1 mayor será el valor de θ, lo que indica que los ítems están más interrelacionados y, para un λ1 suficientemente grande, el rasgo o el constructo que mide la prueba se podría considerar que es unidimensional. En cualquier caso, si se ha realizado un análisis factorial de los datos, es porque se presupone que el rasgo o constructo que mide la prueba tiene más de una dimensión, esto es, que puede estar compuesto por más de un factor, y que hay 144 Principios de Psicometría uno o más ítems incluidos en la prueba que dan cuenta de ellos. Por lo tanto, el coeficiente θ es un buen indicador de la unidimensionalidad. Como con cualquier otro coeficiente, también con θ se da la desigualdad α ≤ θ, aunque este coeficiente se haya calculado por un método aparentemente diferente a los correlacionales anteriormente reseñados. Las relaciones entre α y los coeficientes calculados introduciendo valores estimados mediante análisis factorial es: α ≤ θ ≤ Ω. m5.7. Variaciones de la fiabilidadm El análisis de las variaciones de la fiabilidad es importante en los estudios psicométricos ya que, puesto que la fiabilidad no se mide en el sentido más usual del término, sino que se infiere, el coeficiente obtenido dependerá de las características del método de estimación elegido y las de las muestras utilizadas para realizar la inferencia. Un mismo test puede proporcionar distintas estimaciones de la fiabilidad cuando se administra a distintos sujetos y en distintas condiciones. Como se ha visto en los desarrollos teóricos, las muestras o los grupos más homogéneos con respecto al rasgo que el test pretende medir proporcionan coeficientes de fiabilidad menores que aquellos que son más heterogéneos, aun cuando no varíen las condiciones de aplicación. Por todo ello, hay que conocer cómo se interpreta la cuantía de los coeficientes, cuáles son los métodos y formas de cálculo más apropiadas en determinados casos, en qué casos los valores de la fiabilidad podrían estar subestimados o sobrestimados, etc. Cuantía No hay normas estrictas para que se acepte o no un test por el valor de su coeficiente de fiabilidad. La aspiración al construir una prueba es que su precisión sea la mayor posible, pero no hay valores fijos que definan a priori si el coeficiente obtenido es adecuado. Aun cuando generalmente los coeficientes de fiabilidad de las pruebas estándar suelen ser valores superiores a 0.80, también hay casos en los que se aceptan valores mucho menores. Hay quienes interpretan que se pueden tomar en consideración valores del coeficiente a partir de 0.50, pero ésta no es una regla que se deba seguir, puesto que la precisión exigida para el instrumento Capítulo 5. Fiabilidad: Consistencia interna 145 de medida dependerá, entre otros condicionantes, de las características de aquello que se pretende medir y de los objetivos programados a los que la prueba tiene que servir. Por ejemplo, se debe exigir a los tests una mayor precisión cuando éstos vayan dirigidos a la realización de pronósticos individuales que cuando se destinen a realizar pronósticos colectivos. La fórmula de cálculo La estimación de la fiabilidad en los tests denominados de velocidad, así como en aquellas pruebas con datos obtenidos mediante las modalidades de test-retest o de formas equivalentes supuestamente paralelas o tau-equivalentes, no exige el cálculo del coeficiente alfa en cualquiera de sus versiones, ya que el significado de este coeficiente es el de la consistencia y además elevaría innecesariamente el nivel de exigencias, puesto que alfa proporciona la cota inferior de la fiabilidad del test. El coeficiente alfa y las ecuaciones de Kuder-Richardson solamente se deben usar cuando se trate de tests muy homogéneos, en el sentido de que midan un rasgo unitario, ya que lo que reflejan esos índices y coeficientes es la homogeneidad de sus componentes, ya sean ítems o grupos de ítems. Para aquellas pruebas que midan más de un rasgo, el valor obtenido por los métodos de alfa o de Kuder-Richardson darían probablemente fiabilidades equívocamente bajas y, por lo tanto, inapropiadas. En aquellos tests o cuestionarios que se supone que evalúan más de un rasgo de un mismo constructo, o cuando en un cierto rasgo interviene más de una dimensión, sería necesario hacer uso de técnicas específicas de análisis para identificar esas dimensiones o factores. Las técnicas de análisis factorial permiten esa identificación y proporcionan los datos (valores propios, etc.) que permiten calcular la fiabilidad, como los coeficientes θ y Ω anteriormente mencionados. Un problema diferente es la evaluación del efecto de los factores. Esto es, cuando se quieren estudiar los efectos que ejercen sobre la fiabilidad la heterogeneidad de los sujetos, las variaciones en las condiciones de aplicación de la prueba u otros factores que, sin duda, pueden estar afectando a las puntuaciones. Estos estudios usualmente se hacen mediante las técnicas del análisis de la varianza (ANOVA). Un caso especial de estudio de tales efectos sistemáticos sobre la fiabilidad, basado en las técnicas del ANOVA y que tiene entidad propia dentro del ámbito de 146 Principios de Psicometría la psicometría, es la teoría de la generalizabilidad desarrollada por Cronbach que se tratará en el Capítulo 7 de esta obra. Aplicación de la ecuación de Spearman-Brown Se ha demostrado que la cota inferior de la fiabilidad, dada por alfa, se iguala al valor de la fiabilidad calculada por cualquier otro método, sólo en el caso en que las componentes sean paralelas o tau-equivalentes. Por ello, al aumentar la fiabilidad de los tests con elementos paralelos, hay que ser extremadamente cuidadosos con las condiciones de paralelismo, puesto que al aplicar la ecuación de Spearman-Brown para calcular la fiabilidad del test, es fácil que se esté sobrestimando, o subestimando, el valor de la fiabilidad. Si, por ejemplo, los ítems son esencialmente tau-equivalentes, tanto α como KR20 subestiman la fiabilidad. Un caso de sobrestimación de la fiabilidad es el siguiente: Ejemplo 5.4 En un test de n = 20 ítems y fiabilidad r = 0.60, si para aumentar su fiabilidad se le añaden otros 20 ítems, el valor de la fiabilidad del nuevo test, calculada mediante la ecuación de Spearman-Brown, es: ρ XX′ = 2 (0.60) = 0.75 1+ 0.60 Limitándose estrictamente a aplicar la ecuación y dar por bueno ese resultado, se puede observar que al doblar la longitud se ha producido un aumento sustancial de la fiabilidad, pasando el valor del coeficiente de 0.60 a 0.75. Sin embargo, habría que haber tenido en cuenta que el aumento de la fiabilidad depende directamente de la varianza de los elementos añadidos. Supóngase el caso extremo en el que la varianza de las puntuaciones de esos 20 elementos añadidos es nula. Si la varianza es nula, es porque todos los sujetos dieron la misma puntuación en la prueba, es decir, las puntuaciones en los nuevos elementos son iguales para todos los sujetos. Al añadir al test esos 20 elementos, lo único que se ha conseguido realmente es sumar una constante a cada una de las puntuaciones anteriormente obtenidas, pero, en realidad, no se ha aumentado la fiabilidad del test. Luego el Capítulo 5. Fiabilidad: Consistencia interna 147 aumento de 0.15 en el valor de la fiabilidad es ficticio y, en este caso, la aceptación del valor obtenido aplicando la ecuación de Spearman-Brown conduce a una sobrestimación de la fiabilidad del test resultante. Por lo tanto, la aplicación indiscriminada de la ecuación de Spearman-Brown en tests en los que la adición de elementos paralelos se hace descuidadamente, sin comprobar las condiciones de paralelismo y estudiar los efectos de las varianzas, pueden dar valores equívocos para la fiabilidad. Variaciones de la fiabilidad en relación con la longitud del test y la homogeneidad de los grupos Hay dos aplicaciones prácticas importantes que se pueden derivar del comportamiento de la fiabilidad a través de las ecuaciones de Spearman-Brown, una es la de poder hacer comparaciones entre fiabilidades de tests con distintas longitudes, y la otra es la de calcular los efectos que sobre la fiabilidad tiene la composición de subtests, a partir de tests conocidos con fiabilidad dada. En el primer caso, cuando se tienen tests con distintas longitudes y con distintas fiabilidades, el test más largo probablemente aparecerá como más fiable, y esta mayor fiabilidad se puede deber precisamente a que es más largo. Por lo tanto, para comparar la fiabilidad de diferentes tests, se debería estimar la fiabilidad de esos tests bajo el supuesto de que fuesen de igual longitud. Por otra parte, es práctica común construir subtests a partir de tests dados. En este caso, también hay que tener en cuenta los efectos que la varianza de los elementos que van a constituir el nuevo test tiene sobre los resultados obtenidos de la aplicación directa de la ecuación de Spearman-Brown. Subtests muy cortos tienden a tener fiabilidades sustancialmente más bajas que las de aquellos más largos de los que han sido extraídos. Por lo tanto en la práctica es necesario analizar el comportamiento de los tests acortados y cuidar los procesos de comparación entre tests muy cortos. Finalmente, considérese que, debido a las variaciones muestrales, se pueden también asignar valores equívocos a la fiabilidad. Hay que vigilar especialmente aquellos casos en los que es elevada la proporción de la varianza error σe2 en relación con la varianza σ2X . 148 Principios de Psicometría Ejemplo 5.6 La varianza de las puntuaciones con un test en una muestra A de una población es sA2 y la fiabilidad calculada en esa muestra es r = 0.64, de donde se estimaría un valor de la varianza error s e2 = 9. El mismo test se ha aplicado a toda la población, obteniéndose que la varianza es σ 2 = 225 y fiabilidad ρ = 0.96, comprobándose que el valor de la varianza error es el mismo que en la muestra σ e2 = 225 (1 – 0.96) = 9. Si se hace uso de la relación (2.3), se tiene que: 25 = s2V + 9 y 225 = σ 2V + 9 A donde se puede observar que en la muestra la aportación a la varianza total de la componente error es del 36%, siendo sólo del 4% cuando se considera toda la población. Aun cuando se obtuviese en distintas aplicaciones el mismo valor para la varianza error, una mayor aportación a la varianza total de la componente que corresponde a la puntuación verdadera, se traduce en un aumento de la fiabilidad. Por lo tanto, en el cálculo de la fiabilidad debe compararse la varianza observada con la varianza error. Si σ X2 >> σ e2, se tiene garantía de precisión del test. Si no es así, se corre el riesgo de que σ 2X ≈ σ 2e y que gran parte de las diferencias individuales que se aprecian con el test se deban a errores de medida. Bajo los supuestos de igualdad de la varianza error, se pueden considerar dos muestras X1 y X2 y utilizando la relación (4.3) se tiene que: rX 2 X ′2 = s2X 2 − s2X1 (1 − rX1X1′ ) s2X 2 que permite estimar el coeficiente de fiabilidad de un test, utilizando una muestra con varianza conocida. Ejemplo 5.7 Al aplicar un test X a dos muestras A y B procedentes de una misma población, se obtienen dos conjuntos de puntuaciones cuyas varianzas son respectivamente s A2 = 9 y s B2 = 13. Si el coeficiente de fiabilidad calculado con la muestra A es 0.70, calcule el coeficiente de fiabilidad de la muestra B. Capítulo 5. Fiabilidad: Consistencia interna rXB X′B = 149 13 − 9 (1− 0.70) = 0.79 13 El coeficiente de fiabilidad de la prueba X es mayor si se usa la muestra B, luego debe preferirse esta muestra a la A para construir las bases del grupo normativo, ya que es más representativa (mayor variabilidad en los datos) de la heterogeneidad existente en la población. Cuadro 5.9 Métodos para componer tests que permitan obtener la máxima fiabilidad posible para el compuesto mediante la asignación de distintos pesos a las componentes y la variación de sus longitudes pueden encontrarse en el Capítulo 5 de Lord y Novick (1968, págs. 119-124), en el que también se da un procedimiento de maximización de la fiabilidad del compuesto, cuando las componentes tienen una longitud fija. Como conclusión de este apartado diremos que, para que sean correctas las interpretaciones que se dan a un determinado coeficiente de fiabilidad, hay que conocer y analizar el método, las características de las muestras y en qué condiciones se ha calculado ese coeficiente. En la obra de Feldt y Brennan (1989) se pueden consultar diferentes métodos para estimar la fiabilidad y en qué condiciones deben aplicarse. En Osburn (2000) se hace una evaluación de la adecuación de los diversos estimadores de la consistencia interna y en Santisteban y Alvarado (2001, págs. 37-51) se pueden consultar algunos aspectos no tratados aquí sobre paralelismo, tau-equivalencia y el coeficiente alfa. Puntos clave 3 3 3 Una forma de fiabilidad que mide la relación entre las diferentes partes de un test es su consistencia interna. La forma más general de estimar la consistencia interna la proporciona el coeficiente α. Hay ecuaciones específicas para calcular la consistencia interna en tests con ítems dicotómicos, o en pruebas en las que la consistencia interna se estable- 150 Principios de Psicometría 3 3 3 3 3 3 3 3 ce entre las dos partes en las que se ha dividido esa prueba. Todas ellas se puede considerar que son diferentes versiones del coeficiente α. El coeficiente α es la cota inferior de la fiabilidad. En algunos casos, la fiabilidad calculada mediante α está subestimada. Para calcular la consistencia interna entre subtests con distinto número de elementos es más apropiado el coeficiente β que el coeficiente α, pues éste es uno de los casos en los que utilizando α se subestima la fiabilidad. El coeficiente α se puede obtener también a través del estadístico F, calculado a partir de las medias cuadráticas entre sujetos y la residual. Hay coeficientes de fiabilidad que se pueden obtener haciendo uso de algunos de los valores derivados de la aplicación de las técnicas de análisis factorial. Los coeficientes que hacen uso de algunos valores derivados del análisis factorial calculan la interrelación entre los factores intervinientes por lo que, de alguna manera, esos coeficientes también son indicadores de la dimensionalidad de la prueba. La interpretación correcta de los coeficientes de fiabilidad involucra diferentes aspectos. La simple aplicación de las fórmulas puede conducir a decisiones erróneas, como que se esté sobrestimando o subestimando la fiabilidad. En todas las interpretaciones de los coeficientes de fiabilidad para establecer las características psicométricas de una prueba hay que analizar la cuantía de la varianza de las puntuaciones. Que la varianza de las puntuaciones observadas sea mucho mayor que la de los errores es una garantía de precisión de las pruebas. El coeficiente α es la cota inferior de la fiabilidad. Actividades r Haga una breve disertación sobre las similitudes y diferencias del coeficiente α con otros coeficientes de fiabilidad, indicando sus ventajas e inconvenientes. r Razone por qué y en qué condiciones se da la relación de desigualdad entre los coeficientes KR20 > KR21. r Compruebe que, cuando las n componentes consideradas en la ecuación de α son paralelas, esta ecuación coincide con la general de Spearman-Brown, para la fiabilidad de un test compuesto por n elementos. r Vuelva sobre el test o los tests que ha elaborado como una actividad llevada a cabo en el Capítulo 3. A la luz de la información dada en este capítu- Capítulo 5. Fiabilidad: Consistencia interna r r r r r 151 lo, calcule y compare los nuevos coeficientes de fiabilidad. Por ejemplo, dicotomice la variable, agrupando las respuestas en sólo dos clases y calcule nuevamente la fiabilidad. Haga una exposición razonada de los problemas que pueden surgir en la determinación de la precisión de las pruebas, tanto en el cálculo del coeficiente de fiabilidad, como en su interpretación. Haga nuevos supuestos sobre los diferentes ejemplos expuestos en este capítulo y compare los resultados. Comente las propiedades psicométricas del cuestionario de agresividad publicado por Santisteban et al. (2007). Los ítems del cuestionario arriba mencionado los puede encontrar en Santisteban y Alvarado (2009). Aplíquelo a muestras de escolares, y compare los valores de los coeficientes alfa que obtenga para la prueba completa y los de sus factores con los que proporcionan los autores. Con la información que se da en el Ejemplo 5.2 del test compuesto por tres subtests con 3, 6 y 4 elementos respectivamente, suponga que no se tiene información detallada de cada persona en cada ítem. Calcule el coeficiente de fiabilidad α. Inferencias Estimación y contrastes de significación 6 Los procedimientos estadísticos de estimación y de contraste de hipótesis se utilizan en la TCT, tanto para obtener estimaciones de los valores de las puntuaciones verdaderas, como para hacer comparaciones entre las puntuaciones que se obtienen en los tests. También estos métodos se utilizan para hacer inferencias acerca de los valores de los coeficientes de fiabilidad de los tests, ya sean obtenidos por correlación o sean coeficientes alfa. En este capítulo se va a tratar: ã Cómo se puede estimar y predecir la puntuación verdadera a partir de las puntuaciones observadas. ã Cómo hacer comparaciones inter e intrasujeto, utilizando las puntuaciones que proporcionan uno o más tests. ã La distinción entre distintos tipos de errores, pues es necesario conocer las desviaciones típicas de las diferentes distribuciones muestrales, para hacer correctamente las inferencias, mediante intervalos de confianza y contrastes de hipótesis. ã Contrastes de hipótesis sobre si el coeficiente de fiabilidad poblacional es significativamente igual a cero o a un determinado valor. ã Contrastes sobre la igualdad entre diferentes valores del coeficiente de fiabilidad α, en muestras independientes y en muestras relacionadas. m6.1. Predicciones de la puntuación verdaderam La puntuación verdadera V se puede predecir haciendo uso de las puntuaciones X observadas, en el contexto del modelo lineal de Spearman, presentado en el 154 Principios de Psicometría Capítulo 2. Una consecuencia que se deriva de las hipótesis de este modelo es que la media de las puntuaciones observadas es el estimador de la media de la puntuación verdadera de la población, como se comprobó en el Apartado 2.2. Partiendo de ese supuesto, los valores estimados para V se pueden obtener haciendo uso de la ecuación de regresión lineal de la variable V sobre la variable X: V − V = ρ XV σV (X − X) σX (6.1) en donde V se puede sustituir por X , pero tanto σV como ρXV son también valores desconocidos. Teniendo en cuenta las relaciones (2.4) y (2.12), se puede sustituir ρXV por σV / σX , obteniéndose la igualdad: ρ XV σ V σ 2V = = ρ XX ′ σ X σ 2X (6.2) con lo que la ecuación de regresión toma la forma: V − V = ρ XX ′ (X − X ) (6.3) resultando así que una vez conocidos V = X y ρXX' , (que se estiman a partir de los valores observados) se puede predecir el valor de la variable V para cualquier valor de la variable X, mediante la ecuación de regresión (6.3). Las predicciones de las puntuaciones verdaderas se hacen en función de las correspondientes puntuaciones observadas, que pueden venir dadas como puntuaciones directas X, o en puntuaciones diferenciales, cuando están centradas en la media: x = ( X − X ) o bien en puntuaciones tipificadas: zX = x / σX . En cada uno de estos casos, el valor estimado de V, que se denota por V$, se obtendrá mediante las ecuaciones siguientes: a) Para puntuaciones directas: V$ = ρ XX ′ (X − X ) + X (6.4) b) Para puntuaciones diferenciales o centradas en la media: v$ = x ρ XX ′ (6.5) 155 Capítulo 6. Inferencias: Estimación y contrastes donde v$ es la puntuación verdadera estimada, que al igual que las puntuaciones x, también viene dada en puntuaciones diferenciales: v$ = V$ − V . c) Para puntuaciones X tipificadas: z$ V = z X ρ XX ′ (6.6) En este caso, las puntuaciones estimadas para V también serán puntuaciones tipificadas. La ecuación (6.6) se obtiene de (6.3) teniendo en cuenta (6.2) y que zx = x / σx y zv = v / σv . En todos los casos se puede pasar de unas ecuaciones a otras, dependiendo de los datos de las puntuaciones observadas de los que se disponga, ya que son las mismas aunque se diferencian en el punto tomado como origen y/o en la unidad de medida de la escala. Ejemplo 6.1 En un test los valores de la media, la varianza y la fiabilidad para una determinada población son respectivamente: X = µ̂ = 52 ; σ 2X = 25 y rXX´ = 0.75. ¿Qué valor de la puntuación verdadera se podría predecir a un sujeto de esa población cuya puntuación directa observada sea de 67 puntos? Se dispone de datos suficientes para obtener la estimación de la puntuación verdadera en cualquiera de las modalidades indicadas: a) La puntuación verdadera estimada en puntuaciones directas es: ( ) Vˆ = 0.75 67 − 52 + 52 = 63.25 b) La puntuación verdadera estimada en puntuaciones diferenciales (centradas en la media) es: ( )( ) vˆ = 0.75 67 − 52 = 11.25 c) La puntuación verdadera estimada en puntuaciones tipificadas es: zˆ V = 3 0.75 = 2.60 ya que la puntuación tipificada zX = (67 – 52)/5 = 3. 156 Principios de Psicometría Ejemplo 6.2 A partir de los resultados anteriores se puede inferir el valor de la varianza de la puntuación verdadera: σˆ V = vˆ 11.25 = = 4.33 zˆ V 2.60 obteniéndose para la varianza de la puntuación verdadera el valor σ 2V = 18.75. Se puede comprobar que la estimación de la varianza no viola los supuestos del modelo, pues si se tiene en cuenta que bajo esos supuestos se da la relación (2.3), sustituyendo los valores dados en el Ejemplo 6.1, se tiene que: σ 2e = σ 2X − σ 2V = 25 − 18.75 = 6.25 que es un resultado igual al valor obtenido utilizando la ecuación (2.15), pues para la varianza error también se obtendría que es: σ 2e = 25 (1− 0.75) = 6.25 m6.2. Errores de medida, de estimación y de predicciónm En el modelo lineal que da soporte a la teoría clásica y en el modelo de regresión se puede distinguir entre distintos tipos de errores: el error de medida, que se explicita en las hipótesis del modelo, el error derivado de la estimación, que es el que se obtiene como diferencia entre la puntuación verdadera y su correspondiente valor estimado y el error de predicción, que es la diferencia entre la puntuación estimada como verdadera y la puntuación observada. Es necesario hacer distinciones entre cada uno de estos tipos de errores, y conocer las desviaciones típicas de sus correspondientes distribuciones cuando se usan en casos prácticos, en especial cuando se trata de hacer inferencias. Por ello vamos a tratar en primer lugar los diferentes tipos de errores para estudiar posteriormente la relación entre ellos. 157 Capítulo 6. Inferencias: Estimación y contrastes Tipos de errores Error de medida El error de medida viene dado por la diferencia entre la puntuación observada y la verdadera e=X−V (6.7) siendo e una variable aleatoria cuya distribución y propiedades ya se han expuesto en el Capítulo 2. A la desviación típica de la distribución de esa variable se le denomina error típico de medida y su expresión ya dada en (2.15) es: σ e = σ X 1 − ρ XX ′ (6.8) Error de estimación Se denomina error de estimación de la puntuación verdadera o simplemente error de estimación, a la diferencia entre la puntuación verdadera y su valor predicho mediante regresión lineal. ε = V − V$ (6.9) La desviación típica de la distribución de los errores de estimación se puede calcular mediante la expresión: σ ε = σ X ρ XX ′ 1 − ρ XX ′ (6.10) Cuadro 6.1 La expresión de σε dada en (6.10) se obtiene calculando la varianza de la variable: ε = V − V̂ 158 Principios de Psicometría La varianza de la variable ε es: [ ] σ 2ε = E ε − E (ε) [ 2 ] [ ] = E (V − Vˆ ) − E ( V − Vˆ ) { [ ]} = E V − E ( V ) + E ρ XX′ X − E ( X ) 2 2 2 {[ ]} = {[V − E ( V )] [X − E ( X )]} = ] [ = E ( V − E ( V ) − Vˆ − E ( Vˆ ) − 2 ρ XX′ 2 = σ 2V + ρ2XX′ σ 2X − 2 ρ XX′ ρ XV σ V σ X = ρ XX′ σ 2X + ρ2XX′ σ 2X − 2ρ2XX′ σ 2X = = σ 2X ρ XX′ (1− ρ XX′ ) Llegando a esta última expresión sustituyendo σ 2V y ρXV σ V por su valor dado en (6.2). Por lo tanto, la desviación típica del error de estimación es la expresión (6.10) dada anteriormente. Error de predicción Este error se obtiene como diferencia entre la puntuación observada y la verdadera estimada. ∆ = X − V$ (6.11) La desviación típica de este error es: σ ∆ = σ X (1 − ρ XX ′ ) (6.12) Cuadro 6.2 La expresión de σ∆ se deduce de la ecuación general para la varianza de la variable ∆, sustituyendo V̂ por la ecuación (6.4): [ ] σ 2∆ = E ∆ − E ( ∆ ) {[ 2 ] [ ] = [X − E ( X )]} = E {[X − E (X)] [1− ρ ]} = E ( X − Vˆ ) − E ( X − Vˆ ) = E X − E ( X ) − ρ XX′ 2 2 XX ′ cuya raíz cuadrada es la expresión dada en (6.12) para σ∆. 2 ( = σ 2X 1− ρ XX′ ) 2 Capítulo 6. Inferencias: Estimación y contrastes 159 Relación entre los errores Entre los errores típicos de medida, estimación y predicción se dan las siguientes relaciones: σ ε2 = σ e2 ρ XX ′ σ 2∆ = σ e2 (1 − ρ XX ′ ) = σ e2 − σ ε2 (6.13) (6.14) Por lo tanto, las varianzas de los errores de estimación y de predicción son menores que las de los errores de medida, dándose la igualdad sólo cuando se obtenga fiabilidad ρXX' = 1, en cuyo caso es σ∆ = σε = σε = 0. Como se deduce de (6.14), en este modelo el error de medida es igual a la suma de los errores de estimación y predicción (σ 2e = σ 2ε + σ 2∆ ). Para las distribuciones de los Ejemplos 6.1 y 6.2 se obtienen los siguientes valores: σ 2ε = 6.25; σ 2ε = 4.69; σ 2∆ = 1.56. m6.3. Intervalos de confianza para la puntuación verdaderam La puntuación verdadera, V, correspondiente a una determinada puntuación observada, X, no se puede conocer, pero puede pronosticarse mediante regresión y también puede estimarse que estará comprendida entre dos valores que delimitan un intervalo de confianza. Este intervalo se puede determinar suponiendo que el error de medida, e = X – V sigue una distribución normal (o t de Student para pequeñas muestras). Por lo tanto, se pueden fijar dos valores – zα y + zα (o bien – tα y + tα ) entre los que, con probabilidad (1 – α) se pueda aseverar que se encuentra esa puntuación verdadera. El intervalo es simétrico, siendo α/2 la probabilidad de que haya valores menores que – zα y mayores que + zα en una u otra cola de la distribución, como muestra la Figura 6.1. a) Intervalo de confianza con puntuaciones directas: X −z α σ e ≤ V ≤ X + z α σ e (6.15) b) Intervalo de confianza con puntuaciones diferenciales: x − zα σ e ≤ v ≤ x + zα σ e (6.16) 160 Principios de Psicometría c) Intervalo de confianza con puntuaciones tipificadas: z X − z α 1 − ρ XX ′ ≤ z V ≤ z X + z α 1 − ρ XX ′ (6.17) donde σe = σX (1 – ρXX' )1/2 y el factor zα es el valor de la variable que en la distribución N(0, 1) entre – zα y + zα, (o, en su caso, entre – tα y + tα bajo la distribución t de Student) delimita un área de probabilidad 1 – α. Figura 6.1. Intervalo de confianza de amplitud 1 – α bajo una distribución normal. Cuadro 6.3 Los intervalos de confianza para los valores de V se construyen al considerar que, fijado un nivel de probabilidad α, el valor tipificado del error de medida estará entre los valores –zα y + zα. Esto es, que con probabilidad 1 – α: −z α ≤ e− e ≤ zα σe – = E (e) = 0, se tiene que y al ser e = X – V y además e −z α ≤ X−V ≤ zα σe o sea: – zα σe ≤ X – V ≤ zα σe. Restando X a todos los términos y cambiándolos de signo, cambiando por lo tanto el sentido de las desigualdades, se tiene la ecuación (6.15) para ese intervalo en puntuaciones directas. 161 Capítulo 6. Inferencias: Estimación y contrastes Si las puntuaciones observadas vienen dadas como puntuaciones diferenciales, se obtiene el intervalo restando X = V a todos los miembros de la ecuación (6.15): (X − X) − zα σ e ≤ V − V ≤ (X − X) + zα σ e que es la expresión (6.16). Si las puntuaciones están tipificadas, el intervalo será: X−X σ V−V X−X σ − zα e ≤ ≤ + zα e σX σX σV σX σX Sustituyendo σe por su expresión en (6.8) y adoptando la notación para las puntuaciones tipificadas, se obtiene la ecuación (6.17). d) Intervalo de confianza utilizando la puntuación verdadera estimada, V$. En el Apartado 6.1 se ha expuesto cómo pronosticar la puntuación verdadera haciendo uso de la ecuación de regresión, pero sigue sin conocerse V, ya que esa medida también está afectada por el error del valor de estimación ε = V – V$. Si se supone que esa variable error sigue una distribución normal de forma análoga a lo que se ha supuesto con el error de medida, e, el intervalo de confianza será: V$ − z α σ x ρ XX ′ 1 − ρ XX ′ ≤ V ≤ V$ + z α σ x ρ XX ′ 1 − ρ XX ′ (6.18) Ejemplo 6.3 Las puntuaciones de un test tienen media X = µ̂ = 36 , varianza σ 2X = 64 y fiabilidad ρxx' = 0.64. La puntuación observada de un sujeto en este test es de 46 puntos. Se desea conocer: a) El intervalo de confianza en el que, con una probabilidad p = 0.95, se encontraría la puntuación verdadera del sujeto. b) Cuál será el valor puntual que se le estimaría para su puntuación verdadera. c) El intervalo de confianza en el que con probabilidad p = 0.95 esté el valor estimado de la puntuación verdadera de ese sujeto. 162 Principios de Psicometría Solución: La aplicación directa de lo anteriormente expuesto da respuesta a estas cuestiones, siempre que se considere que los errores se distribuyen según una ley normal. (Téngase en cuenta la condición de homocedasticidad exigida a los modelos mencionada en Apartado 2.1.) a) De acuerdo con la expresión (6.15) ese intervalo de confianza se construye bajo una distribución normal de media cero y desviación típica: σ e = σ X 1− ρ XX′ Para un nivel de confianza 1 – α = 0.95, los valores de la variable de la distribución normal N(0,1) que delimitan ese área son zα = ± 1.96. El intervalo de confianza para V viene dado por Xi ± 1.96 σε. Luego en puntuaciones directas ese intervalo es: 46 − (1.96)(8) 1− 0.64 ≤ V ≤ 46 + (1.96)(8) 1− 0.64 36.59 ≤ V ≤ 55.41 En puntuaciones centradas en la media y en puntuaciones tipificadas, según las expresiones (6.16) y (6.17), los intervalos de confianza son respectivamente: 0.59 ≤ v ≤ 19.41 0.07 ≤ z v ≤ 2.43 luego con un nivel de confianza 1 – α = 0.95, la puntuación diferencial verdadera está entre los valores 0.59 y 19.41 y la tipificada entre 0.07 y 2.43, obteniéndose esos valores para los extremos de este último intervalo mediante la relación: 46 − 36 46 − 36 − 1.96 1− 0.64 ≤ z V ≤ + 1.96 1− 0.64 8 8 b) La ecuación de la recta de regresión que predice los valores de V̂ en función de los valores de X es: Vˆ = ρ XX′ ( X − X ) + X = 0.64 ( X − 36) + 36 = 0.64 X + 12.96 Para la representación gráfica de esa recta, basta con elegir dos pares de puntos (X, V) cualesquiera, con lo que queda determinada. Tomando, por ejemplo, los puntos (0, 12.96) y (50, 44.96) se obtiene la Figura 6.2. Capítulo 6. Inferencias: Estimación y contrastes Para un valor particular de X = Xi = 46, la puntuación verdadera estimada mediante regresión es: V̂ = (0.64)(46) + 12.96 = 42.40 que es la puntuación que se puede predecir de acuerdo con la recta de regresión ajustada. Figura 6.2. Recta de regresión de la puntuación verdadera sobre la observada. c) Haciendo uso de la desigualdad (6.18) el intervalo de confianza cubriendo un área de probabilidad 1 – α = 0.95 viene dado por: 42.40 − 1.96(8) 0.64 1− 0.64 ≤ V ≤ 42.40 +1.96(8) 0.64 1− 0.64 34.87 ≤ V ≤ 49.93 Este intervalo incluye tanto al valor observado como al predicho mediante regresión, como puede observarse en la Figura 6.3. Si se toma α = 0.01, el intervalo de confianza se amplía al aumentar la probabilidad contenida en ese intervalo 1 – α = 0.99. El valor zα bajo la distribución N(0,1) es zα = ± 2.58, y el intervalo resultante es: 32.49 ≤ V ≤ 52.31 Obsérvese que al aumentar la probabilidad (1 – α) de que un cierto valor se encuentre dentro de un intervalo, el intervalo se amplía, y si se amplía sufi- 163 164 Principios de Psicometría cientemente, siempre se puede conseguir que un cierto valor se encuentre incluido en el intervalo. Por ello, a veces, la afirmación de que a mayor probabilidad (1 – α) mayor precisión, puede resultar equívoca. Figura 6.3. Distribuciones de las puntuaciones poblacionales observadas (⋅⋅⋅⋅) y las verdaderas estimadas (). Intervalos de confianza de la puntuación verdadera con probabilidad 0.95, utilizando los errores de medida (flechas cerradas) y de estimación (flechas abiertas). X = V = 36 ; Xi = 46 ; Vˆ i = 42.4 . m6.4. Contrastes de mediasm Mediante los tests estadísticos de hipótesis se puede contrastar si las diferencias observadas entre diferentes conjuntos de puntuaciones son estadísticamente significativas, o si se pueden atribuir al azar. En el estudio de las diferencias entre las puntuaciones en tests psicométricos, en muchas ocasiones es necesario realizar algunos de estos contrastes, como se ha visto en los Ejemplos 2.3 y 2.4. El interés puede estar centrado en contrastar las diferencias entre una determinada muestra y la población, o en las diferencias interindividuales o en las intraindividuales. En estadística a estos contrastes se les menciona generalmente como tests de contraste de una sola media, o entre medias de muestras independientes o entre muestras relacionadas, respectivamente. 165 Capítulo 6. Inferencias: Estimación y contrastes Cuadro 6.4 La hipótesis que se contrasta es la hipótesis de no diferencia, o hipótesis nula H0, frente a la alternativa o las alternativas. En las comparaciones entre medias las distribuciones de probabilidad que siguen los estadísticos de contraste son aproximadamente normales (o t de Student si las varianzas son desconocidas, o cuando las muestras son pequeñas), y los contrastes se plantean bajo la hipótesis de igual frente a diferencia, que es un contraste bilateral, en el que las zonas de aceptación y de rechazo se distribuyen como se indica en la Figura 6.1. Cuando el contraste indica el signo de esa diferencia, por ejemplo, H1 : µ1 > µ2, el contraste es unilateral y el área de rechazo de H0 : µ1 = µ2 se situará en la cola de la derecha de la distribución, como se muestra en la Figura 6.4. Esta área α estaría en la cola de la izquierda si la hipótesis alternativa fuese H1 : µ1 < µ2. Figura 6.4. Área de aceptación de la hipótesis nula (1 – α) y de rechazo (sombreada) en un contraste unilateral bajo una distribución normal. Diferencias entre la media de una muestra y la de la población Una vez construido y estandarizado un test con media poblacional µ y desviación típica σ, se puede contrastar si la media X de una determinada muestra de tamaño N es igual a la de la población. El estadístico de contraste es: z= X −µ X −µ = σX σX N (6.19) 166 Principios de Psicometría que se distribuye como una normal cuando la varianza de la población sea conocida. Si esta varianza fuese desconocida, el estadístico de contraste es: t= X −µ X −µ = sX sX N − 1 (6.20) donde sX es la desviación típica de la muestra. La ecuación (6.20) se obtiene al sustituir σX en (6.19) por su estimador, σ$X, que es la raíz cuadrada de la cuasivarianza muestral (6.21). En este caso, el estadístico t dado por (6.20) se distribuye como una t de Student con n – 1 grados de libertad. ∑( X i − X )2 √ σ$ X = N −1 (6.21) Téngase en cuenta que: √ σ$ X sX = N N −1 Ejemplo 6.4 La media y la desviación típica de un test estandarizado (referidas al grupo normativo) son respectivamente µ = 100 y σ = 10. Se quiere conocer si la aptitud media de una determinada muestra de esa población, evaluada con ese test, supera a la de la población. El tamaño de la muestra es N = 80 y la media y la desviación típica de las puntuaciones en esa muestra han sido 110 y 8 respectivamente. Puesto que la varianza poblacional es conocida, el estadístico de contraste y su valor son: z= 110 − 100 10 80 = 8.94 En el caso en que la varianza de la población no fuese conocida, el estadístico de contraste sería: t= 110 − 100 8 79 = 11.11 167 Capítulo 6. Inferencias: Estimación y contrastes En ambos casos se rechaza la hipótesis de no diferencia entre medias, con un nivel de significación α = 0.05. Diferencia de medias en muestras independientes El contraste de la diferencia de medias entre muestras independientes se realiza cuando se quiere inferir si dos muestras pertenecen o no a la misma población. Este contraste se suele realizar con diseños intersujeto. Se supone que las muestras que se comparan son aleatorias, que son representativas de las poblaciones de las que se extraen y que sus medias X 1 y X 2 están normalmente distribuidas. También se supone la homogeneidad (igualdad) de varianzas entre las poblaciones y que las observaciones son también independientes. En el caso de comparación entre las medias de las puntuaciones de dos muestras en las que se mide un rasgo mediante un test, el estadístico de contraste es: z= X1 − X 2 σ 2X1 N1 + σ 2X 2 (6.22) N2 Este estadístico toma diversas formas, dependiendo de si se conoce o no σ 2X1− X 2 . En el caso usual de que no se conozca, se sustituye por su estimador y el estadístico sigue una distribución t de Student con N1 + N2 – 2 grados de libertad. Al ser las muestras independientes la covarianza es cero y por lo tanto, σ 2X1− X 2 = σ 2X1 + σ 2X 2 . Las formas que adopta el estadístico t para diferentes casos particulares: igualdad o diferencia en los tamaños muestrales, igualdad o diferencia de las varianzas de los estimadores de la varianza en ambas muestras para estimar el error estándar, etc. se pueden encontrar en los manuales de estadística (e.g., Amón, 1984; Pardo y San Martín, 1994 en español; y Howell, 2002 en inglés). En el contexto de la TCT, generalmente tienen mayor interés los contrastes entre muestras relacionadas que entre muestras independientes. Además, los contrastes entre muestras relacionadas son más sensibles para detectar el efecto de los errores experimentales. Es decir, que la probabilidad de rechazar la hipótesis nula es mayor cuando se usan muestras relacionadas que cuando se usan muestras independientes. Por ello, vamos a tratar un poco más extensamente este supuesto. 168 Principios de Psicometría Diferencia de medias en muestras relacionadas Este método se usa para contrastar la diferencia entre las medias de dos muestras en las que cada una de las puntuaciones en una muestra está emparejada con una de la otra muestra. En estadística se suele denominar contraste de la diferencia de medias entre muestras relacionadas, o de muestras dependientes, o bien de muestras pareadas. En el contexto de las puntuaciones de los tests, el estudio de estas diferencias se puede plantear de diferentes formas, dependiendo del objetivo que se persiga, que estará ligado al diseño con el que se han obtenido los datos: medidas repetidas en forma de test-retest, o formas equivalentes del mismo test o en muestras pareadas. En el primer caso, sería un estudio intrasujeto, pudiendo ser intersujeto en el segundo. En un diseño intrasujeto, cada sujeto aporta un par de puntuaciones (X, Y) y la hipótesis nula es que la media de las diferencias entre las medias de esos dos conjuntos de puntuaciones es cero. Es decir, que en la población es µ X − µ Y = µ X − µ Y = 0 , siendo las diferencias entre las medias muestrales – – d = X – Y. Para una muestra con un número Np de pares de puntuaciones, el estadístico de contraste es: z= d d ( X − Y ) − (µ X − µ Y ) d = o t= = = σd σd N sd s d sd d Np − 1 (6.23) que sigue una distribución t de Student con Np – 1 grados de libertad. La desviación típica de la distribución muestral se obtiene mediante la expresión: sd = ∑ d 2i − ∑ d i 2 Np N p (6.24) El error típico σ d puede adoptar diferentes formas para su expresión en el contexto de la TCT, considerando que las medidas pareadas poseen ciertas propiedades. Por ejemplo, si las medidas X e Y son medias paralelas o si provienen de dos formas de tests en los que a priori no se supone el paralelismo. En ambos casos, las puntuaciones de cada par, para cada sujeto, están representadas por su puntuación media en todos los ítems del test. En el caso particular en que las 169 Capítulo 6. Inferencias: Estimación y contrastes medidas X e Y de esos tests fuesen paralelas, denotémoslas con X y X', la desviación típica de la media de las diferencias toma la forma: σ d = σ X 2 1 − ρ XX ′ (6.25) σ d = σ 2X1 (1 − ρ X1X1′ ) + σ 2X 2 (1 − ρ X 2 X ′2 ) (6.26) 2 de acuerdo con la expresión que se deduce en el Cuadro 6.5 para la varianza σ d cuando las puntuaciones son paralelas, siendo ρXX' el coeficiente de fiabilidad del test. Si las puntuaciones pareadas corresponden a las de los ítems en dos tests X1 y X2 que miden el mismo rasgo, sin presumir a priori la condición de paralelismo, entonces, la distribución de las medias de las diferencias en la población, de acuerdo con la expresión de la varianza deducida para este caso en el Cuadro 6.5, es: Expresión que en el caso de igualdad de varianzas toma la forma: σ d = σ X 2 − ρ X1X1′ − ρ X 2 X ′2 (6.27) En estos casos particulares, se puede hacer uso de estas expresiones y utilizarlas para el cálculo del valor del estadístico dado en (6.23). Cuadro 6.5 Deducción de las expresiones de σ d para muestras relacionadas, que dan lugar a las ecuaciones (6.25) y (6.26). Para medidas paralelas X y X´, la varianza de la distribución de las medias de las diferencias es: 2 ( ) σ 2d = E ( X − X ′) − E ( X − X ′) 2 = E ( X − X ′) 2 ya que por paralelismo, E(X) = E(X' ) y sustituyendo X = V + e, se tiene que: σ 2d = E ( V + e − V ′ − e′)2 = E (e − e′)2 = σ 2e + σ e2′ = = σ 2X (1− ρ XX′ ) + σ 2X′ (1− ρ XX′ ) = 2 σ 2X (1 − ρ XX′ ) 170 Principios de Psicometría estableciéndose las últimas igualdades por ser nula la correlación entre los errores, haciendo uso de la expresión (2.15) e igualando las varianzas de X y X´ por ser medidas paralelas. Por lo tanto, la desviación típica de la distribución corresponde a la expresión (6.25) dada anteriormente. Para pares provenientes de medidas X1 y X2 en pruebas equivalentes pero no necesariamente paralelas se tiene que: σ 2d = σ 2X { 1− X 2 = σ 2X + σ 2X − 2 ρ XX′ σ X1 σ X 2 = 1 2 ]} [ = E ( V1 + e1 ) − ( V2 + e 2 ) − E ( V1 + e1 ) − ( V2 + e 2 ) 2 Ahora bien, al medir los dos tests el mismo rasgo en las mismas personas, puede considerarse que sus puntuaciones verdaderas son iguales, V1 = V2. Además, por hipótesis del modelo, E(e1) = E(e2) = 0. Luego: σ 2d = σ 2X = 1− X 2 = E (e1 − e 2 )2 = σ e2 + σ e2 = 1 σ 2X (1− ρ X1X1′ ) + σ 2X (1− ρ X 2 X′2 1 2 2 ) De donde se deduce la expresión (6.26) o su equivalente (6.27) para el caso de igualdad de varianzas. Ejemplo 6.5 Utilizando dos tests paralelos se ha obtenido que el coeficiente de fiabilidad del test es ρXX' = 0.91, siendo la varianza poblacional σ X2 = σ X2' = 16. La puntuación media que obtiene una muestra de sujetos en el test X es de 20 puntos, siendo 16 la que obtiene en su correspondiente paralelo. ¿Se puede decir que son significativas esas diferencias? Se trata de un contraste de diferencias de medias relacionadas, por lo que el estadístico de contraste viene dado por (6.23). Ahora bien, como las medidas pareadas se han obtenido en dos tests paralelos, se puede hacer uso de la expresión (6.25) para el error estándar de medida, y teniendo en cuenta que se conoce la varianza poblacional, el valor del estadístico de contraste es: z= 20 − 16 4 2 1− 0.91 = 2.36 Capítulo 6. Inferencias: Estimación y contrastes 171 Comparando este valor con los de la distribución N (0,1) se observa que, con α = 0.05, el valor z calculado pertenece a la zona de rechazo de la hipótesis nula, en un contraste bilateral. Si se ampliara la zona de aceptación de la hipótesis a un área de probabilidad 1 – α = 0.99, entonces el valor calculado z pertenecería a la zona de aceptación de H0, (– 2.58 < 2.36 < 2.58), pudiéndose aceptar esa hipótesis a ese nivel α = 0.01 de significación. Ejemplo 6.6 Las puntuaciones de dos tests que evalúan comprensión verbal siguen distribuciones N(0,1). Las fiabilidades de esos tests son 0.92 y 0.78 respectivamente. Las puntuaciones tipificadas que se obtienen en ambos tests con una muestra son z1 = 2.6 y z2 = 1.8 respectivamente. ¿Se puede afirmar que existen diferencias en las puntuaciones de los sujetos cuando resuelven los elementos de una y otra prueba? Las puntuaciones son técnicamente comparables, pues en ambos casos se da la puntuación tipificada (normalizada en este supuesto). Si las puntuaciones pareadas fuesen puntuaciones directas procedentes de mediciones en diferentes escalas, sería necesario que se transformasen las puntuaciones a escalas comparables, para poder interpretar la cuantía de las diferencias y hacer comparaciones. Al ser dos tests que miden el mismo rasgo, con varianzas iguales y de los que se conocen sus fiabilidades, se puede usar la expresión (6.27) para la desviación típica de la distribución en la expresión (6.23) y considerar que σX = σz = 1 en las dos poblaciones. El estadístico de contraste toma el valor: z= σX 2.6 − 1.8 2 − 0.92 − 0.78 = 0.8 = 1.46 0.547 Comparando el valor obtenido para el estadístico con los valores de la distribución normal, en un contraste bilateral y con α = 0.05, es zα/2 = ± 1.96, luego –1.96 < 1.46 < 1.96, aceptándose la hipótesis de no diferencia. Lo usual es que se utilicen las medidas relacionadas no como un medio para comparar dos tests, como en los ejemplos anteriores, sino para comparar el comportamiento de un mismo sujeto en diferentes tareas, o las diferencias entre las puntuaciones que dan a un mismo test pares de sujetos relacionados, por ejemplo, padre e hijo, o sujeto experimental y su control. También es muy habitual uti- 172 Principios de Psicometría lizar diseños intrasujeto para contrastar si ha habido cambios en alguna característica del sujeto después de alguna intervención dirigida a modificar sus valores, como se trata en el Ejemplo 6.7. Ejemplo 6.7 Un psicólogo investiga sobre una terapia que, según su opinión, reduce los niveles de ansiedad. Para evaluar el posible efecto de la terapia en un estudio piloto, dispone de un test estándar para la medición de la ansiedad, que aplica a una muestra de seis pacientes antes y después de la terapia. Las puntuaciones X de los pacientes en ese test se dan en la Tabla 6.1. A la vista de tales resultados ¿qué se podría concluir acerca de dicha terapia? Tabla 6.1. Valores en el test de ansiedad antes y después de la terapia. Paciente 1 2 3 4 5 6 ∑ di X1 (antes) X2 (después) di 35 27 8 52 41 11 29 30 –1 40 48 –8 37 34 3 43 41 2 15 Calculada la media y la varianza de las diferencias: d= 15 225.5 = 2.5; s2d = = 37.58; sd = 6.13 6 6 La hipótesis que se va a contrastar es la hipótesis H0 , que establece que no hay diferencias entre los niveles medios de ansiedad antes y después de la terapia. Comoquiera que no se conocen los valores medios de las diferencias en la población ni sus varianzas, para realizar el contraste se utilizan sus estimaciones a partir de los valores muestrales. Aquí se conocen las puntuaciones globales de cada sujeto en el test, antes y después de la terapia. Haciendo uso de esa información, se puede obtener la media de esas diferencias y su desviación típica y utilizar para el contraste el estadístico dado en (6.23), obteniéndose: t= 2.5 6.13 / 5 = 0.91 Capítulo 6. Inferencias: Estimación y contrastes 173 Comparando los valores del estadístico con los de la distribución t de Student para 5 grados de libertad y a un nivel de significación α = 0.05 (tα, 5 = 2.571), hay que aceptar la hipótesis de no diferencia. Ahora bien, la cuestión planteada es si la terapia disminuye los niveles de ansiedad. Por lo tanto, lo que se espera es que los valores medios de X1 sean mayores que los de X2, y lo que se trata de contrastar es la hipótesis nula H0 frente a la alternativa H1, que se puede expresar como: H : d > 0 H0 : d = 0 1 H1 : µ1 > µ 2 El estadístico de contraste es el mismo, pero el contraste es unilateral, dejando sólo en la cola de la derecha de la distribución la zona de rechazo de H 0. Para 5 grados de libertad, el valor t0.05, 5 = 2.015 delimita un área de probabilidad 1 – α = 0.95 (Figura 6.3) para la zona de aceptación de H0, pudiéndose rechazar al nivel de significación α = 0.05 sólo si el valor calculado para t hubiese sido mayor que tα = 2.015. Luego se concluye que la terapia no disminuye los niveles de ansiedad. Sin embargo, el terapeuta observa en los datos alguna disminución en cuatro de los seis sujetos analizados. Puede deducir que con una muestra tan pequeña y con una varianza de las diferencias tan grande, no podía esperar un valor alto para el estadístico de contraste que le permitiese rechazar la hipótesis de no diferencia, ni que de esos datos se puedan extraer conclusiones que se puedan generalizar. Finalmente hay que reseñar que los diseños intrasujeto son muy eficientes, porque se puede usar un menor número de sujetos, en comparación con los diseños intersujeto, y porque este diseño incrementa la potencia del test estadístico con respecto a H0, es decir, que aumenta la probabilidad de rechazar H0 cuando es falsa. m6.5. Significación e inferencias de los coeficientes de fiabilidadm En capítulos anteriores se han dado diversas opciones de cálculo para los coeficientes de fiabilidad. Resumidamente, se podría decir que en unos casos la fiabilidad se calcula mediante correlación entre medidas paralelas ρXX' y que en otros se hace poniendo en relación las varianzas de las componentes con respecto a la varianza total, como se hace en el cálculo del coeficiente α y los que de él se deri- 174 Principios de Psicometría van como casos particulares. Por ello, para hacer inferencias, se debe distinguir entre uno u otro tipo de coeficientes. Los problemas más importantes que se plantean en cualquiera de los casos son contrastar si un valor muestral del coeficiente es significativamente igual a uno poblacional, o comparar la igualdad entre dos o más de estos coeficientes obtenidos tanto en muestras independientes como en muestras relacionadas. En estos apartados se seguirán utilizando letras latinas, rXX' = r, para el coeficiente de correlación muestral y griegas, ρXX' = ρ, para el correspondiente poblacional. En el caso de coeficientes alfa, se denotará por α el coeficiente poblacional y por α$ el muestral. Contrastes de coeficientes de correlación Para los coeficientes de fiabilidad calculados como coeficientes de correlación, los dos casos más usuales son contrastar si un coeficiente tiene un valor apreciable, o sea, que es significativamente diferente de cero, o si se puede considerar igual a uno dado. Para realizar estos contrastes, se utilizan los estadísticos y sus distribuciones, que en estadística matemática se han derivado para tal fin y cuyas expresiones, en uno y otro caso, se encuentran en los manuales de estadística y que aquí se corresponden con las expresiones (6.28) y (6.30). Si es rXX' = r el coeficiente de fiabilidad obtenido en una muestra de tamaño N, la hipótesis nula que establece que ese coeficiente proviene de una población en la que ρXX' = 0, frente a la alternativa, de que ρXX' ≠ 0, se contrasta mediante el estadístico: t=r N−2 1− r (6.28) que sigue una distribución t de Student con N – 2 grados de libertad. Por ello, la región crítica para un nivel α es t : t < t1-α/2; N-2 ; t > tα/2; N-2 . Si de lo que se trata es de contrastar que ese coeficiente de fiabilidad r pertenece a una población en la que ρXX' tiene un valor ρ = ρ1 distinto de cero, entonces se hacen las transformaciones: 1 1+ r 1 1+ ρ z r = ln ; zρ = ln 2 1− r 2 1− ρ (6.29) 175 Capítulo 6. Inferencias: Estimación y contrastes y el estadístico de contraste es: z= z r − zρ 1 N−3 (6.30) que sigue una distribución normal N (0,1). Por lo tanto, para un nivel α, la región crítica, en un contraste bilateral, es z : z < z1-α/2 ; z > zα/2, siendo la región de aceptación z : z1-α/2 ≤ z ≤ zα/2. Las distribuciones que se usan para delimitar las zonas de aceptación y de rechazo de la hipótesis nula son las que asintóticamente siguen los estadísticos que se utilizan para hacer esos contrastes, bajo el supuesto de que H0 es cierta. Por ello, hay que advertir que para realizar el contraste entre dos coeficientes poblacionales utilizando el estadístico dado en (6.30), se debe exigir a las muestras ciertas condiciones asintóticas que, desde un punto de vista práctico, se pueden resumir en que el tamaño muestral no sea pequeño, no debiendo usarse para este contraste tamaños de muestra menores de 30 elementos. Ejemplo 6.8 El coeficiente de fiabilidad de un test es rXX' = 0.98. En una muestra de tamaño N = 55, se ha obtenido un coeficiente rXX' = 0.95. Se quiere contrastar si se puede considerar que no existen diferencias significativas entre el valor muestral y el poblacional. Para contrastar la hipótesis de no diferencia, se utiliza el estadístico de contraste dado en (6.30), obteniéndose previamente los valores de zr y de zr mediante (6.29) zr = 1 1+ 0.95 1 1+ 0.98 ln = 1.83 ; zρ = ln = 2.30 2 1− 0.95 2 1− 0.98 El valor del estadístico de contraste es: z= 1.83 − 2.30 1 55 − 3 = − 3.39 Para α = 0.05, la zona de aceptación de la hipótesis nula son los valores incluidos en el intervalo (–1.96, 1.96). Por lo tanto, al no pertenecer el valor del estadístico a ese intervalo, se rechaza la hipótesis de no diferencia entre ambos 176 Principios de Psicometría coeficientes, a ese nivel de significación. Tampoco se aceptaría si se amplía el intervalo de aceptación de H0 hasta contener un área de probabilidad de 0.99 (α = 0.01). Luego se rechaza la hipótesis de que esas diferencias no son significativas. Contrastes para coeficientes α La forma de los coeficientes α como relación entre varianzas explica que los estadísticos de contraste suelen seguir distribuciones F de Fisher-Snedecor (son similares a los de los procedimientos ANOVA). Los contrastes de hipótesis más usuales acerca de α generalmente se refieren a si el valor de α es significativamente igual a otro dado, o si diferentes valores de α, calculados en muestras independientes o en muestras relacionadas son significativamente iguales. La forma de los estadísticos y sus distribuciones se pueden seguir en las diferentes obras que tratan la estimación de la fiabilidad mediante las técnicas del análisis de la varianza. A efectos de su utilización práctica en casos concretos, se da aquí la forma de algunos de esos estadísticos y sus distribuciones. Contrastes con una muestra Si es α$ el valor del coeficiente de fiabilidad obtenido en una muestra de tamaño N al cumplimentar una prueba de n elementos, para contrastar si ese valor muestral α$ es significativamente igual a un determinado valor α poblacional, se ha derivado un estadístico de contraste (e.g., véase Feldt et al., 1987, págs. 94-96) que toma la forma de la expresión (6.31): F( N − 1),( N − 1)( n − 1) = 1− α 1 − α$ (6.31) que sigue una distribución F de Fisher-Snedecor con (N – 1) y (N – 1)(n – 1) grados de libertad. Acudiendo a los valores de esta distribución para aceptar o rechazar la hipótesis nula de no diferencia entre α$ y α. 177 Capítulo 6. Inferencias: Estimación y contrastes Ejemplo 6.9 Un test de fluidez verbal que consta de 60 elementos se administra a una muestra de 51 escolares, obteniéndose un valor de la fiabilidad α$ = 0.82. Se quiere dar respuesta a dos cuestiones, la primera es si es significativo ese coeficiente, es decir, si es diferente de cero y, la segunda, si se puede admitir que el valor poblacional de la fiabilidad es α = 0.90. Las hipótesis nula y alternativa en cada uno de esos dos casos son: b) Ho : αˆ = α = 0.90 a) Ho : αˆ = α = 0 H1 : αˆ = α ≠ 0.90 H1 : αˆ = α ≠ 0 Aplicando (6.31) se obtienen los valores correspondientes de los estadísticos, que para a) y para b) son respectivamente: a) F = 1− 0 = 5.56 1 − 0.82 b) F = 1 − 0.90 = 0.56 1 − 0.82 valores que en cada caso hay que comparar con los de la distribución F a un nivel de significación α. Elegido α = 0.05, se rechaza la hipótesis nula en el caso a) y se acepta en el caso b) pues el valor de Fα; (N – 1), (N – 1) (n – 1) = F0.05; 50, 2950 = 1.35. Es decir, el coeficiente es diferente de cero y además su valor no difiere significativamente de 0.90. Contrastes con dos o más muestras Si lo que se quiere contrastar es la no diferencia entre los coeficientes calculados en dos muestras independientes de tamaños N1 y N2, el estadístico que se propone en la literatura para llevar a cabo este contraste es: F( N1 − 1),( N2 − 1) = 1 − α$ 1 1 − α$ 2 (6.32) que sigue una distribución F con (N1 – 1) y (N2 – 1) grados de libertad. Cuando las comparaciones se quieren realizar entre más de dos coeficientes, tanto para muestras independientes como en muestras relacionadas, la obtención de las distribuciones muestrales para los estadísticos que permitan realizar esos contrastes es más complicada, teniéndose que recurrir a transformaciones artifi- 178 Principios de Psicometría ciosas que no ha lugar a que se traten en esta obra. Los estadísticos para estos casos de comparaciones múltiples se dan en el Cuadro 6.6 y están tomados de las expresiones que dan Feldt et al. (1987). Cuadro 6.6 Comparación entre K coeficientes α, obtenidos de k muestras, siendo α$i el valor de alfa en cada muestra i, Ni el tamaño de la muestra y ni el número de ítems. La hipótesis que se va a contrastar es H0 : α1 = α2 = … = αk frente a la hipótesis alternativa de que algunos (dos o más) de esos valores sean diferentes. Para muestras independientes, el estadístico de contraste es: ∑ ((1 − αˆ i )−1 3 − u) k χk2 −1 ≅ 2 i =1 S2 Para muestras relacionadas, el estadístico de contraste es: ∑ ((1 − αˆ i )−1 3 − u) k χk2 −1 ≅ i =1 2 S 2 − Sjk En ambos casos los estadísticos se distribuyen aproximadamente como una χ2 con k – 1 grados de libertad. Por lo tanto, para aceptar o rechazar la hipótesis de igualdad entre todos los coeficientes a un cierto nivel de probabilidad p, hay que comparar el valor del estadístico con el de la distribución χ k2 – 1 en un contraste bilateral, donde la zona de aceptación de la hipótesis nula es un área 1 – p, bajo χ 2k – 1. 2 Los valores de u y de S que aparecen en esos estadísticos se obtienen mediante las siguientes expresiones: u =∑ k i =1 1 k (1 − αˆ i )1 3 ; S2 = ∑ Si2 2 ; Si2 = ˜ k 9 (Ni − 1) (1− αi )2 3 i =1 k Los valores de Ñi se obtienen de forma diferente para muestras independientes y para muestras relacionadas. Para muestras independientes es: 179 Capítulo 6. Inferencias: Estimación y contrastes N (n − 1) N˜ i = i i ni + 1 Para muestras relacionadas es: N (n˜ − 1) N˜ i = N˜ = ; n˜ = n˜ + 1 k ∑1 ni k i =1 ; S jk = 2rij 9 (N˜ − 1)(1− αˆ j ) 13 (1 − αˆ k ) 13 ; Sjk = ∑ S jk k (k − 1) / 2 siendo rij las correlaciones entre cada uno de los tests con cada uno de los otros k – 1 con los que se está comparando. Para realizar los contrastes se manejan una gran cantidad de datos y los cálculos son tediosos, sobre todo cuando se trata de comparaciones múltiples, pero para todos y cada uno de los casos hay software disponible para realizar estas comparaciones. Por ejemplo, en el paquete estadístico SPSS están implementados todos los contrastes que aquí se exponen y, en cualquier caso, facilitan la realización de todos los cálculos que llevan al valor del estadístico que permite tomar las decisiones. Las ecuaciones que se presentan en el Cuadro (6.6) son una de las muchas formas que se han propuesto para establecer comparaciones entre valores del coeficiente alfa. Por ejemplo, en un artículo Woodruff y Feldt (1986) presentaron once procedimientos estadísticos para comparar m coeficientes α, presentando algunos ejemplos y simulación Monte Carlo para estudiar la precisión de los procedimientos con resultados asintóticos. Además de contrastes de hipótesis, también se han propuesto formas de obtención de intervalos de confianza. Para tratar las inferencias acerca de α, remitimos al lector interesado a las publicaciones de Feldt (e.g., Woodruff y Feldt, 1986; Feldt et al., 1987; Feldt, 1990) y a la de Fan y Thompsom (2001). Puntos clave 3 Los métodos estadísticos inferenciales se utilizan para la estimación de las puntuaciones verdaderas y en el contraste de las diferencias entre puntuaciones y entre coeficientes de fiabilidad. 180 Principios de Psicometría 3 3 3 3 3 3 3 3 3 La media de la puntuación observada estima la de la verdadera y para las inferencias acerca de V se utiliza la regresión lineal. Para las inferencias (intervalos de confianza y contrastes de hipótesis), hay que conocer la distribución muestral de la variable. En los contrastes de hipótesis hay que conocer la distribución probabilística del estadístico que se utiliza para el contraste y cómo se distribuyen las regiones de aceptación y de rechazo de la hipótesis nula, de acuerdo a como se han formulado las alternativas. En las comparaciones de medias, los diseños intrasujeto (test-retest, formas equivalentes, etc.) son más eficientes que los intersujeto, pues necesitan menos tamaño de muestra y el diseño incrementa la potencia del test estadístico con respecto a H0 . Calculado un coeficiente de fiabilidad, se puede contrastar si su valor es o no significativamente diferente de cero, o de otro valor poblacional. En los contrastes de coeficientes de fiabilidad los estadísticos utilizados siguen distribuciones de probabilidad diferentes, dependiendo de si lo que se contrasta son coeficientes de correlación o coeficientes α. Los coeficientes de fiabilidad r se contrastan, bien frente a cero o a otro valor poblacional r, en la forma usual que en estadística se realizan los contrastes entre correlaciones. Los estadísticos para esos contrastes siguen distribuciones normales, o t de Student. Los coeficientes de fiabilidad α se contrastan mediante estadísticos que siguen distribuciones F de Snedecor o χ2 de Pearson. Pueden realizarse contrastes múltiples entre coeficientes de fiabilidad, tanto con muestras independientes como con muestras relacionadas. Actividades r Replique los Ejemplos 6. 1 y 6.3 considerando intervalos de confianza más amplios y discuta las implicaciones que conlleva esa decisión. r En relación con la cuestión anterior, discuta si es posible construir siempre un intervalo de probabilidad que incluya el valor que se está estimando. r Represente gráficamente los intervalos de confianza de los Ejemplos 6.1 y 6.3, y superponga sobre el mismo gráfico los obtenidos en la actividad anterior. r En los Ejemplos 6.1, 6.2 y 6.3 los coeficientes de fiabilidad generalmente se consideraría que son demasiado bajos para estandarizar un test. ¿Cuáles Capítulo 6. Inferencias: Estimación y contrastes r r r r r r r r r 181 serían las inferencias para la puntuación verdadera en esos tres casos si la fiabilidad del test fuese 0.96? Comente de forma razonada las diferencias en los resultados obtenidos en la actividad anterior, cuando la fiabilidad es 0.65 y cuando es 0.96. En el Ejemplo 6.2, observando las predicciones que posibilita la línea de regresión, ¿es posible que a una persona con 0 puntos en la prueba se le estime una puntuación verdadera de 12 puntos y que a otra que obtiene 60 puntos se le estime un valor para su puntuación verdadera menor que 52? ¿Podría en algún caso coincidir la puntuación observada con la verdadera y con la verdadera estimada? Razone por qué puede ser equívoco, cuando se trata de la construcción de intervalos de confianza, afirmar que a mayor probabilidad mayor precisión. Se ha construido un test de rendimiento y se discute si los resultados en ese test serían o no diferentes bajo el efecto de alguna droga (e.g., cafeína). Suponga valores medios y varianzas para las muestras de los que la toman (o se les administra) y los que no. Contraste la hipótesis de no diferencia entre ambas medias, considerándolas una vez como muestras independientes (los tamaños de los grupos deben ser iguales) y otra como relacionadas. Discuta los resultados. Los coeficientes de fiabilidad obtenidos para un test son r = 0.23 y α$ = 0.19. Desde el punto de vista estadístico, ¿se puede afirmar que ambos coeficientes son significativamente diferentes de cero? Busque en la docimoteca un test, aplíquelo a diferentes muestras, calcule α$i en cada una de las i muestras, compare los valores y decida si se puede aceptar la hipótesis de igualdad entre esos coeficientes. Con un test que evalúa agresividad administrado a 2208 escolares se han obtenido los valores de cuatro coeficientes α$i (Santisteban et al., 2007, Tabla 1). Plantee diferentes hipótesis acerca de esos coeficientes, realice los pertinentes contrastes y discuta los resultados. Realice una actividad similar a la anterior con los siguientes datos: Una muestra está compuesta por adolescentes varones (n = 469) y la otra por adolescentes hembras (n = 623). Los valores de α$i en los cuatro factores (agresividad física, verbal, ira y hostilidad) y el de la puntuación global fueron respectivamente 0.82, 0.76, 0.69, 0.72 y 0.88 en varones y 0.83, 0.72, 0.66, 0.68 y 0.88 en hembras. La escala contiene 29 ítems corres- 182 Principios de Psicometría pondiendo 9 a la subescala agresión física, 5 a agresión verbal, 7 a ira y 8 a hostilidad. r Con los datos de las actividades anteriores, haga comparaciones múltiples entre los coeficientes α obtenidos en las cuatro muestras (preadolescentes y adolescentes varones y hembras) en los diferentes factores. r Discuta la influencia del número de ítems de las escalas (la global y las subescalas), así como de los tamaños muestrales, en los valores de α estimados utilizando los datos de las actividades anteriores. Teoría de la generalizabilidad ¿Cómo afectan a las medidas las distintas facetas y fuentes de error? 7 La variabilidad de las mediciones psicológicas puede provenir de diversas fuentes, que son las diversas facetas que se pueden considerar al establecer las estrategias en los procedimientos de medición. Todas ellas afectarán a la calidad de esas mediciones, por lo que considerar una sola fuente de error en la TCT puede asumirse como una simplificación de la realidad. En la teoría de la generalizabilidad (TG) se considera que los errores provendrán de diversas fuentes y habrá que analizarlos para establecer la precisión y lo adecuado de las inferencias que se deriven de esas medidas. Por lo tanto, la teoría de la generalizabilidad se aleja del modelo de la TCT fundamentalmente en que basa sus decisiones en los resultados de los análisis de los distintos factores (facetas, en la terminología de la TG) que influyen en las mediciones del factor o faceta de interés (faceta diferencial). En este capítulo se va a tratar: ã La lógica en la que se basa la teoría de la generalizabilidad y su terminología. ã Las principales diferencias y analogías con la TCT. ã El análisis psicométrico y la interpretación de algunos diseños simples. ã La distinción entre los llamados estudios G y estudios D. ã Las inferencias basadas en las componentes de la varianza, generadas con las técnicas del ANOVA. ã El cálculo de algunos coeficientes de generalizabilidad y su uso en la toma de las decisiones. 184 Principios de Psicometría m7.1. Conceptos básicos y terminologíam La denominada teoría de la generalizabilidad (denotada por TG, o teoría G) es el marco psicométrico en el que se encuadran teorías y procedimientos que, abandonando el sentido correlacional dado a la fiabilidad en la TCT, permiten el análisis de múltiples aspectos o facetas que pueden afectar a la calidad de las medidas. La teoría nace de los intentos de superar las limitaciones que el contexto clásico impone a la fiabilidad y en especial la legitimidad de sus inferencias. Esta forma de abordar los problemas, a la que Cronbach dio la denominación de generalizability, se desarrolla a lo largo de los años cincuenta del siglo pasado, incluso con anterioridad (Hoyt, 1941), si bien su exposición más completa y sistematizada se encuentra en la obra de Cronbach et al. (1972). Varias décadas más tarde Cronbach y Shavelson (2004) publicaron un documento sobre el uso masivo del coeficiente α, argumentando las ventajas que tiene la teoría de la generalizabilidad sobre este coeficiente en la evaluación de la fiabilidad. La perspectiva de la teoría G es establecer el grado en que las puntuaciones que se obtienen con un número limitado de observaciones, obtenidas en ciertas condiciones, representan a las puntuaciones que se podrían obtener disponiendo de un gran número de ellas, a lo que se le denomina el universo de observaciones admisibles. Por ejemplo, si se dispone de cuatro ítems para medir la agresividad, en el contexto de la TG el psicómetra se puede preguntar si debe incluir ítems que midan otros aspectos, por ejemplo, la impulsividad, o si esos ítems que está administrando, tanto por su número como por sus contenidos, pueden ser representativos de todos aquellos otros posibles ítems que midan la agresividad. Lo que se quiere estudiar, por lo tanto, es si los ítems que se proponen generan puntuaciones que sean representativas, o sea, que las condiciones en las que se han obtenido sean generalizables, en el sentido de que esas puntuaciones sean consistentes con las que se hubieran obtenido si todos esos posibles ítems que potencialmente miden ese rasgo (el universo de ítems) se hubieran administrado. Además, si la prueba la han administrado y evaluado distintos profesionales, el psicómetra también puede querer estudiar ese otro factor y preguntarse si quienes han hecho la aplicación son representativos de todos los posibles evaluadores que pudieran haber efectuado esas mediciones. Por lo tanto, el problema se puede plantear tomando en consideración una o varias fuentes de error. En la teoría clásica se ha expuesto la importancia que tiene para el cálculo de la fiabilidad la identificación y el control de las condiciones en la aplicación de las Capítulo 7. Teoría de la generalizabilidad 185 pruebas, por ejemplo, en las aplicaciones test-retest, pruebas equivalentes, etc. En la TG, las puntuaciones que se obtienen se considera que son muestras de un universo de observaciones. El universo describe las condiciones en las que se obtienen las puntuaciones de la prueba, por lo tanto, se considera que existen diferentes universos posibles en la aplicación de una prueba, y quien construye esa prueba debe dar cuenta del universo particular o de los universos en que se han obtenido las puntuaciones. En la terminología de la teoría G, a esas condiciones o estrategias que se han utilizado para la medición se las denomina facetas y, como se ha dicho, en un estudio se pueden estar considerando una o múltiples facetas. Siguiendo el ejemplo de la medición de la agresividad, si varios participantes cumplimentan un conjunto de ítems, el estudio es de una sola faceta, pero si además en el estudio intervienen diversos observadores, entonces también se podrán evaluar las diferencias entre los observadores, adoptándose una estrategia de diseño de dos facetas. Se puede advertir que en ese análisis hay tres factores que influyen en la puntuación, los participantes, los ítems y los observadores. Sin embargo, el diseño es de dos facetas porque el objetivo del estudio es la detección de las diferencias individuales (las diferencias entre los sujetos), siendo los ítems y los observadores los que el psicómetra considera que son las fuentes de error y constituyen las dos facetas de generalización. A los sujetos del estudio se les denomina a veces faceta de diferenciación. En la TG, la puntuación universo de un sujeto se considera que es la media de sus puntuaciones obtenidas en todas las condiciones del universo de generalización. Esta puntuación universo se puede considerar análoga a la puntuación verdadera V en la teoría clásica, como media de las puntuaciones observadas. Ahora bien, comoquiera que en los estudios TG se pueden definir diferentes universos de generalización, a un sujeto se le pueden asignar diferentes puntuaciones universo, lo que no es factible en relación con la puntuación V, ya que en el contexto de la TCT se supone que es una sola la puntuación verdadera V de cada sujeto cuando realiza una determinada prueba, o pruebas paralelas. La TG no considera adecuado lo que la teoría clásica había establecido en psicología y en educación, que era considerar que un instrumento de medición es adecuado si su coeficiente de fiabilidad es elevado. Desde la perspectiva de la TG, la presentación de los problemas y las soluciones que se dan en la TCT, o teoría débil de las puntuaciones verdaderas, se percibe como una simplificación de los problemas, incluso se les tilda de cierta ambigüedad, presentándose muchos aspec- 186 Principios de Psicometría Cuadro 7.1 Los avances que se produjeron a principios del siglo XX en algunas técnicas estadísticas no se aplicaron en psicometría hasta mediados de ese siglo. Una de las razones que esgrimieron varios autores es que en la medición de aptitudes el efecto principal se debe a los sujetos (son la principal contribución a la varianza total en un ANOVA) y que las condiciones de observación sólo son secundarias. No obstante, se abre paso la línea crítica que surge del análisis de las debilidades de la TCT en algunos aspectos, que llevan en ocasiones a inconsistencias e incluso a conclusiones erróneas en la concepción de los coeficientes de fiabilidad y sus repercusiones en temas como la atenuación o las formulaciones de Spearman-Brown. Entre los primeros autores que defienden el análisis de las diferentes fuentes de varianza está Thorndike (1947), quien clasifica las fuentes de variación en cinco categorías: I) duraderas y generales del sujeto, II) duraderas pero específicas, III) temporales y generales, IV ) temporales y específicas y V) otras. La componente duradera y general (e.g., la aptitud) es la que casi siempre busca información de las diferencias individuales. Aunque reconoce como facetas a las distintas formas del test, o a las diferentes ocasiones de aplicación, no dice cómo el psicómetra puede estimar su influencia. Las publicaciones de Cronbach de esa época también aportan muy poco en cuanto a los procedimientos, aunque da argumentos para adoptar el análisis multifaceta como una técnica estándar: I) que las consideraciones explícitas de algunas facetas en el proceso de medición disipan algunas ambigüedades ocultas en la TCT, II) que puede dar información sobre las interacciones, a lo que no se tiene acceso por otros métodos, III) que responde a cuestiones que formalmente requieren conjuntos separados de datos y IV) que permite diseñar procedimientos de medición más eficientes. En la concepción y primeros desarrollos de la TG merecen mención destacada Gulliksen, quien en 1936 realiza un análisis formal multifaceta de la consistencia de un test. Cronbach sigue a Guttman en cuanto a llamar facetas a lo que también podría denominarse factores, para evitar evocar en los psicólogos asociaciones con el análisis factorial. Guttman (1953) augura a esta línea éxitos futuros en la ciencia psicométrica. Cureton dirige una tesis doctoral (Loveland, 1952) donde se analizan las componentes sujetos, ocasiones y formas del test, así como sus interacciones. En 1955 Burt, a partir del material de Fisher, prepara para sus alumnos un documento comprensivo sobre la aplicación del análisis de la varianza a los problemas de fiabilidad, considerando fuentes de variación separables. Referencias más actuales y muy útiles para introducirse en este tema son las obras de Shavelson y Webb (1991) y la de Brennan (2001), incidiendo la primera más en los aspectos conceptuales y la segunda en los aspectos más técnicos. Capítulo 7. Teoría de la generalizabilidad 187 tos de la TCT como casos particulares de los planteamientos y de los procedimientos de la teoría de la generalizabilidad. El argumento fundamental que viene a constituir el núcleo de la TG es la consideración de que existen distintas fuentes de variación (de error) que afectan a las puntuaciones observadas, como pueden ser las distintas formas con las que se presenta el test, o las condiciones en las que se aplica, o las diferencias entre evaluadores, etc. El análisis de estas fuentes de variación se realiza con la técnica del análisis de la varianza (ANOVA), en sus distintas versiones para los diferentes tipos de diseños. Sin embargo, la TG aporta su propia formulación para el análisis y la interpretación de los coeficientes. Las técnicas del ANOVA se utilizan fundamentalmente para generar los estimadores de los componentes de la varianza para cada factor. La TG distingue entre los estudios G y estudios D. En un estudio G se recogen los datos a partir de los cuales se pueden hacer las estimaciones de las componentes de la varianza, siguiendo un determinado procedimiento. En un estudio D se reúnen los datos proporcionados por el estudio G con el propósito de tomar decisiones o extraer conclusiones acerca de las diferencias individuales o en relación con algún criterio (Cronbach et al., 1972). En la TG el término condiciones se utiliza en un sentido muy general, pudiendo referirse a los ítems, a las formas del test, a las ocasiones, etc. En la estimación de la fiabilidad en la TG se está interesado en la extensión o generalización al universo de condiciones, a partir de un conjunto de ellas que se considera que es una muestra aleatoria de dicho universo. Los supuestos que, en principio, subyacen a las formulaciones son: a) El universo debe estar descrito de forma no ambigua, de manera que en todo momento se conozca qué condiciones están incluidas en él. El número de condiciones puede ser o no finito, y no se hacen suposiciones del contenido del universo, ni de las propiedades estadísticas de las puntuaciones en las distintas condiciones. b) Las condiciones son experimentalmente independientes. c) Las puntuaciones de los sujetos, observadas en las diferentes condiciones, son valores en una escala de intervalo. d) Las condiciones de experimentación se muestrean aleatoriamente a partir del universo de condiciones, y los sujetos son una muestra representativa de la población que se estudia. 188 Principios de Psicometría En el plan de observación, el psicómetra puede especificar el universo de las condiciones, identificando las facetas fijas y las aleatorias, así como el plan de muestreo y el diseño experimental que mejor se ajuste a sus condiciones y a sus propósitos. En la TG también se han planteado cuestiones acerca de la validez de las inferencias, distinguiendo ente validez interna y externa (Campbell, 1957; Campbell y Stanley, 1963; Cronbach et al., 1972). La estrategia de considerar estudios de una sola faceta es muy común en cierto tipo de cuestionarios como los de personalidad, aunque la inclusión de varias facetas en un estudio suele enriquecer los análisis, pues el conocimiento de las diferentes componentes de la varianza proporciona información de cómo cada una de ellas afecta a las puntuaciones. Desde este punto de vista se está implícitamente considerando que las facetas que se incluyen en el estudio son facetas aleatorias, pues los niveles o formas de cada una de ellas que se usan en el estudio son muestras aleatorias de sus universos. Por el contrario, si en el estudio se incluyen todos los niveles o formas de una determinada faceta, o cuando se incluyen sólo unas pocas pero no se quiere generalizar a partir de ellas, entonces se considera que esa faceta es una faceta fija. En los estudios multifaceta se pueden usar diseños mixtos en los que se pueden incluir una o más facetas fijas y una o más facetas aleatorias. Los diseños comunes en la TG son los diseños cruzados y los anidados. En los diseños cruzados, se obtienen los datos para todas las posibles combinaciones de los niveles de las diferentes facetas. En los diseños anidados no todas esas posibles combinaciones están representadas en el diseño. A continuación se hace una breve exposición de los procedimientos considerando las dos fases, la primera en la que se llevan a cabo los estudios G para verificar la constancia de las mediciones en la variable de interés a través de las diferentes condiciones, y la segunda, en la que los resultados de los estudios G se utilizan para los estudios D, dirigidos a la toma de decisiones. En ambos apartados se pondrán ejemplos de diseños cruzados, pero estos estudios admiten diseños experimentales más complejos, dependiendo de los objetivos y de las condiciones que se establezcan. En cualquier caso, la elección del diseño y cómo se ha de hacer el tratamiento de los datos para el cálculo de las medias cuadráticas que conducen a la estimación de las componentes de la varianza, se pueden encontrar en obras especializadas en el tema, como el texto clásico de Winer (1971), o en una versión más actual (Winer et al., 1991). Se pueden seguir los procedimientos para llevar a cabo análisis de la varianza con diferentes diseños Capítulo 7. Teoría de la generalizabilidad 189 en textos de estadística general como el de Amón (1984) y de Pardo y San Martín (1994), en español, o el de Howell (2002), en inglés. m7.2. Estudios Gm Los estudios G corresponden a la fase en la que, tras planificar y diseñar el procedimiento, se estiman y se interpretan las componentes de la varianza de cada una de las facetas. En esta fase del estudio hay que hacer uso de los procedimientos del ANOVA, realizando la partición de la varianza total en sus distintas componentes. Se obtienen las sumas de cuadrados para calcular las medias cuadráticas y, a partir de ellas, se estiman las componentes de la varianza de cada una de las facetas, así como las de las interacciones, si las hubiera. Al comparar la magnitud de esas varianzas, si la componente de la varianza atribuible a los sujetos es mucho mayor que las de las demás componentes, entonces se considera que la medición que proporciona el test es bastante estable, es decir, que no está influida en demasía por las condiciones. Si, por el contrario, esa varianza fuese relativamente pequeña en relación con el resto de las componentes de varianza estimadas, la variabilidad no sería atribuible a los sujetos, sino a las condiciones en las que se han realizado las mediciones. A continuación se estudian los diseños más simples de una y dos facetas. Diseño de una faceta En un diseño de una faceta se obtienen las medias cuadráticas correspondientes a los sujetos (p), ítems (i) y residual (res), de la misma forma que se obtienen usando las técnicas de análisis de la varianza (ANOVA) y que están implementadas en los paquetes de software estadístico. No obstante, para ayudar a la comprensión del significado de los procedimientos, en el Cuadro 7.2 se ilustra cómo se hace la partición de la varianza total en sus distintas componentes, en el caso de un factor y cómo se obtienen tanto la suma de cuadrados SC, como las medias cuadráticas MC. 190 Principios de Psicometría Cuadro 7.2 Para ilustrar el procedimiento se parte de un diseño muy simple, un diseño cruzado p x i. Para hacer la partición de la varianza total en sus distintos componentes, se descompone la puntuación diferencial de cada sujeto p en cada condición i (ítem), Xpi , en los siguientes sumandos: ( ) ( ) ( X pi − X = X p − X + X i − X + X pi − X p − X i + X ) (7.1) siendo los dos primeros sumandos las desviaciones de las medias de Xp y de Xi respecto a la media global (los errores ep y ei respectivamente). El último sumando es lo que se denomina residual (el de la interacción epi). Estos efectos se supone que son independientes, con media cero. Por lo tanto, la suma de cuadrados (SC) de esas diferencias, para todos los sujetos y todas las condiciones, es la dada a continuación por la ecuación (7.2). La suma de cuadrados atribuible a los sujetos es la (7.3), la atribuible a los ítems es la (7.4) y la residual la (7.5): ( SCtotal = ∑ ∑ X pi − X p i 2 ) = ∑ ∑ X pi2 − npni X 2 p (7.2) i SCp = ni ∑ X p2 − npni X 2 (7.3) SCi = np ∑ X i2 − npni X 2 (7.4) SCres = SCtotal − SCp − SCi (7.5) p i Las medias cuadráticas, en cada caso, se obtienen dividiendo cada una de estas sumas de cuadrados por sus correspondientes grados de libertad, que son respectivamente (np – 1) para los sujetos, (ni – 1) para las condiciones y para el residual (np – 1) (ni – 1). Por lo tanto: MCp = SCp SCi SCres ; MCi = ; MCres = np − 1 ni − 1 (np − 1) (ni − 1) (7.6) Una vez obtenidas las medias cuadráticas de las diversas fuentes: sujetos (MCp ), ítems (MCi ) y residual (MCres ), se procede al cálculo de los coeficientes. En tanto que el ANOVA proporciona información de los efectos principales (y sobre Capítulo 7. Teoría de la generalizabilidad 191 un término error) mediante un test de significación, la TG aporta sus métodos propios. Los estudios G no requieren llevar a cabo tests de significación. Lo que se hace es estimar los componentes de varianza en el diseño, con el fin de calcular un coeficiente, optimizar ese coeficiente y estimar las puntuaciones del universo (generalizar). En este diseño cruzado de una faceta, las ecuaciones que se utilizan para estimar las componentes de la varianza son las que aparecen en la Tabla 7.1, siendo los valores relativos de estos componentes los que indican la contribución de cada una de las facetas a la variabilidad total. En el Ejemplo 7.1 se pueden seguir estos procedimientos. Tabla 7.1. Ecuaciones para la estimación de las componentes de la varianza en un diseño cruzado de una faceta. Fuentes de variación Componentes de varianza Sujetos σ p2 = Condiciones σ i2 = Residual MCp − MCres np MCi − MCres ni 2 σ res = MCres Ejemplo 7.1 Para medir la agresividad se suministran cuatro ítems a cuatro grupos de escolares de diferentes edades, obteniéndose las puntuaciones medias de cada grupo que se presentan en la Tabla 7.2. Puesto que los cuatro grupos de sujetos responden a todos los ítems, el diseño es un diseño cruzado (sujetos × ítems). En este ejemplo cada grupo actúa como un sujeto promedio (que representa al grupo). Los grados de libertad son: para los sujetos np – 1 = 3, para los ítems ni – 1 = 3, para el residual (np – 1) (ni – 1) = 9 y para el total np ni –1 = 15. Realizados los cálculos pertinentes con un programa informático, o haciendo uso de las ecuaciones (7.2) a (7.6), se obtienen los valores de las sumas de cuadrados y de las medias cuadráticas que se presentan en la Tabla 7.3. En esa 192 Principios de Psicometría tabla se dan también los valores de las componentes de la varianza, calculadas mediante las expresiones que se han dado en la Tabla 7.1. En la última columna de la Tabla 7.3 se da el peso relativo de cada componente, es decir, el de su contribución a la varianza total. Tabla 7.2. Puntuaciones medias de cuatro grupos de escolares de diferentes edades en cuatro ítems de un cuestionario de agresividad. Ítems del cuestionario de agresividad Sujetos Medias Física Verbal Ira Hostilidad Niñas Niños Adoles. Hembras Adoles. Varones 2 4 4 6 2 3 4 5 2 3 5 4 2 2 3 5 2 3 4 5 Medias 4 3.5 3.5 3 3.5 Tabla 7.3. Resultados de ANOVA y generalizabilidad para los datos de la Tabla 7.2. Fuentes de variación Sujetos Ítems Residual Total g.l. Suma de cuadrados SC 3 3 9 20 2 4 15 26 Medias Componentes cuadráticas de MC varianza 6.67 0.67 0.44 % Varianza 1.56 0.06 0.44 76 3 21 2.06 100 En los resultados de este ejemplo se puede observar el gran tamaño de la componente de la varianza σ p2 en relación con el resto de las componentes. Este resultado indica que el efecto principal se debe a las diferencias en agresividad entre los grupos de participantes. Si se consideran estos resultados como relaciones señal/ruido, este efecto de los sujetos (según su género y grupo de edad) sería una fuerte señal y el residual sería el ruido del sistema. La proporción con que contribuye la varianza de los ítems a la varianza total es casi despreciable, no pudiendo considerarse a los ítems como una fuente de variabilidad en la detección de las diferencias entre los cuatro grupos de escolares. Capítulo 7. Teoría de la generalizabilidad 193 Los resultados obtenidos en el Ejemplo 7.1 pueden tomarse como representativos de lo que es deseable obtener en un estudio de una sola faceta, dirigida a evaluar las diferencias entre los sujetos, que en este caso son los cuatro grupos de escolares. En la Tabla 7.2 puede apreciarse que los niveles de agresividad aumentan en el orden, niñas < niños < adolescentes hembras < adolescentes varones, lo que se refleja en la Tabla 7.3 como una fuerte señal de la faceta sujeto, que permitirá que en el correspondiente estudio D esta faceta pueda generalizarse. En la Tabla 7.2 se observa también que casi todos los grupos presentan mayores niveles en el ítem agresividad física que en los demás ítems. Sin embargo, la contribución a la varianza total de la faceta ítem (Tabla 7.3) es muy pequeña y probablemente no permitiría que esa faceta fuera objeto de generalización. Diseño de dos facetas En muchas situaciones los diseños incluyen más de una faceta que pueden estar influenciando la calidad psicométrica de las medidas. La mayor diferencia con los casos de una sola faceta reside en que, además de las MC de cada una de las facetas, hay que obtener las de todas las interacciones, aumentando considerablemente los cálculos. Lo usual es usar programas diseñados para la TG o realizar los cálculos con el software disponible para los ANOVA. Conocidas las MC, se procede a la estimación de las varianzas. En la Tabla 7.4 se dan las ecuaciones para el cálculo de las componentes de la varianza, en el caso de dos facetas y un diseño cruzado p × i × j (sujetos × ítems × observadores), siendo np, ni y nj el número de elementos considerados en el diseño en cada una de las facetas. Para hallar las componentes de la varianza se disponen los cálculos de forma similar a como se ha realizado en el diseño de una faceta, teniendo en cuenta que ahora, además de los efectos principales de cada faceta, hay que tener en cuenta las nuevas interacciones. A continuación se da un ejemplo de un estudio de dos facetas, en el que también se ha medido la agresividad de cuatro grupos de escolares, incluyendo ahora la influencia de otra posible fuente de variabilidad, los observadores que evalúan la prueba. 194 Principios de Psicometría Tabla 7.4. Ecuaciones para la estimación de las componentes de la varianza en un diseño cruzado de dos facetas. Fuentes de variación Sujetos (p) Componentes de varianza σ p2 = Ítems (i) σ i2 = Observadores (j) σ 2j = MCp − MCpj − MCpi + MCres ni nj MCi − MCpi − MC ji + MCres np nj MC j − MCpj − MC ji + MCres np ni Sujetos × Ítems 2 σ pi = Sujetos × observadores 2 σ pj = Ítems × observadores σ ij2 = Residual MCpi − MCres nj MCpj − MCres ni MCij − MCres np 2 σ res = MCres Ejemplo 7.2 Siguiendo el ejemplo de la prueba de agresividad y usando los mismos cuatro ítems, supóngase que tres observadores diferentes (A, B y C) son los que evalúan a los escolares. Los datos medios por grupo obtenidos con un diseño cruzado de dos facetas se muestran en la Tabla 7.5. De forma análoga a como se hizo en el ejemplo de una faceta se calculan (utilizando ahora las ecuaciones dadas en la Tabla 7.4) las varianzas que se dan en la Tabla 7.6. En este Ejemplo 7.2 puede observarse que también la componente de varianza de la variable objetivo, los sujetos, representa la mayor proporción de la varianza total (en este caso alrededor del 50%), lo que indica una fuerte señal. Este resultado es muy positivo pues, como veremos en los estudios D, los coeficientes de generalizabilidad usualmente están dirigidos a evaluar la precisión 195 Capítulo 7. Teoría de la generalizabilidad Tabla 7.5. Datos en un diseño cruzado de dos facetas. Observadores Sujetos Niñas Niños Adol. H Adol. V A B C Ítems Ítems Ítems Medias F V I H F V I H F V I H 2 4 4 5 2 3 4 5 2 3 5 4 2 2 3 4 2 3 4 5 3 3 3 4 3 3 3 3 2 2 4 3 2 3 4 5 2 2 3 4 3 2 2 3 2 3 3 3 2.25 2.75 3.50 4.00 Nota: F, V, I y H se refieren a los ítems de agresividad (física, verbal, ira y hostilidad). Adol. H y Adol. V indican adolescentes hembras y varones respectivamente. Tabla 7.6. Resultados de ANOVA y de generalizabilidad para los datos de la Tabla 7.5. Fuentes de variación g.l. Suma de cuadrados SC Sujetos Ítems Observador Suj. × Ítem Suj. × Obs. Item × Obs. Residual 3 3 2 9 6 6 18 21.75 4.417 2.0 5.083 2.5 2.058 6.617 Total 47 43.250 Medias Componentes cuadráticas de MC varianza 7.25 1.472 1.0 0.565 0.417 0.343 0.343 % Varianza 0.551 0.086 0.044 0.069 0.019 0.000 0.343 49.6 7.7 4.0 6.2 1.7 0.0 30.8 1.112 100.0 de las estimaciones de las diferencias individuales, es decir, la consistencia interna de sus puntuaciones a través de los ítems, los observadores, etc. En la Tabla 7.6 se puede advertir que las contribuciones a la varianza de los ítems o de los observadores son muy pequeñas en comparación con la proporción debida a la variable sujetos, que era la variable de interés. Igualmente la magnitud de las interacciones sujetos × ítems y sujetos × observadores son también relativamente pequeñas, lo que indica la consistencia de las diferencias entre los sujetos (los grupos) a través de ítems y de observadores. Por lo tanto hay que considerar que, en principio, sólo hay una señal fuerte debida a los grupos de sujetos, siendo el resto ruido. 196 Principios de Psicometría Al igual que se ha expuesto al evaluar la consistencia interna en la TCT (Capítulo 5), que haya mucha variabilidad entre los participantes es muy deseable y es una cuestión relevante en los procesos de medición. Si el interés está centrado en las diferencias individuales, o sea, que los sujetos sean la faceta de diferenciación (los grupos, en los ejemplos dados), lo deseable es que el cociente entre σ 2p y la varianza total sea un valor alto pues, como se ha indicado anteriormente, ése es el valor de la señal. Cuando las estrategias que se han elegido para la medición y el diseño son las adecuadas, las puntuaciones de los sujetos son estables a través de las condiciones (ítems, observadores, ocasiones, etc.). En caso contrario, la debilidad del estudio se muestra cuando las puntuaciones de los participantes sufren fluctuaciones a través de las condiciones, siendo las de un mismo participante unas veces altas y otras bajas. El objetivo de los estudios G es detectar estos efectos y extraer conclusiones. m7.3. Estudios Dm Puesto que la información de los estudios G se utiliza para tomar decisiones (admisión en la universidad, selección de personal, etc.), tras los estudios G se realizan estudios D para optimizar las estrategias que lleven a la toma de decisiones adecuadas. Se puede decir, por lo tanto, que un estudio D es la segunda fase en un estudio de generalizabilidad. Comoquiera que las varianzas proporcionan la información de cuanto contribuye cada faceta a la varianza total, el coeficiente de generalizabilidad se puede considerar como un indicador de la intensidad de la señal, pudiéndose considerar que el coeficiente de generalizabilidad responde a la relación: Coeficiente de generalizabilidad = señal señal + ruido La señal vendrá dada por la componente de la varianza del factor en el que se está interesado, y el ruido vendrá dado por la varianza residual, a la que se le puede sumar la de otras componentes, variando ese término ruido en número y tipo de componentes, dependiendo del diseño y de que la decisión sea relativa o absoluta. Las decisiones se consideran relativas si se toman relacionando las puntuaciones del sujeto con las de los componentes de un grupo o población, considerándolas absolutas cuando se basan en si una puntuación determinada supera Capítulo 7. Teoría de la generalizabilidad 197 o no una puntuación de corte, o si se puede considerar que pertenece a un determinado grupo o clase de puntuaciones. Por ejemplo, si en un proceso de admisión hay que seleccionar al 25% de los aspirantes que se presentan a la prueba, entonces se elegirán aquellos sujetos cuyas puntuaciones estén por encima del tercer cuartil, con independencia de si en términos absolutos esas puntuaciones son realmente muy altas. Sin embargo, si la elección se hace teniendo sólo en cuenta que se alcance una determinada puntuación, se dice que se realiza una decisión absoluta. Un ejemplo de decisión relativa es cuando una empresa necesita contratar a diez personas para un puesto con un determinado perfil. A la selección se presentan 100 aspirantes y se contrata a los 10 que obtienen las mejores puntuaciones en las pruebas. Por el contrario, para que un alumno obtenga la máxima calificación en una disciplina, su puntuación debe pertenecer a una determinada categoría, (por ejemplo, se califica con sobresaliente sólo si obtienen más de 9 puntos sobre 10), con independencia de cuantos alumnos de su curso o de su universidad la hayan alcanzado. En la TG, diferenciar entre ambos tipos de decisiones tiene importantes implicaciones, pues al realizar los estudios D a partir de los coeficientes de generalizabilidad, que son los indicadores de la relación [señal / (señal + ruido)], esta diferenciación afecta a cómo se concibe el ruido en cada caso. La diferencia entre decisiones absolutas y relativas afecta al número de componentes de varianza que contribuyen al ruido cuando se computan los coeficientes. Comúnmente, las decisiones absolutas conllevan la consideración de un mayor número de esas componentes que las relativas, por lo que los coeficientes de generalizabilidad que se obtienen en las decisiones relativas suelen ser mayores que en las absolutas. Coeficientes de generalizabilidad y toma de decisiones Quienes usan los tests desean maximizar la calidad de sus medidas y, en consecuencia, la de sus predicciones y quieren que todo ello se realice con la mayor eficiencia posible. Por ejemplo, si la faceta de diferenciación son los sujetos y la varianza atribuible a los ítems σ 2i es muy grande, quiere decir que esta faceta contribuye en gran medida al ruido y el psicómetra debe buscar alguna estrategia para intentar reducir esa varianza. Por lo tanto, cuando en el estudio G se advierte que la varianza de alguna o de varias facetas es alta, puede plantearse aumentar el 198 Principios de Psicometría número de elementos o de niveles de una o de varias facetas, con el fin de asegurarse una mayor precisión en la generalización. Por ejemplo, se pueden añadir nuevos ítems y alargar el test, que es una estrategia que también se adopta en la TCT para aumentar la fiabilidad. Al igual que en la TCT parece razonable intentar añadir el menor número posible de ítems, por economía de recursos (e.g., tiempo y dinero) entre otras razones, aunque buscando la mayor utilidad y eficiencia de la prueba. En la TCT (Apartado 4.3) se ha demostrado que al aumentar la longitud del test con elementos paralelos, la varianza de la puntuación verdadera crece más rápidamente que la del error, disminuyéndose así la contribución de este término error a la varianza total observada, obteniéndose tests más fiables. Desde la TG no se plantea el concepto de paralelismo, sino que se analizan las variaciones en el coeficiente de generalizabilidad al aumentar (o disminuir) el número de niveles de la faceta o de las facetas en cuestión, el número de ítems en este caso. Éste es un caso típico en el que se recomienda realizar un estudio D. Los coeficientes de generalizabilidad toman valores entre cero y uno, indicando el extremo inferior (cero) la ausencia de señal y el valor uno la ausencia de ruido. Estos conceptos se comparten con los de los coeficientes de fiabilidad en la TCT donde, si no hay varianza error, toda la varianza observada corresponde a la de la puntuación verdadera y la fiabilidad es uno. Como se podrá comprobar más adelante (Ejemplo 7.3), el coeficiente de generalizabilidad es igual al coeficiente α para algunos diseños. Diseño de una faceta En estos diseños, expondremos en primer lugar los coeficientes dirigidos a la toma de decisiones relativas ρ2 y posteriormente los de las absolutas φ 2 . Decisiones relativas En un diseño (p × i), si la estrategia que se adopta para tomar decisiones es la consideración del número de ítems, para optimizar la decisión habrá que hacer uso de la estimación de las varianzas de cada una de las fuentes de variabilidad, que se ha realizado en el estudio G. Si se denota por n'i el número de ítems que se está considerando en un caso particular, la expresión: 199 Capítulo 7. Teoría de la generalizabilidad ρ2p = σ 2p σ 2p σ 2res + n′i (7.7) es el coeficiente de generalizabilidad relativo, si la faceta de interés son los sujetos. Este coeficiente permite estudiar las variaciones de la señal en relación con la longitud de la prueba, tomándose las decisiones en concordancia con la información que proporciona ese coeficiente, buscando la mejor relación entre el tamaño de la prueba y el valor del coeficiente. Los valores posibles para los coeficientes de generalizabilidad estarán entre cero y uno, como el coeficiente α, así como otros coeficientes de fiabilidad de la TCT. Veamos un ejemplo donde se analizan las variaciones de los valores del coeficiente dado en la expresión (7.7) para diferentes n'i, tomándose la decisión en función del tamaño de ese coeficiente. Ejemplo 7.3 Con el diseño y los datos de la Tabla 7.2 y con los resultados del estudio G dados en la Tabla 7.3, tómese una decisión acerca de si se pudiera reducir, o si se debe aumentar el número de ítems de la prueba. Para tomar esa decisión, en primer lugar, se hace uso de la ecuación (7.7) para obtener el coeficiente de generalizabilidad relativa, teniendo en cuenta que en ese diseño se han utilizado 4 ítems (los niveles o condiciones) de esa faceta aleatoria. Por lo tanto: ρp2 = 1.56 1.56 = = 0.934 0.44 1.67 1.56 + 4 El coeficiente es suficientemente elevado y no habría que plantearse añadir nuevos ítems. Por el contrario, la propuesta sería reducir ese número si la pérdida en precisión no fuese muy elevada. No obstante, también se quiere valorar la ganancia en precisión que se obtendría si se añadiesen algunos ítems y cómo se relacionarían estos valores con los que se hubieran obtenido usando los métodos de la TCT. 200 Principios de Psicometría a) Los valores estimados para el coeficiente, si en lugar de 4 utilizaran 2 o 3 ítems, son respectivamente: ρp2 = 1.56 1.56 = = 0.876 0.44 1.78 1.56 + 2 ρp2 = 1.56 1.56 = = 0.912 0.44 1.71 1.56 + 3 por lo que, a la vista de los resultados, puede tomarse la decisión de prescindir de uno de los ítems. b) Los valores del coeficiente en los casos en que se añadiera uno, dos o cuatro ítems a los cuatro iniciales serían 0.946, 0.955 y 0.966 respectivamente. c) Para comparar estos coeficientes con los que se hubieran obtenido usando los métodos de la TCT, el coeficiente α se calcula con la ecuación (5.1) utilizando los datos de la Tabla 7.2 α= 4 20 − 6 = 0.933 3 20 comprobándose que el valor de ρ p2 coincide con el de α. Si para aumentar la fiabilidad del test se dobla la longitud añadiendo elementos paralelos, aplicando la ecuación (4.4) de Spearman-Brown se obtiene: R XX′ = ( ) = 0.966 2 0.933 1+ 0.933 que es el mismo valor que el obtenido para ρ 2p cuando en la ecuación (7.7) se considera que n'i = 8. Decisiones absolutas En el diseño de una faceta descrito anteriormente, el coeficiente de generalizabilidad para decisiones absolutas, se obtiene mediante la ecuación: φ 2p = σ 2p σ 2p σ2 σ2 + i + res n′i n′i (7.8) Capítulo 7. Teoría de la generalizabilidad 201 que, como se ha indicado anteriormente, añade más componentes al término ruido que en las decisiones relativas. Ejemplo 7.4 Utilizando el mismo diseño del caso anterior y la información proporcionada por su estudio G (Tabla 7.3) para esa estrategia basada en cuatro ítems, se tiene que el valor del coeficiente de generalizabilidad absoluto es: φp2 = 1.56 = 0.926 0.06 0.44 1.56 + + 4 4 que, como era de esperar, es menor que el coeficiente obtenido para las decisiones relativas. Aun así, el coeficiente es bastante elevado, pero si se quiere aumentar, se puede proceder de manera análoga a lo realizado anteriormente. Por ejemplo, si la estrategia de mejora de la prueba consiste en aumentar en dos el número de ítems, el valor esperable es: φp2 = 1.56 = 0.949 0.06 0.44 1.56 + + 6 6 lo que supone un aumento considerable en el coeficiente. Por lo tanto, se deberá valorar la pertinencia y los costes de añadir dos ítems, ya que supone multiplicar por 1.5 la longitud de esa prueba. Diseño de dos facetas Al igual que en el caso de una faceta, se exponen los coeficientes para las decisiones relativas y a continuación los de las absolutas. Decisiones relativas Los coeficientes de generalizabilidad en cualquier diseño, también en los multifaceta, se pueden considerar como la razón entre la señal y la señal más el 202 Principios de Psicometría ruido. En el caso de un diseño de dos facetas en el que la faceta de diferenciación o faceta objetivo sean los sujetos y las de generalización sean los ítems y los observadores, el coeficiente de generalizabilidad relativo viene dado por la ecuación: ρ2p = σ 2pi σ 2p 2 σ pj σ2 σ 2p + + + res n′i n′j n′i n′j (7.9) siendo n'i el número de ítems y n'j el de observadores que se han considerado en el estudio, bajo los supuestos de que esos niveles, o formas, en cada una de esas dos facetas son muestras aleatorias de sus respectivos universos. Conocidas las varianzas estimadas se pueden estudiar las variaciones del coeficiente de generalizabilidad, usando la ecuación (7.9), de forma similar a como se ha hecho en el caso de una faceta. Sin embargo, con este diseño se pueden obtener estimaciones del coeficiente variando tanto el número de ítems como el de observadores. Decisiones absolutas Para la toma de decisiones absolutas, en el caso de dos facetas en el ejemplo que se viene considerando (p × i × j), el coeficiente viene dado por la expresión: φ 2p = σ 2p σ 2p 2 2 2 2 2 σ 2i σ j σ pi σ pj σ ij σ res + + + + + + n′i n′j n′i n′j n′i n′j n′i n′j (7.10) que contiene más términos de varianza en el denominador que el coeficiente dirigido a la toma de decisiones relativas. Concretamente aquí se incluyen los componentes de varianza para el efecto del ítem, del observador, y el de la interacción ítem × observador, que no están incluidos en el coeficiente dado en (7.9). Capítulo 7. Teoría de la generalizabilidad Ejemplo 7.5 Con los datos calculados en el estudio G del Ejemplo 7.2 (Tabla 7.6) se pueden plantear al menos dos cuestiones: a) Si hay que bajar los costes reduciendo el número de ítems y/o el de observadores, ¿cuánto, teóricamente, se pierde en precisión en uno y otro caso? b) ¿Cuál sería la ganancia en precisión que teóricamente se podría obtener si se aumenta el número de ítems y/o el de observadores? Lo primero que hay que saber es si el coeficiente se va a utilizar para la toma de decisiones absolutas o relativas. En cualquier caso, calculémoslos para ambas decisiones con los datos obtenidos en el estudio G con la prueba que se ha administrado. Haciendo uso de la ecuación (7.9) se calcula el valor del coeficiente de generalizabilidad para la toma de decisiones relativas: ρp2 = 0.551 0.551 = = 0.89 0.086 0.044 0.343 0.616 0.551 + + + 4 3 12 Para la toma de decisiones absolutas, sustituyendo los correspondientes valores en (7.10), se obtiene que el valor del coeficiente es: φp2 = 0.551 = 0.86 0.086 0.044 0.069 0.019 0.00 0.343 0.551+ + + + + + 4 3 4 3 12 12 Para dar respuesta a las cuestiones que se han planteado, se pueden hacer estimaciones teóricas manipulando el número de ítems y el de observadores. Algunos de los valores de los coeficientes de generalizabilidad calculados para la toma de decisiones absolutas y relativas, considerando diferentes números de ítems y de observadores, se dan en la Tabla 7.7 El aumento del número de niveles en una o en ambas facetas aumenta el valor de los coeficientes, tanto si son decisiones absolutas como relativas. Como también se puede observar en el ejemplo de la Tabla 7.7, los coeficientes para las decisiones relativas son mayores que para las absolutas. Se deberá adoptar la combinación que optimice las decisiones, teniendo siempre en cuenta que usualmente el error que afecta a las decisiones absolutas es mayor que el que afecta al de las relativas y que, por ello, son las decisiones relativas las que son más generalizables. 203 204 Principios de Psicometría Tabla 7.7. Coeficientes estimados utilizando componentes de varianza para distintos niveles de las facetas, ítems y observadores. Número de niveles Coeficientes para la toma de decisiones n'i n'j ρ2p φ 2p 1 2 3 4 4 4 4 5 6 6 1 1 1 1 2 3 4 3 2 3 0.54 0.68 0.75 0.78 0.86 0.89 0.91 0.91 0.89 0.92 0.50 0.64 0.71 0.75 0.83 0.86 0.88 0.88 0.87 0.89 m7.4. Diseños anidados versus diseños cruzadosm En todos los desarrollos anteriores se han supuesto diseños cruzados, esto es, que todos los sujetos se cruzan con todas las condiciones. En el caso en el que se tuviese una muestra de 100 sujetos, 12 ítems y 2 observadores (evaluadores), el diseño cruzado (p × i × j) proporcionaría un total de 100 × 12 × 2 = 2400 observaciones. Sin embargo, si por razones de economía se decide dividir la muestra de sujetos entre los observadores, asignándolos de forma aleatoria y de manera que cada uno de los observadores se ocupe de evaluar sólo a la mitad de los sujetos, entonces se tiene un diseño anidado [(p : j) × i], que daría como resultado 2 (50 × 12) = 1200 observaciones. Del mismo modo, se podría haber decidido adoptar otra estrategia, por ejemplo, dividir los ítems entre los evaluadores de manera que uno de ellos aplicará 6 ítems a todos los sujetos y el otro los otros seis. En este caso, se tiene un diseño anidado [p × (i : j)], que produce también 1200 observaciones. Para los análisis hay que tener en cuenta, por lo tanto, que los sujetos reciben sólo algunos de los niveles de las facetas de generalización. En este caso, no todas las combinaciones de ítems y observadores están representadas en el diseño. En general, se tiene un diseño anidado cuando no está incluida en el estudio toda posible combinación de dos facetas. Capítulo 7. Teoría de la generalizabilidad 205 El uso de estos diseños tiene importantes implicaciones. Por ejemplo, si en los estudios G de una faceta (sujetos e ítems), a cada sujeto se le administra parte (una muestra aleatoria) de los ítems disponibles, entonces, los estimadores de la varianza estarán afectados por esta restricción, como también sucederá en los diseños multifaceta. En el diseño cruzado de dos facetas que se presenta en la Tabla 7.4 se pueden estimar hasta un total de siete efectos, tres de ellos corresponden a los efectos principales de las facetas (sujetos, ítems y observadores), otros tres a los pares de interacciones y el último al residual. Sin embargo, si los ítems están anidados en observadores, entonces no se pueden estimar más que un total de cinco efectos. La razón es que no se obtienen las varianzas estimadas para σ 2i y para σ 2pi , ya que al estar repartidos los ítems entre los observadores, no pueden detectarse de forma separada esos efectos. Las exposiciones más amplias y detalladas de cómo llevar a cabo los análisis con estos diseños escapan a los objetivos de esta obra, aunque el lector interesado puede encontrarlas en múltiples fuentes y existen programas de software libre (e.g., MGENOVA) que son específicos para el tratamiento de la TG. Solamente añadir que, aunque la primera fase del estudio, el estudio G, se haya realizado con un diseño cruzado, esto no impide que el psicólogo decida optar por un diseño anidado en los posteriores estudios D. En ese caso, deberá tener en cuenta las diferencias en los componentes de la varianza entre uno y otro diseño. Finalmente, reiterar que los estudios TG admiten una gran variedad de diseños experimentales más o menos complejos y que, para la elección del diseño adecuado en cada caso, remitimos al lector a la literatura sobre diseños experimentales de la que hay textos especializados y que también es muy abundante en los contextos de la estadística aplicada. Los análisis se pueden hacer con software específico para la TG u obteniendo las componentes de varianza con ayuda de paquetes estadísticos (e.g., SPSS) que incluyen análisis de la varianza para diferentes diseños. Puntos clave 3 La TG considera que las mediciones pueden estar afectadas por múltiples fuentes de error, en lugar de un término único como se considera en el modelo de Spearman. 206 Principios de Psicometría 3 3 3 3 3 3 3 3 3 3 3 La TG amplía el concepto de fiabilidad de la TCT al considerar que diferentes facetas pueden afectar a las mediciones y, por lo tanto, a sus cualidades psicométricas. Los análisis de los efectos de las facetas se basan en los procedimientos del análisis de la varianza, aunque la TG proporciona las herramientas para la estimación de los efectos de cada faceta, dando las ecuaciones para la obtención de sus varianzas estimadas. Los sujetos, las condiciones o niveles de las facetas que entran en el estudio, son muestras aleatorias de sus respectivas poblaciones o universos. Sin embargo, cuando el estudio incluye todos los niveles de una determinada faceta, o no se está interesado en su generalización, esa faceta pasa a ser una faceta fija. Las condiciones son experimentalmente independientes. A los estudios que llevan a la estimación de los efectos de las facetas se les llama estudios de generalización o estudios G. Los resultados de los estudios G se pueden utilizar para la toma de decisiones, generando los denominados estudios D. Las decisiones en los estudios D se basan en los valores de los coeficientes de generalizabilidad, que se definen como el cociente entre la señal y la señal más el ruido. Los coeficientes de generalizabilidad son diferentes cuando se trata de decisiones absolutas o de decisiones relativas, pues difieren en las componentes del ruido. El coeficiente de generalizabilidad (precisión) se puede aumentar o disminuir variando el número de niveles de las facetas. Una estrategia para aumentar la precisión, análoga a la que se adopta en la TCT, puede ser aumentar el número de ítems. El tipo de diseño (cruzado, anidado, etc.), el número de facetas y su consideración de fijas o aleatorias tiene implicaciones en los cálculos y en las interpretaciones, tanto en los estudios G como en los D. Actividades r Enuncie tres ítems que midan la agresividad física en niños (puede tomarlos de Santisteban y Alvarado, 2009). Obtenga las respuestas a estos ítems de 10 niños en dos ocasiones distintas y realice estudios G, considerando que los ítems y las ocasiones son las facetas de generalización. r A la vista de los datos que se dan en el Ejemplo 7.3 y ya que la prueba propuesta es muy corta, ¿cree que la mejor opción sería aumentar su longitud Capítulo 7. Teoría de la generalizabilidad r r r r r 207 hasta alcanzar la máxima precisión? ¿Qué supondría esa opción?¿Qué aconsejaría que se hiciera? ¿Por qué? Compruebe que, en el caso anterior, el valor que se obtiene para el coeficiente de generalizabilidad cuando se aumenta el número de ítems es el mismo que si al test inicial se aplica la ecuación de Spearman-Brown. En el Ejemplo 7.5, combine distintas posibilidades, además de las dadas en la Tabla 7.7, y discuta cuáles serían las mejores opciones, tanto para la toma de decisiones relativas como absolutas. Explicite con un ejemplo concreto las implicaciones que en un sistema de selección tendrían las opciones elegidas en la actividad anterior. En un diseño cruzado (p × i × j) = 200 × 20 × 6 plantee distintas opciones para pasar a diseños anidados. Indique el número de observaciones que se obtendrían en cada caso. Genere una tabla de datos ficticios para algunos de los diseños anteriores, y con el software adecuado haga estudios D para los diferentes supuestos. La validez ¿Qué es la validez? 8 El concepto de validez ha ido evolucionando a lo largo de casi un siglo, habiéndose propuesto varias definiciones de validez en el transcurso de esa evolución. La definición más básica de validez es que un estudio es válido cuando mide aquello que pretende medir. Por lo tanto, en psicometría, la validez es el grado en que el test (test, cuestionario o inventario) mide aquello que se supone que está midiendo. Esta forma de definir la validez es la más común debido a su claridad y simplicidad, pero es una simplificación de lo que actualmente se entiende por validez, que es el grado en que la evidencia y la teoría dan soporte a las interpretaciones que se hacen de las puntuaciones de los tests en relación con los propósitos de uso para los que esos tests se han construido. Esta definición más compleja apunta a que hay varios tipos de validez. En este capítulo se va a tratar: ã El concepto de validez y su evolución. ã Diferentes significados y denominaciones de la validez. ã Las distintas acepciones que se han dado a la validez de los tests, respondiendo a los distintos propósitos para los que los tests se han utilizado. ã Las exigencias de validez no son exclusivas de los instrumentos de medición en psicología, sino que se extienden al ámbito de todas las ciencias. m8.1. El concepto de validezm En psicometría se suele decir que un instrumento de medida (test, cuestionario, inventario, etc.) tiene validez cuando mide lo que pretende medir. A su vez, las medidas de lo 210 Principios de Psicometría que se pretende medir, no son mediciones directas sino que casi siempre se infieren desde otras medidas, por lo que también habrá que plantearse cuál es la validez de esas inferencias. Por lo tanto, parece que la validez es uno de los requisitos que se deben exigir que cumplan tanto las medidas como los instrumentos de medida. La evaluación de la validez de los instrumentos de medida psicométricos ha sido siempre un aspecto considerado primordial y requerido para su uso. No obstante, la concepción actual de la validez ya no responde solamente a esa orientación puramente pragmática y empirista que caracterizó a la psicometría en la primera mitad del siglo XX. El concepto de validez ha evolucionado como consecuencia de los cambios conceptuales que se han ido produciendo en el ámbito de la psicometría, ampliándose este concepto a otros campos de la psicología en los que es necesaria la medición, e incorporando nuevas técnicas. En la actualidad los principios de la validez no sólo se aplican a las inferencias que se hacen usando las puntuaciones derivadas del test, sino que también incluyen a todas aquellas que se han ido generando en pasos intermedios, pues también esas puntuaciones deben ser consistentes con las aptitudes, las conductas o cualquier tipo de atributos que sean objeto de evaluación. En consecuencia, no solamente el término validez, sino también el término puntuación hay que considerarlo aquí en un sentido amplio, pues incluye el resultado de cualquier asignación y/o codificación que se haga de las observaciones, que tienen que ser consistentes con la realización del test, el cuestionario u otra forma de evaluación, así como con sus posteriores interpretaciones. Por todo ello, la validación ya no se considera que es la etapa final del proceso de construcción del instrumento de medida, sino que es un aspecto fundamental que tiene una fuerte influencia en todo el proceso. Ha sido Messick (1989/1993, 1995) quien probablemente más ha contribuido a que se abran paso estas propuestas, defendiendo un concepto unificado de validez que integrara a todas las posibles fuentes de información que ayuden a la validación, incluyendo desde las puntuaciones hasta las consecuencias sociales del uso de los tests, consiguiendo así que se abandone la idea más primitiva de que primero se construye el test, procurando que sea muy fiable, para posteriormente, en la etapa final, someterlo a estudios de validación. Al exponer las cualidades psicométricas de un test, las medidas más significativas, además de la precisión, son las que se refieren a su validez, que pueden ser varias, pues en la validez se pueden considerar diferentes aspectos. Además, los estudios de validez no tienen restricciones en cuanto al modelo en el que se ha basado la construcción de la prueba, lo que no sucede con los estudios de fiabilidad, en su acep- Capítulo 8. Validez: Concepto y tipos 211 ción de correlación entre puntuación verdadera y observada, que son exlusivos del modelo lineal clásico. Una prueba es válida si cumple los objetivos para los que se construyó, con independencia del tipo de modelo formal que se adopte, ya sean lineales (TCT), modelos basados en distribuciones probabilísticas como la binomial (Lord, 1965), o la de Poisson (Rasch, 1960) cuyo uso actualmente es poco frecuente, u otros modelos no lineales ampliamente utilizados, como los de la TRI (Capítulos 11 y 12), así como otros cualesquiera que se propongan. No se debe caer en la presunción de construir un modelo cuya cualidad fundamental sea la estética formal a través de sus formulaciones matemáticas o computacionales, incluso de sus resultados. Hay que validar el modelo dándole legitimidad. Los tests de inteligencia o de personalidad serán válidos si generan puntuaciones que permitan discriminar entre sujetos que varían en inteligencia, o que reflejan los rasgos más significativos de su personalidad. Un test dirigido a la selección de personal para la realización de una tarea determinada será válido si sus puntuaciones están en estrecha relación con aquellas aptitudes o habilidades fundamentales que posibilitan la buena ejecución de esa tarea, incluida la adaptación del sujeto al medio, pero esto no es más que un ejemplo de uno de los aspectos de la validez. Trataremos algunos de esos aspectos y los métodos más usuales para valorarlos en el contexto de la teoría de tests, aunque las limitaciones que impone un texto de estas características no nos permiten abordar el tema en toda su extensión, dimensiones y profundidad. m8.2. Tipos de validezm En la literatura han venido apareciendo desde principios del siglo XX diversos tipos y denominaciones de la validez, ligados a diferentes concepciones de la validez y al uso de los tests. En el Cuadro 8.1 se hace una breve reseña histórica, que ilustra su evolución hasta principios de los años cincuenta del siglo XX. Cuadro 8.1 En los albores del siglo XX, en sus intentos por generar los mejores tests posibles para evaluar la aptitudes intelectivas, Binet y Simon (1908) generaron un procedimiento para elegir los mejores ítems utilizando el criterio de diferenciación por edad, basándose en las teorías de la psicología evolutiva. Esto 212 Principios de Psicometría constituyó uno de los primeros intentos de dar validez a esas pruebas. Posteriormente, la validez se evaluó mediante el coeficiente de correlación entre las medidas que proporciona el test (predictoras) y las de otra variable que sirve como criterio de si ese test mide lo que se pretende (Hull, 1928; Gulliksen, 1950a). Los errores de medida, que afectan tanto a las variables predictoras como a las que miden el criterio, hacen que el coeficiente de correlación entre ellas sea menor del que resultaría si esas variables estuvieran exentas de errores. Este problema lo abordó Cureton (1950), incluyendo el concepto de atenuación en sus definiciones y fórmulas de la validez. Cureton además distinguía entre lo que es la validez del test, su poder predictivo y lo que denominó relevancia, que es la correlación entre las puntuaciones verdaderas, tanto del predictor como del criterio. Las propuestas de Cureton no tuvieron eco en la comunidad científica, que aceptó casi unánimemente la definición de coeficiente de validez y las consideraciones de Gulliksen (1950a), quien ligaba la validez de un test con la predicción de un criterio específico. Esto implica que un test tendrá tantos coeficientes de validez como usos se hagan de él. El que un test sólo se puede validar como medida de un determinado criterio fue el pensamiento dominante de la época y autores como Anastasi (1950) afirmaban también que decir que mediante un test se puede medir algo distinto a su criterio es pura especulación. Todo ello es fiel reflejo del positivismo lógico, que es el marco filosófico en el que se desarrolló la psicología de la época. Uno de los pocos que disintieron fue Rulon (1946), quien defendía que los tests de rendimiento académico en diferentes materias no requieren de un criterio externo para su validación, pues ellos mismos constituyen su propio criterio, ya que la revisión del test se hace por expertos en la materia, mostrándose así la validez de su contenido. Por su parte, Cronbach (1949/1990) distinguía entre validez lógica (qué es lo que mide el test) y la validez empírica (cuál es su relación con un criterio), discutiendo los problemas de la validez de contenido en los tests educativos. A lo largo de varias décadas, el pensamiento predominante fue, por lo tanto, que la validación consiste en comprobar la capacidad del test para predecir un determinado criterio de conducta, ya sea ésta observable en el futuro, o en el momento, acuñándose los términos de validez predictiva y de validez concurrente para indicar si las medidas del test predictor y del test criterio se han tomado o no en el mismo momento. No obstante, durante esa época de mediados del siglo XX, aparecieron múltiples denominaciones para designar a la validez, tomadas de las diferentes metodologías estadísticas y/o de la aplicación de técnicas de análisis de los ítems que se iban incorporando a la psicometría. Guilford (1946) introdujo el concepto de validez factorial, que proporciona la información de qué es lo que realmente mide el test en términos de factores y pesos, anticipando una de las técnicas actua- Capítulo 8. Validez: Concepto y tipos 213 les más relevantes para la validación del constructo. Gulliksen (1950b) introdujo el concepto de validez intrínseca, que es muy similar al de validez factorial, en la que los factores relevantes se detectan estudiando los patrones de covarianza. Por su parte, Anastasi (1954) dividía la validez en aparente, de contenido, factorial y empírica. A mediados de los años cincuenta del siglo XX tres asociaciones norteamericanas muy implicadas en la generación y uso de los tests intentaron unificar criterios. La American Psychological Association (APA), la American Educational Research Association (AERA) y el National Council on Measurement in Education (NCME), con la colaboración activa de psicómetras como Cronbach y Meehl, publicaron las recomendaciones técnicas para la construcción de tests psicológicos y de otras técnicas diagnósticas. En estas recomendaciones (APA, 1954; Cronbach y Meehl, 1955) se proponían cuatro tipos de validez: concurrente, predictiva, de contenido y de constructo, donde se daba el mayor peso a la validez empírica (concurrente y predictiva), defendiéndose que el test debía validarse en función del uso que se le pretendía dar. No obstante, ya se apuntaba también hacia un nuevo tipo de validez, la validez de constructo, como medida de un atributo o cualidad, aunque esa validación se concebía como algo excepcional que sólo se debía usar en aquellos estudios que requiriesen el desarrollo de tests en los que las técnicas de validación convencionales no fueran apropiadas, por ejemplo, cuando se necesitase interpretar las puntuaciones del test que no fuese posible definir de otro modo, o que no hubiese criterios o universos de contenido que pudieran aceptarse como adecuados para definir la cualidad que se iba a medir, etc. Otro paso importante hacia el futuro que se daba en estas recomendaciones fue indicar que la validación no es responsabilidad solamente del editor del test, sino que también lo es de aquellos expertos que lo utilicen. Las revisiones a las recomendaciones técnicas que se hicieron en los años 1966 y 1974 pasaron a llamarse Normas (Standards) para tests educativos y psicológicos. Se introdujo entonces en esas normas el concepto de la validez relativa a un criterio, que incluye la validez concurrente y la predictiva, dando lugar a que se expliciten los tres tipos de validez ya clásicos: contenido, criterio y constructo, aunque es la validez de constructo la que con el paso del tiempo se ha considerado que es la que incluye a las distintas facetas y fuentes de validación. Loevinger (1957) ya había adelantado la idea de que toda la validación es de constructo, pero no es 214 Principios de Psicometría hasta la edición de las Normas de 1985 cuando se hace explícita una concepción unitaria de la validez, como consecuencia de las interrelaciones que se establecen entre diferentes mediciones del rasgo o del comportamiento de interés y las puntuaciones en el test que se pretende validar, considerándose entonces los tipos de validez mencionados en las ediciones anteriores como diferentes evidencias o fuentes de validez. No obstante, existe en la redacción de esas normas una cierta ambigüedad, ya que se elaboran conjuntamente entre psicólogos y educadores, entre quienes se concibe y se desarrolla de forma desigual esta concepción unitaria de la validez. Estas deficiencias las pone de manifiesto Messick (1989/1993, 1995), quien, como se ha mencionado en el apartado anterior, defiende la validez como un concepto único, integrando en el proceso todas las posibles fuentes que sirvan al objetivo de la validación, incluyendo todos sus aspectos. En las Normas de 1999 (AERA, APA y NCME, 1999), se define la validez como una evaluación global del grado en el que la teoría y la evidencia apoyan las interpretaciones de las puntuaciones que se hacen en cada uso específico de los tests, poniéndose así de manifiesto la relevancia de la validez en el desarrollo y en la evaluación de los tests. Este cambio se debe a diversos psicómetras y al propio Cronbach (1975, 1989), quien revisa sus planteamientos anteriores. Sin embargo, es a Embretson (1983) a quien se debe sin duda la mayor y más relevante aportación a lo que actualmente significa la validación de constructo en la construcción de tests y en la investigación psicológica, poniendo de manifiesto la relevancia del test como instrumento de medición de las diferencias individuales. No bastará con establecer las redes de relaciones entre conceptos, sino que será necesario, como requisito previo, que el constructo esté adecuadamente representado. Es decir, en la validación del constructo se debe establecer tanto la representación del constructo como la perspectiva nomotética, basada en las características de la red de relaciones entre el test y otras medidas del constructo (Alvarado y Santisteban, 2006). Puede decirse que actualmente en psicología y educación hay consenso en cuanto a defender un concepto unificado de la validez. Se considera que el concepto central es la validez de constructo con el que se conectan todas las demás evidencias de la validez: las de contenido, las empíricas y teóricas de lo apropiado de las interpretaciones, las de las puntuaciones en relación con el dominio y la estructura del constructo, las del contexto de evaluación, las del significado de las puntuaciones, así como las de las consecuencias que se deriven de la aplicación del test. En la Figura 8.1 se presenta un diagrama que resume los cinco tipos de validez que se explicitan en las Normas vigentes (AERA, APA y NCME, 1999). Así, el problema Capítulo 8. Validez: Concepto y tipos 215 de la validez de los tests y su estudio se extiende desde la teoría que apoya el constructo objeto de medición, hasta las consecuencias derivadas de la aplicación del test, incluidas las consecuencias adversas que se pueden derivar de la debilidad o de la falta de validez de la prueba, ya sea porque la prueba está contaminada con ítems irrelevantes, o porque no se han incluido en ella todos los aspectos relevantes del constructo, o por otras causas. Aun cuando la enumeración de los diferentes aspectos de la validez parece ilimitada y no todos están presentes en el proceso de validación, se ha abierto paso un concepto unificado de la validez y que en ese proceso comparten responsabilidad tanto los que construyen las pruebas, que tienen que dar indicios suficientes de la buena o fuerte validez de la prueba, como los usuarios, que tienen que justificar la pertinencia de su uso en esa aplicación concreta. Según estas normas, la actual perspectiva, no exenta de críticas, considera que el proceso de evaluación consiste en obtener evidencias suficientes que apoyen las interpretaciones que se hacen de las puntuaciones del test, prestando especial atención al contenido de los tests, a su estructura interna, a los procesos psicológicos que intervienen en los procesos para dar respuesta a los tests, a las asociaciones entre las puntuaciones en el test con las de otras variables y, como se ha mencionado, a las consecuencias del uso de los tests, que representan uno de los aspectos más controvertidos. Figura 8.1. Los cinco tipos de validez que se explicitan en las Normas de 1999. 216 Principios de Psicometría El concepto unitario de validez que reflejan las Normas de 1999 integra la evaluación de distintas facetas que se tratan con más detalle en los siguientes apartados. m8.3. Validez en relación con el contenidom La validez de contenido hace referencia a la relevancia y al alcance del contenido. Imagínese que está poniendo mucho esfuerzo y tiempo en el estudio de la disciplina de psicometría, debido a diversas razones, una porque los conceptos que incluye le parecen de interés, otra porque los considera básicos para entender muchos otros en el ámbito psicológico y porque quisiera dedicarse en el futuro a abordar problemas de evaluación psicológica. En consecuencia, le está dedicando mucho tiempo y esfuerzo a su estudio y tiene mucho interés en obtener una buena calificación en el examen final, al que va razonablemente confiado, pues aunque hay temas y aspectos que conoce mejor que otros, considera que tiene un buen nivel general de conocimientos. Realizado ese examen, no está satisfecho y la calificación que obtiene es algo más que mediocre. ¿Por qué?, se pregunta. Sus condiciones personales eran excelentes para rendir en ese examen. ¿Qué ha sucedido? Nada extraño, le comenta un compañero, quien justifica su no extrañeza diciendo “acabo de suspender porque de los quince temas de los que consta el temario, me han preguntado el único que no me sabía”. La razón es que el examen carecía de la validez necesaria. El examen cuyo objetivo era evaluar los conocimientos adquiridos en el curso introductorio de psicometría, se ha centrado solamente en uno de los quince temas del programa y en un ejercicio práctico para evaluar el dominio en la ejecución de un programa computacional para la estimación de los parámetros de modelos psicométricos. Es decir, parece ser que el problema fue que el examen carecía de la suficiente validez de contenido. Parece razonable pensar, y era de esperar, que si lo que se iba a evaluar eran los conocimientos básicos de psicometría, las cuestiones deberían haber estado dirigidas a detectar si el alumno había adquirido el nivel de conocimiento adecuado de esos conceptos básicos, si sabía interpretarlos correctamente y si conocía los procedimientos formales y las técnicas para aplicarlos. Lo que se espera de este tipo de pruebas de evaluación es que no sean parciales (sesgadas) en cuanto a los contenidos, es decir, que no primen caprichosamente unos en favor de otros y que además se centren en lo fundamental, en lo más relevante Capítulo 8. Validez: Concepto y tipos 217 y no en lo colateral, irrelevante o anecdótico. Es decir, se debe revisar la validez del contenido de la prueba. Los procedimientos para la validación del contenido consisten fundamentalmente: a) En el examen sistemático del contenido de la prueba para determinar si cubre todos esos contenidos, es decir, que es una muestra representativa del dominio de conducta que se pretende medir. b) En el análisis de la relevancia de esos contenidos, pues deben incluir todo lo que es esencial o relevante, sin perjuicio de que también se incluyan cuestiones colaterales o irrelevantes, pero sabiendo que lo son y tratándolas como tales. Por lo tanto, en la validación del contenido se trata de analizar tanto la representación como la relevancia del contenido (Anastasi y Urbina, 1997; Santisteban, 1990a). Para establecer la validez de contenido se requiere un análisis sistemático del dominio o área de conducta. Este análisis deben realizarlo expertos que constaten que los ítems del test cubren todos los aspectos importantes y que todos y cada uno de esos aspectos están debidamente representados, incluyendo la proporción correcta de ítems. La validez del contenido no se aprecia mediante una lectura más o menos detallada del test, que incluso puede hacerla cualquier participante en la prueba, concluyendo que es válido, pues esto sería sólo un juicio sobre la validez aparente del test. Establecer la validez del contenido exige conocer muy bien, en amplitud y en profundidad, el constructo del que se quiera realizar la medición, así como las conexiones con sus manifestaciones observables. De este modo, un experto, y sólo un experto, podrá concluir si la prueba tiene validez de contenido porque incluye todos los aspectos relevantes. La validez de contenido se introduce desde el inicio del proceso de construcción de la prueba mediante la elección de los ítems adecuados. Tras un proceso previo de revisión de la literatura pertinente, se establecen las especificaciones de la prueba que han de seguir los especialistas a los que se encomienda la redacción de los ítems, precisando las áreas o temas de contenido, los objetivos o procesos que han de evaluarse y la importancia relativa de temas y procesos individuales. Las especificaciones finales han de incluir el número de ítems de cada tipo que hay que preparar para cada área de contenido. 218 Principios de Psicometría Validez de contenido versus validez aparente La validez aparente está muy relacionada con la validez de contenido, pero no pueden ni deben confundirse. La validez aparente no es una validez desde un punto de vista técnico, pues es el grado en que la medición parece estar relacionada con un determinado constructo, según el juicio emitido por una persona no experta, que en muchos casos suele ser la persona que aplica el test o quien lo cumplimenta. Esto es, la validez aparente no aporta pruebas de lo que se mide, sino de lo que parece que se mide, por ello hay quien la ha llamado validez de sillón, pues se establece cuando una persona examina el test y concluye que mide o no el rasgo de interés, sin más comprobaciones. Sin embargo, la validez de contenido es el grado en que los contenidos de una medida reflejan fielmente los del dominio del constructo que se está evaluando, y quienes deciden sobre ello no son inexpertos o aficionados, sino verdaderos expertos en el campo, tanto en la vertiente teórica como en la empírica. Ahora bien, aunque la validez aparente no suele ser crucial cuando se considera la validez del test desde un punto de vista psicométrico, puede tener importantes implicaciones cuando se usa ese test. Por ejemplo, muchas veces el no tenerla puede provocar una escasa cooperación de las personas que cumplimentan la prueba, por lo que es una estrategia que se debe considerar en ciertos tests, como los que valoran rendimiento. Por todo ello, las evidencias de la validez de contenido son las que hay que considerar en la validación del constructo, sin olvidar que en determinadas situaciones la validez aparente puede ser necesaria y tener importantes implicaciones cuando se usan los tests. m8.4. Asociaciones con otras variables: Evidencias de validezm convergente y discriminantem La validez convergente y discriminante surge cuando se establecen las relaciones entre las puntuaciones del test con las de otras variables externas que las justifiquen, es decir, que evidencien su validez. Esas variables externas pueden incluir medidas de algún criterio que se espera que prediga el test, o relaciones con otros tests que se supone que miden el mismo constructo, o con los que estén inversamente relacionados o, incluso, con algún otro con el que no está relacionado. Capítulo 8. Validez: Concepto y tipos 219 Las evidencias de validez convergente y discriminante reflejan el grado en que las puntuaciones de un test muestran patrones de asociación con otras variables, que se puedan considerar congruentes. Las evidencias de validez convergente se obtienen estableciendo relaciones entre medidas de constructos similares y las de validez discriminante se obtienen cuando esas relaciones se establecen con medidas de constructos diferentes. La red nomológica que acompaña a un constructo sugiere que una medida de ese constructo debe estar fuertemente asociada con algunas medidas de otros constructos y muy débilmente relacionada con las de otros. Se han propuesto diferentes métodos para evaluar la validez convergente y discriminante. Las relaciones entre diferentes métodos de medida pueden ayudar a elaborar y a comprender mejor el significado e interpretación de la puntuación. En la literatura se proponen métodos correlacionales, entre ellos: a) Los que están focalizados en las asociaciones entre las puntuaciones del test y un número muy pequeño de variables específicas, que son críticas para su evaluación. Es decir, el estudio de la validez se centra en una o en muy pocas variables que se consideran el criterio más relevante. Por ejemplo, para publicitar las cualidades psicométricas del test SAT (Scholastic Assesment Test) se hacen referencias a su validez relacionándola solamente con las predicciones en el éxito académico. En el estudio mencionado sobre el SAT, la validez está basada en las correlaciones entre las puntuaciones en ese test y un conjunto específico de variables criterio relacionadas con el rendimiento académico, y se argumenta que es un estudio realizado en diversos centros, con la participación de ciento diez mil estudiantes (College Board, 2006). En realidad, para establecer este tipo de validación no es necesario tener grandes tamaños de muestra, pues estos estudios de validez son adecuados siempre y cuando se puedan generalizar. b) A veces el número de variables de la red nomológica no se puede restringir a un número muy pequeño de ellas. Por ejemplo, cuando la red nomológica incluya una amplia variedad de variables de otros constructos con diferentes niveles de asociación con el que se estudia. En esos casos, se suelen establecer las correlaciones entre todas las variables, obteniéndose una matriz de correlaciones entre los indicadores del constructo que se estudia y las medidas con las que se considera que pueden estar relacionadas. Las decisiones acerca de la validez se toman examinando la cuantía e interpretando las correlaciones desde el punto de vista conceptual que los autores 220 Principios de Psicometría del test tienen acerca del constructo objeto de la medición. Aunque los psicómetras se enfrentan con un gran número de datos y no hay un criterio claro de selección y discernimiento en cuanto a los límites de lo que se puede o no considerar para establecer la validez, esta aproximación a la evaluación de la validez es bastante común. c) Otra aproximación es la que utiliza las matrices multimétodo-multirrasgo, en las que se establecen las correlaciones entre dos o más rasgos medidos por dos o más métodos. Las medidas e interpretaciones de esta aproximación propuesta por Campbell y Fiske (1959) se exponen en el siguiente capítulo. d) La cuantificación de la validez de constructo (QCV), que es un método más reciente que los anteriores (Westen y Rosenthal, 2003), se basa en que el psicómetra debe cuantificar el grado en que se ajustan sus predicciones teóricas a un conjunto de correlaciones convergentes y discriminantes y cómo se comportan al respecto los datos. El procedimiento QCV se puede resumir en tres pasos. En el primero, el psicómetra hace predicciones claras y concretas sobre los patrones de correlaciones convergentes y discriminantes que espera encontrar para establecer la validez. Por ejemplo, se puede establecer a priori que los factores que miden la sensibilidad individual al ruido en preadolescentes están correlacionados con los de la agresividad y con los de la impulsividad. En segundo lugar, se administran los cuestionarios que miden la sensibilidad al ruido (e.g., SENSIT, Santisteban, 1990b), la agresividad (e.g., AQ, Buss y Perry, 1992; Santisteban et al., 2007) y la impulsividad (e.g., BIS-11, Patton et al., 1995; versión española de Recio et al., 2004). Se recogen los datos y se calculan las correspondientes correlaciones. Finalmente, los psicómetras deben evaluar el grado en que los patrones de correlaciones obtenidos se ajustan a los predichos. Esta evaluación se realiza atendiendo al tamaño del efecto y a los resultados del test de significación. La propia concepción del procedimiento requiere que se sea muy cuidadoso en la elección de las variables con las que establecer las asociaciones y en la interpretación de los resultados pues, por ejemplo, valores bajos del tamaño del efecto puede que no indiquen una escasa validez, ya que se pueden obtener tamaños del efecto bajos si el conjunto de las correlaciones predichas no es el apropiado. Cuestiones similares se pueden plantear en relación con las altas correlaciones. Por lo tanto, el uso de este método requiere el análisis minucioso, tanto de los aspectos conceptuales como de los metodológicos y estadísticos. Capítulo 8. Validez: Concepto y tipos 221 m8.5. Validez en los procesos de respuestam Las evidencias de validez en los procesos de respuesta se refieren a la coincidencia o concordancia que debe existir entre los procesos psicológicos que ponen en juego los sujetos que responden al test y los que teóricamente se supone que deberían utilizar. Muchas medidas psicológicas están basadas en ciertos supuestos sobre cuáles son los procesos psicológicos que las personas utilizan cuando cumplimentan el test. Sin embargo, si esos procesos no fueran los que usan los participantes en la prueba cuando cumplimentan el test, entonces la medición puede estar dando puntuaciones que no son interpretables en el sentido que se pretendía por parte de quien o quienes están construyendo el test. Sirva como ejemplo un estudio sobre si la presencia de ruido ambiental afecta al recuerdo a corto plazo. Para ello los investigadores construyen una prueba consistente en listas de palabras categorizadas, que tras su lectura los participantes deben recordar. Todos los sujetos realizan las pruebas en presencia (Leq = 80 dB) y en ausencia de ruido (Leq = 35dB), por lo que se les divide en grupos para contrabalancear el efecto del orden, tanto en la presentación de las listas, como en la de las condiciones de ruido y de silencio en las que se administran las pruebas. A pesar de que otros factores cognitivos como la inteligencia, la facilidad para establecer relaciones, etc. van a influir en los resultados individuales en la prueba, es razonable asumirlos como una constante, esto es, suponer que esas variables efectan de la misma manera a todos los grupos, pues la asignación de los participantes a los grupos se ha hecho de forma aleatoria. Los investigadores implícitamente están suponiendo que en presencia de ruido los sujetos deben asignar más recursos atencionales para mantener el mismo nivel de rendimiento en el recuerdo de palabras. Los resultados indican que el número de palabras recordadas es significativamente mayor en silencio que en presencia de ruido. No obstante, analizando las respuestas se detecta que los tiempos empleados por algunos participantes son sistemáticamente menores en los ensayos que realizan en presencia de ruido. La razón es que no han seguido las instrucciones en cuanto a que cuando completen un ensayo pasen al siguiente presionando la tecla enter, pues esos participantes, en lugar de intentar completar la prueba, acortan sus tiempos de respuesta porque el ruido les resulta molesto, siendo ésta la principal razón por la que dan un menor número de palabras recordadas en presencia de ruido. Por lo tanto, las inferencias que pudiera hacer el psicólogo con esos datos no son válidas en relación con sus propósitos, aunque podrían haberle 222 Principios de Psicometría pasado inadvertidas porque de alguna manera las propicia el procedimiento experimental. ¿No estaría acaso midiendo, sin proponérselo, la sensibilidad individual al ruido? Por lo tanto, en los procedimientos para establecer la validez de una prueba, y muy especialmente la de la validez de constructo, se deben incluir la validez de los procedimientos y de los procesos que intervienen en la emisión de la respuesta. m8.6. Validez en relación con el criteriom Este tipo de validez indica cuál es la eficacia del test en la predicción de algún tipo de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo, podría utilizarse un test sobre razonamiento abstracto para predecir el éxito de un alumno en la disciplina de matemáticas. Esta predicción será tanto más precisa cuanto mayor sea la validez del test de razonamiento como predictor del rendimiento en matemáticas. A veces se utilizan varios tests en lugar de uno solo para predecir un criterio. Por lo tanto, la validez relativa al criterio se juzga como el grado de relación entre el test (o el conjunto de tests) que actúa como predictor y otra variable de interés que actúa como criterio. Las mediciones de la variable con la que se evalúa el criterio se pueden realizar al mismo tiempo que la del predictor o predictores, dándole entonces a la validez la denominación de validez concurrente. En el caso en que se haga en momentos diferentes, se denomina validez predictiva. Las diferencias entre ambas no se basan lógicamente en el tiempo que transcurre entre una y otra medición, sino en si el objetivo está centrado en el diagnóstico (concurrente) o en la predicción de resultados futuros (predictiva). La validez en relación con el criterio, aunque se podría haber incluido en el Apartado 8.4, tiene características especiales que la diferencian de otros tipos de validez, y merece mención explícita en las clasificaciones clásicas de los tipos de validez. Además, en torno a este tipo de validez se han desarrollado muchos métodos para hacer más precisas las predicciones y más eficiente la toma de decisiones, como se va a comprobar en los siguientes capítulos. Los problemas que se han identificado que afectan a la validez en relación con el criterio son muchos de ellos comunes a otros tipos de validez. En la literatura (e.g., Croker y Algina, 1986) se mencionan, por ejemplo, la no correcta identificación del criterio, la insuficiencia del tamaño muestral, la falta de fiabilidad del Capítulo 8. Validez: Concepto y tipos 223 predictor, del criterio o de ambos, la contaminación o el sesgo en los juicios que definen el criterio, así como las limitaciones que tiene en la toma de decisiones el haber obtenido el coeficiente de validez utilizando un rango limitado de puntuaciones, pues ese coeficiente estará atenuado debido a los errores de medida. Una exposición más detallada de estos problemas se puede consultar en la obra de Alvarado y Santisteban (2006). m8.7. Validez de la estructura interna del testm La estructura interna de un test viene dada por las relaciones que se establecen entre diferentes partes de ese test, ya sea entre todos los ítems en su conjunto, ya sea entre aquellos que se incluyen en cada uno de los posibles grupos de ítems que forman el test. En cualquier caso, para que un test se interprete como medida válida de un determinado constructo, es necesario verificar que la estructura que se ha adoptado para el test coincide con la estructura en la que teóricamente está basado el constructo. Este concepto se puede comprender fácilmente si se acude a un ejemplo concreto. Consideremos el test de agresividad AQ (Aggression Questionnaire de Buss y Perry, 1992) o bien la adaptación que se ha hecho de ese test a preadolescentes y adolescentes AQ-PA (Santisteban et al., 2007; Santisteban y Alvarado, 2009). Esos tests tienen una estructura tetrafactorial, pues los 29 ítems de los que constan se agrupan en cuatro factores o componentes de agresividad: física, verbal, ira y hostilidad. Estos tests, que proporcionan una medida global de la agresividad, también proporcionan información sobre la contribución de cada una de esas cuatro componentes a esa medida global. La validación de constructo para ese test requiere que se verifique que ese test mide agresividad, que se puede considerar que está formado por cuatro factores, y que esos factores tienen sentido y significado dentro del constructo, en concordancia con la estructura teórica de ese constructo. El establecimiento de la estructura de un test se basa en su primer estadio en los supuestos en los que descansa la teoría y también usualmente en estudios previos. Por ejemplo, los estudios que definen la agresión se han focalizado en las intenciones, las expresiones y la influencia de factores afectivos, llevando a subdividirla en varias clases tales como física, verbal, directa, indirecta, impulsiva o conscientemente controlada. El AQ, que ha mostrado tener una buena validez 224 Principios de Psicometría de constructo, proviene de un inventario que desarrollaron Buss y Durkee (1957), y de su interesante evolución presentamos un breve resumen en el Cuadro 9.5. del próximo capítulo. m8.8. Validez de constructom La validez de constructo está fuertemente ligada a un contexto teórico en el que se considera que la fundamentación conceptual de un constructo debe incluir las conexiones entre ese constructo y otros constructos psicológicos. A esas interconexiones entre un constructo y otros relacionados es a lo que se le ha llamado red nomológica (Cronbach & Meehl, 1955). En la práctica, es poco realista tratar de especificar la red nomológica completa, como lo reconoció el propio Cronbach (1975, 1989), así como otros autores (e.g., Campbell, 1960; Payne et al., 2007), además de que hay que considerar que las generalizaciones sobre las que se construyen las redes nomológicas sufren cambios a lo largo del tiempo. La validez de constructo no siempre es bien entendida, o el conocimiento acerca de ella no suele ser muy profundo. Generalmente se tiende a presentar esta validez como una técnica, en tanto que lo que indica su concepto es que debe ser una aportación al desarrollo de la teoría y al progreso del conocimiento de aquello que se está estudiando. Esto es, la validez de constructo concierne más a lo que es capaz de especificar acerca de la naturaleza del constructo psicológico que subyace a las mediciones, que a demostrar que un test mide aquello que se supone que mide. La esencia de esa concepción de la validez de constructo la exponen Cronbach y Meehl (1955) de una forma muy sencilla y gráfica, usando solamente simples correlaciones entre dos variables, mediante un ejemplo muy apropiado para los estudiantes. Con el trabajo de Embretson (1983) se pone de manifiesto el qué y cómo se debe abordar la validación del constructo, al considerar que en todo el proceso es la representación del constructo (que la relaciona con la identificación de los mecanismos teóricos que subyacen a la realización de la tarea) la que debe interactuar con la perspectiva nomotética. En el enfoque propuesto por Embretson las especificaciones del test se construyen desde la teoría y, posteriormente, las implicaciones de estas especificaciones se estudian empíricamente. De este modo, la representación del constructo es una fase de estudio en el proceso de su validación. Las especificaciones sobre cada uno de los ítems se consideran como teoría Capítulo 8. Validez: Concepto y tipos 225 de una tarea, y la teoría se pone a prueba mediante modelos matemáticos que intentan explicar los constructos. Así, después, en el proceso de construcción del test, cuando se realiza la estimación de las propiedades cuantitativas de los ítems con respecto a los constructos teóricos, se pueden descartar aquellos ítems que no reflejen las propiedades teóricas que se desea que estén presentes en el test que se está construyendo (Alvarado y Santisteban, 2006). Los aspectos de la validez de constructo que se consideran relevantes para la medición en Psicología y en Educación (Messick, 1995) son los relativos a: (1) Contenido: relevancia del contenido, representatividad del dominio de los contenidos y calidad técnica del instrumento de medición. (2) Sustantivo: justificación teórica y evidencia empírica de que los procesos que los sujetos ponen en juego al cumplimentar las pruebas están bien relacionados con las tareas que se proponen en esas pruebas. (3) Estructural: evaluación de la estructura de las puntuaciones en relación con la estructura del constructo. (4) Generalización: examen de en qué grado las propiedades e interpretaciones que se hacen a partir de las pruebas se pueden generalizar a otros grupos, a otras situaciones o a otras tareas. (5) Establecimiento de relaciones convergentes y discriminantes. (6) Consecuencias: valoración de las implicaciones e interpretaciones de las puntuaciones, así como las posibles fuentes de no-validez relacionadas con la equidad, el sesgo, etc. Desde esta perspectiva que engloba todos los aspectos de la validez, la correcta validación es una responsabilidad compartida entre quien construye el test y quien lo utiliza. Quienes desarrollan el test deben especificar el marco conceptual en el que sitúan el constructo, su especificidad, los propósitos de la evaluación y cómo sus medidas se relacionan con las de otras variables. También deben justificar la pertinencia de sus decisiones en cada uno de los pasos en el proceso de validación, así como la generalización y las limitaciones de su uso y aplicaciones. Quienes utilizan el test son, en último término, los responsables de su correcta aplicación, de la corrección de las interpretaciones y de si está o no justificado su uso con el propósito y en la situación particular para la que se utiliza. 226 Principios de Psicometría Volviendo nuevamente a Cronbach y Meehl (1955) se podría convenir con ellos en que el estudio de la validez de constructo de un test no es esencialmente diferente a los procedimientos científicos generales para el desarrollo y confirmación de las teorías. Por lo tanto, estas definiciones y descripciones no son de gran ayuda, particularmente para establecer la validez de constructo en un determinado estudio, pues es una mera exposición que la explicita, pero la tarea de establecer esa validez es bastante más difícil. La validacion del constructo es tan complicada porque básicamente implica muchos aspectos diferentes. Una perspectiva para la validación del test en la que se enfatiza la conexión entre los tests y los constructos psicológicos es la que presentan Borsboom et al., (2004). Estos autores sugieren que el único aspecto relevante en la validación del test es si las respuestas del test están afectadas por el constructo que el test está intentando medir. Esto es, un test es una medida válida de un constructo si, y sólo si, ese constructo tiene influencia y es el verdadero responsable de las respuestas que dan los que responden al test. Desde este punto de vista es desde el que estos autores rechazan el argumento de que las consecuencias de la realización del test son relevantes en la validación del test. Ellos incluso discuten que las correlaciones entre las puntuaciones del test y las medidas de otros atributos sean directamente relevantes para la validación del test. En lugar de ello sugieren que el objetivo primordial en el estudio de la validez es poder ofrecer una explicación teórica del proceso que conduce a la medida resultante. La validez es crucial tanto en los ámbitos de la investigación como en la práctica psicológica. Concretamente en el ámbito de los tests, si no tuviesen validez, serían inútiles en la contrastación de hipótesis en relación con las teorías, en la medición de atributos psicológicos y en las predicciones y toma de decisiones. En la práctica, muchas decisiones se toman basándose total o parcialmente en la información que proporcionan los tests. Se toman decisiones en la selección y contratación de personal, en la admisión en la universidad, en el diagnóstico clínico, etc., y esas decisiones afectan a los individuos y a las organizaciones. Por ello, la validez de los tests tiene importantes implicaciones. No se trata pues de perderse en discusiones más o menos vacías sobre una u otra denominación, sino de proveerse de los procedimientos que aseguren que los tests poseen la validez suficiente para conducir a conclusiones acertadas. Capítulo 8. Validez: Concepto y tipos 227 Puntos clave 3 3 3 3 3 3 3 3 La validez es el grado en que la teoría y las evidencias empíricas apoyan las interpretaciones que se hacen de las puntuaciones del test, ya se hagan en relación con un marco conceptual o en relación con el uso específico que en cada caso se haga del test. El proceso de validación consiste en obtener esas evidencias empíricas que apoyen las interpretaciones. Ni un conjunto de ítems, ni las medidas derivadas de ellos son por sí mismos válidos o no válidos, pero sí lo son las interpretaciones que sus autores pueden hacer de ellos. Por lo tanto, la validez no es del test, sino de su uso e interpretaciones. La validez no es una cuestión de todo o nada, sino que tiene grados que se pueden evaluar. Hay que elegir tests que muestren las suficientes evidencias de que su uso e interpretación son los correctos, en el sentido de que responden a los objetivos para los que se generó el test. Se ha considerado la validez de constructo como el concepto esencial en la validez. Esta perspectiva engloba a las tradicionales (de contenido, relativa al criterio y de constructo), de manera que todos los otros tipos de validez se deben considerar y analizar bajo el foco de este concepto central. La validez de constructo depende del contenido del test, de su estructura interna, de los procesos psicológicos que intervienen al responder a los ítems del test, de las asociaciones entre las puntuaciones del test con otras variables y de las consecuencias que se derivan del uso del test. El concepto de validez y sus clasificaciones han ido evolucionando a lo largo de los años y se reflejan en las sucesivas publicaciones en los Standards for Educational and Psychological Testing. Es la visión de la validez desde la perspectiva de las tres organizaciones más importantes en la construcción y aplicación de tests. En las normas publicadas en 1999, las exigencias de la validez se extienden a las interpretaciones que se hagan, así como a las consecuencias que se deriven de las aplicaciones de ese test. Actividades r Comente la siguiente frase: La validez del test se refiere a qué es lo que el test mide y cómo lo mide. r Ponga ejemplos de uno o varios constructos y haga una relación de las características más relevantes de cada uno de ellos. En paralelo, en otra 228 Principios de Psicometría columna, especifique las características de aquellos otros con los que teóricamente se supone que deberían estar sus mediciones fuertemente asociadas y en una tercera columna, las de aquellos con los que deberían estar no relacionadas o muy débilmente relacionadas. r Enuncie hipótesis sobre las correlaciones (positivas o negativas) y la cuantía en la que se darían las relaciones entre las variables especificadas en la actividad anterior. r Si dispone de tests o cuestionarios estandarizados de algunos de los constructos elegidos en la actividad anterior, haga un estudio piloto aplicando esos tests o cuestionarios a las personas de su círculo más próximo. La validez Evaluación de las evidencias de validez 9 En el capítulo anterior se han presentado los conceptos de validez desde distintas perspectivas. En este capítulo se va a tratar cómo se pueden evaluar esas evidencias de validez, teniendo en cuenta que la validez no es una cuestión de todo o nada, de ser válido o no válido, sino que hay grados en cuanto a la fuerza o debilidad de las evidencias de validez encontradas. La validez es un factor decisivo para los usuarios de los tests, pero no hay un valor preestablecido a partir del cual se dice que el test es o no es válido, aunque todo test, cuestionario o inventario, debe haber mostrado necesariamente que tiene validez suficiente para apoyar que, tanto su interpretación como su uso, son los adecuados. En este capítulo se va a tratar: ã Qué es el coeficiente de validez y cómo se estima. ã Los procedimientos para obtener evidencias sobre la validez de contenido. ã Cómo los coeficientes de validez están influenciados por la fiabilidad de las muestras y por la longitud de las pruebas. ã En qué consiste la atenuación. ã La validez de las predicciones en un criterio basándose en la información que da un test predictor o un conjunto de predictores. ã Diferentes métodos para obtener evidencias de validez convergente y discriminante. ã Que a los coeficientes que son indicadores de la validez del test hay que someterlos a pruebas estadísticas, para conocer su significación y garantizar la validez de las inferencias que se hagan con esa prueba. 230 Principios de Psicometría ã Cómo se realiza el análisis de las evidencias de validez de la estructura interna de una prueba. ã La evolución de un test hasta alcanzar la validez requerida. m9.1. Validación del contenidom El procedimiento habitual para la validación del contenido es confiar en el juicio de los expertos que realizan un análisis racional sistemático del contenido del test para decidir si es una muestra representativa del rasgo o conducta que se quiere medir. Generalmente es una evaluación cualitativa, sin que apenas se hayan propuesto indicadores o índices cuantitativos que den cuenta del grado de conexión entre los contenidos del test y los objetivos para los que se construye. Una de las propuestas cuantitativas es la de Gulliksen (1950b), que utiliza el análisis factorial para comparar los resultados del test con el juicio de los expertos. También Tucker (1961) hace uso del análisis factorial para comprobar el efecto del evaluador, es decir, si los juicios de los expertos diferían sistemáticamente. Sin embargo, las condiciones exigidas a los datos para aplicar estas técnicas hacen pensar que no son las más apropiadas para estos propósitos. Una técnica que no requiere un gran número de datos y de evaluadores, como los que se exigen con el análisis factorial, es la que propuso Cronbach, que consiste en que, siguiendo las mismas pautas, dos equipos independientes de expertos construyan un test, teniendo así dos tests supuestamente equivalentes. Se administran ambos tests a un mismo grupo de n sujetos, obtiéndose dos conjuntos de puntuaciones X1 y X2 y se construye un índice C (veáse Conbrach, 1971), que cuando su valor se aproxima a la unidad, se asume que las varianzas error de ambos tests son similares. En general, los autores de tests dirigidos a la evaluación del rendimiento académico, así como los que los construyen en relación con un criterio específico, conceden gran importancia a la validez de contenido, dando un conjunto de normas prácticas para conseguirla. Para mejorar este tipo de validez, algunos autores como Popham (1978, 1984) han propuesto procedimientos específicos asociados al proceso de construcción y al análisis de los elementos. También Deville y Prometric (1996) abogaron por el desarrollo de una técnica de validación empírica, que combinara las evidencias del contenido con las del constructo que se pretende medir, utilizando para ello la información proveniente de las especificaciones para construir el test y los ítems, de los juicios de los expertos y de las Capítulo 9. Validez: Evaluación 231 respuestas que se dan a esos ítems. Por su parte, Sireci y Geisinger (1992, 1995) recomiendan el escalamiento multidimensional y análisis de conglomerados y de clústers como estrategias de análisis para evidenciar la representatividad del contenido. Para evaluar la representatividad del dominio, se han hecho también propuestas desde la teoría de la generalizabilidad ( Jarjoura y Brennan, 1982; Shavelson et al., 1995) e incluso utilizando modelos de ecuaciones estructurales (Ding y Hershberger, 2002). En cualquier caso, aunque la validez de contenido se determina a través de juicios subjetivos y no existen procedimientos ni índices adecuados para estimarla, el uso de algunos de los análisis formales, como los arriba indicados, ayuda a tomar decisiones. Muchos de esos procedimientos proveen de buenos indicadores de cómo el contenido de los ítems se relaciona con el objetivo, si su número y peso relativo son los adecuados en la composición de ese test o incluso si hay aspectos que no se contemplan en ninguno de los ítems. En cuanto a la aplicabilidad, la validación de contenido es una técnica apropiada para la evaluación del rendimiento académico y ocupacional, puesto que permite responder a cuestiones básicas como si la prueba es una muestra representativa de los contenidos o de los rendimientos que se van a medir, o si cubre todos los contenidos relevantes y si está razonablemente libre de la influencia de los irrelevantes. Sin embargo, como indican Anastasi y Urbina (1997), la mera validación de contenido puede ser inapropiada e incluso engañosa en los tests diseñados para la medición de aptitudes y de la personalidad, pues aunque en la construcción de todas las pruebas deben considerarse la representatividad y la relevancia del contenido, la validación de estas pruebas debe hacerse mediante métodos formales para la validación de constructo. En cualquier caso, la validez de contenido en ningún caso se debe confundir con la validez aparente (Apartado 8.3), pues para la validación del contenido existe una sistemática y algunos índices, además de que son los expertos quienes deben realizarla. m9.2. El coeficiente de validezm El coeficiente de validez se define como el coeficiente de correlación entre dos variables, una variable X que actúa como predictora y otra que evalúa lo que se predice, a la que se denomina variable criterio Y: ρ XY = Cov ( X , Y ) σX σY (9.1) 232 Principios de Psicometría Si la relación es lineal, al ser ρXY = ρYX, la relación de validez es simétrica, pues se obtendría el mismo valor del coeficiente si fuese Y la variable predictora y X la variable criterio. No obstante, los procedimientos de construcción y de evaluación de pruebas son muy diferentes si van a actuar como predictoras o van a evaluar las predicciones del sujeto en un rendimiento o en un comportamiento particular en el que se esté interesado. Las distinciones que se han hecho en el capítulo anterior entre validez concurrente y predictiva no afectan al cálculo formal del coeficiente. Sin embargo, se debe tener en cuenta que en el primer caso las medidas de X e Y se toman de forma simultánea, considerándose que no se producen cambios ni en los sujetos ni en las condiciones que pudieran afectar a X y no a Y, o viceversa. Sin embargo, esto no se puede suponer que ocurre al evaluar la validez predictiva, pues transcurre un período de tiempo entre la medición del predictor y del criterio, y en ese período se ha podido ganar experiencia, conocimientos o tener lugar algún tipo de intervención que cambiara las condiciones, etc. Un coeficiente de validez concurrente se obtendría si a los instructores de vuelo de una empresa, que llevan ejerciendo adecuadamente su trabajo durante años, se les evaluara su rendimiento a la vez que cumplimentaran un test X. La validez predictiva se obtiene si se seleccionan los instructores con el test X y después de varios años se les evalúa su rendimiento. Validez y fiabilidad La definición dada del coeficiente de validez como correlación entre la variable predictora y el criterio se puede situar en el contexto de la teoría clásica (TCT), incluso se podría decir que la fiabilidad, como correlación entre dos medidas paralelas X y X', es una forma de validez. Una cuestión relevante es el tratamiento del error. Las mediciones, tanto del predictor como del criterio, no están exentas de error. Ahora bien, bajo los supuestos de los modelos de la TCT, las correlaciones entre las puntuaciones verdaderas del predictor VX y del criterio VY serán mayores que las de sus correspondientes observadas: ρ (VX , VY ) ≥ ρ (X , VY ) ≥ ρ (X , Y ) (9.2) 233 Capítulo 9. Validez: Evaluación luego, el valor del coeficiente de validez empírico es menor que el que se obtendría si se dispusiera de las puntuaciones verdaderas. Es decir, el valor empírico del coeficiente de validez está atenuado debido a los errores de medida. Para corregirlo, se ha propuesto una ecuación que tiene en cuenta la precisión de las medidas, tanto del predictor como del criterio, es decir, sus fiabilidades. Esta ecuación es: ρ VX VY = ρ XY ρ XX ′ ρ YY′ (9.3) que es la ecuación de corrección por atenuación. Esta ecuación fue primeramente desarrollada por Spearman bajo los supuestos del modelo clásico, donde con ρXY se denota la validez empírica y ρXX' y ρYY' son los coeficientes de fiabilidad del test y del criterio respectivamente (Cuadro 9.1). El lector debe estar atento para no confundir los coeficientes de validez y de fiabilidad utilizados en esta ecuación, pues se usa la misma letra griega ρ para todos ellos. Todos son coeficientes de correlación (y formalmente iguales a la razón entre una covarianza entre dos variables dividida por el producto de sus desviaciones típicas), pero en cada caso las correlaciones difieren tanto en las variables como en su significado. Las variabes X, X' o Y, Y' se utilizan en los coeficientes de fiabilidad del test y del criterio, mientras que las variables X e Y se usan en los coeficientes de validez, refiriéndose a la variable predictora y al criterio, siendo las variables VX y VY sus correspondientes puntuaciones verdaderas. Cuadro 9.1 La ecuación de atenuación se puede obtener de forma inmediata si, bajo los supuestos del modelo de Spearman, la covarianza entre puntuaciones verdaderas se considerara equivalente a la de sus correspondientes observadas. Entonces: ρ VX VY = ρ XY Cov ( VX , VY ) Cov ( X, Y ) ρ XY σ X σ Y = = = σ VX σ VY σ VX σ VY σ VX σ VY σ VX / σ X σ VY / σ Y ( )( ) y de acuerdo con la ecuación (2.12), los factores del denominador son los índices de fiabilidad de X e Y respectivamente, obteniéndose la ecuación (9.3) dada para el coeficiente de validez desatenuado. 234 Principios de Psicometría La interpretación del cociente (9.3) es inmediata, pues en el caso en que tanto la fiabilidad del test como la del criterio sean perfectas, valdrían uno. Al no haber errores de medida, la validez empírica tendría un valor idéntico a la que se hubiese obtenido con las puntuaciones verdaderas. En el caso en que la fiabilidad del predictor o del criterio fuese perfecta, entonces la ecuación (9.3) respondería a una de las formas: ρ XVY = ρ XY ρ ; ρVX Y = XY ρ YY′ ρXX ′ (9.4) A las ecuaciones (9.3) y (9.4) se las denomina fórmulas de atenuación o corrección por atenuación pues, como se ha dicho, la idea que subyace es que el valor de la correlación lineal entre las puntuaciones observadas es menor que el que se obtendría por correlación entre sus correspondientes puntuaciones verdaderas, porque esa correlación obtenida empíricamente está atenuada por las imprecisiones que afectan a las medidas empíricas. Por ello, si las fiabilidades (precisión de las medidas) se conocen, se pueden utilizar para calcular las correlaciones desatenuadas entre esas medidas. De lo anterior se deduce que la validez de los tests se puede mejorar aumentando la fiabilidad del test predictor, o la del criterio, o la de ambos. Si de los tests iniciales X1 e Y1 se derivan otros al mejorar sus fiabilidades, sean los tests X2 e Y2, entonces se tendrá que cumplir que: ( ) ( ρ VX1 , VY1 = ρ VX 2 , VY2 ) Si se modifican los tests, hay diversos valores de correlación implicados en una misma ecuación, generalmente calculados con valores muestrales. Para evitar confusiones, en lugar de la letra griega ρ se van a usar las letras r y R para denotar las fiabilidades iniciales (r) y mejoradas (R) para ambos tests: rX1X1′ , rY1Y1′ y R X 2 X ′2 , R Y2 Y2′ Por la misma razón, también se van a utilizar las letras r y R para los coeficientes de validez inicial y final, respectivamente. Usando las ecuaciones de atenuación se tiene que: rX1Y1 R X 2 Y2 = rX1X1′ R X 2 X ′2 rY1Y1′ R Y2 Y2′ (9.5) 235 Capítulo 9. Validez: Evaluación y de la igualdad anterior se deduce la siguiente: R X 2 Y2 = rX1Y1 (9.6) rX1X1′ rY1Y1′ R X 2 X ′2 R Y2 Y2′ que es el coeficiente de validez, una vez mejoradas las fiabilidades en el test y en el criterio. Como casos particulares de la ecuación (9.6), se pueden obtener las que den el valor de la validez cuando la fiabilidad se haya mejorado sólo en uno de los tests, o la del predictor, o la del criterio. En esos casos, las correspondientes ecuaciones se obtendrían considerando respectivamente las correlaciones de X2 con Y1, o bien la de X1 con Y2. Esto es: R X 2 Y1 = rX1Y1 rX1X1′ ; R X1Y2 = R X 2 X ′2 rX1Y1 rY1Y1′ (9.7) R Y2 Y2′ Casos especiales son aquellos en que se consigan fiabilidades perfectas en el predictor RXX' = 1 o en el criterio RYY' = 1, lo que conduce a las ecuaciones de atenuación (9.4) dadas anteriormente. Ejemplo 9.1 Para predecir un criterio existe la posibilidad de elegir entre tres tests predictores A1, A2 y A3, de los que se ha calculado su fiabilidad y su validez empírica en relación con ese criterio, cuyos valores se dan en las dos primeras filas de la Tabla 9.1. La fiabilidad del test criterio es ρYY' = 0.98. A la vista de esos datos, ¿cuál es el test que preferentemente se debe elegir como test predictor? En principio, parece razonable elegir el test que presente mayor validez empírica. No obstante, puesto que la validez está afectada por los errores de medida, tanto en el predictor como en el criterio, se deberá tener en cuenta la fiabilidad de esas medidas antes de tomar la decisión. Por lo tanto, se procede a calcular la validez desatenuada, utilizando la ecuación (9.3), teniéndose entonces los datos que figuran en la última fila de la Tabla 9.1. 236 Principios de Psicometría Tabla 9.1. Fiabilidad, validez empírica y validez desatenuada. Tests predictores Coeficiente de fiabilidad Validez empírica Validez desatenuada A1 A2 A3 0.40 0.50 0.80 0.50 0.55 0.79 0.20 0.40 0.90 Los resultados de la Tabla 9.1 indican que el test que potencialmente tiene mayor validez es el A3, y el que menos el A2, aunque aparece como el de mayor validez empírica. La decisión entonces estará condicionada a cuáles son las características de ese test, si se puede o no mejorar su fiabilidad. La corrección por atenuación es particularmente interesante cuando para predecir un criterio se dispone de diferentes tests que inicialmente son muy cortos, cada uno con distinta fiabilidad y validez, pero ninguno de ellos tiene la suficiente validez para poderlo considerar como definitivo. En ese caso, se debe mejorar alguno de ellos y parece razonable que para hacerlo se elija aquel que presente la mayor validez potencial. Una forma que posiblemente sea factible para realizar esa mejora sea aumentando su longitud, con las debidas garantías, al menos en cuanto a preservar su validez de contenido, estructura, etc. Validez y longitud Una de las formas de modificar la fiabilidad de un test es cambiando su longitud. Como se ha demostrado en el Capítulo 4, el aumento de la longitud de un test, bajo determinadas condiciones, produce un aumento de la fiabilidad. Análogamente, la reducción en el número de elementos implica teóricamente una disminución de la fiabilidad. La atenuación y las modificaciones en la validez debidas a cambios en la fiabilidad de los tests se pueden contemplar desde esta perspectiva haciendo uso de la ecuación (4.4) de Spearman-Brown. Capítulo 9. Validez: Evaluación 237 Si es rXX' la fiabilidad inicial y RXX' la fiabilidad de ese test al multiplicar por k su longitud, la validez de ese test inicial rXY se verá modificada al cambiar la fiabilidad, pasando a tomar un valor RXY. Este valor se calcula mediante la ecuación: R XY = rXY 1 − rXX ′ + rXX ′ k (9.8) que es la ecuación que da la validez que podría tener un test al multiplicar por k veces su longitud, siendo sólo conocidas su fiabilidad y validez iniciales. El valor máximo que teóricamente puede tomar la validez mediante este procedimiento es cuando aumentara indefinidamente la longitud (k → ∞), en cuyo caso el valor de RXY viene dado por la igualdad: R XY = rXY rXX ′ Cuadro 9.2 La ecuación (9.8) se deduce de la (9.5), relacionando los coeficientes inicial y final, teniendo en cuenta que el test Y permanece inalterado: rXY rXX′ rYY′ rXX′ = = R XY R XX′ rYY′ R XX′ Elevando al cuadrado y sustituyendo RXX' por su expresión dada en (4.4) se tiene que: 2 rXY R 2XY = ( ) 1+ k − 1 rXX′ rXX′ = k k rXX′ 1+ k − 1 rXX′ ( ) 2 de donde despejando RXY y extrayendo la raíz cuadrada, se obtiene la expresión (9.8). 238 Principios de Psicometría En conexión con las relaciones anteriores, también se puede dar respuesta a cuantos elementos habría que añadir a un test para que se modifique su fiabilidad y obtener así un valor prefijado para la validez. Se trata pues de conocer cuál sería el valor de k que se debería utilizar para teóricamente obtener un valor de la validez RXY. Ahora ese valor de la validez es conocido, porque es un valor prefijado, y lo desconocido es k, que se puede despejar de la ecuación (9.8), teniéndose que: 1 − rXX ′ k= 2 rXY R 2XY − rXX ′ (9.9) Ejemplo 9.2 Se desea conocer cuántos elementos habría que añadir a un test de longitud n = 10 con fiabilidad 0.82 y validez 0.66, para conseguir una validez de 0.71 y cuál sería el máximo valor esperable para esa validez, aumentando suficientemente la longitud. Haciendo uso de (9.9), el valor de k para alcanzar ese valor es: k= 1− 0.82 0.66 − 0.82 0.71 2 = 0.18 =4 0.044 que indica que habría que multiplicar por 4 la longitud inicial, por lo que habría que añadir 30 elementos. En la práctica esto sería inapropiado, y habría que descartar ese procedimiento para aumentar la validez. El mayor valor se obtendría con k = ∞, en cuyo caso el valor de la validez sería R = 0.73. Ejemplo 9.3 La validez inicial de los tests A, B y C es 0.70, y las fiabilidades iniciales son 0.40, 0.50 y 0.56, respectivamente. Se quiere explorar cuáles serían las varia- 239 Capítulo 9. Validez: Evaluación ciones teóricas de la validez de esos tests cuando se aumenta la longitud dos, cuatro o seis veces, o se disminuye pasando a la mitad de elementos, o a la sexta parte, o al 25% de los iniciales. Los valores calculados utilizando la ecuación (9.8) se presentan en la Tabla 9.2. Tabla 9.2. Valores predichos para la validez en tests con diferentes coeficientes de fiabilidad y diferentes longitudes. Validez al multiplicar por k la longitud Test A B C Fiabilidad inicial 0.40 0.50 0.56 k =2 k =4 k =6 0.84 0.81 0.79 0.94 0.89 0.86 0.99 0.92 0.88 k = 1/2 k = 1/4 k = 1/6 0.55 0.57 0.58 0.42 0.44 0.46 0.35 0.37 0.39 Acotación del valor del coeficiente de validez En los apartados anteriores se ha establecido cómo están relacionados los valores del coeficiente de validez y la fiabilidad. Es fácil deducir que el coeficiente de validez está acotado por el índice de fiabilidad, ya que se da la desigualdad: ρ XY ≤ ρ XV y dadas las relaciones (3.2) y (9.2), se tiene que ρ XY < ρ XV = ρ XX ′ . Al estar acotado el coeficiente de validez por el índice de fiabilidad, se concluye que la falta de fiabilidad de un test afecta a su validez en relación con un criterio. Además, debido a la simetría del coeficiente de correlación lineal ρXY = ρYX, se puede afirmar que no solamente la fiabilidad del predictor, sino también la del criterio, afectan al valor del coeficiente de validez, que se ve atenuado, o reducido, debido a los errores de medida, como se ha hecho explícito en el apartado anterior. Así, para valores cualesquiera entre cero y uno, si el coeficiente de fiabilidad es, por ejemplo, ρXX' = 0.49, entonces el índice de fiabilidad es ρXV = 0.70 y el coeficiente de validez está acotado por este valor. 240 Principios de Psicometría Ejemplo 9.4 La fiabilidad de un un test calculada con una muestra de 300 personas es ρXX' = 0.81. ¿Se puede considerar que el coeficiente de validez podría superar este valor? La respuesta es afirmativa, ya que el coeficiente de validez está acotado por el valor del índice de fiabilidad, luego la cota para el coeficiente viene dada por la desigualdad: ρ XY ≤ ρ XX′ = 0.90 El valor del coeficiente de validez puede siempre superar, no al índice, pero sí al valor del coeficiente de fiabilidad (excepto cuando es 1, pues serían iguales), ya que los valores de las raíces cuadradas de números menores que la unidad (entre cero y uno) son mayores que los de sus radicandos. Coeficientes derivados del coeficiente de validez El coeficiente de validez en relación con un criterio, como valor del coeficiente de correlación lineal entre las variables predictora y pronóstico, se presenta en la literatura bajo diferentes modalidades y denominaciones. Algunas de ellas son las siguientes. Coeficiente de determinación: Se conoce como tal al cuadrado del coeficiente de validez y expresa la proporción de la varianza del criterio que se puede predecir a partir del test. El coeficiente de determinación siempre es un valor menor que el coeficiente de fiabilidad: ρ2XY ≤ ρ XX ′ y es un indicador de la varianza pronosticable por el test. 241 Capítulo 9. Validez: Evaluación Coeficiente de alienación: Se define este coeficiente K como la raíz cuadrada de la diferencia a uno del coeficiente de determinación. K = 1 − ρ2XY (9.10) El cuadrado de este coeficiente es igual a la relación entre las varianzas del error de estimación (σ ε2 ) y la empírica (σ Y2 ) del test criterio, como se deduce en el Cuadro 9.3 y se expresa en la siguiente ecuación: σ ε2 K = 2 σ 2Y = 1 − ρ2XY (9.11) de manera que si la validez fuese cero, toda la varianza observada en el criterio sería varianza error. Por el contrario, un coeficiente de validez igual a la unidad indicaría la máxima precisión en las estimaciones. Esto es: ρ2XY = 0 → σ ε2 = σ 2Y ρ2XY = 1 → σ ε2 = 0 En general, a medida que aumenta el coeficiente de validez, el cociente entre la varianza del error y la observada en el criterio disminuye, y por lo tanto también lo hace el cuadrado del coeficiente de alienación. Esto es, a medida que aumenta la validez, aumenta la precisión en el pronóstico, puesto que disminuye la componente de varianza que se debe al error de estimación. Cuadro 9.3 La relación entre la varianza del error de estimación ε = Y − Ŷ y la varianza empírica del test criterio, que se ha dado en la ecuación (9.11), se deduce de lo siguiente: [ ] σ 2ε = E ( Y − Yˆ ) − E ( Y − Yˆ ) [ =E Y−Y ] 2 [ 2 ] {[ ] [ ]} = E Y − E ( Y ) − Yˆ − E ( Yˆ ) [ ] + E Yˆ − ( Yˆ ) − 2E ( Y − Y ) ( Yˆ − Yˆ ) 2 2 = 242 Principios de Psicometría Los dos primeros sumandos de este desarrollo son: [ E Y−Y [ ] 2 ] E Yˆ − ( Yˆ ) = σ 2Y 2 = ρ2XY σ 2Y σ 2X E ( X − X )2 = ρ2XY σ 2Y donde se ha sustituido Ŷ por su equivalente en la ecuación de regresión que se da en la ecuación (9.22). Usando la misma sustitución para Ŷ en el tercer sumando se obtiene: [ ] [ ] σ σ E ( Y − Y ) ( Yˆ − Yˆ ) = ρ XY Y E ( Y − Y ) ( X − X ) = ρ XY Y Cov ( X, Y ) σX σX y teniendo en cuenta que ρ XY = Cov ( X, Y ) ( σ X σ Y ) , se obtiene [ ] E ( Y − Y )( Yˆ − Yˆ ) = ρ2XY σ 2Y Por lo tanto σ 2ε = σ 2Y + ρ2XY σ 2Y − 2 ρ2XY σ 2Y = σ 2Y − ρ2XY σ 2Y = σ 2Y (1− ρ2XY ) de donde se deduce la relación dada en la expresión (9.11). Coeficiente de valor predictivo: Se denomina así al complemento a uno del coeficiente de alienación: E = 1 − K = 1 − 1 − ρ2XY y, consecuentemente, lo que expresa es la probabilidad del pronóstico. (9.12) Capítulo 9. Validez: Evaluación 243 Ejemplo 9.5 El coeficiente empírico obtenido para la validez de un test es 0.90. Se quiere responder a: a) ¿Cuál es el porcentaje de la varianza del criterio Y que es teóricamente pronosticable por el test X? b) ¿Es posible conocer el porcentaje de varianza que se puede atribuir al error? c) ¿Cuál es el valor predictivo de ese test? Por una parte, el coeficiente de determinación es 0.902 = 0.81, lo que indica que el 81% de la varianza del criterio es teóricamente pronosticable por el test. Para dar respuesta a b) se hace uso de las expresiones (9.10) y (9.11), con lo que se obtiene que: K2 = σ 2ε σ 2Y = 1 − 0.81 = 0.19 ; K = 1− 0.81 = 0.44 indicando el coeficiente de alienación que la varianza asociada al error en la predicción es el 19% de la varianza total. Sólo en el caso en que la validez tenga valor uno, la varianza error es cero, y para que esa varianza sea cero, los errores de estimación son nulos (e = 0), o iguales a una constante. c) El valor predictivo que se estima para ese test (según 9.12) es E = 0.56. Validez y representación muestral La definición del coeficiente de validez como un coeficiente de correlación entre el predictor y el criterio está introduciendo la influencia de las varianzas de las puntuaciones, tanto del predictor como del criterio. Por lo tanto, la variabilidad de los sujetos de la población o de la muestra afecta al valor del coeficiente de la validez. Cuanto menor sea la variabilidad de las puntuaciones, menor será el valor de ese coeficiente y, por lo tanto, la validez. Se puede hacer aquí una discusión análoga a la que se hizo en el Apartado 4.1 con respecto al efecto que la varianza de los datos tiene sobre la fiabilidad. El planteamiento hay que hacerlo desde el punto de vista de que, usualmente, las pruebas no se aplican a las poblaciones, sino a muestras, y que la determina- 244 Principios de Psicometría ción de la validez será tanto más precisa cuanto más representativa sea la muestra de aquella población de la que se extrae. Cuanta más heterogeneidad exista entre los elementos muestrales, mejor representada está la heterogeneidad existente en esa población. El caso más habitual en los procesos de selección es que se tengan datos en el test X de un grupo amplio, por ejemplo del grupo de aspirantes, teniéndose los datos en el test criterio Y solamente de un grupo más reducido, el de seleccionados. Por lo tanto, el coeficiente de validez solamente se puede calcular con los datos de ese grupo reducido. También se puede dar el caso en el que la variable criterio haya sido la que incidentalmente se haya utilizado como variable directamente selectiva. Se explicita a continuacón cómo variarían formalmente los coeficientes de validez en ambos casos: a) Se tienen los datos X de un grupo amplio (aspirantes) y sólo se conocen los de la variable Y de un subgrupo (seleccionados) de ese grupo. Por lo tanto, se puede conocer la validez rXY para el grupo reducido, y se quiere inferir cuál sería su valor RXY en el grupo amplio. Para ello se utiliza la siguiente ecuación: R XY = ( S X rXY ) 2 2 S2X rXY + 1 − rXY s2X (9.13) donde se denotan con letras mayúsculas los estadísticos correspondientes al grupo amplio y con minúsculas los del reducido. La desviación típica de Y se obtiene mediante la ecuación: SY = 2 s Y S X rXY 2 2 SX = s Y 1 − rXY + rXY s X R XY s2X (9.14) b) Cuando la variable Y es la que se ha utilizado como variable directamente selectiva, entonces son sus valores los que se conocen en el grupo amplio y el coeficiente de fiabilidad se obtiene mediante la ecuación: R XY = 1 − ( 2 s2Y 1 − rXY S2Y ) (9.15) 245 Capítulo 9. Validez: Evaluación y el valor de la desviación típica de la variable X se calcula mediante la expresión: 2 ) S2Y − s2Y (1 − rXY sX s S R S X = X Y XY = s Y rXY (9.16) s Y rXY Cuadro 9.4 Las ecuaciones (9.13) a (9.16) se obtienen a partir de las relaciones de igualdad de los errores de medida 2 S Y 1− R 2XY = s Y 1− rXY (9.17) y de la ecuación de la igualdad de las pendientes en la regresión lineal: R XY SY s = rXY Y SX sX (9.18) Por ejemplo, si se eleva al cuadrado la igualdad (9.17) y se ordenan términos se obtiene s2Y S2Y (1− r ) = 1− R 2 XY 2 XY (9.19) de donde se despeja RXY y se obtine directamente la expresión (9.15). Por otra parte, si se despeja SY de (9.18), se eleva al cuadrado y se iguala al valor de S2Y despejado de (9.19) queda la igualdad S2Y = 2 rXY s2Y S2X R 2XY s2X = ( 2 s2Y 1− rXY 1− R 2XY ) y si se multiplican ambos miembros de esta ecuación por 1− R 2XY s2Y s2X 246 Principios de Psicometría se obtiene 2 rXY S2X R 2XY 2 2 − S2X rXY = (1− rXY ) s2X de donde pasando S 2X r 2XY al segundo miembro, despejando R 2XY y hallando la raíz cuadrada se obtiene la ecuación (9.13). La ecuación (9.14) puede obtenerse despejando SY de (9.18) y posteriormente sustituyendo el valor de RXY por el dado en (9.13). Se deja que el lector deduzca como un ejercicio la ecuación (9.16). Ejemplo 9.6 Se han seleccionado 40 personas entre 200 para trabajar en una cadena de montaje después de administrarles a todos ellos un test de habilidad manual (variable X). La varianza de las puntuaciones de los 200 aspirantes fue de 36 puntos, y de 16 la de los seleccionados. Pasado el período de aprendizaje de esas 40 personas, se ha evaluado su rendimiento mediante el número medio de piezas por día (variable Y) que insertan cada uno de ellos. La varianza de esos valores es 9 y la correlación entre los valores X e Y de esas 40 personas es rXY = 0.78. Se desea conocer cuál sería el valor que teóricamente se hubiera obtenido para la validez si se hubiese podido calcular con los 200 aspirantes y cuál sería el valor estimado de la varianza de sus puntuaciones en el criterio. Haciendo uso de la ecuación (9.13) se tiene que: R XY = 6 (0.78) ( 36 (0.78) + 16 1 − 0.78 2 2 ) = 0.88 obteniéndose el valor de la validez que se pide que es mayor que el obtenido con 40 participantes, pues se ha aumentado el tamaño y la variabilidad de la muestra. El cálculo de la varianza de la variable criterio en el grupo amplio se puede obtener haciendo uso del último miembro de la ecuación (9.14), aunque una vez Capítulo 9. Validez: Evaluación 247 estimada la validez del grupo amplio, el cálculo puede reducirse utilizando la otra forma de esa expresión (9.14): SY = S X s Y rXY (3)(6)(0.78) = = 3.99 s X R XY 4 (0.88) Luego 15.89 sería el valor que se espera para la varianza de la variable criterio. m9.3. Validez relativa al criteriom Este tipo de validación indica cuál es la eficacia del test en la predicción de algún tipo de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo, un test de razonamiento abstracto se podría utilizar para predecir el éxito de los alumnos en la disciplina de matemáticas. Esta predicción será más precisa cuanto mayor sea la validez de esa prueba de razonamiento con respecto a poder predecir el rendimiento en matemáticas. La validez relativa al criterio se juzga por el grado de relación entre el test o los tests que actúan como predictores y la variable que se va a predecir, o variable de interés, a la que se llama variable criterio. Si la relación entre predictores y criterio se supone que es lineal, entonces, los coeficientes de correlación y de regresión lineal pueden ser medidas apropiadas para evaluar esas relaciones. Pronóstico mediante regresión lineal simple La distribución conjunta de los valores de las variables X e Y proporciona los datos de las distribuciones condicionadas de una variable sobre la otra. Si las relaciones entre las variables son lineales, el modelo de regresión es una recta de la forma dada en (9.20). Y = aX + b (9.20) La ecuación de esta recta de regresión de la variable criterio sobre la predictora (Y|X) puede tomar la forma: 248 Principios de Psicometría Y − Y = ρ XY σY (X − X) σX (9.21) A una persona g con puntuación Xg se le pronostica una puntuación en el criterio: Y$ g = aX g + b (9.22) donde la pendiente de esa recta y la ordenada en el origen se obtienen mediante las expresiones: a = ρ XY σY σ ; b = Y − ρ XY Y X σX σX Si en lugar de utilizarse puntuaciones directas se utilizan puntuaciones diferenciales o las tipificadas, la ecuación (9.21) se reduce a la (9.23) en puntuaciones diferenciales y a la (9.24) en puntuaciones tipificadas: σY x σX (9.23) z Y = ρ XY z X (9.24) y = ρ XY Siendo: x = X − X; y = Y − Y ; zX = x σ X ; zY = y σ Y Intervalos de confianza La estimación del valor de la puntuación en el criterio se puede obtener conociendo con qué probabilidad se encuentra ese valor entre dos dados. Es decir, dando su intervalo de confianza. Para un valor estimado del criterio y fijado un intervalo de amplitud 1 – α, el intevalo es: I = ( Y$ − z α σ ε ; Y$ + z α σ ε ) (9.25) 249 Capítulo 9. Validez: Evaluación donde σε es la dada en el Cuadro 9.3 (o en la ecuación (9.11)) y zα es el valor correspondiente a la abscisa en una distribución N(0,1), para un intervalo que contiene una probabilidad 1 – α. Este valor de zα hay que calcularlo teniendo en cuenta la simetría del intervalo, teniéndose una probabilidad de α/2 en cada una de las colas de la distribución. Esto es, la probabilidad contenida en el intervalo (– ∞, – zα ) es igual a α/2, y la contenida en (zα, ∞) = α/2 (a veces se adopta la notación zα/2 en lugar de la genérica zα ). Ejemplo 9.7 Se quiere utilizar un test X de inteligencia general para predecir un criterio Y de rendimiento escolar. Aplicando ambas pruebas de forma concurrente se han obtenido los siguientes valores para los estadísticos: X = 26 ; Y = 5 ; S X = 4 ; S Y = 2 ; rXY = 0.72 Se desea conocer la ecuación de regresión y la puntuación que se le puede pronosticar en rendimiento escolar a un estudiante que obtiene 30 puntos en la prueba de inteligencia general. La predicción se hace mediante la ecuación (9.21), por lo que la ecuación de la recta de regresión es: Y = 0.72 ( ) 2 X − 26 + 5 = 0.36 X − 4.36 4 y la puntuación que se le predice a la persona g que obtiene 30 puntos en el test X es: Yˆ g = 6.44 Si se quiere estimar Y mediante un intervalo de confianza, teniendo en cuenta las relaciones (9.25) y (9.26) y para un valor de α = 0.05, se tiene que: ( ) z α = 1.96 ; σ ε = 2 1− 0.722 = 1.39 ; I = Yˆ ± z α σ ε = 3.72; 9.16 que es un intervalo amplio debido al tamaño de la varianza del error de estimación. Hay que señalar que la construcción de intervalos de confianza como el dado en (9.25) exige que se suponga la normalidad y la homocedasticidad. 250 Principios de Psicometría Pronósticos mediante una batería de predictores En este caso se trata de hacer predicciones basándose en la información que aportan dos o más variables predictoras. Éste es un caso general del que el anterior, en que se considera una sola variable predictora, es un caso particular. Es fácil describir situaciones en las que sean varias las variables que hay que utilizar para predecir adecuadamente el criterio. Por ejemplo, se puede plantear predecir el éxito escolar utilizando como predictoras pruebas que evalúen inteligencia general, memoria y algunos rasgos de personalidad. Si se supone que la relación es lineal y se denota por Y la variable criterio y por X1, X2, …, Xn , a las variables predictoras, el modelo que las relaciona es: Y = a + b1 X 1 +…+ bn X n (9.27) siendo f(Y, X1, X2, …, Xn) la función de probabilidad conjunta y la media condicionada de la variable Y sobre las Xi es: ( m y (x 1 , … , x n ) = E Y X 1 = x 1 , … , X n = x n ) (9.28) siendo my la superficie de regresión de las medias condicionadas de Y con respecto a las Xi. Al igual que en el caso de una variable, el ajuste se hace por mínimos cuadrados, de donde se deducen los valores de los parámetros {a, b1, …, bn}. La estimación de estos valores, así como el del coeficiente de correlación múltiple, se hacen con los programas apropiados, que están implementados en todos los paquetes estadísticos, por ejemplo en el SPSS. A los valores estimados normalizados b∗i se los denomina pesos en la regresión, ya que sus valores indican cuál es la contribución de cada una de las variables Xi en la predicción del criterio Y. El valor del error típico de medida aquí se calcula mediante: s Y • X1 , …, X n = s Y 1 − ρ2Y • X1 , …, X n donde ρ$ 2Y • X1 , …, X n = 1 C′YX C−XX C YX s2Y (9.29) (9.30) 251 Capítulo 9. Validez: Evaluación es el coeficiente de correlación múltiple entre los predictores y el criterio. Con C se han denotado las matrices de varianzas y covarianzas entre las variables. El coeficiente (9.30) indica la proporción de varianza del criterio explicada por su regresión lineal con las variables predictoras. Este coeficiente se puede también estimar mediante los coeficientes de regresión normalizados (pesos) utilizando la relación: ρ YY$ = ρ Y • X1 , …, X n = b1∗ ρ1Y + b∗2 ρ2 Y + … + b∗n ρnY (9.31) donde ρiY (i = 1, 2, …, n) son las correlaciones de cada uno de los predictores con el criterio. Ejemplo 9.8 En la predicción de los valores en agresividad se ha hecho un estudio con 2400 escolares usando como predictoras las variables agresión física (X1), verbal (X2), horas diarias viendo televisión (X3), horas diarias de videojuegos (X4), horas diarias haciendo deberes (X5) y horas semanales de lectura extraescolar (X6), y se ha obtenido la siguiente ecuación de regresión: Y = 1.39 + 0.45 X 1 + 0.37 X 2 + 0.22 X 3 + 0.27 X 4 − 0.17 X 5 − 0.20 X 6 dada con coeficientes no estandarizados. El valor del coeficiente de correlación múltiple es ρ = 0.80. Se desea interpretar esos resultados. Previamente se ha contrastado la hipótesis H0 : bi = 0 frente a la alternativa de que esos coeficientes son diferentes de cero. En todos los casos se ha rechazado la hipótesis nula con α < 0.01. En primer lugar, se observa que en la ecuación de regresión se han incluido todas las variables predictoras, ya que tras el contraste se ha comprobado que los coeficientes son estadísticamente significativos. En el caso en que los coeficientes de uno o más predictores no fueran significativos, esas variables no se incluirían en la ecuación de regresión. Las variables que más aportan son aquellas que tienen mayores coeficientes en valor absoluto. Las variables con coeficientes negativos indican que se relacionan de forma opuesta con el criterio. Las variables agresión física, verbal, horas diarias dedicadas a ver televisión o a jugar con videojuegos se relacionan positivamente con los niveles globales de agresividad, en tanto que las horas dedicadas a los deberes y a la lectura la disminuyen. 252 Principios de Psicometría En cuanto a la interpretación del coeficiente de correlación múltiple, cuyo valor es 0.80, indica que el 64% de la varianza de Y puede explicarse por su regresión lineal con esos predictores, ya que ρ2Y • X , …, X = 0.64 . 1 6 Selección de las variables predictoras En los procedimientos de inferencia mediante regresión, tal como se están exponiendo, implícitamente parece que se da por supuesto el conocimiento de cuáles son las variables predictoras que hay que utilizar para un determinado criterio. Esto en la práctica no es obvio, pues para un mismo criterio se puede considerar un número k no pequeño de variables independientes que tengan influencia sobre ese criterio y que pudieran ayudar a predecirlo. En un intento de construir el modelo de predicción más completo y exacto posible, se puede pensar en incluir en ese modelo todas las variables que tengan relación con el criterio y que sea posible identificar. Esto usualmente no es realista, ni desde el punto de vista teórico ni práctico. Entre otras razones, habría que considerar los costes de un estudio casi exhaustivo de ese tipo, el despliegue de medios humanos y materiales, junto con problemas de índole puramente formal, como pueden ser los problemas de colinealidad. La necesidad de restringir a un número p < k el de todas las posibles variables pedictoras y que, a su vez, se obtenga el mejor modelo predictor posible, ha dado lugar a que se generen diferentes procedimientos estadísticos de análisis que proporcionan la información necesaria para, en cada caso, elegir las variables predictoras más adecuadas. En la literatura hay numerosas obras (e.g., Darlington, 1990; Draper y Smith, 1981; Hocking, 1976) en las que se describen distintos métodos que conducen a evaluar la precisión de la regresión y cómo elegir un número determinado de predictores entre los k disponibles. Entre los métodos propuestos están los procedimientos secuenciales, ya sea porque se van incluyendo nuevas variables para mejorar las predicciones, ya sea porque se desea reducir la prueba y hay que prescindir de la aplicación de algunos de los predictores. En cualquiera de los dos casos, con la adición o con la supresión de las variables, hay que valorar en cada paso la calidad del modelo resultante. La selección basada en regresiones parciales estudia las regresiones del criterio con un conjunto de variables predictoras previamente elegidas. Se comienza calculando todas las regresiones simples del criterio con cada una de las variables Capítulo 9. Validez: Evaluación 253 predictoras. Evidenciando cuál sería la mejor opción (por ejemplo, basándose en los valores de ρ$2 (ecuación (9.30)) si solamente se pudiese elegir una de ellas. Si ese ajuste no fuese adecuado porque el porcentaje de la varianza explicada por la regresión fuese muy pequeño, entonces se procedería a hacer la regresión de Y con todos los pares de variables, y así sucesivamente, estudiando en cada caso la precisión del modelo, y si la ganancia justifica la adición de nuevas variables. El método secuencial más extendido y que se considera más eficaz es el denominado regresión por pasos. Existen diferentes versiones y lo más común es que en cada paso se seleccione el mejor conjunto de variables predictoras de un tamaño determinado, sea (p – 1), teniendo en cuenta en el siguiente paso que el mejor conjunto de tamaño p no contiene necesariamente al mejor subconjunto de tamaño (p – 1). Esto es, el que una variable sea idónea para que se incluya en una fase de selección, no implica que lo sea en una fase posterior. Los análisis de regresión, desde los más simples a los de mayor complejidad, se llevan a cabo con la ayuda de paquetes estadísticos como el SPSS, donde vienen además implementados diferentes algoritmos de selección. Esto es relevante porque hay que reseñar nuevamente que, una vez decididos los predictores y construido el modelo de regresión, se debe evaluar su calidad, mediante el conocimiento del coeficiente de regresión múltiple, contrastes usando el estadístico F u otros procedimientos que vienen implementados en los programas. Por último, señalar que en la validación en relación con el criterio, a los problemas ya mencionados en el Apartado 8.6, hay que añadir que los criterios pueden cambiar a lo largo del tiempo y que, a efectos prácticos, hay que tenerlo muy en cuenta al establecer sus relaciones con los predictores. m9.4. Evaluación de la validez convergente y discriminantem Los constructos psicológicos se definen desde unos supuestos teóricos en los que se incluyen sus conexiones con otros constructos, lo que en la literatura se llama red nomológica. Esto implica que las mediciones en un constructo estén fuertemente relacionadas con las de unos determinados constructos y débilmente relacionadas con las de otros. Podemos dar como ejemplo (Ejemplo 9.9) las evidencias de validez convergente (Tabla 9.3) que se han encontrado para un cuestionario de agresividad, estableciendo relaciones entre las puntuaciones en ese cuestionario con las de otros que miden diferentes aspectos de la agresividad, así como con 254 Principios de Psicometría medidas de impulsividad (Wittmann et al., 2008; Santisteban y Alvarado, 2009). Una parte que es crucial en el proceso de validación de una prueba es establecer en qué grado se puede definir un patrón de asociaciones entre el rasgo que mide esa prueba y otros rasgos. En la literatura se presentan diversos métodos, que conllevan mayor o menor complejidad, pero que se pueden utilizar para evaluar el grado en que las medidas muestran asociaciones convergentes y discriminantes. Los distintos procedimientos responden a diferencias conceptuales y a diferentes métodos estadísticos. Ejemplo 9.9 En un estudio sobre agresividad realizado con 2208 escolares, se han estudiado las evidencias de validez convergente del cuestionario AQ-PA, estableciendo las correlaciones de los sujetos en ese cuestionario con las que obtienen en otros cuestionarios que proporcionan mediciones del mismo constructo (agresividad) o de otro relacionado (impulsividad). Los cuestionarios han sido: DIAS, que evalúa la agresión directa e indirecta, STAXI, que evalúa tres principales aspectos de ira (estado E, rasgo R y expresión AE) y EXPAGG, que evalúa la expresión de la agresividad. Todas las pruebas están adaptadas a la población española y a los grupos de edad que se estudian, preadolescentes y adolescentes. La impulsividad se ha evaluado con la versión española (Recio et al., 2004) de la escala de impulsividad de Barrat (BIS-11). Las correlaciones entre esas variables se dan en la Tabla 9.3. Tabla 9.3. Correlaciones* entre mediciones de agresividad (AQ-PA, STAXI, DIAS, EXPAGG) e impulsividad (BIS)**. STAXI AQ-PA STAXI E R AE E R AE 0.42 — 0.67 0.42 — 0.62 0.36 0.62 — DIAS EXPAGG * Todas las correlaciones son significativas (p < 0.001). **Datos tomados de Santisteban y Alvarado, 2009. DIAS EXPAGG BIS 0.67 0.40 0.61 0.62 — 0.49 0.28 0.37 0.33 0.40 — 0.55 0.33 0.50 0.53 0.50 0.25 Capítulo 9. Validez: Evaluación 255 Los datos de la Tabla 9.3 evidencian la validez convergente de la escala AQ-PA, pues muestran correlaciones significativas con mediciones de diferentes aspectos del mismo constructo, o sea, de la agresividad (con STAXI, DIAS y EXPAGG), así como con uno relacionado como es la impulsividad (BIS-11). Red nomológica y correlaciones La red nomológica que rodea a un determinado constructo en algunos casos puede reducirse a unas pocas variables muy específicas y relevantes. Si se hipotetiza acerca de las asociaciones de esas variables con el constructo de interés en términos de validez convergente y discriminante, de que se confirmen o no esas presunciones, los psicómetras ponen o no en duda la validez de la prueba. Muchas investigaciones en psicología clínica, evolutiva, social y de las organizaciones suelen utilizar este método, focalizando el estudio en muy pocas variables o criterios externos que se consideran relevantes y poniendo el énfasis en la cuantía de las correlaciones entre el constructo de interés y esos criterios. El problema surge cuando hay que considerar la validez predictiva de ese test y decidir si se puede generalizar a otros estudios donde sea de interés la medida de ese constructo. Comúnmente la generalización de la validez se hace utilizando muestras grandes y lo más heterogéneas posible. Sin embargo, en este tipo de estudios generalmente se utilizan muestras relativamente pequeñas. Entonces, para la generalización de los resultados se suelen llevar a cabo pequeños estudios, incluso a cargo de diferentes investigadores. Si hay concordancia (correlaciones positivas y de tamaño al menos moderado) entre los resultados de esos diferentes estudios se realiza la generalización. Se entiende que estos estudios son tan similares en las condiciones que se pueden considerar como réplicas. En el caso en que los coeficientes de validez de los diferentes estudios no sean similares, sino que cubran un amplio rango de valores, entonces hay que examinar si, en efecto, esas diferencias se deben a los procedimientos. La limitación de la red nomológica responde a una perspectiva tanto conceptual como pragmática, como en su día ya señalaran autores como Cronbach, Campbell o Scriben. No obstante, no siempre se pueden elegir unas pocas variables relevantes sobre las que focalizar el estudio, sino que hay que estudiar las rela- 256 Principios de Psicometría ciones del constructo con un número elevado de variables criterio. Por ejemplo, en un estudio sobre perfeccionismo (Hill et al., 2004) se utilizan 23 variables criterio y los autores establecen la validez mediante un análisis lógico de las intercorrelaciones. El método de Westen y Rosenthal Otro de los métodos que se ha propuesto para evaluar la validez convergente y discriminante es el propuesto por Westen y Rosenthal (2003), al que han denominado cuantificación de la validez de constructo (QCV, sus siglas en inglés). Este procedimiento se basa en si existe o no concordancia entre unas predicciones que se hacen a priori acerca de las correlaciones convergentes y discriminantes y las que posteriormente se obtienen en situaciones reales. Este procedimiento se puede resumir en tres pasos. En el primero los psicómetras enuncian cuáles son sus predicciones sobre las correlaciones convergentes y discriminantes. Esto requiere un análisis detallado de todas las variables y aventurar un valor para las correlaciones entre cada uno de los constructos o de las escalas que se van a relacionar. En el segundo paso se recogen todos los datos, aplicando las pruebas pertinentes de todas y cada una de las escalas de las variables criterio que a priori se han considerado y se calculan las correlaciones entre ambos conjuntos de correlaciones, el predicho y el calculado. El tercer paso consiste en valorar el ajuste entre lo hipotetizado y los resultados experimentales. Para la valoración del ajuste entre los datos supuestos y los experimentales, los autores usan dos tipos de resultados, uno basado en el tamaño de los efectos que reflejan la cantidad de evidencia de validez convergente y discriminante y el otro es que, adicionalmente, realizan un test estadístico de contraste. El lector interesado puede consultar estos procedimientos en la obra de Westen y Rosenthal, anteriormente citada. Este método es objeto de críticas, pues presenta puntos débiles en la metodología del ajuste e incoherencias en algunas correlaciones, pero ninguno de los métodos mencionados que usan correlaciones están exentos de subjetividad, sobre todo en lo que se relaciona con las interpretaciones de la cuantía de los coeficientes. Una evaluación de la significación estadística del coeficiente de validez se puede ver en Cohen (1992). Capítulo 9. Validez: Evaluación 257 Matrices multirrasgo-multimétodo La obtención de estas matrices y su interpretación es un método que se utiliza en el estudio de la validez de constructo cuando se consideran dos o más rasgos que se van a evaluar por dos o más métodos. Se trata de comprobar que las correlaciones entre los valores del mismo rasgo, obtenidos por diferentes métodos, son superiores a las obtenidas entre diferentes rasgos, aun cuando las puntuaciones que se correlacionan se hayan obtenido por el mismo método. Si las correlaciones entre las puntuaciones del mismo rasgo son altas, aun cuando se evalúen con diferentes métodos, se tiene una buena validez convergente. Sin embargo, si las correlaciones entre diferentes rasgos son pequeñas, aunque se emplee el mismo método, se obtiene una buena validez discriminante. Considérense p métodos con los que se evalúan k rasgos. Los datos obtenidos de las observaciones se podrán disponer en una matriz p × k en que cada elemento Xij de la matriz indica el valor obtenido en el rasgo j evaluado por el método i. Todas las intercorrelaciones posibles entre las variables resultantes de combinar rasgos con métodos se pueden disponer en una matriz de dimensiones (p × k) × (p × k), a la que se la denomina matriz de validez, o matriz multirrasgo-multimétodo. La introducción de estas matrices por Campbell y Fiske (1959) tuvo mucho éxito, pues es una forma de garantizar que las relaciones entre medidas del mismo constructo no se deben a artefactos derivados de la utilización de un cierto método, como a veces se había detectado. En este método se pueden observar cuatro tipos de correlaciones: – Monorrasgo-monométodo: Son las obtenidas entre las medidas del mismo constructo obtenidas por el mismo método. – Monorrasgo-heterométodo: Son las obtenidas entre las medidas del mismo constructo por diferentes métodos. – Heterorrasgo-monométodo: Son las obtenidas entre las medidas de diferentes constructos evaluados por el mismo método. – Heterorrasgo-heterométodo: Son las obtenidas entre las medidas de diferentes constructos evaluados por diferentes métodos. Con el fin de ilustrar este método, Campbell y Fiske (1959) tomaron datos de estudios de otros autores, comparando las intercorrelaciones de diferentes subtests con los que se evaluaban aspectos de inteligencia social, memoria, comprensión y vocabulario. 258 Principios de Psicometría Tabla 9.4. Matriz de correlaciones multirrasgo-multimétodo. Método 1 Rasgos A1 Método 1 Método 2 Método 3 Método 2 B1 C1 Método 3 A2 B2 C2 A1 B1 C1 .90 .20 .38 .89 .30 .76 A2 B2 C2 .67 .22 .11 .22 .77 .11 .09 .10 .56 .93 .18 .29 .94 .18 .74 A3 B3 C3 .66 .13 .11 .22 .68 .11 .11 .12 .55 .67 .13 .24 .42 .66 .12 .33 .34 .58 A3 B3 C3 .94 .17 .08 .92 .16 .80 En la Tabla 9.4 se presenta un ejemplo de una matriz completa (con los cuatro tipos de correlaciones) en donde se han considerado tres rasgos (constructos) A, B y C (e.g., comprensión, extraversión e inteligencia emocional), evaluados por tres métodos. Por simplicidad, se ha denotado con una letra el rasgo, indicando su subíndice i (i = 1, 2, 3) el método de evaluación. La matriz de correlaciones es una matriz de 9 × 9 elementos y simétrica con respecto a la diagonal principal, ya que en la correlación lineal entre dos variables se da la simetría (rXY = rYX). A partir de esa matriz, se puede deducir: a) Que los términos de la diagonal principal (en negrita), son coeficientes de fiabilidad de las pruebas que miden esos rasgos, ya que son las correlaciones entre medidas repetidas. Las fiabilidades de las pruebas que evalúan el rasgo A (0.90, 0.93 y 0.94), así como las del B (0.89, 0.94 y 0.92) son elevadas, siendo menores las correspondientes al test C (0.76, 0.74 y 0.80). b) Las correlaciones (subrayadas) entre los rasgos evaluados por distintos métodos son los indicadores de la validez convergente. Los tests tendrán validez convergente si los valores de esas correlaciones son significativos, pues indican la estabilidad en la medida del constructo, aunque se haya evalua- Capítulo 9. Validez: Evaluación 259 do por diferentes métodos y, en cualquier caso, deben ser mayores que las heterorrasgo-heterométodo. Éste es el caso de los constructos presentados en la tabla, en donde, rA1A2 = 0.67, rA1A3 = 0.66 y rA2A3 = 0.67 son valores moderadamente altos, como también lo son los de las correlaciones monorrasgo-heterométodo para el constructo B (0.77, 0.68, 0.66) y un poco menores para el C (0.56, 0.55, 0.58). También se observa que estos valores son mayores que los de las correlaciones heterorrasgo-heterométodo. c) Las evidencias de validez de la adecuada diferenciación entre los constructos vienen dadas por la validez discriminante. Esta validez se evidencia cuando las correlaciones entre las mediciones de los constructos son bajas, aun cuando esos constructos se evalúen con los mismos métodos. Ejemplos de esos valores en la Tabla 9.4 son rA1C1 = 0.38, rA3C3 = 0.08, rB2C2 = 0.18, etc. Estas correlaciones deben ser menores que las obtenidas para el mismo rasgo por diferentes métodos. d) En el caso en que se encuentre que las correlaciones que miden diferentes rasgos con el mismo método (heterorrasgo-monométodo) sean sistemáticamente mayores que las correlaciones monorrasgo-heterométodo, hay que pensar en la existencia de sesgos o de errores sistemáticos atribuibles al método. En consecuencia, el conjunto de los datos de la Tabla 9.4 muestran que las pruebas que miden los tres constructos o rasgos tienen una adecuada validez convergente y discriminante. Las conclusiones acerca de las evidencias de validez convergente y discriminante utilizando este método se obtienen por simple inspección, como se ha detallado en los epígrafes anteriores. No obstante, desde que Campbell y Fiske (1959) publicaron su trabajo, se han desarrollado nuevos procedimientos y se han propuesto diferentes técnicas, como las de los modelos de las ecuaciones estructurales o las del análisis factorial (Widaman, 1985), que mejoran de forma sustancial el establecimiento de la validez, y aunque esos procedimientos van más allá de los objetivos de la discusión que aquí se plantea, el lector debe conocer que el tema no está cerrado y que los psicómetras siguen construyendo sobre los cimientos del trabajo de Campbell y Fiske. Los análisis de las matrices multirrasgo-multimétodo proveen de un método muy adecuado para evaluar la validez de constructo, pues el análisis conjunto de todos los patrones de correlacionales ayuda a la interpretación de las evidencias 260 Principios de Psicometría Cuadro 9.3 En el Apartado 8.2 se hace referencia a las importantes aportaciones de Cronbach al establecimiento de la validez, así como la que en 1955 hacen Cronbach y Meehl. Aun cuando ese trabajo supuso un gran avance conceptual, no aporta ningún método estadístico para que se pueda evaluar la validez de constructo, y el de Campbell y Fiske se puede considerar que extiende y formaliza las propuestas de Cronbach y Meehl. Hay que hacer notar que en esa época los investigadores interesados en la descomposición de tareas utilizaban comúnmente las técnicas de análisis factorial y la representación del constructo se confundía completamente con el enfoque nomotético. Desde ese punto de vista, las componentes que surgen del análisis factorial se basan en las correlaciones entre tareas, cuyas mediciones incluyen múltiples influencias. El éxito de la propuesta de Campbell y Fiske radica en que, al presentar un panel completo de correlaciones, se pueden disipar algunas ambigüedades que aparecen en la evaluación de la validez de constructo cuando la varianza de los rasgos y la de los métodos están entremezcladas. de validez convergente y discriminante cuando las puntuaciones, y por ende las correlaciones, están afectadas por las varianzas, tanto de los rasgos como de los métodos. Éste es un tema en el que, como se ha dicho, se han desarrollado procedimientos más sofisticados para el análisis estadístico de los datos que los aquí expuestos, y que en la actualidad siguen generando trabajos, tanto en los investigadores en medición como en los psicómetras. Sin embargo, si se toma en consideración la relevancia de estos métodos, el número de aplicaciones que se refleja en las publicaciones especializadas es mucho menor del esperable. m9.5. Validez de la estructura interna del testm La estructura interna de un test es la forma en la que se relacionan las distintas partes de ese test. Si un test está diseñado para la medición de un determinado constructo, las distintas partes del test, su estructura, deben reflejar los aspectos básicos que teóricamente se ha considerado que constituyen ese constructo. La definición del constructo y, en consecuencia, la estructura del test o del cuestionario, se sustentan tanto en aspectos conceptuales como en los resultados obte- Capítulo 9. Validez: Evaluación 261 nidos en investigaciones previas. En el Cuadro 9.5 se expone un caso de cómo una prueba ha ido evolucionando basándose en esas experiencias. Las evidencias de validez de la estructura interna de un test se pueden considerar desde diferentes vertientes y todas ellas deben tener presencia en el proceso de validación, pues hay que verificar que puede haber partes del test (dimensiones) que, aun midiendo el mismo constructo, den cuenta de diferentes aspectos. Además hay que confirmar que, en efecto, los ítems están asociados con cada una de esas partes a las que se han asignado. Una de las fases fundamentales en la construcción de un test es determinar su dimensionalidad, estableciendo cuantos factores o dimensiones se considere que integran ese test. Si el estudio de la dimensionalidad revela que el test está compuesto por dos o más factores, identificando los ítems que los integran se pueden obtener las puntuaciones de las diferentes subescalas, pero el test completo debe ser una medida global del constructo de interés. Un test tendrá validez en su estructura interna si ese test refleja la estructura del constructo que pretende medir. Las correlaciones entre los ítems del test y entre los diferentes factores o subesclas son las que dan cuenta de la validez de su estructura interna. En el procedimiento que se sigue para establecer estos patrones de correlaciones usualmente se hace uso de las técnicas del Análisis Factorial (AF). El AF exploratorio se suele usar para establecer el número de factores que componen el test. El AF confirmatorio se suele utilizar para corroborar en qué medida determinados ítems corresponden a un determinado factor. Cuadro 9.4 En la búsqueda de un cuestionario que midiera la agresividad se han desarrollado un número considerable de instrumentos, todos basados en una definición de la agresión que incluye intenciones, expresiones y factores afectivos que la influencian. Uno de los más utilizados ha sido el inventario de hostilidad de Buss y Durkee (1957), conocido con las siglas BDHI (BussDurkee Hostility Inventory). El BDHI está compuesto por 66 ítems con un formato de respuesta verdadero-falso y se presenta dividido en siete subescalas. El punto más débil de este cuestionario es que no utilizaron para su desarrollo métodos de análisis factorial, sino que los autores sólo se basaron en su validez aparente. Atendiendo a las críticas que surgieron al respecto, Buss y Perry (1992), uti- 262 Principios de Psicometría lizando métodos analíticos de análisis factorial, mejoraron considerablemente el BDHI desarrollando el cuestionario conocido con las siglas AQ (Aggression Questionnaire). En su evolución, el AQ pasó por diferentes etapas. Los autores primero seleccionaron una muestra de 52 ítems, intentando aprehender seis dimensiones de agresión: agresión física, agresión verbal, ira, agresión indirecta, resentimiento y suspicacia. Además, pasaron a un formato de respuesta de tipo Likert, en lugar del formato de respuesta sí/no del BDHI. Los análisis factoriales exploratorios de esos ítems con rotación oblimin condujeron a un cuestionario de 29 ítems distribuidos entre cuatro factores designados como agresión física, agresión verbal, ira y hostilidad. Buss y Perry (1992) descartaron 23 ítems porque no cumplían los requisitos establecidos (saturación igual o mayor que 0.35 en algún factor), llegando así a la versión final del AQ que consta de 29 ítems en cuatro subescalas. Las dos primeras, agresión física y verbal, responden a la componente comportamental, en tanto que la ira es la reacción afectiva que acompaña a la agresión, siendo la hostilidad la que representa la componente cognitiva. Las técnicas de AF, por lo tanto, son las que se suelen utilizar en los estudios de la validez de la estructura interna del test. Por una parte, identificando si el número de factores es adecuado y que el test proporciona una medida global del constructo que se estudia. Por otra, se evalúa la validez de las asociaciones entre los diferentes factores (si los hay), poniéndose de manifiesto mediante el AF cómo es ese patrón de asociaciones. Por último, en el estudio de la validez de la estructura interna del test también se debe evaluar la pertenencia o no de un determinado ítem a un determinado factor. Es decir, para establecer la validez se evalúa en qué grado el ítem que está incluido en un factor está reflejando el aspecto particular de ese factor en el constructo y no el de otro factor. Haciendo referencia a un caso concreto, como es el cuestionario AQ que se describe en el Cuadro 9.6, se puede decir que además de tener la adecuada consistencia interna de las subescalas, ha mostrado tener una buena validez de su estructura interna, como comprobó en primer lugar Harris (1997) y además se ha probado que es un instrumento útil para estudiar perfiles agresivos, así como en la predicción de conductas violentas. Otros autores han corroborado la validez de su estructura y su estabilidad en estudios transculturales. En la Figura 9.1 se da el patrón de asociaciones, tanto entre ítems como entre factores, obtenido Capítulo 9. Validez: Evaluación 263 mediante AF confirmatorio para el cuestionario AQ en una versión en español adaptada a adolescentes. Para llevar a cabo los cálculos que conducen a concluir sobre la validez de la estructura interna de un test, es necesario que se tenga algún dominio sobre las técnicas de AF. Para validar la estructura tetra-factorial del cuestionario AQ-PA se ha utilizado análisis factorial confirmatorio con estimadores de máxima vero- Figura 9.1. Factores de pesos estandarizados y correlaciones múltiples de agresión física (PA), agresión verbal (VA), ira (A) y hostilidad (H) en una muestra de adolescentes (Santisteban et al., 2007). 264 Principios de Psicometría similitud para los parámetros, usando el programa AMOS 5.0. Hay que señalar que el investigador debe elegir adecuadamente el método para la estimación de los parámetros y posteriormente hacer comprobaciones sobre la bondad de ese ajuste a través de los índices pertinentes. Los índices más usuales en estos casos son los que se denotan con las siglas, GFI (Goodness of Fit Index), AGFI (Adjusted Goodness of Fit Index) y RMSEA (Root Mean-Square Error of Approximation) que el lector interesado puede encontrar en la literatura especializada (e.g., Lawley y Maxwell, 1971; Mulaik, 1972; Gorsuch, 1983; Bryant y Yarnold, 1995; Thompson, 2004). Entre los programas de software, se pueden usar los más generales como SPSS y SAS, u otros más específicos para estos propósitos entre los que actualmente están EQS, AMOS y LISREL, siendo este último muy completo y de uso generalizado. Puntos clave 3 3 3 3 3 3 3 3 3 Cada tipo de validez suele tener su propio método de evaluación. Las evidencias de la validez de contenido usualmente no se apoyan en índices, pero existe una sistemática para ponerlas de manifiesto. Los coeficientes de validez se definen en términos de correlaciones y están acotados, tomando valores en el intervalo cerrado [0,1]. La fiabilidad de los tests influye directamente en su validez, que se ve atenuada por los errores de medida. La validez, al igual que la fiabilidad, varía con la longitud del test. La atenuación y las modificaciones en la validez debidas a esas variaciones se pueden estudiar haciendo uso de la ecuación de Spearman-Brown. La validez aumenta con la varianza de los valores muestrales. La validez de los tests para predecir un criterio se evalúa por la calidad (exactitud) de las predicciones basadas en la información que aportan esos tests (variables predictoras). La contribución de cada una de las variables predictoras al criterio se evalúa por la cuantía en la que su varianza contribuye a la varianza total. Las relaciones entre variables predictoras y criterio se establecen mediante regresión lineal, simple o múltiple, regresando la variable criterio sobre las predictoras. Si las variables predictoras no están prefijadas de antemano, sino que hay que elegir un subconjunto entre las disponibles, se utilizan técnicas como la regre- Capítulo 9. Validez: Evaluación 3 3 3 3 3 3 3 265 sión por pasos, optimizando las soluciones (número de predictores y varianza explicada) en cada paso. El estudio de las evidencias de validez convergente y discriminante es importante incluirlo en el procedimiento empírico de validación de los tests. Uno de los métodos para evaluar el grado de convergencia y de discriminación entre tests es el de las matrices multimétodo-multirrasgo, que son muy útiles, ya sea en su versión original o incluyendo las nuevas aportaciones de sus posteriores desarrollos. En la evaluación de los coeficientes de validez (predictiva, convergente, discriminante) es necesario usar procedimientos de inferencia estadística para la correcta interpretación de su cuantía y para asegurar la validez de las inferencias que se hagan con el test. La estructura de un test se determina cuando se estudia su dimensionalidad, lo que generalmente se lleva a cabo mediante las técnicas de análisis factorial. La validación de la estructura interna del test es fundamental en la evaluación de constructo, pues da cuenta de en qué grado coinciden el test y sus subescalas con la estructura definida para el constructo. La validez de la estructura interna se analiza generalmente examinando los patrones de correlación entre los ítems que integran el test, así como entre las subescalas. La técnica más usual de llevar a cabo esos análisis son las del análisis factorial, implementando el estudio con indicadores de la bondad del ajuste. Abordar en la práctica psicométrica la estimación y la evaluación de las evidencias de validez, que es de lo que trata este capítulo, requiere tener también conocimientos avanzados de estadística (análisis de la varianza, regresión múltiple, análisis factorial, etc.), así como conocimiento y manejo del software correspondiente. Actividades r En el Ejemplo 9.1 el test con mayor validez empírica muestra la menor validez desatenuada. ¿Cómo se puede explicar esta aparente contradicción? r En ese mismo Ejemplo 9.1, ¿se debe aceptar el test A3 como predictor sin hacer más consideraciones? Obsérvese la cuantía de su fiabilidad. r Las variaciones teóricas de la validez cuando se aumenta o se disminuye la longitud se pueden representar gráficamente. Hágase la representación de esas variaciones con los datos de la Tabla 9.2. Se recomienda expresar la validez (en ordenadas) en función de k (en abscisas). 266 Principios de Psicometría r Piense en algún criterio y en un predictor de los que pueda fácilmente obtener mediciones (por ejemplo, un estudiante puede administrar una prueba de razonamiento abstracto a sus compañeros para la predicción de sus calificaciones en psicometría). Estudie la validez de las predicciones. r Realice la práctica anterior considerando al menos la inclusión de otro predictor. r Construya una matriz multimétodo-multirrasgo (a partir de sus propias observaciones si le resulta posible) y discuta el significado de cada uno de los valores o conjuntos de valores de esa matriz, en relación con los rasgos que haya considerado y los métodos que haya propuesto. r A partir de algún test (cuestionario o inventario) que contenga varias escalas y cuyo uso esté generalizado, discuta los aspectos más relevantes de la validez de su estructura interna. r Con los datos provenientes de la aplicación de un test que contenga varias subescalas (si no dispone de los datos de un gran número de personas, puede simularlos), aplique las técnicas de análisis factorial para comprobar si sus datos reconfirman la estructura interna de ese test. (Recuerde que la identificación del modelo, la estimación de los parámetros, etc. puede realizarlos con LISREL). Discuta los resultados en relación con los supuestos teóricos sobre la estructura interna de ese test. La validez Coeficiente de validez y toma de decisiones 10 El coeficiente de validez, definido como coeficiente de correlación lineal entre un predictor y un determinado criterio, no da suficiente información para tomar decisiones en muchas de las situaciones de la vida real. Cuanto mayor sea el coeficiente, mayor será la relación entre el test y el criterio, pero se les plantean todavía diversos interrogantes a quienes tienen que tomar decisiones basándose en este coeficiente. Por ejemplo, en selección de personal puede plantearse, entre otras cuestiones, cuál es la probabilidad de que los seleccionados tengan después un buen rendimiento, aunque el coeficiente de validez del test sea elevado y se haya elegido a aquellos aspirantes que tienen las puntuaciones más altas en ese test. En este capítulo se va a tratar: ã Una primera aproximación a cómo discernir si un test puede ser o no útil para realizar un diagnóstico. ã Distintos tipos de errores que se pueden cometer en la toma de decisiones. ã Los conceptos de sensibilidad y especificidad de las pruebas, así como algunas de sus aplicaciones al diagnóstico. ã Algunos procedimientos en los que el coeficiente de validez se toma como punto de partida para tomar decisiones en la vida real, hacer predicciones y evaluar sus efectos. m10.1. Detección, clasificación y diagnósticom Las relaciones entre el test predictor y el criterio se utilizan a menudo para hacer clasificaciones y tomar decisiones. Por ejemplo, una determinada universidad tiene esta- 268 Principios de Psicometría blecido que se admitirá a un estudiante sólo si supera el valor de corte. Esto quiere decir que el criterio de admisión está dicotomizado. Situaciones similares son, por ejemplo, ser o no seleccionado para un puesto de trabajo, o si se posee o no un rasgo en cierto grado, o cuando se toman decisiones de si un paciente presenta o no una determinada patología (admitido versus no admitido, éxito versus fracaso, patológico versus no patológico, etc.). Lo que se está suponiendo es que se establecen dos categorías y un valor de corte, de manera que aquellos que obtengan ese valor de corte o superior, se clasifican en una de las categorías y el resto en la otra. Si se utiliza un test (o una batería de tests cuya puntuación total sea X) para hacer esas clasificaciones en relación con un criterio, ese test será tanto mejor como predictor, cuanto mayor sea el número de sujetos que se clasifiquen correctamente. Para N predicciones los resultados se pueden presentar en una tabla de contingencia 2 × 2, como en la 10.1. Tabla 10.1. Tabla de contingencia. Resultado predicho mediante el test Situación real (criterio) Total éxito fracaso Total éxito fracaso a c b d a+b c+d a+c b+d a+b+c+d=N En las predicciones del test, como se observa en la Tabla 10.1, se pueden distinguir dos tipos de aciertos, en cuanto a que son coincidentes con las observaciones o situación real (criterio). Los aciertos son los casos “a” en los que se predice correctamente que habrá éxito, a los que se denomina verdaderos positivos y también los casos “d” en los que se predice correctamente que no habrá éxito, o sea, que habrá fracaso y se los denomina verdaderos negativos. Por lo tanto, el número total de predicciones que coinciden con el criterio es a + d, siendo c + b el número de las que no coinciden. Es decir, a + d es el número de casos correctamente predichos por el test, siendo c + b el número de errores que se han cometido en la predicción de N casos. Como N variará de una ocasión a otra, parece razonable que se den valores relativos de esas cantidades, a las que se denomina tasas. Capítulo 10. Validez: Clasificación y diagnóstico 269 Se denomina tasa de aciertos al porcentaje de predicciones correctas, esto es, a la relación (a + d)/N expresada en porcentajes, a la que suele denominarse eficacia del test. Para la interpretación de la tasa de aciertos, se introduce otro concepto y es el de tasa base. Se denomina así a la mejor tasa de aciertos que se haya obtenido mediante otro test u otros procedimientos alternativos. Si la tasa de aciertos hallada con el test X que se está utilizando es alta, pero inferior a la tasa base, entonces no se considera que ese test sea un buen predictor, aun cuando la tasa base se haya establecido por la simple observación y contabilización de casos. Esto suele suceder, por ejemplo, en la predicción de casos raros, en los que la tasa base de aciertos suele ser muy alta y no es fácil encontrar un test que pueda superar esa tasa base. Por lo tanto, no toda la discusión cabe hacerla basándose sólo en la tasa de aciertos, pues puede que esa información no sea suficiente para sustentar la toma de decisiones. En la Tabla 10.1 se observa que se pueden cometer dos tipos de errores que son distinguibles (los casos b y los c). Sin embargo, al calcular la tasa de aciertos, y de forma similar la de errores, ambos tipos de errores se han considerado hasta ahora equivalentes, al menos implícitamente, pues no se ha hecho aún mención a sus posibles diferencias, ni distinción alguna entre ellos. Los casos b son falsos negativos, pues el test les pronostica fracaso y sin embargo entran en la categoría de éxito en el criterio. Los casos c son falsos positivos, pues el test les pronostica éxito y sin embargo no pertenecen a esa categoría. Examinando el significado de los dos tipos de errores es obvio que en la mayoría de las situaciones reales ambos tipos de errores no tienen la misma importancia y que hay situaciones en las que las consecuencias derivadas de un tipo determinado de error pueden ser graves. Por ejemplo, en el diagnóstico de enfermedades o de ciertas patologías cuya detección conduce a la aplicación inmediata de una determinada terapia. La comisión de errores como los c llevará a que, a individuos que no padezcan la enfermedad, se les someta a la terapia, en tanto que otros que la padecen (falsos negativos) estarán privados de ella. La gravedad de uno u otro error habría que juzgarla en cada caso concreto y el experto debe tenerlo muy en cuenta al fijar el punto o valor de corte para la toma de sus decisiones. También debe conocer y tomar en consideración la precisión (fiabilidad) de las pruebas que está administrando. Además, ese valor de corte no se debe dar nunca como definitivo, sino que hay que revisarlo periódicamente a la vista de nuevas evidencias. Quienes tienen que tomar este tipo de decisiones pueden también usar la teoría de la utilidad y otras técnicas específicas dirigidas a mejorar sus decisiones. 270 Principios de Psicometría Ejemplo 10.1 Tras aplicar un test de agresividad a 200 personas y observar posteriormente su conducta, se obtienen los datos de la Tabla 10.2. ¿Cuál es la tasa de aciertos? Tabla 10.2. Datos obtenidos al aplicar el test. Resultado predicho mediante el test Total Agresivo No agresivo Situación real Agresivo (criterio) No agresivo 100 10 20 70 120 80 Total 110 90 200 Hay un total de 170 aciertos (los 100 casos positivos y los 70 negativos) entre los 200 observados. Por lo tanto, la tasa de aciertos es del 85%, que parece relativamente alta. Entonces la siguiente pregunta a la que habría que responder es ¿se puede admitir en la práctica que ese test es un buen predictor? Otra forma de enfocar este tema es abordarlo como el análisis de las medidas de asociación entre dos variables, la del test predictor y la del criterio (Santisteban, 1999). Los análisis son similares aunque con una perspectiva a veces ligeramente distinta en el significado de los datos (e.g., diagnóstico positivo o negativo frente a presencia o ausencia de factor de riesgo), que está ampliamente tratada en epidemiología y ciencias de la salud, en especial en el diagnóstico clínico. Sensibilidad y especificidad El efecto que tiene en la práctica el uso de un test específico también se puede evaluar analizando su sensibilidad y especificidad. Estos dos conceptos están asociados a la potencialidad del test en cuanto a realizar una correcta identificación de los casos cuando éstos se deben asignar a una de dos categorías. 271 Capítulo 10. Validez: Clasificación y diagnóstico La sensibilidad se define como la relación a/(a + b). Es la fracción de verdaderos positivos (FVP), que refiere el número de éxitos o positivos predichos acertadamente por el test en relación con el total de verdaderos positivos, es decir, en relación con los verdaderos positivos predichos por el test más los “b” que el test ha sido incapaz de predecir. Por lo tanto, la sensibilidad refleja la capacidad que tiene el test para identificar correctamente los casos positivos. La especificidad se define como la relación d/(c + d), que es complementaria con la fracción de falsos positivos (FFP). A esta relación se la denomina fracción de falsos negativos e indica el número de verdaderos negativos (fracasos) “d” en relación con el número total de casos negativos reales, tanto los que predice adecuadamente el test, “d”, como los que no predice, “c”. Por lo tanto, se llama especificidad a la capacidad del test para identificar correctamente los fracasos o casos negativos. En relación con estos datos se puede valorar el valor predictivo del test en relación con el diagnóstico, tanto de casos positivos como de negativos. A continuación se resumen las expresiones correspondientes a estas relaciones: Sensibilidad = a a+b Especificidad = Eficacia = (10.1) d c+d (10.2) a +d a +b+c+d (10.3) Valor predictivo para casos positivos = a a +c (10.4) Valor predictivo para casos negativos = d b+d (10.5) Ejemplo 10.2 Supóngase que un test dirigido a detectar la presencia o no de una determinada patología se administra a 100 personas y que se obtienen los resultados que se dan en la Tabla 10.3. Las categorías se han etiquetado como Sí y No, indicando la presencia o ausencia de la patología. 272 Principios de Psicometría Tabla 10.3. Presencia y ausencia de patología observada y diagnosticada por el test. Resultado predicho mediante el test Situación real Sí No Total Total Sí No 8 12 2 78 10 90 20 80 100 El número total de casos con patología son 10 y sin patología son 90, pudiéndose observar que: – – – – – los casos de verdaderos positivos son a = 8 los verdaderos negativos son d = 78 falsos positivos hay c = 12 falsos negativos hay b = 2 La sensibilidad o FVP, la especificidad y la eficacia son: FVP = Sensibilidad = a 8 = = 0.80 a + b 10 1− FFP = Especificidad = Eficacia = d 78 = = 0.87 c + d 90 a+d 86 = = 0.86 a + b + c + d 100 La especificidad es complementaria a la fracción de falsos positivos (FFP), que es el cociente entre c y (c + d). Por lo tanto FFP = 1 – especificidad = 0.13. El valor predictivo del test en relación con su diagnóstico es: Valor predictivo para casos positivos: a 8 = = 0.40 a + c 20 Valor predictivo para casos negativos: d 78 = = 0.975 b + d 80 Capítulo 10. Validez: Clasificación y diagnóstico 273 A la vista de estos resultados se puede decir que la especificidad de ese test es mayor que su sensibilidad y que, por lo tanto, tiene un valor predictivo de negativos mayor que de positivos. Otro valor que puede derivarse de estos datos es una primera estimación de la tasa base, que podría fijarse en 10/100 = 0.10, pues hay 10 casos (con patología) en los 100 estudiados. Curvas ROC La limitación fundamental del enfoque hasta ahora expuesto estriba en la exigencia del carácter dicotómico de la respuesta del test, que no permite estudiar casos en los que las respuestas se dan como una variable continua o discreta multicategórica. Sin embargo, aunque la variable no sea dicotómica se puede dicotomizar utilizando un valor de corte (nivel de decisión o umbral) y estudiar las tasas de éxito (FVP) frente a la de falsas alarmas (FFP) al variar ese punto de corte, o umbral de detección. Este procedimiento es la base del análisis mediante las curvas ROC (Receiver Operating Characteristic Curves) que se desarrollaron para la adecuada detección de señales de radar y posteriormente se aplicaron en psicofísica, siendo hoy en día muy utilizadas en diagnóstico clínico, y en general, en todas aquellas situaciones en las que hay que clasificar como señales los resultados obtenidos con unas determinadas medidas físicas o con mediciones psicológicas (distinguiéndolas de todo aquello que las acompaña pero que no es señal, o sea, del ruido). Esto representa que hay que discriminar entre los verdaderos positivos (señales) y los falsos positivos (ruido). Para entender el fundamento de las curvas ROC supóngase que en el criterio (situación real) las probabilidades de tener éxito y fracaso están dadas por dos curvas normales como las de la Figura 10.1, en la que la media de la variable x es superior para los éxitos que para los fracasos. Hay una zona de valores en que ambas curvas se solapan y es donde se cometen errores. El problema es dónde se pone el punto de corte para separar los éxitos de los fracasos optimizando el resultado, pues si este valor está muy a la derecha bastantes éxitos se contabilizarán como fracasos. Si se pone muy a la izquierda, se estarán contando como éxitos algunos fracasos. La solución no está en igualar el número de errores de uno u otro tipo, pues dependiendo de cada caso en particular hay que optimizar o la FVP o la FFP. 274 Principios de Psicometría Figura 10.1. Distribuciones hipotéticas de los resultados de aplicar un test a una gran población. La variable X que evalúa la respuesta se supone que es continua. Si se elige un valor, digamos x0, al que a partir de ahora llamaremos valor de corte se tiene que: La FVP o sensibilidad será el área bajo la curva de éxito a la derecha de ese valor de corte (áreas sombreadas clara y oscura). La FFP (1 – especificidad) será el área bajo la curva de fracasos a la derecha de dicho valor de corte (área sombreada oscura). Si se va cambiando el punto de corte, por ejemplo a la derecha de x0 tanto la FVP como la FFP disminuyen, es decir, aumenta la especificidad. Si por el contrario el punto de corte se sitúa a la izquierda de x0, por ejemplo en x1, la FVP aumenta (casi a uno) y la FFP también aumenta, por lo que la especificidad disminuye. La curva ROC se obtiene representando en ordenadas los valores de FVP y en abscisas los de FFP para distintos valores de corte. El valor de corte x0 de la Figura 10.1 se corresponde con el punto representado con un rombo en la Figura 10.2. Para otros valores de corte se obtienen otras parejas de valores FVP, FFP, que como ya se ha dicho al representarlas, dan la curva A de la Figura 10.2, a la que se denomina curva ROC. Por lo tanto, se puede decir que una curva ROC es la representación gráfica de la sensibilidad frente a la diferencia a uno de la especificidad, es decir, de la fracción de verdaderos positivos frente a la de falsos positivos (FVP en ordenadas y FFP en abscisas). En la Figura 10.2 se dan como ejemplo dos hipotéticas curvas ROC obtenidas al aplicar dos tests, en las que se han considerado todos los posibles valores de corte. Estas curvas ROC proporcionan una representación de la exactitud alcanzada por cada test, reflejando el compromiso entre sensibilidad y especifi- Capítulo 10. Validez: Clasificación y diagnóstico 275 Figura 10.2. Curvas ROC de los tests A y B. cidad. Si se modifica el valor de corte para aumentar la sensibilidad, sólo puede hacerse a expensas de disminuir al mismo tiempo la especificidad. La diagonal principal también representada en la Figura 10.2 corresponde a la siguiente igualdad: FVP = FFP, o sea, sensibilidad = 1 – especificidad para cualquier valor de corte. verdaderos positivos (a ) total positivos (a + b) = falsos positivos (c) total negativos (c + d) Esta igualdad solamente se cumple si a d = b c, es decir, si los aciertos y desaciertos (en relación con el total de éxitos y fracasos) son iguales, con independencia del valor de corte utilizado, es decir son aleatorios. La exactitud del test aumentará a medida que la curva se aleja de la diagonal hacia el vértice superior izquierdo. Si la discriminación fuese perfecta (100% de sensibilidad y 100% de especificidad) la curva pasaría por ese punto (FFP = 0, FVP = 1). Así la curva A indica que es preferible utilizar este test que el que conduce a la curva B. La cuestión crítica es definir en cada caso “el valor de corte” 276 Principios de Psicometría más conveniente dependiendo del tipo de problema que se vaya a diagnosticar, es decir, cuanto se puede aumentar la sensibilidad a costa de la especificidad. Por otro lado, las curvas ROC dadas en la Figura 10.2 son ideales, y se alejan de los casos reales por varias razones: las poblaciones en las que se determina el número de éxitos y fracasos son usualmente pequeñas, pudiendo o no representar adecuadamente a la población total, las distribuciones que hemos supuesto normales usualmente se desconocen y la variable X no es continua (por ejemplo, cuando se usa una escala de Likert con 3 o 5 posibles alternativas para la respuesta). Estos problemas se pueden abordar utilizando los paquetes de software libre o comercial. Por ejemplo, el software que proporciona el paquete SPSS para estos análisis, obtiene los pares de valores de los puntos de cada curva ROC, así como el correspondiente gráfico. Esto permite hacer comparaciones rápidas entre diferentes curvas, ya que la capacidad predictiva de una curva se visualiza por su alejamiento de la diagonal principal. m10.2. Interpretaciones y uso práctico del coeficiente de validezm La correlación entre el test y la variable criterio se puede tomar como punto de partida para la toma de decisiones en la vida real. Al respecto se han diseñado varios procedimientos que utilizan el coeficiente de validez para tomar decisiones, hacer predicciones y evaluar sus efectos en la práctica. Entre ellos, expondremos brevemente dos de los más conocidos, el BESD y las tablas de TaylorRusell. BESD El BESD (de sus siglas en inglés, Binomial Effect Size Display) está diseñado para ilustrar cuáles son las consecuencias que en la práctica puede tener tomar decisiones basadas en el coeficiente de validez. Ha sido descrito (Rosenthal y Rubin, 1979, 1982; Rosenthal, 1990; Rosenthal y Rosnow, 2008) como un método de fácil comprensión y con el que, utilizando cálculos muy simples, se puede poner de manifiesto el tamaño del efecto de una variable independiente sobre la tasa de éxito, o de mejora en la variable criterio. Este efecto se expresa como un cambio desde un porcentaje (0.50 – ρ / 2) a otro porcentaje (0.50 + ρ / 2), donde 277 Capítulo 10. Validez: Clasificación y diagnóstico ρ representa el coeficiente de correlación entre la variable dependiente (predictora) y la variable criterio. El método se basa en la clasificación de los participantes en dos categorías, tanto en el predictor (puntuaciones altas y bajas en el test) como en el criterio (buena y mala ejecución en la tarea) y en la utilización del coeficiente de correlación entre el test y el criterio para estimar el número de personas que podrían estar en cada una de esas categorías. Este procedimiento se ha diseñado bajo el supuesto de que hay dos grupos de igual tamaño y que la tasa de éxito es binomial con p = 0.50. Esto es, en un grupo de 200 personas 100 obtienen puntuaciones altas o muy altas en el test y las que obtienen las otras 100 personas son relativamente bajas. La pregunta es ¿cuántas personas que tienen puntuaciones altas y cuántas de las que tienen puntuaciones bajas tendrán una buena ejecución en el criterio? Para dar la respuesta, el BESD usa el coeficiente de validez, φ, obtenido mediante la ecuación: φ= (a d) − (bc) (a + b) (a + c) (c + d) (b + d) (10.6) donde a, b, c y d tienen el mismo significado que el dado en la Tabla 10.1. El caso más desfavorable que se podría contemplar es cuando el coeficiente de validez fuese cero, es decir, que no hubiese correlación entre el test y el criterio. En este caso, quien tenga que tomar las decisiones basándose en un test que le lleva a obtener una información como la dada en la Tabla 10.4, lógicamente desechará ese test pues ¿qué puede deducirse de esta tabla que sea diferente a clasificar a una persona en una categoría u otra por puro azar? Tabla 10.4. Ejemplo de BESD con una correlación ρ = 0. Puntuación en el test Ejecución en la tarea Total Buena Pobre Alta Baja 50 50 50 50 100 100 Total 100 100 200 278 Principios de Psicometría Por lo tanto, se supone que el coeficiente de validez ρ, o bien φ, son diferentes de cero, y el procedimiento que se sigue es el que se da en la Tabla 10.5. Tabla 10.5. Tabla estándar de BESD. Condiciones: Puntuación en el test Fracaso Éxito Total Alta Baja 100 (0.50 + φ/2) 100 (0.50 – φ/2) 100 (0.50 – φ/2) 100 (0.50 + φ/2) 100 100 Total 100 100 200 Las principales limitaciones del BESD provienen de que los grupos con puntuaciones altas y bajas (o grupos tratamiento y control cuando se trate de tests clínicos) deben ser de igual tamaño. Además, tampoco parece que se ajuste a la realidad considerar que la tasa de éxito sea del 50%, o sea, suponer que la mitad de la muestra tendrá éxito en el criterio y la otra mitad no. Por ello, aunque es un procedimiento muy intuitivo, algunos autores han criticado su uso (Hsu, 2004). No obstante, este método se utiliza en el cálculo del tamaño del efecto y es útil si no se violan sus supuestos. Presentaremos un ejemplo para ilustrar cómo este método puede ser útil, siendo importante la información que aportan incluso coeficientes de validez relativamente bajos. Ejemplo 10.3 ¿Qué podría decidir el director de recursos humanos con respecto a la contratación de personal para su empresa si la correlación entre el test que ha utilizado en su empresa para la selección y el criterio es de ρ = 0.60? Aplicando el procedimiento de la Tabla 10.5, se obtienen los valores dados en la Tabla 10.6: Según este procedimiento, se predice que 80 personas con puntuaciones bajas en el test no tendrán éxito, y que 80 con altas puntuaciones sí lo tendrán. 279 Capítulo 10. Validez: Clasificación y diagnóstico Tabla 10.6. Resultados BESD con ρ = 0.60. Puntuación en el test Ejecución en la tarea Total Buena Pobre Alta Baja 80 20 20 80 100 100 Total 100 100 200 Si el director de recursos humanos decide contratar a aquellos que tuvieran altas puntuaciones, puede esperar que el 80% de ellos tendrán éxito en el trabajo para el que se les contrata, lo que no parece un mal porcentaje, incluso es muy bueno si se puede permitir, dependiendo de las posibilidades de la empresa y del coste de hacer la selección definitiva después de un período de prueba o de entrenamiento. Si hubiese utilizado un test con mayor validez, ρ = 0.80 por ejemplo, el porcentaje de éxitos entre los seleccionados con las mejores puntuaciones subiría al 90%. No obstante, el director de recursos humanos puede ser que sólo pueda contratar al 10% de los aspirantes, y no al 50%. En este caso, sería más apropiado que acudiese a otro procedimiento, por ejemplo, que hiciese uso de las tablas de Taylor-Russell, aunque también en este método, tanto el predictor (test) como el criterio se tratan como variables dicotómicas. Tablas de Taylor-Russell En los párrafos anteriores se ha visto que, para aceptar que un test es válido para la toma de decisiones en relación con un criterio dicotomizado, hay que evaluar la tasa de aciertos que se obtiene con ese test en relación con la tasa base, si se dispone de ella y que en muchos casos el coeficiente de validez de una prueba no es suficiente para tomar decisiones en relación con un criterio. Para ilustrarlo, situémonos en un caso de toma de decisiones en un proceso de selección de personal. En este contexto, quien tiene que tomar las decisiones, no solamente tendrá en cuenta el valor predictivo del test y su coeficiente de validez, sino también el porcentaje de solicitantes que puede admitir y las evidencias obtenidas mediante la aplicación de otras pruebas (por otros analistas o por él mismo), o por su propia experiencia desempeñando el cargo. Un método que aúna estas informa- 280 Principios de Psicometría ciones lo proporcionan las tablas de Taylor-Russell (1939), que son tan útiles como sencillas de manejar y que han sido un antecedente de estudios posteriores realizados desde el punto de vista de la teoría de la decisión. Estas tablas permiten conocer la ganancia neta en la selección que es atribuible al test, teniendo en cuenta la tasa base y la razón de selección. Los valores que aparecen en estas tablas indican la proporción de personas que tendrán éxito, si para la predicción se hace uso de las pruebas. En esas tablas se consideran distintos aspectos, cuya información hay que tener disponible para usarlas. Hay que conocer: – El coeficiente de validez. – La razón de selección, que es la proporción de solicitantes que se debe aceptar o que se van a contratar, etc. – La tasa base, que es la proporción de éxitos de la que se tiene conocimiento, habiéndose obtenido esa información por medios diferentes al uso de ese test. Al depender las proporciones estimadas de éxitos que dan las tablas de estos tres indicadores, cualquier cambio en alguno de ellos alterará la eficacia con la que se hacen esos pronósticos. Las tablas de Taylor-Russell son de doble entrada y hay una tabla para cada tasa base que se considera. Las entradas de cada una de estas tablas son, por un lado, diferentes razones de selección (0.05, 0.10, 0.20, 0.30, 0.40, 0.50, 0.60, 0.70, 0.80, 0.90, 0.95) y por la otra 21 valores diferentes de validez, dados de cinco en cinco centésimas y ordenados en orden creciente, desde el valor del coeficiente ρ = 0.00 hasta el valor 1.00. En el cuerpo de la tabla, para una determinada tasa base, se da la proporción de personas seleccionadas que se considera que tendrán éxito, de acuerdo con esos pares de valores de entrada (el coeficiente de validez de la prueba y la razón de selección). La mejor forma de comprender su sentido y utilidad es haciendo uso de alguna de esas tablas. Por ello, con el fin de poder ilustrar tanto los datos de sus contenidos como su significado e interpretación, en la Tabla 10.7 se da una versión simplificada de una de esas tablas. En la práctica se debe tener disponible no una sola, sino todas las tablas. Un conjunto completo de ellas se pueden encontrar en otras fuentes, además de las tablas originales, que se dan y se discuten en el artículo publicado por los autores (Taylor-Russell, 1939). 281 Capítulo 10. Validez: Clasificación y diagnóstico Tabla 10.7. Valores de la proporción de éxitos esperados para algunos valores de la razón de selección y del coeficiente de validez de la prueba, en el caso particular de que sea 0.60 la tasa base. Razón de selección Validez 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.80 0.90 0.95 1.00 0.05 0.10 0.30 0.50 0.70 0.90 0.95 0.60 0.68 0.75 0.82 0.88 0.93 0.96 1.00 1.00 1.00 1.00 0.60 0.67 0.73 0.79 0.85 0.90 0.94 0.99 1.00 1.00 1.00 0.60 0.65 0.69 0.73 0.78 0.82 0.87 0.95 0.99 1.00 1.00 0.60 0.63 0.66 0.69 0.73 0.76 0.80 0.88 0.94 0.97 1.00 0.60 0.62 0.64 0.66 0.68 0.70 0.73 0.78 0.82 0.84 0.86 0.60 0.61 0.62 0.62 0.63 0.64 0.65 0.66 0.67 0.67 0.67 0.60 0.60 0.61 0.61 0.62 0.62 0.63 0.63 0.63 0.63 0.63 Si la validez del test es 0.80 y se seleccionan el 30% de los aspirantes se espera, según la Tabla 10.7, que el 95% de los seleccionados tengan éxito. Para una tasa base y validez dadas, la discusión sobre la información que proporcionan las tablas y la de su utilidad se centra en el porcentaje de personas que pueden admitirse, o contratarse, o sea, en la razón de selección. Si se va a admitir a la totalidad de los aspirantes, entonces no es necesario aplicar prueba alguna, ni por supuesto estudiar su validez. Aún más, si se van a seleccionar el 95% de los aspirantes, tampoco parece muy útil el uso del test, pues aun en el caso hipotético de que su validez fuese perfecta, con una tasa base de 0.60, el máximo rendimiento que se podría obtener es elevar el pronóstico del número de personas que tendrían éxito en un 3% (véanse los valores de la primera y última fila de la última columna). Por lo tanto, quienes tengan la responsabilidad de hacer la selección deberán valorar los costes en tiempo, recursos, etc. que suponen aplicar el test en relación con el aumento de la precisión en el pronóstico. Examinando detenidamente cada una de las tablas de Taylor-Russell se puede observar que al ir aumentando el valor de la validez del test crece la precisión 282 Principios de Psicometría en la predicción, y que a medida que crece la razón de selección, decrece la precisión de la predicción. Por lo tanto, cuando hay que hacer una selección para algún propósito determinado o contratar para un trabajo a un número elevado de personas, aunque la validez del test sea muy alta, las probabilidades de elegir a personas cuyo rendimiento no sea adecuado también son altas. Por el contrario, para una determinada tasa base, si la razón de selección es muy pequeña, un test, aun teniendo una validez baja, puede mejorar sustancialmente el resultado del proceso de decisión, ya que mediante ese test se seleccionará sólo a aquellos que obtengan puntuaciones muy elevadas. Cuadro 10.1 Según Cronbach, la validez no es el grado en que un test mide aquello que se pretende medir, sino que la validez se refiere a las propiedades de las inferencias que se pueden hacer con ese test. O sea, que la validez se refiere a la calidad de los juicios y de las decisiones que se toman basándose en las puntuaciones de ese test. Así, si el test se usa para contratar personal para un determinado trabajo, la validez del test se refiere al grado en que ese test es útil para tener éxito con esa contratación. En 1928, Hull dijo que con los tests psicológicos muy raramente se podrían hacer predicciones sobre el éxito en el desarrollo de una tarea (no se obtendría una correlación con el criterio mayor que 0.30). Con esto, lo que vino a decir es que los tests no son útiles en la selección de personal, porque no predicen bien el éxito o el buen rendimiento en aquellas tareas para las que se les selecciona. En su artículo, Taylor y Russell (1939) le contestaron a Hull que a veces los tests pueden ser muy útiles en la selección de personal, incluso cuando la correlación entre el test y el criterio no sea muy alta. A su vez, le señalaron que a veces los tests no son muy útiles para esos propósitos, aun cuando la correlación entre el test y el criterio sea alta. Decenas de años más tarde se puede afirmar que ese artículo ha sido uno de los más famosos en el ámbito de la psicología industrial y de las organizaciones y que en ese contexto las tablas de Taylor-Russell han alcanzado cotas de popularidad muy altas en la toma de decisiones en relación con la contratación y selección de personal. Capítulo 10. Validez: Clasificación y diagnóstico 283 Ejemplo 10.4 Supóngase que con una tasa base de 0.60 y con un test cuya validez es de 0.40 se han contratado 120 personas de un grupo de 400 aspirantes. ¿Cuántos de esos contratados se espera que rindan bien en su trabajo? En este caso, la razón de selección ha sido 120/400 = 0.30, y haciendo uso de la Tabla 10.7 se observa un valor de probabilidad de 0.78. Luego se espera que el 78% de los 120 contratados rinda bien en el trabajo, es decir, un número aproximado de 94 de ellos. Ejemplo 10.5 En otra empresa se juzga que es absolutamente necesario que al menos el 90% de los nuevos contratados den un buen rendimiento. Se conoce que es 0.60 la tasa base en ese puesto de trabajo. Además, visto el número de solicitantes, sólo pueden admitir al 10%, aunque el director de personal, por necesidades del servicio, está negociando la posibilidad de que se pudiera llegar a contratar hasta el 30%, si ello fuese posible, en cuyo caso, se le pide subir las exigencias y que al menos el 95% de los contratados diera un buen rendimiento. Para realizar la selección quieren ayudarse de un test. ¿Qué validez debe tener ese test para que se ajuste a esos requerimientos en cada uno de los casos? Si la razón de selección es 0.10, se observa en la Tabla 10.7 que la validez de ese test debe ser igual o superior a 0.50. En el caso en que la razón de selección pudiese alcanzar el valor de 0.30, con un porcentaje de éxitos igual o superior al 95%, el valor exigible para la validez es de al menos 0.80. Ejemplo 10.6 En un empleo en el que la tasa base es 0.60, se necesitan 40 personas que sean buenas trabajadoras. Para la selección se va a administrar a 100 aspirantes un test cuya validez es 0.60. ¿A cuántos aspirantes habría que contratar para asegurarse ese número necesario de buenos trabajadores? De acuerdo con la Tabla 10.7 habría que contratar a 50 aspirantes. En la Tabla 10.7 se pueden observar algunos datos que respaldan la respuesta que Taylor-Russell dieron a Hull (Cuadro 10.1) acerca de la relación entre la validez y la utilidad de los tests en selección. Si un director de personal debe con- 284 Principios de Psicometría tratar al 95% de los aspirantes, se puede esperar que un 37% de ellos no den buen rendimiento, aun cuando utilice para la selección un test con validez unidad. Sin embargo, si sólo contratara al 10%, es de esperar que el 100% de ellos diera un buen rendimiento, aun cuando la validez del test fuese algo inferior, por ejemplo, 0.90. Más aún, si con esa razón de selección quien tiene que tomar las decisiones usa un test cuya validez fuese mucho menor, por ejemplo sólo 0.40, todavía podría pronosticar un 85% en el porcentaje de éxitos. Las tablas de Taylor-Russell se pueden aplicar a multitud de situaciones en las que el criterio esté dicotomizado y se fije la razón de selección. Ejemplo 10.7 Un terapeuta puede establecer dos categorías de pacientes, los que mejoran sustancialmente y los que no. Sabe que su tasa base es de 0.60, ya que en su larga experiencia ha comprobado que alrededor del 60% de sus pacientes mejoran sustancialmente con la terapia. La demanda en su clínica es muy alta y no puede aceptar más que al 70% de los pacientes que lo solicitan. Si para admitir a los nuevos pacientes aplicara un test cuya validez fuese ρ = 0.80, entonces sería considerable el aumento de su proporción de éxitos, pues sería de 0.78, es decir un aumento de 0.18 sobre la tasa base. Considerando todas las posibilidades y las ventajas de su uso ¿por qué no se utilizan con mayor profusión estas tablas en algunos ámbitos, por ejemplo, en clínica? Porque uno de los mayores problemas de estas tablas es que no distinguen entre tipos de errores, como los que se han discutido a partir de la Tabla 10.1. Es decir, la selección que se puede hacer utilizando las tablas son estimaciones de las probabilidades de éxito de los seleccionados, pero nada se sabe de los no seleccionados ni de sus posibilidades de éxito. m10.3. Análisis de la utilidadm La validez, en el marco del análisis de la utilidad, se estudia en términos de coste y beneficio. Esto es, ¿cuánto se gana usando el test? ¿Cuál es el coste de incluir la aplicación de tests como parte del proceso de toma de decisiones? 285 Capítulo 10. Validez: Clasificación y diagnóstico Utilicemos un ejemplo muy simple de clasificación que tiene en la práctica consecuencias inmediatas. En una empresa hay que tomar decisiones sobre la contratación de personal. Los aspirantes se entrevistan con el dueño de la empresa y con el director de personal, quienes acuerdan de forma independiente que van a hacer la clasificación de los aspirantes en tres categorías: los que se contratarían directamente (categoría A), los que se rechazarían (categoría B) y los que se contratarían o no después de un período de prueba (categoría C). Una vez realizada la clasificación, cuyos resultados se presentan como Ejemplo 10.8, lo que en primer lugar hay que preguntarse es ¿cuál es el grado de coherencia, entre ambos? Si sus opiniones no son concordantes ¿deberían afrontar algunos costes y aplicar otras pruebas para tomar las decisiones? Por lo tanto, el análisis de la utilidad en estos contextos está relacionado con la forma de llevar a cabo los procesos de clasificación, que en la práctica se realizan por muchas vías. Formalmente se pueden abordar desde las técnicas estadísticas de análisis multivariante, como los análisis de cluster o el análisis discriminante en el que se pueden incluir los costes asociados a una mala clasificación, o mediante fórmulas muy simples sobre la coherencia entre decisores (jueces), como el coeficiente kappa. Cuadro 10.2 El coeficiente kappa, κ, se genera para tratar de evaluar la coherencia entre el diagnóstico que han emitido diferentes personas con los mismos datos, o las calificaciones dadas por diferentes jueces, o las obtenidas por diferentes métodos, etc. Es un coeficiente sencillo que puede ser negativo y cuyo límite superior es el valor uno. Se basa en el número total de casos analizados y en las frecuencias con las que se dan las coincidencias entre jueces. Parece lógico que cuando dos jueces analizan un número N de casos la proporción (o la frecuencia relativa) de coincidencias entre ellos supere aquella que podría esperarse por azar. Por lo tanto, si es N el número de casos analizados, fc la frecuencia (absoluta) de coincidencias observadas y f e la de coincidencias esperadas, el coeficiente kappa responde a la expresión: κ= fc − fe N − fe (10.7) 286 Principios de Psicometría Ejemplo 10.8 En el caso que nos ocupa, el empresario ha clasificado a 33, 45 y 42 personas respectivamente en las categorías A, B y C y el director de personal ha asignado 41, 45 y 34 personas en cada una de esas categorías. Calcule el valor del coeficiente kappa para estas clasificaciones. Tabla 10.8. Distribución de la clasificación de 120 aspirantes en tres categorías realizada por los dos jueces. Director de personal Totales Empresario A B C Totales A B C 15 10 16 8 25 12 10 10 14 33 45 42 41 45 34 120 La frecuencia total de coincidencias es fc= 15 + 25 + 14 = 54. Las frecuencias esperadas para las casillas (A, A), (B, B) y (C, C) son fAA = (33)(41) = 11; 120 fBB = (45)(45) = 17 ; 120 fCC = (34)(42) = 12 120 por lo que fe = 11 + 17 + 12 = 40. Haciendo uso de la ecuación (10.7): κ= 54 − 40 = 0.17 120 − 40 se obtiene un valor del coeficiente κ que indica que la concordancia entre ambos jueces es muy débil, aunque para ser rigurosos se debería contrastar estadísticamente si ese valor es significativamente diferente de cero. Aun cuando este método sólo proporciona información sobre la coherencia entre jueces en cuanto al número de clasificados, en la literatura se pueden encontrar muchos otros índices obtenidos por diversos procedimientos estadísticos para Capítulo 10. Validez: Clasificación y diagnóstico 287 evaluar el grado de acuerdo entre jueces u observadores. Los resultados del Ejemplo 10.8 pueden ser un buen argumento para valorar la utilidad de administrar pruebas específicas que ayudarán a esos empresarios en su toma de decisiones. La utilidad también se puede evaluar en relación con las decisiones derivadas de las tablas de Taylor-Russell, como propusieron los propios autores. La cuestión clave aquí es cuál es la mejor estrategia para aumentar la utilidad, ya que la tasa de éxitos se puede incrementar aumentando el coeficiente de validez, aumentando la tasa base y/o disminuyendo la razón de selección. El estudio de la utilidad lo hacen expertos, basándose en un modelo de utilidad y asignando valores monetarios a diferentes aspectos del proceso de toma de decisiones. Se estima, por una parte, el beneficio económico que conlleva tomar decisiones utilizando el test frente a no utilizarlo, pues el uso del test puede aumentar el porcentaje de éxito entre los seleccionados. Por otra parte, se valora el coste añadido que conlleva utilizar tests en el proceso. Es decir, el coste en términos monetarios de su adquisición, administración, la valoración e interpretación de las puntuaciones, etc., para lo que se requiere también contratar personal especializado en esas tareas, así como los costes en tiempo que lleva la realización de todo ese proceso. Desde una perspectiva economicista, el empleador puede valorar la relación coste-beneficio al utilizar unos u otros procedimientos en la toma de decisiones y asumir o no los posibles riesgos de contratar un número mayor o menor de personas no idóneas para el puesto de trabajo. Para el aspirante, los costes de la no distinción entre errores (falsos positivos y falsos negativos), como sucede por ejemplo con el uso de las tablas de TaylorRussell, pueden ser muy elevados, pues puede verse rechazado para cursar estudios en una universidad o para un puesto de trabajo, aun teniendo las condiciones necesarias para acceder a ello. En la teoría de la utilidad se pueden proponer diferentes estrategias. Una muy simple es estimar las probabilidades p i de cada una de las n posibilidades o alternativas que se van a considerar (Σ p i = 1), asignarles un valor de utilidad esperada ui a cada una de ellas y calcular la utilidad esperada U como la suma: U = ∑ pi u i n i=1 con lo que se pueden comparar valores bajo diferentes supuestos. (10.8) 288 Principios de Psicometría Ejemplo 10.9 Siguiendo la estrategia que se presenta en la Figura 10.3, se desea conocer la utilidad esperada con los datos presentados en el Ejemplo 10.3 (Tabla 10.6). Figura 10.3. Utilidades en una toma de decisión. Se considerarán las proporciones de cada casilla como sus probabilidades esperadas, siendo la utilidad esperada: U = 0.80 + 0.20 (– 0.75) + 0.80 (0.90) + 0.20 (– 0.50) = 1.27 Obsérvese que para quienes toman la decisión los errores son distinguibles y no se les asigna el mismo peso, considerando en este caso mayor el de los falsos positivos que el de los falsos negativos, pero en otros supuestos podría ser al contrario, que fuese mucho más grave (mayor pérdida) rechazar a un idóneo (o diagnosticar como negativo a uno que sea positivo), que admitir a uno que no lo sea. Las estrategias para calcular la utilidad esperada dependen de los objetivos, de las posibilidades y de las condiciones concretas en las que se lleva a cabo la selección en cada caso. Por ejemplo, una estrategia de clasificación previa en tres categorías similar a la del Ejemplo 10.8, pero basándose en las puntuaciones de los aspirantes en pruebas específicas, requeriría que se actuara en dos fases y la aplicación de al menos dos tests. Aquí se trataría de aplicar una prueba y fijar los puntos de Capítulo 10. Validez: Clasificación y diagnóstico 289 corte con mucha rigurosidad. Decidir sobre aquellos que obtengan las puntuaciones extremas, aceptándolos en un caso y rechazándolos en el otro. A todos aquellos que estaban dudosos, se les aplica una nueva prueba, se fijan los valores de corte y se aceptan o rechazan de acuerdo con las puntuaciones en esa nueva prueba. Esta forma secuencial de actuar puede estructurarse en dos o más pasos y suele ser una estrategia común en la evaluación del rendimiento escolar y en empleos en los que antes de la contratación se exige un tiempo de prueba o de aprendizaje. Las estrategias en el planteamiento y los procedimientos para el cálculo de la utilidad usando tests se basan en la teoría de la utilidad propuesta por Von Neumann y Morgenstern (1944) cuyo cuerpo teórico e implicaciones prácticas en el caso de la toma de decisiones bajo riesgo constituyen por sí solas una disciplina (para ver la axiomática y su tratamiento consúltense Von Neumann y Morgenstern, 1944; Luce y Raiffa, 1957; Fishburn, 1964, 1970). El breve apunte que se da en este texto cumple dos objetivos, por un lado, dar a conocer una vertiente importante en las aplicaciones y por otro, poner una vez más de manifiesto que en la toma de decisiones, aun haciendo uso de los tests psicométricos, no es sólo el coeficiente de validez del test lo que se tiene en cuenta. De hecho, se pueden encontrar en la literatura numerosos tratados (e.g., Cronbach y Gleser, 1965; Wiggins, 1988; Vance y Colella, 1990) sobre las implicaciones que tiene el uso de las pruebas psicométricas en la toma de decisiones. Los valores de la utilidad esperada no dan por sí mismos mayor información si no se los compara con algún valor de referencia. Usualmente se usan para comparar diversos métodos o estrategias. El método de selección o el procedimiento que produzca la mayor utilidad esperada es el que se considera el mejor. Ejemplo 10.10 Se han considerado dos posibles métodos de selección, el método A con el que se obtienen las probabilidades de 0.19, 0.10, 0.15 y 0.56 para verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos respectivamente, y el método B con el que esas probabilidades son: 0.20, 0.18, 0.28 y 0.34. Las utilidades de los diferentes resultados de la selección (verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos) son, respectivamente, 1, – 0.40, – 0.20 y 0.30. Aplicando la expresión (10.8) se obtienen las siguientes utilidades esperadas: uA = 0.288 y uB = 0.174, lo que llevaría a la elección del método A, que es el que produce mayor utilidad esperada. 290 Principios de Psicometría Usualmente la parte que entraña mayor dificultad es la asignación de las utilidades asociadas a las distintas posibilidades. Esta asignación no es una cuestión que se pueda resolver directamente mediante algún procedimiento estadístico, sino que es un problema que deben resolver conjuntamente los técnicos (psicómetras, estadísticos) y los profesionales de aquellos sectores que se van a ver influenciados por los resultados de esas decisiones (psicólogos, educadores, empresarios, etc.), no debiéndose dejar estas asignaciones exclusivamente en manos de aquellos que administran las pruebas. Puntos clave 3 3 3 3 3 3 3 3 3 3 El que el coeficiente de validez entre un test y el criterio sea elevado, no siempre es suficiente para asegurarse el éxito en las predicciones. La terminología usual para denominar a los casos en los que se confirman o no las predicciones del test es verdaderos y falsos positivos y verdaderos y falsos negativos. A la capacidad de un test para identificar correctamente los verdaderos positivos se le llama sensibilidad y se evalúa mediante la fracción de verdaderos positivos. A la capacidad del test para identificar los verdaderos negativos se le denomina especificidad. La eficacia del test se evalúa por el cociente entre el total de aciertos (verdaderos positivos más verdaderos negativos) y el total de casos clasificados. Las curvas ROC se utilizan tratando de optimizar una solución en la que se busca un compromiso entre las tasas de falsos y verdaderos positivos. El tamaño de los efectos asociados a algunos experimentos se puede calcular mediante el método BESD, aunque sólo son útiles con datos presentados en tablas 2 × 2 donde el coeficiente φ calculado con esos datos se emplea como el índice del tamaño del efecto. Las tablas de Taylor-Rusell pueden ser de mucha utilidad en algunos procesos de selección de personal. El coeficiente de validez no es el dato definitivo para realizar una buena elección utilizando un test. La influencia de factores como la razón de selección y la tasa base se puede comprobar usando las tablas de Taylor-Rusell. La optimización de las decisiones requiere que en el estudio de los procesos de decisión y de su validez se examinen los posibles problemas de clasificación y coherencia entre los posibles decisores y el análisis de la utilidad esperada en relación con las predicciones. Capítulo 10. Validez: Clasificación y diagnóstico 291 Actividades r Con los datos de la Tabla 10.2, calcule las diferentes tasas y comente si ese test se puede considerar un buen predictor de la agresividad. r Considerando algunas situaciones de la vida real, discuta la diferencia entre tipos de errores y la importancia de sus consecuencias. r En los casos que antes ha considerado ¿qué papel juega el test predictor y su validez? r Haga un supuesto donde considere que es útil aplicar el método BESD y discuta los resultados. ¿Son diferentes esos resultados si utiliza un test de validez conocida o el coeficiente φ construido a partir de los datos? r Genere unos datos y construya curvas ROC para diferentes puntos de corte con ayuda del programa SPSS. Discuta los resultados. r ¿Qué sucedería en el caso anterior si se fuese muy conservador en cuanto a la prevención de falsos negativos? r Del artículo How are we doing in soft psychology? (Rosenthal, 1990) coméntese, desde el punto de vista de la validez en las predicciones, los datos que se dan acerca del efecto de un medicamento en enfermos de SIDA. r Plantee una discusión sobre dos supuestos, uno en el que las tablas de Taylor-Rusell resulten muy útiles para emitir un pronóstico y otro en el que no lo sean. r Escriba una breve reflexión sobre la información que proporcionan las tablas de Taylor-Rusell en cuanto a la ganancia neta que en la selección es atribuible al test, teniendo en cuenta la tasa base y la razón de selección. r En la literatura se usan los cuadrantes de Taylor-Rusell para discutir los efectos de las variaciones en la validez (no se dan en este texto). Esta actividad consiste en su búsqueda y lectura antes de realizar las tres actividades que siguen. r La admisión en unos determinados estudios de una universidad se realiza con un test. Imagine (genérelos) que tiene los datos de 200 aspirantes. Haga un gráfico representando en abscisas las puntuaciones en el test (positivas y negativas) y en ordenadas las del criterio (positivas y negativas). Fije ahora un valor de correlación (validez) entre ambas variables, marque diferen- 292 r r r r r Principios de Psicometría tes puntos (pares x, y) del plano y delimite el área. Estudie ahora las variaciones de esa área (elipse) con variaciones en el coeficiente de validez. En relación con el ejercicio anterior, a medida que crece el coeficiente de validez, ¿la elipse es más ancha o más estrecha? Compare sus experiencias en los dos ejercicios anteriores con los diagramas que en la literatura suelen acompañar a las explicaciones de las tablas de Taylor-Rusell (los cuadrantes de Taylor-Rusell). Discuta por qué un test dirigido a la selección de personal puede no ser útil, aun cuando tenga una validez muy alta, pudiendo sin embargo serlo otro con menor coeficiente de validez. Comente el artículo “La utilidad del análisis de la utilidad” mencionado en este texto (Vance y Colella, 1990). Usando los datos de la Tabla 10.6 (resultados obtenidos usando el método BESD), calcule y comente los valores de la utilidad esperada haciendo distintos supuestos sobre los costes de una mala clasificación. Teoría de la respuesta al ítem Aspectos generales 11 En capítulos anteriores se ha tratado la teoría de los tests desde la perspectiva de la TCT. La teoría de la respuesta al ítem (TRI) es otro enfoque en la teoría de los tests que supera algunas limitaciones y resuelve algunos problemas de medición que no se pueden abordar desde la TCT. El núcleo de la TRI es que la probabilidad de dar una respuesta correcta a un ítem depende de la aptitud individual para resolver ese ítem y de las características psicométricas de ese ítem, pudiéndose estimar el nivel de aptitud del sujeto a partir de su respuesta al ítem. Ésta es una diferencia esencial con la TCT, en la que las inferencias de los niveles individuales en el rasgo siempre hay que hacerlas con referencia al denominado grupo normativo. Los modelos de la TRI son modelos no lineales que adoptan varias formas que permiten su aplicabilidad a distintos tipos de tests. Estos modelos permiten conocer cómo se comporta de forma individualizada cada uno de los ítems de un test, en lo que se diferencian también de los de la TCT, que sólo permiten estudiar el comportamiento del test completo o de determinados subconjuntos de ítems. En este capítulo se va a tratar: ã Los orígenes y los objetivos de la TRI. ã Los supuestos de unidimensionalidad e independencia local. ã Qué es la curva característica del ítem. ã Las principales diferencias con la TCT y las conexiones entre el parámetro aptitud θ en la TRI y la puntuación verdadera V en la TCT. 294 Principios de Psicometría m11.1. Orígenes y objetivos de la teoría de la respuesta al ítemm La TRI es relativamente más reciente que la TCT. Durante algunas décadas de mediados del siglo XX se desarrolló gran parte del cuerpo teórico bajo denominaciones tales como teoría del rasgo latente, modelos de rasgo latente y modelos estructurales latentes, y de otras tales como teoría de la respuesta a los ítems y teoría de la curva característica del ítem. Esas denominaciones se han sustituido por la denominación genérica de teoría de la respuesta al ítem (TRI), por la que algunos autores como Lord (1980) mostraron sus preferencias, y que toda la comunidad científica ha admitido, pues se ha considerado que es la que mejor se ajusta al concepto y a los métodos de construcción de tests que patrocinan dichas teorías. No obstante, con independencia de lo que actualmente se entiende por latencia del rasgo, había cierta justificación en que se utilizaran denominaciones tales como teoría del rasgo latente, pues una vez establecidas las bases teóricas e identificado el rasgo en términos de variables observables, el modelo psicométrico especifica la relación entre las puntuaciones empíricas de los sujetos y la característica o rasgo, que se supone que es el responsable de dicha puntuación, pero que no es directamente medible, sino a través de esas manifestaciones. Una de las razones de la gran influencia y desarrollo de los modelos TRI es que formalmente describen cuánta influencia tiene el rasgo individual en la obtención de una determinada puntuación en cada uno de los ítems de un test. Se obtienen así mediciones que no varían, ni en función de las características específicas del grupo de personas al que se evalúa, ni del instrumento utilizado. Esta pretensión de invarianza es lo que impulsa la TRI, rompiendo el cerco que imponen los modelos TCT, en los que las características del test se establecían a través de las características de los sujetos evaluados, y viceversa. Esto obliga a que cuando un test que se ha construido con métodos TCT se quiere administrar a sujetos de una población que se presuma que es diferente a la del grupo normativo en algún aspecto (e.g., en edad, contexto cultural, grado de instrucción, nivel socio-económico, etc.), hay que volver a estudiar las propiedades psicométricas del test, esto es, su fiabilidad y su validez. Por ello, el hecho de que en la TRI se dé la invarianza de las puntuaciones, esto es, que el nivel en el rasgo que se le estime a una persona no dependa directamente de que se utilice un test u otro, ni de las características del grupo al que esa persona pertenece, es una de las razones que la hacen más atractiva en la construcción de tests. En la TCT la puntuación en el test se obtiene mediante la suma, o suma ponderada, de las puntuaciones del sujeto en cada uno de los ítems del test. Gene- Capítulo 11. TRI: Aspectos generales 295 ralmente, no se puede predecir cómo se respondió individualmente al ítem, a menos que los ítems hayan sido administrados a individuos muy similares. Las referencias en la predicción siempre quedan limitadas a las características del grupo normativo que vienen reflejadas en los parámetros estadísticos que describen el test. Desarrollar modelos que permitan predecir las propiedades estadísticas y psicométricas de los tests cuando se apliquen a cualquier grupo de sujetos, así como poder estimar el nivel individual de la aptitud del sujeto, sin tener necesariamente que hacer referencias al grupo normativo, es uno de los grandes logros de la TRI. Esto da lugar a nuevas aplicaciones, incluso permite construir tests a la medida, pues a partir de la respuesta individual a unos pocos ítems, se puede elegir, de entre un conjunto disponible de ítems, el que se le va a administrar a continuación. Después de repetir el procedimiento tantas veces como se considere pertinente, se puede predecir la aptitud o destreza del sujeto con la precisión deseada y también se puede conocer la cuantía con que cada ítem del conjunto ha participado para medir cada nivel de aptitud. Por lo tanto, la TRI proporciona modelos en los que, tanto los ítems como los sujetos, se pueden describir separadamente mediante sus propios parámetros, de tal manera que se puede predecir, en términos de probabilidad, la respuesta de cualquier sujeto a cualquier ítem, aun cuando no se tengan los datos de cómo individuos similares hubieran resuelto ítems análogos. O sea, la probabilidad individual de acertar un ítem es independiente de cómo se distribuya la aptitud en la población a la que pertenece. Las relaciones que explicitan cómo cada respuesta depende del nivel o grado que se posee en el rasgo son funciones de respuesta al ítem matemáticamente formalizadas. Los orígenes de los modelos pueden encontrarse en Lawley (1943, 1944), e incluso con anterioridad (Richardson, 1936), pero el primer estudio formal y la introducción del término rasgo latente lo realizó Lazarsfeld en 1950 en su obra The logical and mathematical foundation of latent structure analysis, aunque los métodos estadísticos desarrollados por Lazarsfeld y sus colaboradores difieren en muchos aspectos de los que se han empleado posteriormente. La obra Probabilistic models for some intelligence and attainment tests del matemático danés Rasch, publicada en 1960, marca un hito en la historia de estos modelos. Puede decirse que es el estudio del modelo de Rasch el que ha generado más investigación y del que se han derivado un gran número de modelos, ofreciendo muchas posibilidades en diversas aplicaciones. Una de las figuras más representativas como estudioso y divulgador de la TRI ha sido Lord (1952, 1953a, 1953b, 1980), especialmente a raíz de 296 Principios de Psicometría la publicación del libro Statistical theories of mental test scores (Lord y Novick, 1968), en el que el tratamiento de los temas dedicados a la TRI corre a cargo de Birnbaum, quien hace una excelente contribución, tanto en la forma como en el contenido. No obstante, la TRI no se comienza a extender en diversos ámbitos hasta más de diez años después de esta publicación. La razón por la que esta teoría tuvo escaso eco en su proyección hacia las aplicaciones en las décadas de los años cincuenta y sesenta del siglo XX es la de su complejidad matemática, que conlleva la exigencia de métodos de cálculo y de análisis que no se han podido abordar en intensidad hasta que ha ido creciendo la capacidad computacional de los ordenadores. A partir de entonces se han ido generando programas específicos y actualmente se dispone de una gran variedad de paquetes de software tales como BICAL, BILOG, ConQUEST, LOGIST, MSPWIN, MULTILOG, PARSCALE y XCALIBRA. Paralelamente han proliferado los trabajos científicos abordando distintos aspectos, muy especialmente en la búsqueda de métodos que proporcionen la mayor precisión en la estimación de los parámetros y métodos de ajuste para distintos modelos, así como la divulgación de sus aplicaciones a distintas áreas del ámbito psicológico y educativo. Mucha es por lo tanto la literatura científica que actualmente rodea a este tema, tanto desde la perspectiva teórica como desde las aplicaciones, de las que ya Lord (1980) daba una relación, no exhaustiva, pero sí bastante completa, de la que citamos: – Generar bancos de ítems, ya que se puede hacer la estimación de los parámetros invariantes que describen cada ítem de un test. – Estimar las características estadísticas de un test para cualquier grupo específico. – Determinar cómo varía la eficacia de un test a través de distintos niveles de aptitud. – Comparar la eficacia de diferentes métodos de puntuación del test. – Seleccionar ítems para construir tests convencionales y/o rediseñarlos. – Diseñar y evaluar tests individualizados: tests a la medida. – Realizar estudios de equiparación entre pruebas y del sesgo de los ítems. La TRI actualmente se aborda de forma diferenciada de otros modelos y técnicas con las que está conectada, como son los modelos de estructura latente, a los que se ha hecho referencia en la introducción general a los modelos en el Capítulo 1. Capítulo 11. TRI: Aspectos generales 297 m11.2. Aspectos generalesm La TRI se fundamenta en que las respuestas de los sujetos a los ítems dependen del nivel individual en el rasgo θ, de la dificultad del ítem, y que de la respuesta al ítem se puede inferir el nivel de aptitud del sujeto en el rasgo que se pone en juego al responder a ese ítem. Se han propuesto distintos tipos de modelos no lineales que permiten describir las relaciones entre los rasgos y las respuestas que se dan a los ítems, en términos probabilísticos. Los modelos básicos que se han clasificado como modelos TRI son los modelos ojiva normal, los logísticos y el modelo de Rasch. Todos ellos tienen en común: – – – – la unidimensionalidad (dimensionalidad del espacio del rasgo). la independencia local de los ítems. su identificación con la forma de su curva característica del ítem. la relación entre la dificultad del ítem y el nivel estimado en el rasgo. Dimensionalidad del espacio del rasgo La dimensionalidad de una prueba se refiere al número de factores o dimensiones necesarios para dar debida cuenta del rasgo que se pretende evaluar mediante esa prueba. Si un solo factor es suficiente para explicarlo adecuadamente, entonces se dice que el rasgo es unidimensional y el modelo psicométrico con el que se hace la medición también será unidimensional. Una de las características que son comunes a todos los modelos TRI básicos es la de la unidimensionalidad del rasgo. Implícitamente se está considerando la unidimensionalidad cuando se establece que la respuesta depende del nivel individual en el rasgo y de la dificultad del ítem, pues se está suponiendo que un solo rasgo da cuenta de la actuación del sujeto en el ítem. El que los modelos básicos sean unidimensionales no es óbice para que en el contexto de la TRI se hayan desarrollado modelos con más dimensiones. La TRI incluye tanto modelos unidimensionales como multidimensionales. En principio, cualquier rasgo se puede suponer que está compuesto por un cierto número k de componentes, factores o dimensiones, pudiéndose representar θ mediante el vector: r θ = ( θ1 , …, θi , …, θk ) 298 Principios de Psicometría Al representar θ mediante un vector de k componentes, se está considerando que cada una de esas componentes se corresponde con cada una de las dimensiones y que, por lo tanto, cada una de las θi se comporta como una variable aleatoria. Cada sujeto evaluado mediante la prueba obtendrá el vector de sus puntuaciones en cada una de las componentes. Por lo tanto, el espacio de θ es un espacio k-dimensional con k ≥ 1, siendo unidimensional cuando k = 1 y donde cada una de las componentes θi podrá tomar distintos valores dentro de su rango de variación. Por ejemplo, si un sujeto, llamémosle MC, cumplimenta tres ítems sobre razonamiento abstracto, sus respuestas a esos ítems dependerán de la dificultad de cada uno de los ítems y del nivel que MC posea en ese rasgo. Por lo tanto, se está suponiendo la unidimensionalidad del rasgo. Ahora bien, si a MC se le va a evaluar su nivel de agresividad y para ello cumplimenta un cuestionario que da cuenta de cuatro factores o dimensiones de la agresividad (véanse Apartado 9.5 y Cuadro 9.6), entonces se obtendrán cuatro valores, uno por cada una de las cuatro dimensiones consideradas: agresividad física, verbal, ira y hostilidad, con independencia de cuántos elementos incluye el vector de puntuaciones en cada una de ellas, es decir, del número de ítems utilizados para la evaluación de cada dimensión. El espacio del rasgo estará completo cuando contenga todas las componentes necesarias para describirlo adecuadamente, dando por supuesto que sólo estarán incluidas las más relevantes, puesto que en la práctica no es posible recoger todas y cada una de las dimensiones que en menor grado pudieran estar implicadas. El número de componentes que cumpla ese requisito es el que da la dimensión de ese espacio. Generalmente se asume que una sola aptitud o rasgo es necesario para explicar o dar cuenta de la actuación del individuo en el test. Cuando se parte de este supuesto se generan los denominados modelos unidimensionales. Los modelos que suponen la existencia de dos o más rasgos son modelos multidimensionales (Bock y Aitkin, 1981; Mulaik, 1972; Samejima, 1974; Whitely, 1980). Estos modelos son menos frecuentes en la literatura por su mayor complejidad, ya que implican la estimación de un número mayor de parámetros. En la práctica, para determinar las dimensiones del rasgo se han propuesto diversos métodos, aunque generalmente se hace uso de las técnicas del análisis factorial, tanto exploratorio como confirmatorio, utilizando los datos de una muestra lo suficientemente amplia y asegurándose de que cada una de las dimensiones que se supone a priori que componen el rasgo posee al menos un ítem que dé cuenta de ella. En el proceso de construcción de las pruebas se deben verificar Capítulo 11. TRI: Aspectos generales 299 los supuestos que se hayan hecho sobre la dimensionalidad. Lo más usual es que se comprueben los de unidimensionalidad, con el fin de conocer en qué grado influye en los resultados la violación de esos supuestos. Por lo tanto, la comprobación de la unidimensionalidad ha sido un tema muy estudiado y se han propuesto numerosos índices para dar cuenta de ella. El análisis factorial exploratorio es la técnica más utilizada, pues proporciona información sobre el porcentaje de la varianza total que se puede explicar por uno solo de los factores. Un solo factor difícilmente puede explicar toda la varianza, pero se puede comprobar si lo hace en un porcentaje suficiente para considerar la unidimensionalidad, sobre todo si el resto de la varianza se distribuye entre varios factores, sin que ninguno de ellos detente un valor significativo. Ésta es una decisión en cierto modo subjetiva y se necesitan análisis rigurosos al respecto. Una solución entre las muchas que se han propuesto consiste en comparar la varianza del primer factor con la del segundo en importancia (Lumsden, 1961). Otra solución es hacer esa comparación, pero en lugar de calcular el cociente entre las componentes de la varianza, utilizar las raíces latentes obtenidas de la matriz de correlaciones tetracóricas entre los ítems (Lord, 1980). A efectos prácticos conviene saber que para comprobar la robustez de los modelos TRI ante las violaciones de los supuestos de unidimensionalidad se han realizado múltiples estudios experimentales y de simulación, comprobándose que estos modelos son bastante robustos, es decir, que las soluciones son bastante estables no sólo cuando no se cumplan estrictamente esos supuestos, sino ante desviaciones moderadas. Independencia local La independencia local establece que, en cualquier grupo de sujetos, todos caracterizados por los mismos valores θ1, …, θk, o sea, por el mismo vector de aptitud, lasrdistribuciones condicionadas de las puntuaciones de los ítems a los valores de θ son todas mutuamente independientes. Es decir, la probabilidad de que un sujeto responda correctamente a un ítem del test no está afectada por las respuestas dadas a otros elementos o ítems del test,r siempre y cuando se consideren estas puntuaciones condicionadas a un cierto θ dado. Por lo tanto, la independencia local es una consecuencia inmediata de la elección de θ1, …, θk. El supuesto de independencia local en estos modelos está en relación con lo que en estadística se entiende como independencia estocástica, en donde se 300 Principios de Psicometría demuestra que las variables X1, X2, …, Xn con función de probabilidad conjunta f(X1, X2, …, Xn ) son mutuamente independientes, si y sólo si: f (X 1 , X 2 , …, X n ) = f1 (X 1 ) f2 (X 2 ) … fn (X ) donde f1(X1 ), f2(X2 ), …, fn(Xn ) son las correspondientes distribuciones marginales. Por consiguiente, para expresar formalmente la independencia local diremos que entre los ítems j = 1, 2, …, n se da la independencia local si para cualquier conjunto fijo de valores θ1, θ2, …, θk la distribución conjunta, f, de las puntuaciones de los ítems Xj se puede expresar como producto de las distribuciones marginales correspondientes: ( ) ( ) f X 1 , X 2 , …, X n θ = ∏ f j X j θ n j= 1 (11.1) Si se considera la distribución de las puntuaciones del ítem 1, condicionada a las del resto de los ítems, para un determinado valor de θ, se tiene que: h 1 ( X 1 θ ; X 2 , …, X n ) = f1( X 1 θ) (11.2) que se obtendría como el cociente f ( X 1 , X 2 , …, X n θ) f ( X 2 , …, X n θ) ∏ f j( X j θ) n = j=1 n ∏ f j( X j θ) = f1( X 1 θ) (11.3) j=2 lo que demuestra que, bajo el supuesto de independencia local, la distribución h1 de X1 para valores fijos de θ no depende de las otras variables X2, …, Xn. Lo que de forma análoga se puede afirmar para cualquier f j ( X j θ) . La independencia local conlleva independencia entre ítems e independencia entre sujetos. La independencia entre ítems muestra que, para un nivel dado de rasgo, cualquier par de ítems es localmente independiente, si las puntuaciones que el sujeto obtiene en ellos son independientes. Por lo tanto, la probabi- Capítulo 11. TRI: Aspectos generales 301 lidad de que un sujeto conteste correctamente a ambos ítems es el producto de las probabilidades de acierto en cada uno de ellos. La independencia local entre sujetos presupone la independencia de las puntuaciones entre los sujetos que responden al test, en que cada uno de los sujetos estará caracterizado por su nivel en el rasgo θ. Así, si el sujeto A tiene una probabilidad pA = 0.3 de responder correctamente a un ítem y la del sujeto B es pB = 0.8 cuando responde al mismo ítem, y si las respuestas de ambos sujetos son localmente independientes, la probabilidad de que ambos sujetos respondan acertadamente a ese ítem es pA pB = (0.3) (0.8) = 0.24. Si se produce el simple hecho de que responder a un ítem antes que a otro, o que la respuesta dada a un ítem influya sobre la que se deba dar a otros ítems, entonces, los ítems no son localmente independientes. Si el cambio de orden en la administración de un conjunto de ítems influye en la ejecución del test, los ítems no son localmente independientes. Si existen interferencias o influencias de cualquier tipo entre los sujetos respecto de las respuestas que dan a los ítems, entonces las puntuaciones de los individuos no son independientes. En cualquiera de los casos de no independencia entre ítems o entre sujetos, la utilización de un modelo TRI sería inapropiada. Estas circunstancias de no independencia no tienen relación ni tienen conexión alguna con cierta confusión que a veces se crea al considerar que los ítems no pueden ser independientes porque miden el mismo rasgo. La independencia no es una cuestión de que todos los ítems estén haciendo la medición de un mismo rasgo, sino de que dado un nivel del rasgo, la probabilidad de respuesta correcta a un determinado ítem depende sólo del nivel que se posee en ese rasgo (y de la dificultad del ítem), y no de cuántos ítems están midiendo ese rasgo o de cuántos individuos están situados en ese mismo nivel. Veamos algunas cuestiones relacionadas con la independencia. Los modelos básicos TRI son modelos de respuesta dicotómica y, en general, se sigue la notación de Lord, para ítems binarios, expresándose formalmente la independencia local como sigue. Ítems binarios Para ítems binarios, en que se asigna el valor cero en el caso en que la respuesta haya sido incorrecta y el valor uno si la respuesta es correcta, la hipótesis de independencia local para ítems g se traduce en que: 302 Principios de Psicometría n P( U 1 = u1 , …, U n = u n !) = ∏ P( U g = u g !) (11.4) g=1 donde Ug puede tomar los valores cero o uno. La probabilidad, condicionada a un ! dado, de una respuesta correcta a un ítem binario g, Pg (!) que denotaremos a veces simplemente por Pg es: ( ) Pg = Pg (!) = Prob U g = 1 ! A esta función se la suele llamar función característica del ítem binario. Las probabilidades teóricas en los distintos casos de respuesta a un solo ítem binario, a un conjunto de ítems, o en la población son: a) Para un solo ítem binario. La función de respuesta a un ítem binario para un ! dado, se puede expresar como: u 1−u g fg = (U g |!) = Pg g * Q g , con Q g = 1 − Pg (11.5) &( P si U = 1 g g fg ( U g |!) = ' ()Q g si U g = 0 b) Para un vector de respuesta: La probabilidad de un vector de respuesta V = ( U1 , … , U n )% para un ! dado, se obtiene mediante la expresión: n u 1−u P V ! = ∏ Pg g Q g g ( ) (11.6) g=1 En el siguiente Ejemplo 11.1 puede verse cómo se aplica esta ecuación. Ejemplo 11.1 En un cuestionario de siete ítems de respuesta dicotómica (se les asignan los valores cero o uno, según sean incorrectas o correctas), las probabilidades 303 Capítulo 11. TRI: Aspectos generales de acierto a cada uno de esos ítems para un nivel moderado de θ, sea θ = θ2, son respectivamente: ( P (U ) ( ) ( ) ( = 1 θ ) = P (U = 1 θ ) = 0.6 ; P (U = 1 θ ) = 0.5 ) P U1 = 1 θ2 = 0.9 ; P U2 = 1 θ2 = 0.8 ; P U3 = 1 θ2 = P U4 = 1 θ2 = 0.7 ; 5 2 6 2 7 2 Haciendo uso de la expresión (11.6) se pueden obtener las probabilidades de los diferentes patrones de respuesta. La probabilidad de que con ese nivel en el rasgo θ = θ2 se acierten todos los ítems, o sea, que se obtenga un patrón de respuesta (1, 1, 1, 1, 1, 1, 1) es: P (Ul = 1, …, U7 = 1θ = θ2) = (0.9) (0.8) (0.7)2 (0.6)2 (0.5) = 0.064 Si el vector de respuesta es (1, 1, 1, 0, 1, 0, 0), la probabilidad de este patrón es: ( ) ( )( )( )( )( )( )( ) r P V θ2 = P1 P2 P3 Q4 P5 Q6 Q7 = 0.9 0.8 0.7 0.3 0.6 0.4 0.5 = 0.018 Si la prueba estuviese compuesta solamente por las cuatro primeras cuestiones, la probabilidad de acertar las tres primeras y no la cuarta es: ( ) ( )( )( )( ) r P V θ2 = P1 P2 P3 Q4 = 0.9 0.8 0.7 0.3 = 0.151 Si se cambia de nivel de aptitud, pasando a uno superior, sea éste θ = θ3, y las probabilidades condicionadas a ese nivel son: P (U1 = 1θ3) = P (U2 = 1θ3) = P (U3 = 1θ3) = 1; P (U4 = 1θ3) =0.9 P (U5 = 1θ3) = P (U6 = 1θ3) = 0.8; P (U7 = 1θ3) = 0.6 Aplicando (11.6) se obtiene que para este nivel en el rasgo la probabilidad del patrón de respuesta (1, 1, 1, 1, 1, 1, 1) es P = 0.346, la del patrón (0, 0, 0, 0, 0, 0, 0) es P = 0 y la del patrón (1, 1, 1, 1, 0, 0, 0) es 0.014. c) Para la población. Al considerar poblaciones, los procedimientos pueden resultar más sofisticados, pues hay que sumar los patrones de respuesta para los distintos niveles de θ. Algunas de esas expresiones se dan en el Cuadro 11.1. 304 Principios de Psicometría Un par de aplicaciones muy sencillas de los supuestos de independencia local pueden verse en sendos ejemplos que se dan tras el cuadro, utilizando el primero de ellos para hacer algunas consideraciones sobre la pertinencia de estudiar todos los patrones de respuesta. Cuadro 11.1 Veamos algunas de las consecuencias que los supuestos de independencia local tienen en las distribuciones de probabilidad. 1. Un resultado del supuesto de independencia local es que la distribución sobre todos los sujetos con un nivel de aptitud θ viene dada por ( ) f X θ = ∑ ∏Pg g ⋅ Qg n ∑up = x 1−ug u g=1 donde X = x es la puntuación del sujeto en el test, que puede tomar valores entre cero y n, ya que los ítems son binarios. 2. Si la distribución de rprobabilidad de θ es g(θ), entonces la distribución de las respuestas P ( V ) para el total de n sujetos viene dada por la expresión: r P(V ) = ∫ Ω g (θ) ∏Pg g ⋅ Qg r n g=1 u 1−ug r dθ donde Ω es el espacio de integración k-dimensional correspondiente a θ1, …, θk. Así, r observada una muestra, con el conocimiento que proporciona P ( V ) , se pueden hacer inferencias acerca de la distribución desconocida g(θ) de las variables inobservables θ, ya que Pg (θ) es conocida. 3. Un procedimiento que sugirió Lazarsfeld fue estudiar todos los posibles r patrones de respuesta V . Sin embargo la viabilidad de este procedimiento es muy escasa, incluso con un número pequeño de ítems, pues el número de patrones posibles que habría que estudiar es muy alto. El número de todos los posibles patrones de respuesta con n ítems dicotómicos es 2n. Capítulo 11. TRI: Aspectos generales Ejemplo 11.2 Calcule el número de patrones de respuesta con tres, cuatro y un número mayor de ítems que justifique por qué Lazarsfeld, después de proponer el estudio de todos los patrones, buscó procedimientos que le ayudasen a resumir la información. Con tres ítems binarios, todos los patrones posibles son: {(000), (100), (010), (001), (110), (011), (101), (111)} siendo su número total 23 = 8. Si el número de ítems fuese cuatro, el número de patrones sería 24 = 16. En general, para n ítems habría que contabilizar el número de patrones diferentes con un acierto, que es el de combinaciones, n 1 el de patrones con dos aciertos n 2 y así sucesivamente. Por lo que el número total de patrones diferentes sería: n n n n n + + …+ = (1+ 1) = 2 0 1 n Si se considera que no es inusual encontrar tests con un número de ítems n ≥ 25, el número de patrones a estudiar con n = 25 es de 225 = 33.554.432, que muestra que el análisis de todos los patrones de respuesta sería demasiado laborioso. Ejemplo 11.3 En un test que satisface el supuesto de independencia local, dos personas con el mismo nivel en el rasgo tienen una probabilidad 0.20 de acertar el ítem uno y de 0.60 de acertar el ítem dos. ¿Cuál es la probabilidad de que ambas den respuesta correcta al ítem 1? Si una de ellas lo acierta ¿cuál es la probabilidad de que lo acierte la otra? ¿Qué probabilidad tiene cada una de ellas de acertar el primero y no el segundo? La respuesta a la primera de las cuestiones es (0.20) (0.20) = 0.04. La probabilidad 0.20 da respuesta a la segunda cuestión, siendo una probabilidad de (0.20) (0.40) = 0.08 la respuesta a la tercera cuestión. 305 306 Principios de Psicometría La curva característica del ítem (CCI) Se denomina curva característica del ítem (CCI) a la curva que representa la relación funcional entre el rasgo (la variable θ) y la probabilidad P(θ) de acertar ese ítem. La función P(θ) a la que representa la CCI es una función creciente de θ, es decir, la probabilidad de acierto aumenta a medida que van aumentando los valores de θ. Generalmente la gráfica de una CCI se obtiene representando en abscisas los valores de θ (se está suponiendo que θ es una variable continua y unidimensional), que en principio pueden ser valores cualesquiera sobre la recta real (–∞, +∞) y en ordenadas los valores de P(θ), que al ser una probabilidad, toma sus valores en el intervalo cerrado [0, 1]. Las CCI, que a veces también reciben la denominación de funciones de respuesta al ítem, o a los ítems, suelen presentar una forma similar a la función que se representa en la Figura 11.1. Figura 11.1. Representación de la curva característica de un ítem. Como se muestra en la Figura 11.1, la probabilidad de que un sujeto g responda correctamente a un determinado ítem sólo depende de la forma que tenga la CCI de ese ítem y del nivel de aptitud del sujeto. Por lo tanto, esa probabilidad es independiente de la distribución de la aptitud en la población. La probabilidad de res- Capítulo 11. TRI: Aspectos generales 307 puesta correcta a un ítem no depende de que haya mayor o menor número de sujetos que estén situados en un mismo nivel del rasgo. Esta propiedad de la invarianza de las CCI y, en consecuencia, de los parámetros que las describen, es uno de los principales atractivos de estos modelos. En la TRI todos los ítems presentan una determinada CCI, que es la que liga las características de ese ítem con el rasgo θ que se intenta evaluar. La forma de la función matemática que representa la CCI es lo que suele distinguir a unos modelos de otros. La forma de toda CCI dependerá por lo tanto del tipo de función y de los parámetros que incluya esa función, que son los parámetros que caracterizan al ítem. En casi todos los modelos suelen estar presentes dos de esos parámetros, el que representa la dificultad (cuyo índice se va a denotar por “b”, que lo incluyen todos los modelos) y el que da cuenta del poder discriminante (cuyo índice se va a denotar “a”). El parámetro b tiene relación directa con la probabilidad de acertar el ítem, de forma que para cualquier nivel del rasgo, siempre serán menores las probabilidades de acertar un ítem más difícil que uno más fácil. Por lo tanto, la dificultad se expresa por la posición de la CCI sobre el continuo del rasgo. El parámetro a indica el poder de discriminación que tiene ese ítem, es decir, cuánto se diferencian las probabilidades de acertar ese ítem en diferentes niveles de ese rasgo y en una curva, como la dada en la Figura 11.1, se identifica por su pendiente cuando θ = b. En los siguientes capítulos se darán detalles sobre los parámetros y se construirán las CCI de los modelos que se puede considerar que son los más básicos y usuales. En general, todas las CCI son monótonas no decrecientes y presentan variedad de formas. La estimación de sus parámetros y la evaluación de la bondad del ajuste del modelo a los datos observados son las tareas que han de abordarse para estimar la aptitud, que es el objetivo que se persigue. Regresión y curvas características La TRI trata el problema de la relación matemática entre los niveles que se poseen en un determinado rasgo y las respuestas a un determinado ítem (o a un conjunto de ellos), que se da mediante una función probabilística P(θ). Sin embargo, la variable θ no es directamente medible, por lo que también es un parámetro del modelo que habrá que estimar. La teoría de la regresión ayuda en muchos casos a realizar esta estimación y se utilizan curvas de regresión para obtener información acerca de las funciones de respuesta a los ítems o a los tests. La CCI se pue- 308 Principios de Psicometría de definir como la curva que une las medias de la puntuación del ítem, condicionadas a los valores de la variable θ. O sea, se puede definir como la curva de regresión ítemθ. La curva característica del test (CCT) es la regresión de las puntuaciones globales en el test sobre la variable θ. Al administrar un test a un conjunto de sujetos, se obtendrá una doble puntuación para cada uno de ellos, su puntuación en cada ítem particular, y su puntuación global en el test. En ese caso, se puede obtener la regresión ítemtest, regresando las puntuaciones en el ítem sobre las puntuaciones globales en el test. Si la respuesta es dicotómica (acierto versus error) la línea de regresión ítemtest también se puede establecer en función de la proporción de respuestas correctas. Todo esto ha llevado a que a veces se confunda la regresión ítemrasgo que es la CCI, con la regresión ítemtest, que en principio no es una CCI, aunque en muchos casos se confundan al utilizar los valores en el test como estimaciones suficientes de los niveles del rasgo. Para ilustrar la regresión ítemtest, considérese un test que estuviese compuesto por un número suficiente de ítems homogéneos y que el espacio latente completo es unidimensional. En ese caso, se puede representar la proporción de sujetos que, dando respuesta correcta al ítem, obtienen en el test 1, 2, …, n puntos, como muestra el ejemplo de la Figura 11.2. Figura 11.2. Curva de regresión ítemtest para una prueba de fluidez verbal que resuelven 250 sujetos. Capítulo 11. TRI: Aspectos generales 309 En ese gráfico se puede observar que la curva es monótona no decreciente. Se pensó inicialmente que las curvas iosr (item-observed score regression) o curvas de regresión ítemtest (Cuadro 11.2) supondrían una buena aproximación a las curvas características de los ítems, cuando los ítems son dicotómicos, ya que la proporción de respuestas correctas para un ítem del test coincide con la media de la puntuación para ese ítem. Sin embargo, no es lo mismo hacer la regresión sobre la puntuación total del test que sobre el rasgo, entre otras razones, porque el valor esperado de la puntuación observada (la puntuación verdadera en la TCT), generalmente en estos modelos no es función lineal de la variable que mide el rasgo θ, como mostró Lord (1963) y se indica en el Cuadro 11.2. Cuadro 11.2 Hagamos unas anotaciones acerca de las posibles relaciones que se pueden establecer entre las CCI y la regresión ítemtest. Cuando los ítems son dicotómicos, la proporción de respuestas correctas para un ítem coincide con la media de la puntuación para ese ítem. La curva de la proporción de respuestas correctas como una función de la puntuación del test X es también la curva de regresión ui sobre X, a la que se ha llamado curva iosr (Lord, 1980, pág. 27). Para ítems dicotómicos se puede decir que, cualquier función de respuesta al ítem se podría considerar que es una regresión ítemrasgo, si para hacer la regresión sobre θ, los valores del rasgo se han dividido en categorías por algún procedimiento lógico, de manera que se correspondan con una partición en las puntuaciones del test. Esta interpretación la cuestionó Lord (1968, 1980), que puso un ejemplo para mostrar que esto no es así. Para ello utilizó las curvas construidas a partir de las respuestas que daban 103,275 sujetos a un test verbal y a otro de matemáticas, con las que mostró que las curvas de regresión ítemtest no son las funciones características. Hacer la regresión de la puntuación del ítem sobre la puntuación total del test no es lo mismo que hacerla sobre el rasgo θ. Aunque a menudo se ha pensado en la regresión ítemtest como una buena aproximación a la CCI, éste no es un procedimiento adecuado, sobre todo si se tiene en cuenta que la escala de medida es peculiar para cada uno de los tests administrados. Sujetos que pueden diferir en una unidad en sus puntuaciones sobre un test X, pueden diferir más o menos que esa unidad en sus puntuaciones en otro test diferente que mida el mismo rasgo. Por lo tanto, las curvas de regresión ítemtest tendrían diferentes formas para diferentes tests, aun cuando todos ellos midieran el mismo rasgo θ. 310 Principios de Psicometría En la TRI, el valor esperado de la puntuación observada, al igual que en la teoría clásica, es la puntuación verdadera, pero aquí, la puntuación verdadera, generalmente, no es una función lineal de la variable que mide el rasgo. Por lo tanto, el valor esperado de la puntuación observada no es igual al valor del rasgo. Esta afirmación la puso de manifiesto Lord (1980, pág. 30) y se puede resumir en lo siguiente. La curva de regresión ítemtest para el ítem i se puede denotar por µiX. Para cualquier sujeto, su puntuación X en el test es la suma de los aciertos ui = 1, luego la media condicionada a un X dado es: n n X = E ∑ ui X = ∑ µi X i=1 i=1 Si se considera que todos los ítems son estadísticamente equivalentes, µiX es la misma para todos los ítems y, por lo tanto, sumando para los n ítems, se obtiene que: ∑ µi X = nµi X = X; n i=1 µi X = X n Obteniéndose que la curva de regresión ítemtest (µiX) es una línea recta que pasa por el origen con pendiente igual a 1/n. Con ítems dicotómicos, la curva iosr tendrá siempre pendiente 1/n, aun cuando el test no mida nada. En consecuencia, no se puede tomar la puntuación observada como valor del rasgo, pues esto se contradice con el supuesto de que la puntuación varía con el nivel del rasgo, y que la puntuación verdadera no suele ser función lineal del rasgo. m11.3. La puntuación verdadera y la escala de aptitudm En la TCT se le llama puntuación verdadera V a lo que en la TRI se le está llamando rasgo θ, o también aptitud, pues este último término se acuñó en los principios de la TRI y se sigue manteniendo aun cuando la prueba no esté dirigida a la medición de una aptitud, sino a la de una actitud, o de un rendimiento, etc. También en la TRI se ha definido la puntuación verdadera en un test de n ítems. Para Capítulo 11. TRI: Aspectos generales 311 sujetos con un nivel en el rasgo θ = θj, su puntuación verdadera es la suma de las Pi (θj ) en todos los ítems del test. O sea, para cualquier j es: Vj = ∑ Pi ( θj ) n i=1 siendo la curva característica del test la que representa a esa función en todo el rango de θ. Son muchas las similitudes, así como las diferencias, entre la puntuación verdadera y la aptitud. Una diferencia importante es que la puntuación verdadera está definida en el intervalo [0, n], en tanto que la aptitud teóricamente puede tomar valores desde –∞ a +∞. Además, la puntuación verdadera está definida para un test particular, y variará con medidas no paralelas de la misma aptitud. Se puede decir que en la TRI, al igual que en la TCT, el valor esperado de la puntuación observada es la puntuación verdadera, pero generalmente en la TRI la puntuación verdadera no es una función lineal del rasgo, así que, el valor esperado de la puntuación observada, no es igual al valor del rasgo θ, aunque los modelos TRI especifican las relaciones entre el rendimiento del sujeto en un ítem y la aptitud, de manera que siempre es posible transformar ese rendimiento en un valor de la escala de aptitud. En otras palabras, la puntuación verdadera V y la aptitud θ son la misma cosa expresada sobre diferentes escalas de medición. La diferencia más importante es que la escala de medida para V depende de los elementos del test, en tanto que la escala θ es independiente de los elementos del test (Lord, 1980, pág. 46). El lector puede preguntarse cómo se pone en relación el rendimiento del sujeto en el ítem y la aptitud, o sea, cómo se establece la escala de θ. Evidentemente el establecimiento de la escala se lleva a cabo utilizando las respuestas que los sujetos dan a los ítems, que a su vez dependen de las características del modelo (dimensionalidad, forma funcional, etc.) y de las del ítem (dificultad, discriminación, etc.). El paso intermedio entre las puntuaciones observadas y la construcción de la escala se realiza mediante los procesos de estimación de los parámetros y de ajuste del modelo, considerando que además de los parámetros de los ítems, también θ es un parámetro que hay que estimar a partir de los datos. La métrica de las escalas de aptitud se elige de modo que las CCI tengan una forma matemática especificada y de que, sobre los datos aportados por los sujetos en la ejecución del test, se les pueda ordenar en aptitud. Los valores particulares de θ sobre la escala se eli- 312 Principios de Psicometría gen de modo que maximicen el acuerdo entre los datos de respuesta al ítem, las predicciones de los datos del test derivadas de las CCI mejor ajustadas y las puntuaciones de la aptitud (niveles del rasgo) sobre la escala. Lord (1975a, 1975b) presenta orientaciones interesantes para determinar la escala de aptitud. Algunos aspectos de este tema tales como los valores de θ que preservan las propiedades psicométricas de la prueba (transformaciones admisibles) se tratan en este texto (Apartados 12.3 y 15.5). En general, de los modelos de la TRI se puede decir que: a) Producen escalas de intervalo, que se tratarán en detalle en el Capítulo 15. b) El origen y la unidad de medida son arbitrarios. c) Toda transformación lineal de la escala de aptitud es admisible. Puntos clave 3 3 3 3 3 3 3 3 3 El objetivo básico de la TRI es proporcionar mediciones que permitan hacer inferencias acerca de los rasgos, que no varíen, ni en función de las características específicas del grupo de sujetos al que se evalúa, ni del instrumento utilizado. Los modelos que se proponen en la TRI para establecer la relación del nivel del rasgo con la probabilidad de acierto son no lineales. En la TRI, la estimación e interpretación del valor del rasgo de un sujeto no depende de cómo se distribuye ese rasgo en su grupo (el grupo normativo en la TCT). La probabilidad de respuesta correcta a un ítem sólo depende del nivel en el rasgo del sujeto que responde y de la dificultad de ese ítem. La TRI no se basa en los mismos supuestos, ni sustituye a la TCT, sino que provee de métodos que permiten responder a cuestiones y hacer aplicaciones que no se pueden abordar desde la TCT. Las relaciones entre el nivel en el rasgo y la probabilidad de acertar vienen dadas por la curva característica de cada ítem (CCI) Todos los modelos TRI comparten la exigencia de independencia local, la consideración de su dimensionalidad y basan sus mediciones en las funciones que representan las CCI. Los modelos básicos TRI son modelos unidimensionales y de respuesta dicotómica. La independencia local implica que la probabilidad de que un sujeto acierte un ítem es independiente de sus respuestas a otros ítems, aunque esos ítems sean parte del mismo test, o midan el mismo rasgo. Capítulo 11. TRI: Aspectos generales 3 3 3 3 3 3 3 313 La dimensionalidad se refiere al número de factores necesarios para representar el rasgo y que sea adecuada su medición. Las dimensiones de un rasgo se suelen determinar haciendo uso de las técnicas de análisis factorial. Las curvas iosr o curvas de regresión ítemtest no son CCI. La denominación de rasgo es genérica, pero debido a razones históricas también se utiliza indistintamente el término aptitud, aunque la medición de ese rasgo concreto no sea una aptitud, sino una actitud, rendimiento, etc. Una de las diferencias entre la puntuación verdadera V considerada en la TCT y la aptitud θ en la TRI es que V está definida en el intervalo [0, n], en tanto que q teóricamente puede tomar valores desde – ∞ a + ∞. Otra de las diferencias entre V y θ es que la puntuación verdadera está definida para un test particular y variará con medidas no paralelas de la misma aptitud. La métrica de las escalas de aptitud se elige de modo que las CCI tengan una forma matemática especificada y de que, sobre los datos aportados por los sujetos en la ejecución del test, se pueda ordenar a los sujetos en aptitud. La aptitud θ, como la puntuación verdadera en la TCT, no es directamente observable o medible y en los modelos TRI se introduce como un parámetro más (el denominado parámetro personal) que hay que estimar en el modelo. Actividades r Haga una búsqueda en la literatura de modelos TRI unidimensionales y multidimensionales. Construya una tabla, dando en una primera columna la referencia de cada modelo, en la segunda la descripción de sus parámetros y en una tercera las aplicaciones que haya podido encontrar. r Se han ordenado por su dificultad 10 preguntas sobre contenidos de psicometría. Asigne unas hipotéticas probabilidades a cada una de las respuestas y calcule y discuta las probabilidades de no tener ningún acierto, de acertar todas las cuestiones y las de los siguientes patrones: (1, 1, 1, 0, 1, 1, 0, 0, 0, 0) y (1, 1, 1, 0, 1, 1, 1, 1, 1, 0). r Proponga seis ítems dicotómicos sobre actitudes frente al estudio de la psicometría. Pregunte a un grupo de compañeros y compruebe la independencia local de esos ítems. r En la tabla adjunta se da la frecuencia (número de personas) que habiendo respondido correctamente al ítem 3 han obtenido la puntuación X en 314 Principios de Psicometría un test de 7 ítems de respuesta dicotómica. Represente gráficamente la curva de regresión ítemtest. Puntuación X 1 frecuencia 10 2 45 3 77 4 185 5 273 6 387 7 400 r En un modelo TRI las probabilidades de acertar un ítem i, para los niveles de aptitud θ1, θ2, y θ3 son respectivamente: ( ) ( ) ( ) p u i = 1 θ1 = 0.2 ; p u i = 1 θ2 = 0.5 ; p u i = 1 θ3 = 0.7 ¿Cuál es la probabilidad de que tres sujetos con esos niveles de aptitud los acierten? ¿Cuál es la probabilidad de cada uno de ellos? Si lo acierta el que tiene un nivel θ1 ¿con qué probabilidad lo acertarán los otros dos? Teoría de la respuesta al ítem Modelos 12 En el capítulo anterior se ha dicho que la CCI es la curva que representa la relación funcional entre los valores en el rasgo θ y la probabilidad P(θ) de respuesta correcta. La forma de esa función, así como el número de parámetros que se incluyen en ella, es lo que distingue formalmente a unos modelos de otros. Los modelos más usuales son los que representan una distribución normal acumulada (ojiva normal) o una distribución logística, dando lugar a distintos tipos de modelos al considerar uno, dos o tres parámetros en esas distribuciones. Mención especial merece el modelo de Rasch, aunque diversos autores lo clasifican como un modelo logístico de un parámetro. Los modelos básicos de la teoría de la respuesta al ítem (TRI) suponen la unidimensionalidad del rasgo y que las respuestas a los ítems sean dicotómicas, aunque existen modelos TRI multidimensionales y/o con respuestas politómicas. El problema técnico y computacional más relevante, una vez elegido el modelo, es el de la estimación de sus parámetros y la comprobación de su ajuste a los datos. Los métodos más utilizados en TRI están basados en la estimación por máxima verosimilitud. En este capítulo se va a tratar: ã El modelo ojiva normal. ã Los parámetros, índice de dificultad e índice de discriminación, y cómo apreciarlos visualmente en las CCI. ã Distintos tipos de modelos ojiva normal. ã Los modelos logísticos de dos, tres y cuatro parámetros. ã El modelo de Rasch. ã Algunos de los modelos que no cumplen los supuestos básicos, pues son multidimensionales o sus ítems no son dicotómicos. 316 Principios de Psicometría ã Una mención a otros modelos probabilísticos que no se incluyen en la TRI, en especial los modelos de Poisson utilizados por Rasch. ã Una introducción a la estimación de los parámetros de los modelos, incluyendo cuestiones básicas del método de máxima verosimilitud. m12.1. Modelos ojiva normalm El modelo ojiva normal propuesto por Lord (1968) se utiliza con ítems dicotómicos que evalúan una sola variable. El modelo recibe esa denominación porque la función de probabilidad de la curva característica del ítem corresponde a la función de distribución de una normal, o sea, a la curva de probabilidad acumulada de la función de densidad de una distribución normal, como se muestra en las Figuras 12.1 y 12.2. Figura 12.1. Distribución N(0,1). Figura 12.2. Ojiva normal. 317 Capítulo 12. TRI: Modelos Para conectar ambas gráficas téngase en cuenta que los valores de P(θ) para todo θk en la Figura 12.2 se corresponden con los de la probabilidad acumulada (área bajo la curva desde –∞ hasta zk = θk) en la Figura 12.1. El cálculo de esas áreas no hay que realizarlo necesariamente, puesto que esos valores están tabulados. Supuestos básicos del modelo: 1. El espacio de la variable latente es unidimensional. 2. Se da la independencia local entre ítems. 3. La métrica para θ se puede elegir de manera que la curva característica de cada ítem i sea la ojiva normal: Pi ( θ) = Pi ( θ ; a i , bi ) = ∫ Li (θ) f ( z ) dz = −∞ ∫ Li (θ) −∞ 1 −2 e dz 2π z2 (12.1) donde Li(θ) = ai (θ – bi ), es una función lineal de θ, que incluye dos parámetros ai y bi que son parámetros característicos de cada uno de los ítems, y f(z) es la función de densidad de la distribución normal, usualmente con media 0 y desviación típica unidad, ya que se suele trabajar con las variables tipificadas. En éste, como en todos los modelos TRI, θ es el parámetro asociado al sujeto o parámetro personal, siendo ai y bi parámetros específicos de cada ítem. En el Apartado 12.2 se da una explicación más amplia sobre su interpretación en las curvas CCI. Tipos de modelos ojiva normal Los modelos ojiva normal, dada su similitud y buenas aproximaciones a los modelos logísticos que se exponen en el Apartado 12.3, son poco utilizados en las aplicaciones, prefiriéndose estos últimos para estos fines. Los modelos ojiva normal se suelen estudiar más por su interés teórico que por su vertiente aplicada. Se suele conocer como modelo ojiva normal al dado en la ecuación (12.1) de dos parámetros (ai y bi ). Si se asigna al parámetro ai de todos los ítems un mismo 318 Principios de Psicometría valor, por ejemplo, la unidad, se tiene un modelo con un solo parámetro. La ecuación que representa la función Pi(θ) de la curva característica del ítem para el modelo uniparamétrico tiene la forma de la ecuación (12.1) con a i = 1, o sea, Li(θ) = θ – bi. También se han propuesto modelos de tres y de cuatro parámetros. Un modelo de tres parámetros surge cuando se desea estudiar el efecto de la conjetura, o sea, la probabilidad de aciertos por adivinación, o bien por simple azar, porque no se conoce la respuesta. Este efecto se supone que se produce en los niveles más bajos de la aptitud, por lo que para estudiarlo se introduce un parámetro c i que proporciona la asíntota más baja para la curva Pi(θ). Un cuarto parámetro γi se puede añadir para explicar las probabilidades de respuestas incorrectas de aquellos sujetos que tienen un alto nivel de aptitud. Las ecuaciones de los diversos modelos ojiva normal se dan en la Tabla 12.1 Tabla 12.1. Funciones de las CCI para modelos ojiva normal de uno, dos, tres y cuatro parámetros. Modelos ojiva normal Funciones de probabilidad de las CCI ∫ −∞ θ−bi Un parámetro Pi (θ ) = Dos parámetros Pi (θ ) = Tres parámetros Pi (θ ) = ci + (1− ci ) ∫ −∞i Cuatro parámetros Pi (θ ) = ci + ( γi − ci ) ∫ −∞i f( z ) = ∫ −∞i f( z ) dz a ( θ−bi ) f( z ) dz a ( θ−bi ) f( z ) dz a ( θ−bi ) 1 2π e − z2 2 con variable z = f( z ) dz X −µ σ siendo ai, bi, ci y γi los respectivos parámetros de los modelos. 319 Capítulo 12. TRI: Modelos m12.2. Significado de los parámetros ai y bim Para ilustrar cómo se interpretan en los gráficos de las CCI los parámetros de los ítems en los modelos TRI se puede aprovechar la ventaja que supone para el lector estar familiarizado con la N(0,1) y que las probabilidades estén tabuladas. Así, sin necesidad de integrar se puede conocer la probabilidad en cualquier punto o el área contenida en cualquier intervalo de valores de la variable, aunque en la actualidad es preferible realizar el cálculo con el computador. Considérense, por ejemplo, siete ítems caracterizados por dos parámetros, ai y bi, que toman los valores que se dan en la Tabla 12.2. Tabla 12.2. Valores de los parámetros de siete ítems. Ítems 1 2 3 4 5 6 7 ai 0 0.1 5 1 1 2 2 bi 1 1 1 1 2 1 2 Para cada uno de esos ítems i, se pueden calcular los valores de Pi(θ) haciendo uso de la expresión (12.1) con valores de la variable θ en el intervalo (–3, 3). Justificamos esta elección para el rango de θ porque el área bajo la curva normal para valores de z menores de –3 es despreciable (entre –∞ y – 2.58 es p = 0.005) y a partir del valor z = 3, el aumento del área (la probabilidad) también es despreciable, pues es de cinco milésimas (entre 2.58 y +∞ es p = 0.005). Las gráficas de las curvas características se obtienen representando en el eje horizontal (abscisas) los valores de θ y en ordenadas los correspondientes valores de Pi(θ) obtenidos con cada uno de los modelos. En este ejemplo se usa la expresión (12.1) con dos parámetros para los ítems de la Tabla 12.2. Ítem 1 Supuesto que para este ítem, a1 = 0, entonces L1(θ) = a1 (θ – b1) tomará el valor cero para valores cualesquiera de θ y b1. 320 Principios de Psicometría P1 ( θ) = ∫− ∞ f ( z ) dz 0 y el valor que corresponde a esta integral es P1(θ) = 0.50, ya que la función de densidad f(z) es la de la curva normal N(0,1). Esto sucederá sea cual fuere el valor de θ, luego el gráfico para P1(θ) es una recta paralela al eje θ, con P1(θ) = 0.50, constante para todo θ. Según la ecuación (12.1) y como se verá también con otros modelos, siempre que ai = 0, el valor de P(θ) es una constante igual a 0.5 para todo el rango de θ. O sea, que todas las CCI con ai = 0 son rectas paralelas al eje de abscisas, como puede observarse en la Figura 12.3. Ítem 2 Para este ítem se ha supuesto para ai un valor muy pequeño, distinto de cero y para bi el mismo valor que en el ítem 1. Aquí el límite superior de la integral de la expresión (12.1) es L2(θ) = 0.1 (θ – 1). Los valores de P2 (θ) para cuatro valores de θ son: ( ) ( ) P2 θ θ = −3 ≅ 0.345; P2 θ θ = 1 = 0.50 P2 θ θ = −1 ≅ 0.421; P2 θ θ = 3 ≅ 0.579 ( ) ( ) Otros valores de P2(θ) se dan en la Tabla 12.3. Se observa que en un rango de θ muy amplio, entre los valores extremos [–3, +3], la función P2(θ) tiene una variación muy pequeña: P2 (θ = 3) − P2 (θ = −3) = 0.234 Esto significa que, para los valores de ai pequeños (próximos a cero), se tiene casi la misma probabilidad de dar respuesta correcta al ítem con valores elevados de la aptitud que con valores bajos, o sea, el ítem no discrimina entre los niveles de aptitud y las gráficas de esas funciones muestran pendientes muy pequeñas. Capítulo 12. TRI: Modelos 321 Ítem 3 Este ítem se diferencia de los dos anteriores sólo en el valor del parámetro ai que en este caso (ai =5) toma un valor mucho mayor, en términos relativos. Esto se pone gráficamente en evidencia en la Figura 12.3, porque la curva P3(θ) que representa ese ítem tiene mucha pendiente en el entorno del valor θ = b = 1. Figura 12.3. Representación gráfica de las CCI de los ítems con nulo o bajo poder discriminante (ítems 1 y 2) y con alto poder discriminante (ítem 3). Los ítems 1, 2 y 3 son ejemplos de casos extremos que se han presentado para ilustrar que ai es un parámetro que indica la cualidad del ítem de dar información sobre los valores de θ donde el ítem discrimina o no de forma efectiva, o sea, es el poder discriminante del ítem. Al parámetro ai se le llama índice de discriminación. Las puntuaciones de los ítems se restringen de forma que 0 ≤ ai ≤ ∞. Usualmente se supone que ai es finito y que la probabilidad de respuesta correcta crece a medida que θ crece. Ítems 4, 5, 6 y 7 Estos cuatro ítems se usan para ejemplificar los casos en que los ítems tengan el mismo valor en a y diferentes en b (los ítems 4 y 5 por un lado y los ítems 6 y 322 Principios de Psicometría 7 por otro) y los de aquellos que, teniendo el mismo valor de b, tengan diferentes valores del parámetro a (los ítems 5 y 7). Los valores que ilustran las variaciones de las funciones Pi(θ) para valores de θ seleccionados en el rango de θ ∈[–3, 3], se dan en la Tabla 12.3, y los gráficos de las CCI de los siete ítems aquí considerados se dan en la Figura 12.4. Tabla 12.3. Valores de probabilidad de las funciones Pi (θ ; ai, bi ) para seis ítems. Ítems Valores de θ –3.00 –2.00 –1.00 0.00 0.80 1.00 1.20 1.80 2.00 2.50 3.00 2 3 P(θ ; 0.1, 1) P(θ ; 5, 1) 0.345 0.382 0.421 0.460 0.492 0.500 0.508 0.532 0.540 0.559 0.579 0.000 0.000 0.000 0.000 0.159 0.500 0.840 1.000 1.000 1.000 1.000 4 P(θ ; 1, 1) 5 P(θ ; 1, 2) 6 P(θ ; 2, 1) 7 P(θ ; 2, 2) 0.000 0.001 0.023 0.159 0.421 0.500 0.579 0.788 0.841 0.933 0.977 0.000 0.000 0.001 0.023 0.115 0.159 0.212 0.421 0.500 0.692 0.841 0.000 0.000 0.000 0.023 0.345 0.500 0.655 0.945 0.977 0.999 1.000 0.000 0.000 0.000 0.000 0.008 0.029 0.055 0.345 0.500 0.841 0.977 En la Tabla 12.3 se puede comprobar nuevamente el efecto del índice de discriminación, al comparar los valores de las columnas correspondientes a los ítems 2, 3 y 4, como también se observa, aunque en menor medida, al comparar las de los ítems 5 y 7. Al comparar las probabilidades de los ítems 4 y 5, se puede comprobar que en ambas columnas se obtienen los mismos valores, aunque con un desplazamiento de los valores del ítem 5 hacia los valores más altos de θ (obsérvense por ejemplo los valores de P4 y de P5 para valores enteros de θ). Esto es, para que la probabilidad de acertar el ítem sea la misma, por ejemplo, 0.42, el ítem 4 exige que el nivel en el rasgo sea θ = 0.80, sin embargo hay que aumentar hasta θ = 1.80 para tener esa misma probabilidad de acierto al resolver el ítem 5. También se observa que P4(θ = 2) = P5(θ = 3), y habrá igualdad siempre que las diferencias entre los valo- Capítulo 12. TRI: Modelos 323 res de θ en uno y otro test sean de una unidad, que es la diferencia entre b4 y b5. Puesto que ambos ítems tienen el mismo poder discriminante, las diferencias se deben a las diferencias en el parámetro b al que, por las razones expuestas, obviamente hay que asociar con la dificultad del ítem, es un índice de dificultad. En estos ítems se puede observar que en todos los casos es Pi(θ) = 0.50 cuando θ = b. En la Figura 12.4 se representan las CCI de los siete ítems (etiquetados como P1, P2, ... , P7) cuyos parámetros ai y bi tienen los valores dados en la Tabla 12.2. Figura 12.4. Representación de las CCI de siete ítems que difieren en poder discriminante y/o en dificultad. En esta figura se puede observar que, con valores elevados de ai, la variación de P(θ) es muy grande para valores de θ en el entorno θ = b, siendo elevada la pendiente de su CCI para esos valores de θ. También se puede observar la diferencia entre la pendiente de la CCI del ítem 3 y la del ítem 4, del que sólo difiere en el valor del parámetro a. Por lo tanto, el poder discriminante de un ítem se puede visualizar observando la pendiente de su CCI para valores de θ = b. Para ítems con los mismos valores de a, pero que varían en b (los ítems 4 y 5 y los ítems 6 y 7), las curvas CCI de los ítems con mayor valor en b están desplazadas hacia la parte positiva de la variable θ. Por lo tanto, para tener la misma probabilidad de acierto en uno y otro ítem es necesario poseer mayor valor en el rasgo para el ítem que tiene mayor valor de b. También en el gráfico se puede observar que todas las curvas con igual valor en b se cortan en el punto en que θ = b, es decir, estos ítems tienen la misma dificultad. 324 Principios de Psicometría En definitiva, se puede concluir: 1) Que si es ai = 0, entonces Pi(θ) es una constante y por lo tanto no varía con los valores de θ. Dar respuesta a cualquier ítem en el que ai = 0 no da ninguna información acerca de la aptitud. Todos aquellos sujetos que responden a ese ítem tienen la misma probabilidad de que su respuesta sea correcta P(ui = 1) = 0.50, con independencia de cuál sea su nivel en el rasgo θ. 2) Los ítems con valores de ai próximos a cero tienen CCI con muy poca pendiente, dando muy poca información acerca de θ. 3) Los valores elevados de ai producen CCI con mucha pendiente. Es decir, la función Pi(θ) pasa de tomar un valor próximo a cero a un valor de casi la unidad, en un intervalo muy estrecho de valores de θ, en el entorno de valores θ = bi. Las CCI con las mayores pendientes representan a los ítems con mayor índice de discriminación, que se traduce en mayor poder de discriminación en valores de θ cercanos a bi, pero para valores de θ algo alejadas del valor bi su poder de discriminación es casi nulo. 4) Las tres consideraciones anteriores llevan a concluir que ai es el parámetro que da la cantidad de información que proporciona el ítem acerca de θ, indicando el rango de los valores de θ donde el ítem discrimina de forma efectiva. El parámetro ai es el índice de discriminación del ítem i y usualmente se supone que ai es finito y mayor que cero. 5) Si se mantiene el valor de ai, y se varía bi (como sucede en los ítems P4(θ) y P5(θ) de la Figura 12.4) las CCI son idénticas en cuanto a forma, pero están desplazadas sobre el eje de θ. Este parámetro bi representa la dificultad, es el índice de dificultad del ítem i, pues son necesarios mayores valores de θ para tener la misma probabilidad de acertar ese ítem que con otro de menor valor en b. En ese sentido, para cada ítem i, bi da la posición o el nivel de aptitud en el que un ítem discrimina con mayor efectividad. En cuanto a sus valores, en principio se admite que –∞ < bi < ∞. 6) En todos los ítems P = 0.50 cuando θ = bi. Es decir, cuando el nivel en el rasgo iguala al valor de la dificultad, se tiene una probabilidad 0.5 de acertar el ítem. 7) Cuando los valores del rasgo son superiores a la dificultad del ítem (θ > bi), las probabilidades de acierto son superiores a 0.50 y se incrementan a medida que θ crece. Capítulo 12. TRI: Modelos 325 8) Para valores en el rasgo menores a la dificultad del ítem (θ < bi ) las probabilidades de acierto son inferiores a 0.50. 9) Las CCI poseen un punto de inflexión en θ = bi. Es el punto de máxima pendiente. Las relaciones entre los parámetros de los ítems en la TRI con los parámetros convencionales del análisis clásico son de interés. El lector puede encontrar referencias y una exposición en español en Santisteban (1990a, págs. 261-266). m12.3. Modelos logísticosm Una función muy similar a la que representa el modelo ojiva normal, y que posee mayores ventajas desde el punto de vista de su tratamiento matemático en el área de las aplicaciones, es la distribución logística. La distribución logística se define como una función y= ex 1 + ex = 1 1 + e− x ; −∞ < x < ∞ Figura 12.5. Representación de una curva logística. (12.2) 326 Principios de Psicometría En el contexto de la TRI, un modelo logístico viene dado por la función Pi (θ) = e D L i (θ ) 1+ e D L i (θ ) = −1 − D L i (θ ) = 1 + e − D L i (θ ) 1+ e 1 (12.3) siendo D una constante y Li(θ) = ai (θ – bi ) donde ai y bi son los parámetros del ítem i, con el significado que se ha explicitado anteriormente. En general, las transformaciones admisibles del modelo son las transformaciones lineales. Es decir, que la probabilidad no varía si θ se multiplica por k y se le suma un valor s, siempre y cuando se tenga en cuenta su efecto sobre los parámetros y simultáneamente se realicen en ellos las correspondientes transformaciones, como se explicitará en cada uno de los modelos. En cuanto a las relaciones en la escala para θ, hay que considerar que: DL θ 1 e i( ) = Q i (θ) = 1 − Pi (θ) = 1 − D L D θ 1 + e i ( ) 1 + e L i (θ) (12.4) por lo que la razón entre esas probabilidades viene dada por: Pi ( θ) = eD L i ( θ) Q i ( θ) (12.5) Tomando logaritmos neperianos en esa expresión: ln Pi ( θ) = D L i ( θ) Q i ( θ) (12.6) y esto representa una escala logarítmica en la que a la unidad de esa escala se le llama logit. La unidad en esta escala se obtiene igualando a uno la expresión (12.6), por lo que necesariamente una unidad logit corresponde a un valor de P i(θ)/Qi(θ) de 2.718, ya que ln e = ln 2.718 = 1. Esta equivalencia entre las escalas per- Capítulo 12. TRI: Modelos 327 mite hacer comparaciones entre valores de θ, como se verá en los Ejemplos 12.1 y 12.3. La constante D sirve como factor de escalamiento. Para maximizar el acuerdo entre los modelos ojiva normal y logístico se toma D = 1.7. Este valor no es arbitrario, ya que se comprueba que utilizando esta constante las funciones normal y logística son muy próximas con variación uniforme en θ. Este factor reescala la distribución normal de la aptitud para seguir una distribución logística. Modelo logístico de dos parámetros Birnbaum (1968) propuso un modelo en el que la CCI toma la forma de una distribución logística de dos parámetros, cuya ecuación viene dada por (12.3) con Li (θ) = ai (θ – bi ), siendo por lo tanto: Pi (θ) = e Da i (θ − b i ) 1+ e Da i (θ − b i ) = 1+ e 1 − Da i (θ − b i ) (12.7) Son características del modelo: 1) 2) 3) 4) Es unidimensional. Se da el supuesto de independencia local. Los ítems son dicotómicos. La función de distribución de probabilidad es la dada en la expresión (12.7). Siendo, por lo tanto, −1 D a i (θ − b i ) Q i (θ) = 1 − Pi (θ) = = 1+ e DL θ 1+ e i ( ) 1 (12.8) 5) Los parámetros ai y bi son los parámetros característicos del ítem (índices de discriminación y de dificultad) y D es una constante. 6) Las curvas CCI son no decrecientes. 328 Principios de Psicometría Figura 12.6. Curvas logísticas de tres ítems con diferentes índices de dificultad: P1(a1 = 1, b1 = 0), P2(a2 = 1, b2 = 1) y P3(a3 = 4, b3 = 2). 7) Se define la dificultad del ítem de manera que es 0.50 la probabilidad de responder correctamente al ítem i, cuando el nivel de aptitud θj iguala la dificultad de ese ítem. En efecto si es θ = bi entonces se da la igualdad (12.9): Pi ( θ) = e0 1 + e0 = 1 2 (12.9) Cuando el valor en el rasgo sea superior al de la dificultad del ítem, la probabilidad de respuesta correcta a ese ítem es p > 0.50, como se puede observar en las representaciones de las CCI de tres ítems con índices de dificultad b1 = 0, b2 = 1 y b3 = 2 (a1 = a2 = 1, a3 = 2) dadas en la Figura 12.6. 8) La probabilidad no varía si θ se multiplica por k y se le suma un valor s, siempre y cuando al parámetro dificultad se le aplique la misma transformación y el índice de discriminación se divida por k. O sea, las transformaciones lineales de θ son admisibles si: 329 Capítulo 12. TRI: Modelos θ∗ = k θ + s b∗ = k b + s a ∗ = a k (12.10) En cuanto a los logits, de acuerdo con la ecuación (12.6) en este modelo es: ln Pi ( θ) = DL i ( θ) = Da i (θ − bi ) Q i ( θ) lo que permite hacer comparaciones, pues la diferencia entre los logits en dos niveles del rasgo θ1 y θ2, viene dada por: ln P ( θ ) Q i ( θ1 ) Pi ( θ1 ) P (θ ) − ln i 2 = ln i 1 = Q i ( θ1 ) Q i ( θ2 ) Pi ( θ2 ) Q i ( θ2 ) = Da i (θ1 − bi ) − Da i (θ2 − bi ) = Da i (θ1 − θ2 ) (12.11) igualándose las probabilidades para sujetos con los mismos valores en el rasgo, como fácilmente se puede comprobar, pues si θ1 = θ2, el último término de la ecuación anterior es cero. Luego: Pi ( θ1 ) Q i ( θ1 ) Pi ( θ2 ) Q i ( θ2 ) =e Da i (θ1 − θ2 ) = e0 = 1 (12.12) Dos características de este modelo que están relacionadas con el vector de respuesta se dan en el Cuadro 12.1. Ejemplo 12.1 Compárense las probabilidades de acierto a un mismo ítem (ai = 2; bi = 1) de dos personas que tienen 0.5 puntos de diferencia en sus niveles en el rasgo. Esta relación la da la ecuación (12.11) con θ1 – θ2 = 0.5. 330 Principios de Psicometría Pi (θ1 ) Qi (θ1 ) 1.7 (2)(0.5) =e = e1.7 = 5.5 Pi (θ2 ) Qi (θ2 ) luego la relación entre las probabilidades de acierto y error es 5.5 veces mayor en quien tiene 0.50 puntos más en su nivel en el rasgo. Cuadro 12.1 Añadimos aquí dos características del modelo que están relacionadas con los vectores de respuesta y la información que proporcionan (véase también el Capítulo 13). ( ) r ′ 9) La probabilidad de un determinado vector respuesta V = u1, … un para un θ dado, se puede obtener haciendo uso de la expresión (11.6) y sustituyendo las Pg y Qg de esa ecuación por sus expresiones dadas en (12.7) y (12.8). r 10) Teniendo en cuenta la probabilidad de un cierto vector de respuesta V toda la información útil acerca de θ contenida en un patrón de respuesta viene dada por la siguiente expresión de la puntuación: n r X ( V ) = ∑ a i ui i=1 (12.13) Los valores de ui son cero o uno, ya que se ha supuesto que los ítems son dicotómicos, y la expresión (12.13) no depende de los parámetros bi que evalúan la dificultad. Esta relación se comprenderá mejor cuando se estudien las funciones de información, no obstante, si se acepta que la respuesta correcta se pondera por el valor del ai de cada uno de los ítems, ese valor de la puntuación total dependerá de si las respuestas correctas se han dado a ítems con un gran poder discriminante. Esta cuestión puede distraer la atención en cuanto a la exposición del modelo. No obstante, si no se consideran ítems aislados, sino que se quieren comparar a los sujetos de acuerdo con sus puntuaciones cuando dan respuesta a diferentes ítems, hay que tomar en consideración el papel del índice de discriminación de esos ítems. Considerése, por ejemplo, un test de cuatro ítems cuyos parámetros son a1 = 1; a2 = 2; a3 = 1 y a4 = 2 y calcúlese mediante la ecuación (12.13) la puntuación ponderada de algunos de los posibles patrones de respuesta. 331 Capítulo 12. TRI: Modelos r r Para un patrón de respuesta V = (0, 0, 0, 0) el valor de X ( V ) será 0. Para r otros patrones tales como (1,0,0,0)r o (0,0,1,0), los valores de X ( V ) serán 1 en ambos casos. Valores de X ( V ) igual a 2 se obtendrán para otros patrones tales como (0,1,0,0) o (1,0,1,0) or(0,0,0,1), etc. Los patrones (0,1,1,1) y (1,1,1,1) conducirían a valores de X ( V ) iguales a 5 y 6, respectivamente. Se observa con estos ejemplos que la puntuación no sólo depende de cuántos ítems se han acertado, sino también de su mayor o menor índice de discriminación, que es el peso de la cantidad de información que cada uno de esos ítems aporta a esa puntuación total, lo que permitirá ordenar a los sujetos según su vector de respuesta. Modelo logístico de tres parámetros Otro modelo de tipo logístico es el propuesto por Lord (Lord y Novick, 1968; Lord, 1980), que puede considerarse similar al anterior, añadiendo un tercer parámetro ci. La forma de la CCI para este modelo se da en la Figura 12.7 para un ejemplo con ci = 0.2, y su expresión general viene dada por: Pi ( θ) = c i + (1 − c i ) e Da i ( θ − bi ) 1 + e Da i ( θ − bi ) (12.14) donde D es una constante, ai y bi son parámetros cuyo significado es el mismo que en el modelo de ojiva normal y ci es un tercer parámetro que representa la asíntota más baja de la CCI. La inclusión de este parámetro ci se realiza para intentar controlar o ajustar la CCI en el extremo inferior del continuo de la aptitud cuando se considera que la probabilidad de acertar por adivinación o conjetura puede ser un factor influyente en el rendimiento en el test. Por tal motivo, se suele denominar a ese parámetro como parámetro conjetura. La función Pi (θ) aproxima su mínimo a ci cuando θ decrece. 332 Principios de Psicometría Figura 12.7. Curva característica de un ítem en un modelo de tres parámetros con ai = 1; bi = 0; ci = 0.20. Ejemplo 12.2 Un ítem i sigue un modelo logístico de dos parámetros con ai = 1.5 y bi = 1: a) ¿Cuál es la probabilidad que tienen de acertar ese ítem aquellos sujetos cuyo nivel en el rasgo sea θj = 1? ¿Y la de aquellos cuyo nivel es θh = 1.5? b) ¿Variarían esas dos probabilidades si la probabilidad de que se acierte ese ítem por azar es 0.20? Las probabilidades para esos niveles de θ (según la ecuación 12.7) son: ( ) Pi θ = 1 = ( e (1.7) (1.5) (1 − 1) 1+ e ) Pi θ = 1.50 = (1.7) (1.5) (1−1) e = e0 1+ e 0 (1.7) (1.5) (1.5 − 1) (1.7) (1.5) (1.5 −1) 1+ e = = 0.50 e1.275 1+ e1.275 = 0.78 aunque para θ = 1 era innecesario el cálculo, ya que según (12.9), al ser θj = bi la probabilidad es 0.50. La probabilidad de acierto por azar no es despreciable, y habría que tomarla en consideración añadiendo un tercer parámetro. Estas probabilidades se calculan mediante la expresión (12.14), obteniéndose: 333 Capítulo 12. TRI: Modelos ( ) ( ) Pi θ = 1 = 0.20 + 1 − 0.20 ( ) ( e (1.7) (1.5) (1 − 1) 1+ e ) Pi θ = 1.50 = 0.20 + 1 − 0.20 (1.7) (1.5) (1−1) e = 0.60 (1.7) (1.5) (1.5 − 1) (1.7) (1.5) (1.5 −1) 1+ e = 0.20 + 0.80 0.78 = 0.82 ( ) = probabilidades que son superiores a las que se obtienen si no se tiene en cuenta el efecto de los aciertos por azar. Este modelo admite las mismas transformaciones que el modelo logístico de dos parámetros dadas en (12.10). Es decir, una transformación lineal de θ conlleva la misma transformación de b y un cambio de escala en a, siendo en este modelo el parámetro c = c*. Los logits también toman la forma de la ecuación (12.11), pues: ln [Pi ( θ1 ) − c] Q i ( θ1 ) = Da θ − θ ( ) [Pi ( θ2 ) − c] Q i ( θ2 ) i 1 2 (12.15) luego las comparaciones entre diferentes niveles de θ dan el mismo resultado que cuando no se incluye el parámetro c en la CCI. Modelo logístico de cuatro parámetros El modelo logístico de cuatro parámetros se propone para corregir el efecto de aquellos casos en los que en altos niveles de aptitud hay una probabilidad no despreciable de que no se responda correctamente al ítem (Barton y Lord, 1981). La función que corresponde a la CCI es: Pi ( θ) = c i + ( γ i − c i ) e Da i ( θ − bi ) 1 + e Da i ( θ − bi ) (12.16) 334 Principios de Psicometría siendo γi el nuevo parámetro introducido, coincidiendo con el resto de los modelos en el significado de los parámetros ai, bi y ci. Este modelo tiene escaso interés práctico, no habiendo recibido mucha atención por parte de los investigadores pues, generalmente, este efecto se produce cuando el ítem no es correcto, o se ha enunciado de forma inadecuada. Por ejemplo, cuando la cuestión está formulada de manera que precisamente aquellos que tienen mayor aptitud (mayor nivel en θ) ponen en juego ciertas estrategias o utilizan información que les lleva a no dar al ítem la respuesta considerada correcta. Por lo tanto, esto no es un problema del modelo, en cuanto a que haya que introducir un nuevo parámetro para poder explicar un cierto resultado, sino que es un problema de conocimiento del rasgo, del análisis de sus manifestaciones y de la consecuente redacción del ítem. Esto no excluye que en alguna ocasión un sujeto con alto nivel en el rasgo, por circunstancias especiales, no diera respuesta correcta a ese ítem, pero eso obviamente no justifica la inclusión de un nuevo parámetro en el modelo. En la Tabla 12.4 se resumen las funciones correspondientes a los modelos logísticos de uno, dos, tres y cuatro parámetros, para mayor facilidad de uso por el lector. Tabla 12.4. Funciones de las CCI para modelos logísticos de uno, dos, tres y cuatro parámetros. Modelos logísticos Un parámetro Dos parámetros Tres parámetros Cuatro parámetros Funciones de probabilidad de las CCI () −1 −D(θ − bi ) Pi θ = 1+ e () −1 −Da (θ − bi ) Pi θ = 1+ e i () ( ) −1 −Da (θ − bi ) Pi θ = ci + 1 − ci 1+ e i () ( ) −1 −Da (θ − bi ) Pi θ = ci + γi − ci 1+ e i 335 Capítulo 12. TRI: Modelos m12.4. El modelo de Raschm El modelo que junto a los modelos logísticos de dos y tres parámetros ha generado mayor número de trabajos, tanto teóricos como prácticos, ha sido el modelo de Rasch. Este modelo (Rasch, 1960) fue desarrollado independientemente de los antes citados y por otras vías. Birnbaum lo considera un caso particular de su modelo logístico (Birnbaum, 1968, págs. 402-403 y 480). La CCI del modelo es asimilable a una función logística de un parámetro en la que se supone que todos los elementos tienen el mismo poder discriminante y varían en términos de dificultad. La función que describe la curva característica del modelo de Rasch es: Pi (θ) = e( θ − bi ) 1 + e( θ − bi ) (12.17) que también puede venir dada mediante la expresión: Pi (θ) = Da θ − b e ( i) 1+ e Da (θ − b i ) (12.18) donde a es el poder discriminante común a todos los ítems, bi es la dificultad del ítem i y D es una constante. Figura 12.8. CCI en un modelo de Rasch para tres ítems con b1 = 0, b2 = 1, b3 = 2. 336 Principios de Psicometría Al ser a constante, por convención se le asigna el valor uno. Bajo estos supuestos, las curvas características tendrán todas la misma pendiente. Se puede considerar que son curvas idénticas con traslaciones de amplitud bi – bk para los ítems i, k, con dificultades bi y bk (bi > bk). En la Figura 12.8 se muestran las CCI de tres ítems con distintos índices de dificultad. Cuadro 12.2 Si se asume que el valor del poder discriminante de los ítems es común a todos ellos, se puede admitir que α = 1 para todos los ítems. Si por simplicidad se considera además que D = 1, se obtiene la ecuación (12.17), en donde haciendo el cambio de variable: θ* = e θ ; b *i = eb i se obtiene Pi (θ ) = = e( θ−bi ) 1+ e( θ−bi ) = e θ / ebi 1+ (e θ / ebi ) = b * −1 θ * / b *i θ* = = 1+ i 1+ (θ * / b *i ) θ * + b *i θ * que es como Rasch (1960) desarrolla su modelo para esta forma logística. En cuanto a las transformaciones, el modelo admite cambios de origen (son traslaciones o desplazamientos sobre el eje θ) que obligan a que se hagan los mismos cambios en el parámetro b. Es fácil comprobar que si es θ* = θ + s, entonces para que P(θ*) sea igual a P(θ) debe ser b* = b + s. En cuanto a los cambios de escala en θ, esos cambios afectarían al índice de discriminación, como se ha visto anteriormente. La transformación de ai dada por las ecuaciones (12.10) en los modelos logísticos de dos parámetros no es teóricamente admisible en el modelo de Rasch, aunque en la práctica siempre es posi- 337 Capítulo 12. TRI: Modelos ble llegar a un compromiso entre un posible cambio de escala kθ y la constante 1/k que multiplicaría al término Li (θ) = D (θ – b). Con respecto a la métrica que permita hacer comparaciones, si se usan unidades logits teniendo en cuenta la forma del modelo de Rasch (12.17) y mediante la ecuación (12.6), se obtiene: ln Pi ( θ) = L i ( θ) = θ − b i Q i ( θ) (12.19) lo que permite establecer diferencias entre diferentes valores de θ, pues para dos valores θ1 y θ2 se tiene que: L i ( θ1 ) = θ1 − b i ; L i ( θ2 ) = θ2 − b i y la relación: ln Pi ( θ1 ) Q i ( θ1 ) = (θ1 − bi ) − (θ2 − bi ) = θ1 − θ2 Pi ( θ2 ) Q i ( θ2 ) (12.20) permite hacer esas comparaciones. Ejemplo 12.3 Compare las probabilidades de acertar un ítem con dificultad bi para dos sujetos con diferentes niveles en el rasgo. Esto es posible utilizando la escala logit, pues haciendo uso de la relación (12.20) es: C= ( ) ( ) = eθ − θ Pi (θ2 ) Qi (θ2 ) Pi θ1 Qi θ1 1 2 pudiéndose calcular las relaciones entre sus probabilidades de acierto elevando el número e al valor de la diferencia entre niveles de aptitud. Así, si ambos sujetos tienen el mismo nivel en el rasgo, el cociente es C = 1. Si la diferencia es de una unidad (θ1 > θ2), entonces es C = e, etc. 338 Principios de Psicometría El modelo de Rasch es el más simple en cuanto a su formulación, pues la probabilidad de respuesta correcta no depende más que de la dificultad del ítem, además de la capacidad del sujeto, que es su nivel en el rasgo. Esto se puede tomar como una gran ventaja en relación a los otros métodos que incluyen un mayor número de parámetros, y explica en parte el que muchos autores prefieran utilizarlo en lugar de los logísticos de dos y tres parámetros. No obstante, también se puede considerar a priori que es el principal inconveniente que tiene el modelo de Rasch, pues su simplicidad también obliga a hacer hipótesis muy fuertes para no incluir los otros parámetros, siendo quizá más difícil reflejar situaciones reales que con otros modelos. Se pueden encontrar muchos trabajos en los que se evidencia que un modelo logístico de dos parámetros se ajusta mucho mejor que el modelo de Rasch, y que solamente se producen resultados similares en la bondad del ajuste cuando el número de ítems que se utilizan para la construcción del test es grande. Sin embargo, también hay evidencias empíricas de que el modelo de Rasch es bastante robusto ante violaciones del supuesto de que es constante el índice de discriminación de los ítems y frente a las correcciones de aciertos por azar, comprobándose que las ganancias en las estimaciones son escasas si se utilizan modelos logísticos de dos y tres parámetros, que teóricamente se adaptan mejor a esas circunstancias. Las preferencias por uno u otros modelos varían entre los autores, aunque los objetivos de las pruebas, las características de los datos y la verificación de que las desviaciones o la violación parcial de algunos de los supuestos no producen graves consecuencias es lo que en definitiva determina la elección de uno u otro modelo. En la práctica, además de las anteriores consideraciones, hay que tener en cuenta que cuantos más parámetros contenga un modelo, mayores tamaños de muestra se requieren para estimarlos, luego el modelo de Rasch tiene la ventaja de no requerir grandes tamaños de muestra para su ajuste, en tanto que los logísticos de dos y tres parámetros requieren tamaños muestrales muy superiores. En la literatura podemos remitirnos a trabajos como el de Andersen (1973), quien examinó un subconjunto de ítems sobre aptitudes verbales para su ajuste mediante un modelo de Rasch, y el modelo se rechazó porque no daba un buen ajuste y porque se comprobó que los ítems poseían distinto poder discriminante. No obstante, otros muchos autores que han empleado el modelo de Rasch para propósitos similares lo han encontrado satisfactorio y existen muchos tests publicados que lo utilizan en esa época (e.g., Woodcock, 1974; Connolly et al., 1971; Stegelmann, 1983), siendo cada vez mayor el número de autores que lo han considerado ventajoso frente a otros modelos más complicados y de similar preci- Capítulo 12. TRI: Modelos 339 sión, desarrollándose así un gran número de modelos y de aplicaciones basados en el modelo de Rasch. Desde que se dispuso de los primeros programas de software como BICAL (Wright y Panchapakesan, 1969; Wright y Stone, 1979) y LOGIST (Wood et al., 1976), las computadoras han ido ganando en capacidad y son muchos los programas y las aplicaciones que se pueden encontrar, tanto de esos modelos básicos, como de otros mucho más sofisticados, que se han ido generando a tenor de las investigaciones teóricas, muchas veces impulsadas por las demandas de las aplicaciones. Una diferencia adicional del modelo de Rasch con respecto a los otros dos tipos de modelos logísticos, además de involucrar un menor número de parámetros, radica fundamentalmente en cómo se utilizan las puntuaciones para la obtención de la cantidad de información. Como se verá más adelante, las funciones de información ayudan a cuantificar la información que las puntuaciones observadas proporcionan acerca del rasgo. El modelo de Rasch no necesita utilizar los pesos diferenciales de los ítems para producir la puntuación total que dé la máxima cantidad de información acerca del rasgo, pues en el modelo de Rasch el número de respuestas correctas es el mejor total que se puede usar para ese fin. Sin embargo, en los modelos logísticos de dos y tres parámetros no es así como se puede obtener la mejor puntuación total, y es necesario utilizar pesos diferenciales para los ítems, como ya se ha apuntado en el Cuadro 12.1. m12.5. Otros modelosm Los modelos TRI más básicos, y hasta ahora los más utilizados, suponen la unidimensionalidad, la independencia local y que los ítems sean dicotómicos (o que se dicotomicen). Existen, sin embargo, otros modelos que contemplan la posibilidad de respuesta múltiple o politómica, así como de puntuaciones continuas y modelos en los que se considera más de una dimensión para el rasgo. Un modelo que admite m categorías para la respuesta lo introdujo Samejima (1969). Es el modelo de respuesta graduada en el que, aunque utiliza para la respuesta escalas categóricas tipo Likert, para establecer la forma probabilística del modelo se efectúa una cierta dicotomización. Bock (1972) y Samejima (1972) proponen los modelos de respuesta nominal para el caso de ítems con respuesta múltiple o politómica. En estos modelos, también es fundamental la forma de la CCI, pero aquí esa curva no es única para cada ítem, sino que cada opción de respuesta vie- 340 Principios de Psicometría ne descrita por su propia curva característica, pasando a ser el modelo logístico de dos parámetros un caso particular del modelo nominal con dos alternativas de respuesta. Otro de los modelos introducidos por Samejima (1973), como un caso límite del modelo anterior, es el modelo de respuesta continua, donde la respuesta viene dada sobre una escala continua. El modelo parece ser de utilidad en los estudios con datos provenientes de escalas de actitud y en psicología social. La literatura especializada muestra que muchos otros modelos se han considerado y aplicado a problemas concretos. Gran parte de ellos se han generado como generalizaciones del modelo de Rasch, destacando el denominado modelo logístico lineal, desarrollado en su mayor parte en las escuelas del grupo europeo de psicómetras, y que se viene utilizando fundamentalmente en el estudio de los procesos cognitivos. Una revisión de los modelos se puede ver en Van der Linden y Hambleton (1997), y una exposición de los más relevantes en Santisteban y Alvarado (2001), aunque el continuo desarrollo de los modelos TRI obliga a hacer periódicamente una revisión sobre las nuevas propuestas. Aun cuando en la literatura al uso no se haga mención a ellos, hay otros modelos no lineales basados en distribuciones de probabilidad, son los modelos de error binomial y los modelos de Poisson, que no se suelen tratar en la literatura dentro de la TRI. Se incluyen en los modelos de la teoría fuerte de la puntuación verdadera, contraponiéndola a la TCT, que recibe la denominación de teoría débil de la puntuación verdadera. Los modelos de error binomial fueron introducidos por Lord (1965) y presuponen que la puntuación observada se corresponde con el número de respuestas correctas en un test, cuyos ítems son localmente independientes. Los modelos de Poisson los introduce Rasch y son muy apropiados para tests basados en un gran número de ítems dicotómicos en los que la probabilidad de respuesta correcta (o incorrecta) sea pequeña. En el modelo de Rasch, los errores estándar de medida se estiman separadamente para los diferentes niveles de aptitud y de dificultad de los tests. Rasch (1960) describe cómo se pueden obtener estimadores de los errores estándar de las estimaciones de la aptitud y de la dificultad y desarrolla un modelo de Poisson para evaluar la rapidez lectora, que toma como base para ilustrar cómo conseguir estimaciones suficientes de los parámetros. Esta propiedad de la suficiencia para estimar el parámetro θ, ha sido la piedra angular donde se apoyan los modelos TRI. Por ello, la aportación de Rasch a la psicometría ha sido crucial. Remitimos al lector interesado a la obra de Rasch (1960), y también se puede encontrar una exposición detallada en Santisteban (1984 y 1990a; págs. 237-254). Capítulo 12. TRI: Modelos 341 En cuanto a la dimensionalidad, los modelos unidimensionales son los más tratados en la literatura, pero con las posibilidades que ofrecen los computadores en cuanto a la rapidez y el manejo de gran volumen de datos, se han ido abriendo paso los modelos multidimensionales. Los modelos multidimensionales ojiva normal, modelos multicomponentes y extensiones multidimensionales del modelo de Rasch, entre otros, los presentan diversos autores en el Capítulo III de Van der Linden y Hambleton (1997). En español, aunque escuetamente, se tratan en Santisteban y Alvarado (2001). Las extensiones del modelo de Rasch están entre los modelos multidimensionales que se han generado con mayor número de aplicaciones prácticas en psicología, sociología y educación. La obra de Von Davier y Carstensen (2007) es una recopilación de algunos de estos modelos. m12.6. Estimación de los parámetros de los modelosm La exposición de los modelos se ha hecho dando su forma funcional y especificando sus parámetros, pero nada se ha dicho de cómo se llega al conocimiento del valor de esos parámetros, ya que la única información disponible, en principio, son los datos de las respuestas que los sujetos dan a uno o a varios ítems. El paso de esa información al conocimiento del valor de los parámetros es la estimación, que es el problema más importante desde el punto de vista computacional y de la explicación del modelo. En un modelo, cuantas más propiedades se quieren explicar sobre el hecho que representa, más parámetros hay que incluir en su formulación. A los modelos TRI anteriormente expuestos se les denomina uniparamétricos si sus funciones características sólo incluyen como parámetro del ítem el índice de dificultad. Los modelos de dos parámetros, además del índice de dificultad incluyen el índice de discriminación, y cuando se intenta explicar el comportamiento del acierto por conjetura, hay que incluir un parámetro más. En todos estos modelos hay que realizar además la estimación de un parámetro adicional que es el parámetro θ y que es, en definitiva, en el que generalmente se está interesado. En general, la estimación de parámetros es un problema de inferencia estadística, pues se trata de averiguar el valor de esos parámetros a través de la información que aportan las muestras. Estas muestras deben ser representativas de la población que se estudia y la aproximación se hace utilizando los estadísticos. Un estadístico es una función de las observaciones muestrales, y si se utiliza para reali- 342 Principios de Psicometría zar estimaciones, entonces se le llama estimador. No todos los estadísticos son buenos estimadores, por lo que hay que conocer las propiedades de cada estimador y elegir el más adecuado. Existen diferentes métodos, a los que genéricamente se les llama métodos de estimación, que se utilizan para que esa aproximación se realice con garantías y con la debida precisión. Los métodos de estimación son de muy diversa índole (paramétricos, no paramétricos, de información completa, de información limitada, etc.) y dentro de cada grupo siempre se pueden encontrar diferentes tipos, atendiendo a diferentes problemas o a distintas formas de hacer las aproximaciones. La estimación de los parámetros de los modelos de TRI se fundamenta en los métodos estadístico-matemáticos (e.g., de los momentos, de los mínimos cuadrados, de la máxima verosimilitud, bayesianos, etc.). Sin embargo, las exigencias tanto computacionales como de interpretación han llevado a que se desarrollen procedimientos y a que se genere una gran cantidad de software específico para el tratamiento de la estimación de parámetros y del ajuste de gran variedad de modelos TRI. En relación con los modelos que se presentan en este capítulo, podemos decir que, tanto el modelo de Rasch como el logístico de dos parámetros, pueden estimarse adecuadamente con el software disponible en una variedad de programas, en tanto que en otros modelos, como el logístico de tres parámetros, no todos los programas son aconsejables, pues la presencia del parámetro c puede generar algunos problemas en el proceso de estimación. La gran importancia de la estimación en los modelos de TRI obliga a llamar la atención del lector sobre este punto, aunque la extensión y la complejidad del tema, aun en los casos más simples, excede las dimensiones de esta obra, remitiéndole a otras publicaciones (e.g., Baker, 1992; Van der Linden y Hambleton, 1997 en inglés, y Meliá y Santisteban, 2009 en español). No obstante, incluimos una breve introducción sobre la estimación de máxima verosimilitud, pues ha sido el método por excelencia que se utiliza en TRI. La mayor parte de los métodos de estimación aplicados en TRI tienen su fundamento en la estimación de máxima verosimilitud, con muchas variaciones como el de la máxima versosimilitud conjunta, o el de la estimación por máxima verosimilitud marginal. Los fundamentos del método pueden seguirse en cualquier manual de estadística en el que se aborden estos temas. Una excelente referencia donde todo el proceso está bien documentado, dando la forma concreta de las ecuaciones en derivadas, es la contribución de Birnbaum (en Lord y Novick, 1968), que desarrolla el método para el modelo logístico de dos parámetros, haciéndolo Lord Capítulo 12. TRI: Modelos 343 (1968, 1975a, 1975b, 1980) para el modelo de tres parámetros, aunque son muchos los autores que ya desde sus inicios tratan el tema (Urry, 1974, Jensema, 1976; Wood et al., 1976; Schmidt, 1977; Samejima, 1977; Reckase, 1979, etc.). El método de máxima verosimilitud El método de máxima verosimilitud se basa en la búsqueda de estimadores de los parámetros desconocidos que maximicen la probabilidad de obtener los datos disponibles en la muestra, o sea, aquellos que sean los más verosímiles, dada la información que proporcionan las observaciones muestrales. La obtención de esos valores máximamente creíbles (probables) para que sean los estimadores de los parámetros, se suele lograr maximizando una función de los valores muestrales a la que se denomina función de verosimilitud. En general, si es F(x) la función de distribución y f(x) la función de probabilidad de una variable aleatoria X que depende de m parámetros desconocidos θ1, …, θm que se quieren estimar con ayuda de la información que proporciona una muestra de tamaño n, la función de verosimilitud viene dada por la ecuación L (x; θ1 , …, θm ) = ∏ f ( x i , θk ) n i=1 (12.21) aunque usualmente, en lugar de utilizar la función de verosimilitud, se utiliza su logaritmo, que al ser el logaritmo del producto es igual a la suma de los logaritmos, por lo que la función de verosimilitud toma la forma: log ∏ f ( x i ; θ1 , …, θm ) = ∑ log f (x i ; θ1 , …, θm ) n n i=1 i=1 (12.22) Los estimadores de máxima verosimilitud para los parámetros implicados, θ1, …, θm, se obtienen resolviendo el sistema de ecuaciones que proporcionan las derivadas de la función de verosimilitud con respecto a cada uno de los parámetros igualadas a cero, como se indica en la expresión (12.23). Esas soluciones son los valores estimados de los parámetros, y para comprobar que maximizan la función de verosimilitud, habría que obtener la segunda derivada. Por ello, para utilizar este método, las funciones deben ser doblemente derivables. 344 Principios de Psicometría ∂ log L (x; θ1 , …, θm ) ∂θk = 0; k = 1, 2, …, m (12.23) En los modelos TRI las funciones de probabilidad son las P(θ), y al ser los ítems dicotómicos, la función de verosimilitud para un vector de n componentes responde a la expresión dada en (11.6), donde el parámetro θ es desconocido y se desea estimar. La función de verosimilitud se puede expresar, por lo tanto, como: ( ) [ ] [Qi (θ)] L u 1 , u 2 , …, u n θ = ∏ Pi (θ) y su logaritmo, según (12.22) es: ( ) n i =1 ui 1− u i [ (12.24) ] log L u 1, u 2, …, u n θ = ∑ u i log Pi (θ) + (1 − u i ) log Q i (θ) n i =1 (12.25) Para la obtención de los estimadores se deriva esta expresión, siendo los estimadores las soluciones de esas ecuaciones, como se ha indicado en (12.23). La expresión (12.25) se simplifica cuando ui = 1 (acierto), pues sólo hay términos Pi, y cuando es cero (error), pues sólo hay términos Qi. El logaritmo de la función de verosimilitud, en principio, puede ser un logaritmo natural o tener cualquier base, pero lo usual es tomar logaritmos neperianos, sobre todo en los modelos TRI cuyas CCI incluyen funciones exponenciales con base e. Ejemplo 12.4 Se va a estimar el parámetro θ de un sujeto j a partir de las respuestas que da a n ítems binarios que siguen distribuciones logísticas con ai =1 y bi = 0. Para realizar la estimación se utiliza el método de máxima verosimilitud, por lo que se construye la función de verosimilitud como se indica en (12.24) y (12.25). Al ser las funciones de probabilidad para todo ítem i de la forma: Pi (θ ) = eθ 1+ e θ [ = 1+ e − θ ] −1 y Qi (θ ) = 1 − eθ 1+ e θ = 1 1+ e θ 345 Capítulo 12. TRI: Modelos la función de verosimilitud es: n− x j θ j x j 1 e L u1, u2 , …, un θ j = ∏ Pi (θ ) Qi (θ ) = θj θj i=1 1+ e 1+ e ( ) n puesto que para un determinado patrón de respuestas, la puntuación total del sujeto j, es: x j = ∑ uij n i=1 El logaritmo neperiano de L es: θj 1 e lnL u1, u2 , …, un θ j = x j ln + n − x j ln θj θ 1+ e j 1+ e ( ) ( ) Derivando con respecto a θj e igualando a cero, se obtiene que ( ∂ lnL ui θ j ∂θ j )= xj 1+ e θj − (n − x j ) e 1+ e θj θj = x j − (n − x j ) e 1+ e θj θj =0 de donde se deduce la solución θˆ j = ln xj n − xj Así, si un vector de respuesta tuviese, por ejemplo, doce componentes (n = 12) y el sujeto j tuviese siete aciertos (xj = 7), el valor estimado para su nivel del rasgo sería: 7 θˆ j = ln = 0.336 5 y para otro sujeto h que tuviese 9 aciertos se le estimaría un nivel (valor) en el rasgo: 9 θˆ h = ln = 1.099 3 Una explicación más completa en modelos TRI, dando las funciones de verosimilitud para las respuestas a n ítems con las que se pueden obtener 2n patrones diferentes y que cada uno de esos patrones se puede repetir un número r de veces en una muestra, se puede encontrar en Santisteban (1990a). 346 Principios de Psicometría Métodos condicionales y no condicionales Hasta ahora, para estimar θ se ha dado por supuesto que son conocidos los parámetros del ítem (ai, bi, ci, etc.). Esta estimación se llama estimación condicional, pues se ha realizado la estimación de θ admitiendo que esos parámetros son conocidos y que, por lo tanto, la función de verosimilitud está condicionada sólo a los valores de θj. En el Ejemplo 12.4 anteriormente expuesto se utilizan métodos condicionales, pero lo usual es que no se tenga conocimiento previo de los índices de dificultad y de discriminación de cada ítem, salvo que se tomen de un banco de ítems previamente construido donde los ítems están calibrados. Por lo tanto, de los datos muestrales habrá que estimar, tanto θ como los parámetros de los ítems. A este modo de proceder se le llama estimación conjunta y habrá que buscar el valor de los parámetros que maximicen el valor de la función de verosimilitud que ahora, en lugar de ser una función ( ) L u 1 , u 2 , …, u n θ será una función ( L u 1 , u 2 , …, u n θ; a , b, c ) en el caso de un modelo de tres parámetros. Una exposición más detallada sobre las funciones de verosimilitud se puede encontrar en Santisteban (1990a) y en Lord y Novick (1968) o en Hambleton y Swaminathan (1985) para los modelos logísticos. Téngase en cuenta que si se quieren estimar simultáneamente los parámetros de n ítems y de N sujetos, si los ítems son uniparamétricos, el número de parámetros que se deben estimar son n + N, o sea, el índice de dificultad de cada uno de los ítems y el parámetro aptitud de cada uno de los sujetos. Si en cada ítem hubiese que estimar dos parámetros, el número total de parámetros que habría que estimar sería 2n + N, y así sucesivamente. Con estos procedimientos analíticos (i.e., obteniendo la primera derivada, igualando a cero, etc.) no siempre se obtiene la solución óptima, por lo que adicionalmente, o en su defecto, se utilizan técnicas de aproximación. Son métodos numéricos basados en algoritmos iterativos, como es el método de Newton-Raph- 347 Capítulo 12. TRI: Modelos son, que partiendo de una primera estimación (generalmente obtenida por un procedimiento analítico y a ser posible que fuera un estimador consistente) permiten a la función logaritmo de verosimilitud ir aproximándose a su máximo en sucesivos pasos. Casi todos los autores utilizan para la estimación de los parámetros de los modelos el método de máxima verosimilitud, la diferencia fundamental está en si se obtienen estimadores no condicionales de los parámetros. Una exposición muy detallada y completa sobre diferentes métodos de máxima verosimilitud se puede encontrar en la obra de Meliá y Santisteban (2009) en la que los Capítulos 4, 5 y 6 se dedican al tratamiento de los métodos de máxima verosimilitud conjunta, condicional y marginal respectivamente. Cuadro 12.3 Las buenas propiedades de los estimadores de máxima verosimilitud, y muy especialmente la suficiencia, justifican que este método sea el que más se utilice y que en él se fundamenten muchos otros métodos para realizar la estimación de parámetros en TRI. Citemos aquí algunas de las propiedades que poseen estos estimadores y que el lector puede corroborar en cualquiera de los textos de estadística especializados en este tema. También puede encontrar información en Santisteban (1990a) y una discusión amplia sobre esas propiedades y sus relaciones en Meliá y Santisteban (2009). Las propiedades más relevantes de los estimadores de máxima verosimilitud es que son: 1. 2. 3. 4. 5. 6. Insesgados (o asintóticamente insesgados) Suficientes Eficientes Invariantes bajo transformación de los parámetros Consistentes Asintóticamente más eficientes y asintóticamente normales con media y varianza dadas en la expresión (12.26): 1 θˆ → Nθ; 2 ∂ ln f( x, θ ) n E ∂ θ (12.26) 348 Principios de Psicometría donde n es el número de muestras y E el operador esperanza matemática. A la expresión ∂ ln f( x, θ ) 2 nE = I (θ ) ∂θ (12.27) Fisher la llama cantidad de información contenida en la muestra de n observaciones. Luego la varianza del estimador es la inversa de la cantidad de información de Fisher: 1 σ 2 (θˆ ) = I (θ ) (12.28) Este concepto se va a utilizar cuando en el próximo capítulo se traten las funciones de información de los ítems y de los tests en el contexto de la TRI. El conocimiento de esa varianza y, por lo tanto, del error típico de medida s s = I (θ )−1/ 2 = 1 ∂ ln f( x, θ ) 2 n E ∂θ permite calcular los límites de los intervalos de confianza de amplitud 1 – α para el parámetro θ, siendo estos intervalos tales que: [ ] Prob θˆ − z α s ≤ θ ≤ θˆ + z α s = 1− α (12.29) Desde el punto de vista técnico, la estimación de los parámetros es fácilmente abordable con un conocimiento básico del software disponible (e.g., BILOG, BILOG-MG, MULTILOG, PARSCALE, XCALIBRE). Finalmente, indicar que además de los métodos paramétricos, como los de máxima verosimilitud, también se han desarrollado métodos no paramétricos, siendo los más utilizados los que tienen como base la aproximación bayesiana. Esta aproximación bayesiana presenta un intento de incorporar toda la información conocida a priori, relevante y válida, al proceso de hacer inferencias. Capítulo 12. TRI: Modelos 349 Cuadro 12.4 La aproximación bayesiana se basa en el concepto de probabilidad condicionada y en el teorema de Bayes, que es imprescindible conocer para comprender la lógica de este procedimiento. Aquí, mediante el teorema de Bayes se pone en relación una primera distribución de la aptitud f(θα ) con la función de respuesta a un cierto vector V. La probabilidad condicionada, expresada por f(θαV), indica la distribución posterior, o a posteriori, de θ, siendo la función f(Vθα ) la distribución de probabilidad condicionada que indica la verosimilitud de las observaciones. De acuerdo con el teorema de Bayes, la distribución posterior se obtiene como producto de la verosimilitud por la distribución primera de θ: f(θαV) ∝ L(Vθα ) f(θα ) donde L (Vθα ) expresa la función de verosimilitud, ya dada en la expresión (12.21) o su equivalente (12.24) para ítems dicotómicos. Un estudio completo del procedimiento en la utilización del método bayesiano para la estimación de los parámetros aptitud, cuando los parámetros de los ítems son conocidos, lo dan Birnbaum (1969) y, posteriormente, Owen (1975). En el caso en que deba realizarse la estimación conjunta de los parámetros de los ítems y de los parámetros de aptitud por procedimientos bayesianos, remitimos al lector a los trabajos de Swaninathan y Gifford (1982) o a obras más recientes como la de Embretson y Reise (2000), y la de Baker y Kim (2004). Otro problema que hay que abordar inexcusablemente es verificar que el modelo elegido se ajusta a los datos. Es decir, si el modelo refleja adecuadamente aquello que las puntuaciones representan. Para valorar el ajuste se han propuesto varios índices, la mayoría de ellos basados en el estadístico χ2. Los problemas de estimación y de la valoración del ajuste del modelo representan la fase final e ineludible, pues son garantía de que, tanto los ítems como los tests, poseen las propiedades psicométricas necesarias para su uso. 350 Principios de Psicometría Puntos clave 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Los modelos TRI básicos son modelos no lineales, unidimensionales y de ítems dicotómicos. Los diferentes modelos responden a la forma funcional de la CCI. Cada ítem tiene su propia CCI que da la probabilidad de acierto, Pi(θ), al ítem para los diferentes valores de θ. Un sujeto en un determinado nivel en un cierto rasgo θ puede tener distintas probabilidades de acierto a ítems con CCI diferentes, aun cuando esos ítems midan el mismo rasgo. Los modelos TRI básicos son los modelos unidimensionales ojiva normal, los logísticos y el modelo de Rasch. La forma funcional del modelo ojiva normal es la normal acumulada. Los modelos logísticos reciben esa denominación porque sus curvas de probabilidad P(θ) son funciones logísticas. Los de dos y tres parámetros son los más utilizados en las aplicaciones. El modelo de Rasch ha sido crucial en el desarrollo de la TRI y está entre los más utilizados en las aplicaciones. Es un modelo logístico de un parámetro que supone que la probabilidad de acierto al ítem sólo depende de su dificultad y del nivel del sujeto en el rasgo. En todos los modelos, cuando la aptitud iguala a la dificultad, la probabilidad de acertar el ítem es de 0.50 (salvo cuando hay que considerar en el modelo el acierto por azar). Esa probabilidad de acierto aumenta a medida que crecen los valores de θ. Se consideran parámetros de los modelos los índices de dificultad y de discriminación (ai y bi), así como los que se incluyen para considerar la probabilidad de acierto por azar (ci) y la de error en niveles altos de aptitud (γi). La aptitud θ también es un parámetro del modelo, aunque no se contabiliza al indicar si un modelo es uniparamétrico, biparamétrico, etc. Casi todos los modelos TRI admiten transformaciones lineales del parámetro θ, lo que obliga a hacer las pertinentes transformaciones en el resto de los parámetros para conservar la métrica. Introducir una escala logarítmica (el neperiano del cociente entre las funciones de probabilidad de acierto y error) permite hacer ciertas comparaciones entre sujetos con diferentes valores en el parámetro θ. Uno de los problemas básicos para el tratamiento de los modelos es la estimación de sus parámetros y la valoración de la bondad del ajuste del modelo a los datos. Los métodos de estimación más utilizados en TRI son los basados en la máxima verosimilitud (conjunta, condicional, marginal, etc.), que suelen acompañar- Capítulo 12. TRI: Modelos 3 351 se de métodos numéricos de aproximación como el de Newton-Raphson, aunque también se utilizan otros métodos, teniendo mucha presencia en la literatura los métodos bayesianos. En la actualidad hay programas específicos de software para verificar los supuestos de los modelos, estimar los parámetros y para evaluar la bondad del ajuste de cada modelo a los datos. Actividades r Con la ayuda de las tablas de la distribución normal, calcule la probabilidad (área) contenida en los intervalos (–∞, –2.58); (–∞, –1.68); (–∞, 0); (–∞, 1.68); (–∞, 2.58). r Lleve a un gráfico esos valores. Al eje horizontal (abscisas ) los valores –2.58, 1.68, 0, 1.68 y 2.58, y al vertical (ordenadas) los de las correspondientes áreas acumuladas. Una los puntos y discuta el significado, relacionándolo con un modelo ojiva normal. r Represente gráficamente las CCI de tres ítems ojiva normal de uno, dos y tres parámetros, cuyos valores son b1 = 2; a2 = 1.5, b2 = 1 y a3 = 1.5, b3 = 1, c3 = 0.15. r Represente las CCI de los tres ítems anteriores suponiendo que siguen modelos logísticos. r Discuta por qué para hacer comparaciones basadas en la puntuación de un vector de respuesta, es importante tener en cuenta la información que aporta cada ítem a través de su índice de discriminación. r Haga supuestos y especifique la función característica de dos ítems de diferente dificultad que sigan un modelo de Rasch. Represente gráficamente sus curvas características y discuta las diferencias en las probabilidades de acierto a ambos ítems en dos sujetos que difieren en una unidad en sus niveles de aptitud. r Calcule en los diferentes modelos el valor de P(θ) cuando la aptitud es igual a la dificultad (θ = b). Discuta los resultados. r Un vector de respuesta contiene cinco ítems que siguen un modelo de Rasch con b = 1. Estime la aptitud de un sujeto que responde correctamente a cuatro de esos ítems. 352 Principios de Psicometría r Para un vector de respuesta de cinco ítems, construya la función de verosimilitud de un determinado patrón sabiendo que los ítems se ajustan a modelos logísticos de dos parámetros. r Haga una búsqueda del software existente para el tratamiento de distintos modelos TRI y realice una clasificación de los programas en relación con los modelos y sus utilidades. Teoría de la respuesta al ítem Funciones de información y aplicaciones 13 El diseño y construcción de tests es una de las aplicaciones inmediatas más importantes de los modelos TRI. En términos generales se puede decir que, una vez determinado el objetivo específico para el que se construye el test, el mejor test de k ítems que se puede construir, a partir de un conjunto de n ítems disponibles, es aquel que proporcione la mayor cantidad de información acerca del rasgo. La cuantificación de la cantidad de información de los tests se hace a través de las llamadas funciones de información, que denotaremos por I(θ). La función de información de un test se obtiene sumando las funciones de información de todos sus ítems, por lo que se dará en primer lugar la definición de la función de información de un ítem, para pasar luego a la del test, su significado y su utilidad. La introducción del concepto de eficiencia relativa permitirá comparar las informaciones que proporcionan dos tests en diferentes puntos de θ. En este capítulo se va a tratar: ã El concepto de función de información del ítem. ã La función de información del test y su relación con la cantidad de información de Fisher. ã Las funciones de información para diferentes modelos. ã Ponderaciones y valores de máxima información. ã Construcción, interpretación y aplicabilidad de las curvas de información. ã El concepto de eficiencia relativa. ã Qué es un banco de ítems, un test a la medida (tests adaptativos) y el uso de las funciones de información en la construcción de tests. 354 Principios de Psicometría m13.1. Funciones de informaciónm La función de información de un test, I(θ), representa la máxima cantidad de información que se puede obtener sobre el rasgo, a partir de las respuestas dadas a los ítems de ese test, sea cual sea el método de puntuación utilizado. La información del test se obtiene sumando la información que proporciona cada uno de los ítems. El test no es igualmente informativo en todo el rango de θ, pues depende de la forma de las curvas características de los ítems que lo componen. El punto más informativo de cada ítem es aquel en el que el valor de θ iguala a su dificultad (θj = bi ). Para acceder a esos conceptos comencemos por la definición de la función de información del ítem. Función de información del ítem La función de información del ítem, que denotamos por I(θ; ui) para un ítem i dicotómico, con respuesta ui, se define mediante la expresión: I ( θ, u i ) = [Pi′(θ)] 2 Pi ( θ) Q i ( θ) (13.1) donde Pi(θ) es la función de respuesta al ítem (ojiva normal, logística, etc.) y Qi(θ) = 1 – Pi(θ). Al ser el ítem dicotómico, el denominador de (13.1), Pi(θ) Q i(θ), es la varianza. En el numerador, P'i(θ) es la primera derivada de Pi(θ) con respecto a θ, que se particulariza para todos los valores especificados del rango de θ. Por lo tanto, la cantidad de información que proporciona un ítem no es la misma en todo el rango de θ, sino que varía con los niveles de aptitud. Cuadro 13.1 Birnbaum (1968) define la función de información de diferentes formas equivalentes. La que se presenta como definición 1, como el cociente entre la pendiente de la curva de regresión de la puntuación X sobre la aptitud θ con la varianza del estimador de la aptitud y una segunda en la que, en lugar de usar directamente la varianza para la definición, lo hace a través de la ampli- 355 Capítulo 13. TRI: Funciones de información tud del intervalo de confianza construido como se indica en el Cuadro 12.3. Estas definiciones de la función de información son equivalentes a la expresión (13.1), pero están dadas en términos más generales, haciendo evidente la relación de la precisión de las estimaciones (dadas por la varianza, o por su raíz cuadrada, que es el error típico de medida) con la información que proporciona el ítem o el test a lo largo de todo el continuo del rasgo θ, y no mediante un valor fijo del error típico de medida, como se hace en la TCT. Así pues, estas definiciones de la información pueden ayudar a entender su significado, si se está familiarizado con los conceptos de los diferentes términos que entran en esas definiciones. Definición 1 La función de información para una puntuación X es, por definición, la razón entre el cuadrado de la pendiente de la regresión de X sobre θ y el cuadrado del error estándar de medida de X para un θ dado. ( ) I θ, X = d µ 2 X θ dθ σ 2X (13.2) θ siendo: µX θ dµ X σ 2X = E ( X | θ ) la media de las puntuaciones X, condicionadas a θ. Por lo tanto, es la curva representativa de las medias de la puntuación X condicionadas a cada uno de los valores de θ, o sea, la curva de regresión de X sobre θ. θ dθ θ es la derivada primera con respecto a θ de la curva de regresión, o sea, su pendiente. es la varianza de la puntuación X alrededor de la curva de regresión, o sea, el cuadrado del error estándar de medida. Definición 2 La función de información I (θ, X) para cualquier puntuación X es, por definición, inversamente proporcional al cuadrado de la longitud del intervalo de confianza asintótico para el estimador de θ calculado a partir de la puntuación X. Esta deducción que hace Birnbaum se puede comprobar fácilmente que coincide con la definición 1. La demostración se puede encontrar en Santisteban (1990a, pág. 298). 356 Principios de Psicometría Si se tiene en cuenta que la pendiente de una curva en un punto es el valor de la derivada de la función que representa a esa curva en ese punto, tanto la expresión (13.1) como la (13.2) indican que la función de información para un determinado ítem y un valor del rasgo θ = θk es el cuadrado de la pendiente de la curva de regresión (no lineal) en el punto θk, dividido por el cuadrado de la desviación típica o error típico de medida. Como se ha hecho patente en el capítulo anterior, la pendiente de la CCI es pequeña cuando el valor del índice de discriminación ai es pequeño, como muestran las curvas P1 (pendiente cero) y P2 (escasa pendiente, la curva es casi horizontal) de la Figura 12.3. Intuitivamente se puede deducir que esos ítems dan poca información, porque las probabilidades de acierto son muy similares para todos los sujetos, aun cuando difieran mucho en aptitud. Sin embargo, en esa misma figura se observa que el ítem P3 tiene mucha pendiente y discrimina mucho (da mucha información acerca de la probabilidad de acierto) alrededor del punto θ = 1. Es decir, las diferencias en probabilidad son muy grandes entre aquellos sujetos que tienen valores en el rasgo superiores o inferiores al valor 1, pero no demasiado alejados de ese valor θ = 1. Desde esta perspectiva, en la Figura 12.4 se pueden observar las diferencias entre los ítems, por ejemplo, que los ítems P4 y P6 dan bastante información en un amplio rango de θ. La expresión (13.1) indica que el valor de la función de información depende de dos fuentes de variación. Una es la pendiente de la curva en cada punto, que cuanto mayor sea mayor información se obtendrá acerca de θ, la otra es el cuadrado del error estándar de medida, que cuanto menor sea, mayor será la información. El cociente entre estos dos términos es deseable que sea lo mayor posible. Cuadro 13.2 Para ilustrar el cálculo de la pendiente consideremos el caso de un modelo logístico de dos parámetros cuya CCI es la representada como P6 en la Figura 12.4. La derivada P´(θ) es: P′(θ ) = Da i eDai ( θ−bi ) 1+ e Da i ( θ−bi ) ⋅ 1+ e 1 Da i ( θ−bi ) = Da iPi (θ ) Qi (θ ) (13.3) 357 Capítulo 13. TRI: Funciones de información Por lo tanto, para ese ítem en concreto P′(θ ) = (1.7)( 2) e(1.7 ) ( 2 ) ( θ−1) 1+ e ( 1.7 ) ( 2 ) ( θ−1) ⋅ 1+ e 1 ( 1.7 ) ( 2 ) ( θ−1) Que para algunos valores de θ toma los siguientes valores: θ P' (θ) –2.0 –1.0 0.0 0.8 1.0 1.2 1.8 2.0 3.0 0.000 0.004 0.106 0.759 0.850 0.759 0.197 0.106 0.004 El mayor valor para P' (θ) se obtiene cuando θ = 1. En este caso, ese valor es próximo a la unidad, luego el ángulo α que forma la tangente a la curva en ese punto con el eje horizontal es α = 44.8º (recuérdese que la pendiente es igual a la tangente de ese ángulo y que tan α = 1 cuando α = 45º). Para valores de θ extremos (positivos o negativos) P' (θ) → 0 y la pendiente es nula (α = 0º). Función de información del test La función de información de un test es la suma de las funciones de información de todos los ítems que lo componen: I ( θ) = ∑ I( θ, u i ) = ∑ n i=1 n [Pi′(θ)] 2 i=1 Pi ( θ) Q i ( θ) (13.4) Se demuestra en estadística matemática que, bajo ciertas condiciones de regularidad, un estimador de máxima verosimilitud θ$ de un parámetro θ, está distribuido asintóticamente según una distribución normal (como se ha indicado en el Cuadro 12.3). Su varianza es igual a la inversa de la expresión a la que Fisher llamó cantidad de información (que es el cuadrado de la derivada del logaritmo de la función de verosimilitud), también llamada información de Fisher y que se denota por I(θ). 358 Principios de Psicometría 1 Var ( θ$|θ) = I ( θ) (13.5) Se comprueba (Lord, 1980, pág. 70), que si se dan las condiciones exigidas a los modelos TRI (unidimensionalidad e independencia local) la varianza dada en (13.5) responde a la siguiente expresión: Var ( θ$|θ) = [Pi′ ( θ)] 1 ∑ n 2 (13.6) i=1 Pi ( θ) Q i ( θ) El denominador de la expresión (13.6) es por definición la función de información del test, dada en (13.4). Por lo tanto, la función de información de un test es inversa a la varianza del estimador máximo verosímil (insesgado y consistente) de la aptitud y se puede demostrar (de acuerdo con la desigualdad de Cramer-Rao) que la función de información I(θ) de un test dado es la cota superior para la información que se puede obtener mediante cualquier método de puntuación del test. La demostración de las anteriores aseveraciones excede a los propósitos de esta obra. Sin embargo, es conveniente saber que es de esos resultados de los que se desprende que la información proporcionada por el test venga dada por la suma de las informaciones de cada ítem, con independencia de cuánta es la información que aporta cada uno de ellos. m13.2. Las funciones de información en diferentes modelosm Para obtener las ecuaciones de las funciones de información de los ítems, basta con sustituir en (13.1) las expresiones correspondientes a cada uno de los modelos. Por ejemplo, para un modelo logístico de dos parámetros, la derivada P' (θ) viene dada por (13.3), luego su función de información es: I ( θ, u i ) = D2 a 2i Pi2 ( θ) Q2i ( θ) = D2 a 2i Pi ( θ) Q i ( θ) Pi ( θ) Q i ( θ) (13.7) 359 Capítulo 13. TRI: Funciones de información esto indica que la información, para un nivel dado de la aptitud, es directamente proporcional al cuadrado del índice de discriminación del ítem. La información del test, compuesto por n ítems es: I( θ) = ∑ I( θ, u i ) = ∑ D2 a 2i Pi ( θ) Q i ( θ) n n i=1 i=1 (13.8) De la expresión (13.7) se deduce que el ítem aporta la mayor cantidad de información cuando se maximiza Pi (θ) [1 – Pi (θ)] o sea, cuando Pi (θ) = 0.50, y esto sucede cuando θ = bi siendo I ( θ, u i ) = D2 a 12 / 4 el valor máximo de la información. En el modelo de un parámetro, si se considera como caso particular del modelo logístico biparamétrico en el que ai = 1, la mayor información se da también para θ = bi, siendo ese valor máximo I (θ, ui) = D2 / 4. De forma análoga se pueden obtener las funciones de información de los ítems y de los tests para los diferentes modelos. Para el modelo logístico de tres parámetros, la función de información viene dada por la expresión: I ( θ, u i ) = D2 a 2i 2 Q i ( θ) Pi ( θ) − c i Pi ( θ) 1 − c i (13.9) Birnbaum (1968, págs. 463-464) indica que la mayor cantidad de información se obtiene cuando θ toma el valor: θ = bi + ( ) 1 1 ln 1 + 1 + 8c i D ai 2 (13.10) La información máxima (Lord, 1980, pág. 152) viene dada por la expresión: I ( θ, u i ) = D2 a 2i 8 (1 − c 2i ) [1 − 20 c − 8 c i 2 i + (1 + 8 c i )3 / 2 ] (13.11) 360 Principios de Psicometría Es evidente que cuando ci tiende a cero la información crece y tiende a coincidir con la del modelo de dos parámetros. Para c i = 0; θ = bi + ( ) 1 1 ln 1 + 1 D ai 2 que al ser ln1 = 0, indica que el máximo se alcanza en θ = bi y no en un nivel más alto de la aptitud, como lo haría si se considerase en el modelo el parámetro conjetura o probabilidad de acierto por azar ci. Las expresiones de las funciones de información para los modelos logísticos se dan en la Tabla 13.1. Tabla 13.1. Funciones de información para tests con ítems logísticos. I(θ) Modelos Un parámetro ∑D2 Pi (θ) Qi (θ) Dos parámetros ∑D2 ai2 Pi (θ) Qi (θ) Tres parámetros ∑D n i=1 n i=1 n i=1 2 a i2 2 Qi (θ ) Pi (θ ) − ci Pi (θ ) 1− ci En resumen, en estos modelos se puede decir que la información: a) Varía con los niveles de aptitud, por lo que, en principio, la información es diferente en los diferentes puntos de la escala de θ. b) Depende de la forma de la CCI. Cuanto mayor es la pendiente de la curva en un punto, mayor es la información que aporta el ítem en ese punto. c) Depende de la varianza de las estimaciones. Capítulo 13. TRI: Funciones de información 361 d) Para los modelos logísticos de uno y dos parámetros, la máxima información se obtiene en aquellos valores de θ que igualan al nivel de dificultad, o sea, cuando θ = bi . e) De lo anterior se deduce que los valores máximos de la información se alcanzan para θ = bi y esos valores son D2/4 y D2 a2i/4 para los modelos de uno y dos parámetros, respectivamente. f ) Para el modelo logístico de tres parámetros, la máxima información se alcanza para el valor de θ dado por la ecuación (13.10), y el valor máximo de la información se obtiene por la expresión dada en (13.11). Este valor crece cuando ci decrece y coincide con la del modelo de dos parámetros cuando ci es cero. g) Las funciones de información del test se obtienen sumando las correspondientes funciones de información de cada uno de los ítems para todos los valores de θ. m13.3. Curvas de informaciónm La función de información del test viene dada por la suma de las funciones de información de todos los ítems que lo componen. En la Tabla 13.2 se da un ejemplo de los valores de la información (utilizando la ecuación (13.7) para diferentes valores de θ) de seis ítems que siguen modelos logísticos de dos parámetros. En la última columna de dicha tabla se dan los valores de la información del test formado por esos seis ítems. Las funciones de información de los ítems se pueden representar gráficamente, llevando al eje de abscisas los diferentes valores de θ y en ordenadas los de los correspondientes I (θ, ui), para cada uno de los modelos. En la Figura 13.1 se representan las funciones de información de los seis ítems de la Tabla 13.2. En el mismo gráfico también se representa con trazos discontinuos la función de información del test, calculada como suma de las informaciones que proporcionan esos seis ítems. La cantidad de información de cada ítem varía con el nivel de aptitud θ, y con sus valores respectivos de a y de b. El ítem 1, por ejemplo, da bastante información para valores bajos de θ, pero su información es casi nula para niveles altos de la aptitud. El ítem 6, por el contrario, suministra la mayor información en los niveles más altos de θ, siendo su información prácticamente nula en los más bajos. 362 Principios de Psicometría Tabla 13.2. Valores de Ii (θ ; ai , bi ) para seis ítems y el test total. Ítems Valores de θ –3.00 –2.00 –1.00 0.00 0.80 1.00 1.20 1.80 2.00 2.50 3.00 4.00 5.00 Total 1 2 I(θ ; 1.5, 0) I(θ ; 1, 1) 0.003 0.039 0.437 1.626 0.662 0.437 0.278 0.065 0.039 0.011 0.003 0.000 0.000 0.003 0.017 0.090 0.377 0.702 0.723 0.702 0.470 0.377 0.194 0.090 0.017 0.003 3 I(θ ; 2, 1) 0.000 0.000 0.013 0.361 2.580 2.890 2.580 0.670 0.361 0.070 0.013 0.000 0.000 4 5 6 I(θ ; 1, 2) I(θ ; 2, 2) I(θ ; 1.5, 2.5) 0.001 0.003 0.017 0.090 0.294 0.377 0.470 0.702 0.723 0.606 0.377 0.090 0.017 0.000 0.000 0.000 0.013 0.189 0.361 0.670 2.580 2.890 1.510 0.361 0.013 0.000 0.000 0.000 0.001 0.011 0.083 0.136 0.220 0.800 1.110 1.626 1.110 0.136 0.011 0.007 0.059 0.558 2.478 4.510 4.924 4.920 5.287 5.500 4.017 1.954 0.256 0.031 Figura 13.1. Funciones de información de los seis ítems dados en la Tabla 13.2 y la función de información total del test. Capítulo 13. TRI: Funciones de información 363 Si se comparan las curvas de información con ítems que siguen el mismo modelo, teniendo el mismo valor de bi y diferentes valores de ai (por ejemplo las de los ítems 2 y 3) se observa que es mayor la información suministrada por el ítem con mayor valor del parámetro a (los ítems 3 y 5). Esto es lógico, pues la ecuación (13.7) indica que la información de un determinado ítem depende del cuadrado de su índice de discriminación. Es decir, aquellos ítems con valores de a muy pequeños tendrán una contribución muy escasa a la información total del test. Por lo tanto, cuando se construya un test que se desea que sus ítems sean homogéneos, debe buscarse que los diferentes ítems tengan índices de discriminación parecidos, pues de otra manera aquellos ítems con bajos valores de ai apenas contribuirán a la información total del test, y si son muy elevados, sucederá lo contrario. En un test en el que, por ejemplo, dos ítems que tengan el mismo valor de bi y la relación entre sus valores de ai sea 1:2, la información del segundo ítem será el cuádruple que la del primero, y para un determinado valor del rasgo, θ = θj, se necesitarán cuatro ítems del primer tipo para tener la misma información que el segundo ítem proporciona para ese nivel de aptitud. Ponderaciones Puesto que la función de información del test se obtiene sumando las funciones de información de los ítems que lo componen y cada uno de ellos proporciona distinta información, es muy importante al construir el test tener en cuenta con qué peso contribuye cada ítem, para poder así maximizar la información total que da el test. En un test con información I ( θ) = ∑ I ( θ, u i ) i si se ponderan los ítems y se denota por wi (i = 1, …, n) el peso de cada uno de sus n ítems, la puntuación total X de ese test y la información que proporciona vienen dadas por las expresiones: n 2 ∑ w i Pi′( θ) n i=1 X = ∑ w i u i ; I θ , ∑ w i u i = i ∑ w 2i Pi ( θ) Q i ( θ) i=1 i (13.12) 364 Principios de Psicometría Si para construir el test se eligen aquellos ítems que tengan pesos óptimos, sean éstos wi*, la información I (θ, ∑ w* ui ) es la mayor información que se puede obtener con ese test, y eso se cumple para cualquiera que sea el método de puntuación elegido para obtener X. La TRI ofrece la forma de elegir pesos para los ítems que den una puntuación total X para el test que conlleve la máxima cantidad de información acerca de θ (la cantidad de información de Fisher). La contribución de cada ítem, para dar una medida efectiva de la información del test, no depende de qué otros ítems se han incluido en él. Los pesos óptimos para los ítems vienen dados por la expresión siguiente: w *i = Pi′( θ) Pi ( θ) Q i ( θ) (13.13) De donde se deducen (Cuadro 13.3) los pesos óptimos para los diferentes modelos. En la Tabla 13. 3 se dan esos pesos para los modelos logísticos. Tabla 13.3. Pesos óptimos para los modelos logísticos de uno, dos y tres parámetros. Número de parámetros del modelo Peso óptimo w i* = Pi′ Pi Qi Uno Dos D D ai Tres Da i 1+ ci e −Dai ( θ−bi ) Como puede observarse en la Tabla 13.3, los pesos óptimos de las puntuaciones de los ítems en los modelos logísticos de uno y dos parámetros son independientes del nivel de aptitud del sujeto, siendo este peso, o una constante en el modelo de un parámetro, o proporcional al poder discriminante del ítem en el modelo de dos parámetros. Los pesos óptimos para el modelo logístico de tres parámetros dependen de θ, que en muchos casos puede ser una dificultad añadida, si es desconocido. Lord (1980, pág. 75) indica que para resolver este proble- 365 Capítulo 13. TRI: Funciones de información ma se puede hacer una aproximación, que consiste en sustituir Pi(θ) por la proporción pi de respuestas correctas dadas al ítem, que coincide con el índice de dificultad convencional. Cuadro 13.3 Lord (1980, pág. 73) deriva la ecuación (13.12) utilizando la definición 1 de información que se ha dado en el Cuadro 13.1. La expresión de los pesos óptimos dada en (13.13) se justifica porque, si se sustituyen estos pesos en la función de información I (θ, ∑ wi ui) dada en (13.12) se obtiene que () I θ = 2 2 ′ ∑P i / Pi Qi i ∑ Pi Qi (Pi′ / Pi Qi ) [ Pi′(θ)] =∑ 2 P (θ ) Q (θ ) 2 i i i i que es la función de información de Fisher, que alcanza la cota de Cramer-Rao, siendo por lo tanto esa ponderación la que produce la máxima información. La comprobación de que los pesos óptimos para los distintos modelos son los dados en la Tabla 13.3 es inmediata: Para una distribución logística de dos parámetros, basta con dividir la expresión de la derivada P´(θ), obtenida en la expresión en (13.3) por el producto Pi(θ) Qi(θ). Si la función de respuesta al ítem es una distribución logística de tres parámetros: P'i (θ ) = [ Da i Qi (θ ) Pi (θ ) − ci 1− ci ] (13.14) y los pesos óptimos para las puntuaciones de los ítems son: w ∗i (θ ) = [ D a i Pi (θ ) − ci Pi (θ ) (1− ci ) ] = D ai eDL ci + e i DL i = D ai 1+ ci e − D L i que cuando ci = 0, coincide con los de los logísticos de dos parámetros. 366 Principios de Psicometría Hay que advertir que si se desea hacer uso de los pesos óptimos de los ítems al construir un test, la puntuación total en ese test hay que obtenerla sumando la de cada uno de los ítems, multiplicado por su correspondiente coeficiente de ponderación, como ya se indicó cuando se enunciaron las características del modelo logístico de dos parámetros (Cuadro 12.2), donde se pueden ver algunos ejemplos. También conviene hacer notar que para el modelo de tres parámetros, de acuerdo con la expresión dada en la Tabla 13.3, los pesos óptimos varían con los diferentes valores de θ, ya que dependen de la pendiente de la curva de probabilidad, como ocurre con las funciones de información (Figura 13.2). Figura 13.2. Variación de los pesos óptimos con la aptitud en el modelo de tres parámetros para valores de ai = 2, bi = 1 y ci = 0.2. Cuadro 13.4 Los pesos óptimos que se asignan a los ítems (mediante la ecuación 13.13) para discriminar entre niveles de aptitud dependen del índice de discriminación del ítem (en los modelos de dos y tres parámetros, siendo una constante en el de un parámetro). Es conveniente añadir las siguientes consideraciones: a) Los pesos óptimos de los ítems en los niveles más altos de θ son virtualmente independientes de la aptitud, pues en el modelo de tres parámetros (el único en que dependen de θ) el peso óptimo del ítem se puede considerar prácticamente constante a partir de un cierto nivel de aptitud (Figura 13.2). Capítulo 13. TRI: Funciones de información 367 b) A medida que disminuye la aptitud, los pesos óptimos decrecen en este modelo de tres parámetros, llegando a ser prácticamente cero a bajos valores de θ. Es decir, a bajos niveles de aptitud, cuando la conjetura es relativamente importante, los pesos óptimos son pequeños, pudiendo incluso llegar a ser nulos, con lo que la influencia de este ítem en la información total del test puede ser nula. Dicho de otra manera, los individuos con bajo nivel de aptitud suelen hacer conjeturas acerca de los ítems difíciles que se les presentan y sus respuestas a estos ítems son aleatorias, en cuyo caso la influencia de la probabilidad por conjetura es muy superior a la que aporta el índice de discriminación. c) Por lo tanto, es conveniente utilizar ítems con un moderado poder discriminante para discriminar en niveles altos de aptitud, mientras que para discriminar a niveles bajos es conveniente utilizar ítems que sean fáciles. Aplicabilidad Las funciones de información son muy útiles en la construcción de tests, por ejemplo, en el proceso de selección de los ítems que van a formar parte de un test, se pueden ignorar aquellos que presenten poca información, que casi siempre se debe a que el valor del error estándar de medida es elevado. Esta selección se puede realizar ítem a ítem, puesto que la contribución de cada ítem a la información del test no depende del resto de los ítems que componen ese test. Esta posibilidad no existe en la TCT, donde los análisis hay que hacerlos sobre el test global y donde, además, sólo se puede hacer uso del error típico de medida y no de la curva de la función de información. Usando las propiedades de las funciones de información se pueden diseñar tests con un determinado perfil de información, por ejemplo, que den mucha información en determinados valores de θ. Esto es, tests que discriminen mucho en ciertos valores de rasgo. Puesto que la información que proporciona un ítem no es uniforme a lo largo de θ, para conseguir el test con el perfil deseado y con el menor coste posible, se deben elegir aquellos ítems que proporcionen la mayor información en los puntos de interés. 368 Principios de Psicometría Bancos de ítems El análisis de los ítems, el conocimiento del punto donde dan la máxima información, la ponderación de las puntuaciones, la eficiencia relativa, etc. dan una idea de la utilidad de la TRI en la construcción de tests. Entre muchas otras aplicaciones, de las que ya Lord (1980) da una extensa relación, está la construcción de bancos de ítems. Un banco de ítems para la medición de un rasgo no es más que una colección amplia de ítems calibrados para la medición de ese rasgo. Es decir, tener disponible para la medición de ese rasgo un conjunto amplio de ítems de los que se conocen sus características psicométricas. Un determinado banco de ítems se puede utilizar al menos con dos objetivos, aumentar el banco, o usarlo para la construcción de tests. En ambos casos, siempre hay que partir de un conjunto de ítems que estén calibrados. Para la ampliación del banco, hay que que generar nuevos ítems, utilizando la misma metodología que los que ya pertenencen al banco y proceder a establecer las conexiones entre las métricas, para hacer la equiparación de las puntuaciones de los nuevos ítems con los del banco. Para la construcción de bancos de ítems hay software específico disponible (e.g., MICROCAT, RASCAL, ASCAL) que en algunos programas también permite la administración de los ítems del banco y el análisis de los resultados. No obstante, la construcción de un banco de ítems no es tarea fácil ni puede estar en manos de inexpertos. El uso de los bancos de ítems para la construcción de tests es evidente que supone un ahorro considerable en todo tipo de costes, pues se pueden elegir de ese banco aquellos ítems que proporcionen mayor información en algún valor del rasgo, o para un objetivo determinado, como la elaboración de tests a la medida, o tests secuenciales, etc. Tests adaptativos computarizados Una aplicación importante, generalmente asociada con la TRI, es la construcción de tests adaptativos computarizados, para los que se usan las siglas CAT (del inglés Computarized Adaptive Testing). Con este método lo que se trata en definitiva es de obtener información precisa y eficiente sobre los niveles de cada individuo en el rasgo. Para iniciar el proceso hay que disponer de un conjunto muy amplio de ítems de los que se conocen sus características psicométricas, información que se ha obtenido haciendo uso de la TRI. Supóngase que se dispone de 300 ítems. El proceso comien- Capítulo 13. TRI: Funciones de información 369 za cuando se le administran a un sujeto ítems con dificultad media, que se le presentan y a los que da respuesta en un computador. Recuérdese que la dificultad del ítem está conectada con el nivel en el rasgo y que, en modelos TRI, el nivel de dificultad de un ítem es el nivel en el rasgo que se requiere para que sea 0.50 la probabilidad de dar respuesta correcta a ese ítem. El programa del computador adapta el test al aparente nivel en el rasgo que va mostrando el sujeto con sus respuestas. Si el sujeto comienza dando algunas respuestas correctas, entonces el computador busca en su base de datos y selecciona ítems cuya dificultad sea un poco mayor. Si por el contrario, las respuestas no son correctas, entonces busca y presenta ítems cuya dificultad sea un poco menor. Así se va iterando el proceso. El programa estima en cada paso la aptitud del sujeto, reestimándola con cada respuesta correcta o incorrecta. El proceso termina cuando se han presentado un número de ítems suficientes para obtener una estimacion precisa y eficiente del nivel del sujeto en el rasgo. El procedimiento actúa de forma individualizada, presentando diferentes ítems a diferentes sujetos. Los que ya evidencian un alto nivel en el rasgo no precisan resolver ítems fáciles y viceversa. Por lo tanto, aunque en la base de datos están disponibles todos los ítems (los 300 de este supuesto), un programa CAT presenta a cada individuo sólo el número de ítems que se requiera en cada caso para llegar a la estimación del rasgo. Este procedimiento se usa fundamentalmente en tests de aptitud, de rendimiento y de conocimientos. Muchos de ellos los aplican organismos oficiales, sobre todo en EEUU, y se pueden encontrar en algunas web (véase, por ejemplo, en las referencias: ETS, 2008; o NCSBN, 2008). Una introdución asequible a una variedad de usos de la TRI orientada a los psicólogos está en Embretson y Reise (2000). m13.4. Eficiencia relativam La eficiencia relativa de un test con puntuaciones Y, con respecto a otro de puntuaciones X, es la razón de sus funciones de información: E R = E R ( Y, X) = I ( θ, Y ) I ( θ, X ) (13.15) siempre y cuando X e Y sean puntuaciones en tests referidos a la misma aptitud y que los valores de las informaciones que se comparan se refieran al mismo punto θ = θj. 370 Principios de Psicometría Cuadro 13.5 Algunos autores (Hambleton y Swaminathan, 1985) hacen algunas disquisiciones acerca del término eficiencia relativa. Si las funciones de información se calculan sobre distintos modelos de tests con distintas fórmulas de puntuación, se obtiene la precisión relativa, reservando la denominación de eficiencia relativa para el caso de un mismo modelo de test en el que se comparan dos formas de puntuación. La eficiencia relativa de las puntuaciones de dos tests varía con el nivel de aptitud, obteniéndose un valor de la ER para cada uno de los valores de θ. Por lo tanto, si se calcula cada uno de esos valores, se pueden representar gráficamente obteniéndose la curva de eficiencia, o función de eficiencia, que representa las variaciones de la ER a lo largo de θ. Es de esperar que en algunos puntos la ER sea mayor para X que para Y, y que en otros suceda lo contrario, pues la ER depende de los valores de las respectivas funciones de información en cada punto y, como se ha visto anteriormente, estas funciones varían a lo largo de θ. Por ejemplo, si la información de un test X en θ = – 1 es 3 y en θ = 1 es 6, siendo la información de un test Y en esos puntos 1 y 12 respectivamente, el test X es tres veces más eficiente que el Y en θ = – 1, y la eficiencia del test Y es el doble que la del test X en θ = 1. Ejemplo 13.1 Supónganse dos tests que siguen un modelo logístico de dos parámetros: un test X formado por dos ítems en los que a1 = 2, b1 = – 0.5 y a2 = 1, b2 = – 0.5 y un test Y formado por otros dos ítems con a1 = 0.9, b1 = 0 y a2 = 1.9, b2 = 1. Se quieren calcular los valores de la información de ambos tests y su eficacia relativa (tanto del test Y en relación con el test X, como la del test X en relación con el test Y) en función de los valores del rasgo θ. Los valores de la información para cada uno de los ítems y para ambos tests pueden calcularse utilizando la ecuación (13.7) como ya se hizo para otros ítems en el Apartado 13.3. Los resultados para algunos valores de θ se han recogido en la Tabla 13.4 con el propósito de que el lector pueda comprobar de una manera fácil algunos de dichos resultados. En las dos últimas columnas de la misma tabla se presentan también los valores de las eficiencias relativas en esos valores de θ. 371 Capítulo 13. TRI: Funciones de información Tabla 13.4. Valores de información para los tests X e Y (IX e IY ) y eficiencias relativas (ER). X Y ER θ I1 I2 IX I1 I2 IY IX / IY IY / IX –3.0 –2.5 –2.0 –1.5 –1.0 –0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.001 0.006 0.035 0.181 0.755 1.445 0.755 0.181 0.035 0.006 0.001 0.000 0.000 0.007 0.017 0.040 0.090 0.194 0.377 0.606 0.722 0.606 0.377 0.194 0.090 0.040 0.008 0.023 0.075 0.271 0.949 1.822 1.361 0.903 0.641 0.383 0.195 0.090 0.040 0.000 0.000 0.000 0.002 0.009 0.043 0.201 0.760 1.373 0.760 0.201 0.043 0.009 0.026 0.054 0.111 0.216 0.381 0.564 0.650 0.564 0.381 0.216 0.111 0.054 0.026 0.026 0.054 0.111 0.218 0.390 0.607 0.851 1.324 1.754 0.976 0.312 0.097 0.035 0.308 0.426 0.676 1.243 2.433 3.002 1.599 0.682 0.365 0.392 0.625 0.928 1.143 3.250 2.348 1.480 0.804 0.411 0.333 0.625 1.466 2.736 2.548 1.600 1.078 0.875 En la Figura 13.3 se han representado los valores de la Tabla 13.4, más todos aquellos resultantes del mismo cálculo con incrementos de 0.01 en los valores de la variable θ, por lo que las funciones representadas parecen curvas continuas. En dicha figura se observa que el test X (línea de puntos IX) tiene un máximo de información en θ = – 0.44, presentándolo el test Y (línea de trazos IY) en θ = 0.95. Por lo tanto, el test X presenta mayores valores de información que el test Y a bajos valores del rasgo y viceversa. Este resultado era de esperar dados los valores de los parámetros a y b de los ítems que constituyen ambos tests. Respecto a las eficiencias relativas, puede verse en la figura 13.3 que son iguales a la unidad en varios valores del rasgo (–1.66, 0.27 y 2.62), debido a las diferentes formas de las curvas de información para ambos tests. Sin embargo, el punto importante en que ambos tests tienen la misma eficiencia relativa es el que está a θ = 0.27 (punto de cruce), pues los otros dos se dan en valores del rasgo en los que la información de cada test es cercana a cero. En este caso de igual eficiencia, o cuando son diferentes, cualquier conclusión que quiera derivarse utilizando tan bajos valores de información es poco fiable en la práctica. En cuanto a cuáles son las diferencias en eficiencia entre ambos tests, en la Figura 13.3 se observa que la eficacia relativa del test X en relación con el test Y (curva continua gruesa), llamada en la figura ER(X,Y), es mayor que la unidad a bajos valores del rasgo y menor que a la unidad a valores altos del rasgo. Lo contrario ocurre con la curva ER(Y, X) que representa la eficacia relativa del 372 Principios de Psicometría test Y en relación con el test X (curva continua fina), dado que es el inverso de la anterior. Por lo tanto, el test X es más eficiente que el Y en un rango aproximado de θ entre –1.66 y 0.27, siendo más eficiente el test Y que el X para valores θ mayores de 0.27 y menores que 2.62. Figura 13.3. Valores de las funciones de información de los tests X (IX) e Y (IY) y de las eficacias relativas (ER) calculadas en función del rasgo θ, utilizando el modelo logístico de dos parámetros. m13.5. La métrica y los valores de las funciones de informaciónm Al calcular los valores de la función de información esos valores pueden ser muy elevados o no, pero de ellos no se deriva directamente la cuantía de esa información, ya que para interpretarlos hay que tener en cuenta que dependen de la escala en que estén dados los valores de θ. La métrica de las funciones de información está condicionada por la métrica elegida para θ. Teóricamente, θ puede tomar valores en todo el rango de los números reales R, o sea, desde –∞ a +∞. Por ello, el obtener valores de la función de información, ya sean bajos o elevados, puede ser engañoso en cuanto a su valoración e interpretación. Aun más, siempre es posible transformar un valor de la función de información en otro cualquiera, haciendo la pertinente transformación de θ. Capítulo 13. TRI: Funciones de información 373 Por lo tanto, los valores de la función de información hay que interpretarlos en términos relativos y siempre en relación con la escala de θ, puesto que no hay cero ni unidad común para esa escala. Para cualquier transformación monótona de la escala de aptitud θ* = θ* (θ) se demuestra (Lord, 1980, pág. 85) que I (θ*, x) = I(θ, x)/(dθ*/dθ)2. Es decir, que cuando la métrica elegida para θ se transforma mediante una función monótona θ* = θ*(θ), entonces la función de información para la métrica θ* es la original dividida por el cuadrado de la derivada de la transformación. Por lo tanto, para que en las aplicaciones sean correctas y válidas las consideraciones que anteriormente se han hecho acerca de los niveles de aptitud para los que se obtiene la máxima información, en cada ítem y modelo, es necesario que previamente se haya elegido convenientemente la métrica de θ. Estas precisiones acerca de la métrica elegida para θ y de sus efectos sobre la información no son necesarias en el caso del cálculo de la eficiencia relativa, pues es fácil comprobar que la eficiencia relativa es invariante con respecto a transformaciones monótonas de θ. Esta propiedad de invarianza de la eficiencia relativa es importante en la búsqueda de ciertas estrategias necesarias en la práctica de la construcción de tests, pues son aplicables a la selección de ítems, evaluación de tests, construcción de tests adaptativos o tests a la medida, etc., ya que permiten hacer comparaciones con las debidas garantías en cuanto a que se preservan las cualidades psicométricas. m13.6. Resumen de los procedimientosm De lo expuesto acerca de las funciones de información del ítem y del test, y especialmente del hecho de que la información de un test sea la suma de las funciones de información de los ítems que lo componen, se puede hacer un uso adecuado para construir tests que gocen de ciertas propiedades deseables. La forma de proceder para la construcción del test puede ser la siguiente: 1. Proveerse de un conjunto de ítems dirigidos a evaluar un cierto rasgo y que estén calibrados. Por lo tanto, que se conozcan sus curvas de información. 2. Decidir qué forma se desea que tenga la curva de información del test, de acuerdo con el objetivo que se pretenda para su construcción. Es la curva de información objetivo. 374 Principios de Psicometría 3. Elegir los ítems con mayor información y con menor desviación típica. 4. Seleccionar los ítems con curvas de información que se ajusten mejor a las áreas bajo la curva de información objetivo. 5. Calcular la información acumulada cada vez que se añade un nuevo ítem. De esta manera, en cada momento del proceso se tiene conocimiento de la curva de información para el conjunto de los ítems seleccionados. 6. Continuar el proceso hasta que el área bajo la curva de información objetivo esté ajustada con una aproximación satisfactoria. 7. Cuidar en el proceso los efectos que sobre la información tiene la métrica elegida para la escala de aptitud. Puesto que las funciones de información dependen de los niveles de la aptitud, y puesto que la métrica para θ se elige arbitrariamente, es necesario tenerlo en cuenta en todo el proceso, y en especial en la interpretación. 8. Calcular la eficiencia relativa, para el análisis de los ítems y para la comparación de tests. Por ejemplo, cuando se quieran comparar, en términos de sus funciones de información, dos tests que evalúen el mismo rasgo, o cuando se quiera comparar un test consigo mismo al considerar o no los pesos óptimos de las puntuaciones. 9. Construir la curva que represente la eficiencia relativa de los tests en cada uno de los valores de θ. Es la llamada función de eficiencia relativa, que permite visualizar en qué puntos son igualmente eficientes (ER = 1), o cuando el test X es más eficiente que el test Y (ER < 1), y en aquellos en los que fuera la de Y mayor que la de X (ER >1). 10. Tener en cuenta la aplicabilidad de la ER a múltiples propósitos en el diseño y construcción de tests. Esto se debe principalmente a la invarianza de la ER con respecto a las transformaciones de θ y a que se puede aplicar a cualquier sistema de puntuaciones en los tests y no solamente al caso de ítems dicotómicos (Lord, 1980). Puntos clave 3 La función de información de un ítem dicotómico se define como el cociente entre el cuadrado de la derivada de la función de probabilidad [P´(θ)]2 y la varianza P(θ)Q(θ). Capítulo 13. TRI: Funciones de información 3 3 3 3 3 3 3 3 3 3 3 3 3 375 La derivada P´(θ) es la pendiente de la CCI que toma valores diferentes para diferentes valores de θ. Por lo tanto, la información que proporciona el ítem varía con los niveles de θ. La información que proporciona el ítem está directamente relacionada con su indice de discriminación. La forma analítica de la función de información del ítem depende de la forma analítica del modelo que se ajusta a ese ítem. La función de información del test se obtiene sumando las funciones de información de los ítems para todos los valores de θ. La función de información de un test es inversa a la varianza del estimador máximo verosímil de la aptitud y equivale a la información de Fisher para esa función de probabilidad. Se puede construir un test para un perfil de información predeterminado y con el menor número posible de ítems si, conocidas sus funciones de información, se eligen los ítems más adecuados para que su suma se ajuste al perfil. Los ítems se pueden ponderar de forma que maximicen la información que proporcionan. El disponer de un banco de ítems calibrados (se han estimado sus parámetros y se conocen sus características psicométricas) es de gran ayuda en la construcción de tests, haciendo uso de sus funciones de información. Los valores de la función de información dependen de la escala elegida para θ. Por ello, hay que interpretarlos en términos relativos y en cada caso concreto. El cociente entre las funciones de información de dos tests es un indicador de la eficiencia relativa (ER) de uno con respecto al otro. Puesto que la ER varía con los valores de θ, un test puede ser más eficiente que otro sólo en ciertos valores de θ, siendo al contrario para otros valores de θ y ser igualmente eficiente en otros. La ER, al ser una magnitud relativa, no varía con transformaciones en la métrica de θ y es aplicable con cualquier sistema de puntuaciones. La invarianza de la ER es muy importante, pues no sólo es un método para comparar la eficiencia de dos tests en diferentes valores del rasgo, sino que también lo es para el diseño y la construcción de tipos específicos de tests, como los tests adaptativos. Actividades r Calcule los valores y represente las curvas de información de los ítems cuyas funciones de probabilidad se dan en la Tabla 12.2. Discuta acerca de la información que contiene el test compuesto por esos seis ítems. 376 Principios de Psicometría r Un test está formado por los ítems de la Tabla 13.2 más otro con a = 2.5 y con b = 2. Represente las funciones de información de cada uno de los ítems y la del test. r Si esos ítems pertenecieran a un banco y se quisiera construir un test cuya información en θ = 1.5 fuese al menos igual a 4, ¿qué ítems se deberían elegir? ¿Y cuáles se elegirían si a su vez se quiere que la información en θ = 2 sea al menos igual a 5? r Suponga que de los siete ítems de la segunda actividad, los cuatro primeros forman un test y los otros tres otro diferente. Calcule la eficiencia relativa de ambos tests. r Discuta en el caso anterior en qué valores de θ sería un test más eficiente que el otro, o si ambos serían igual de eficientes. r Represente gráficamente las variaciones de la eficiencia relativa de un test con ítems ponderados, con respecto a ese mismo test sin ponderaciones de los ítems. r Si tuviera que hacer un test secuencial con los ítems de la Tabla 13.2 ¿en qué orden los aplicaría? Y si el test estuviese compuesto por esos ítems más el séptimo añadido (a = 2.5 y b = 2) ¿cuál de los dos tests sería más eficiente? Justifique las respuestas. r ¿Cuál es la amplitud del intervalo de confianza de θ para un ítem que se ajusta a una función logística de dos parámetros, siendo a = 2 y b = 1? Para resolverlo considere D = 1 y la información (definición 2) que se proporciona en el Cuadro 13.1. r Busque en la bibliografía el significado que en física tienen los invariantes y relaciónelo con lo que significa la invarianza de la eficiencia relativa y con otros conceptos (e.g., invarianza de las puntuaciones, invarianza en las transformaciones, etc.) que se han tratado en este texto. El sesgo en los tests Sesgos y comportamiento diferencial de los ítems 14 Los estudios en cualquier ámbito de la ciencia requieren que se minimicen los errores, pero su credibilidad se sostiene en la ausencia de sesgos, tanto en sus planteamientos y en los métodos con que se abordan los problemas, como en la interpretación de las conclusiones. La generalización del uso de los tests y su influencia en la toma de decisiones en muchos y muy diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.) hace que la introducción de sesgos, favoreciendo o perjudicando a algún grupo de población, tenga importantes implicaciones tanto económicas como sociales e individuales. La validez del test implica ausencia de sesgos. Por ello, uno de los temas de investigación relevantes en psicometría ha sido el estudio de la equidad y del sesgo de los tests. En las últimas décadas, con el uso de la TRI en la construcción de tests, han proliferado los estudios sobre el funcionamiento diferencial de los ítems. En este capítulo se va a tratar: ã Qué es el sesgo y cuáles son las principales fuentes de sesgo en la construcción de los tests. ã Qué diferentes fuentes de sesgo pueden llevar a la no equidad en la valoración de unos sujetos o de unos grupos con respecto a otros. ã Algunos métodos para detectar el sesgo en la medida del constructo, basados en la consistencia interna del test, en su dificultad o en su estructura factorial. ã Un método sencillo para detectar y evaluar el funcionamiento diferencial del ítem aplicando el método de Mantel-Haenszel a tablas de contingencia. 378 Principios de Psicometría ã Un método para detectar y evaluar el funcionamiento diferencial del ítem basado en la TRI. m14.1. El sesgo en los testsm En la realización de un estudio, el término sesgo se utiliza para hacer referencia a aquellos errores que no se pueden considerar aleatorios, pues aparecen sistemáticamente (ya sea en los diseños experimentales, en la elección de la muestra, en la recogida de los datos, o incluso en el análisis o en las interpretaciones) y producen desviaciones que conducen a conclusiones que científicamente no deben considerarse válidas. Las fuentes de sesgo en la construcción y en el uso de los tests son múltiples y variadas. Factores de distinta naturaleza pueden producir sesgos en la construcción del test en cualquier fase del proceso, desde la generación de un ítem hasta su estructura final, pasando por el formato de respuesta, la cooperación o la sinceridad de las personas que cumplimentan la prueba, etc. La validez de los resultados de los tests, en general, depende, entre otros muchos factores, de la ausencia de sesgos. Un ítem estará sesgado cuando sujetos con el mismo valor en el rasgo no tengan las mismas probabilidades de dar la respuesta correcta a ese ítem. Un test estará sesgado cuando sujetos con el mismo valor en el rasgo no tengan la misma probabilidad de obtener una determinada puntuación en ese test. O sea, que un ítem o un test estarán sesgados cuando sujetos con el mismo nivel de θ generen mediciones diferentes. El test o el ítem pueden estar sesgados a favor de algún grupo social, o de edad, o de sexo, etc., pero como se ha dicho anteriormente, para que se hable de sesgo, esas diferencias no pueden ser accidentales, sino que tienen que ser sistemáticas. Los sesgos impiden la necesaria equidad en la interpretación de las puntuaciones y tienen importantes consecuencias que abarcan desde lo personal a lo social. Las normas de 1999 (AERA, APA & NCME, 1999) dedican una de las tres partes (Parte II) a tratar de la equidad o imparcialidad en la administración y uso de los tests, haciendo mención explícita a los sesgos que pueden provenir de las diferencias culturales y lingüísticas, así como de la no adecuación de las pruebas a los grupos con alguna discapacidad. En el contexto de la psicometría, en la TCT se ha estudiado el sesgo desde distintos puntos de vista y diferentes versiones en relación con el índice de difi- Capítulo 14. El sesgo en los tests 379 cultad y utilizando usualmente el estadístico χ2 para la comparación de subpoblaciones (e.g., Angoff, 1982; Cleary y Hilton, 1968; Scheuneman, 1979). Con la implantación de la TRI, se ha desechado la palabra sesgo para hablar de funcionamiento diferencial del ítem. Desde nuestro punto de vista, el concepto de sesgo es más general y más complejo (Santisteban, 1999) que la técnica que lleva a comprobar si el comportamiento del ítem es diferente en diferentes grupos de la población, que es a lo que se le denomina funcionamiento diferencial del ítem (FDI). Esta terminología la introdujeron Hollan y Thayer (1988), aunque muchos de los procedimientos incluidos bajo esa denominación ya eran conocidos como, por ejemplo, el de comparar las CCI de los diferentes grupos, que detallaremos más adelante (Rudner et al., 1980). Bajo la denominación de DIF se han incluido muchos y muy diversos métodos, por ejemplo, unos están basados en los análisis de tablas de contingencia, otros en la regresión logística y otros en las características de los modelos TRI. El acrónimo de funcionamiento diferencial del ítem en los textos en castellano aparece como FID y también como DIF, tomado del inglés, aunque en el lenguaje hablado es este último “dif” el que por la sencillez del vocablo se suele utilizar en ambos idiomas. m14.2. Detección y estimación de sesgo en la evaluaciónm del constructom El sesgo en la evaluación del constructo está relacionado con el significado de las puntuaciones. Se estará evaluando sesgadamente el constructo si las puntuaciones que se obtienen en el test pueden tener diferentes significados para diferentes grupos de la población. Por ejemplo, un test de aptitud mecánica que pueda reflejar diferentes rasgos en hombres y en mujeres (Spencer et al., 1999) es un test sesgado. Un estudio interesante sobre satisfacción y justicia distributiva en el que se validan cuatro escalas es el de Howard (1999). Hay varios procedimientos para evidenciar y estimar la existencia de sesgo en la evaluación del constructo, ya sea evaluando su consistencia o su estructura interna, o el índice de discriminación, etc. También hay muchas formas de detectar estos sesgos examinando el comportamiento individual de los ítems. Las técnicas que se han generado con este fin se agrupan bajo la denominación de funcionamiento diferencial de los ítems, y requieren un tratamiento algo extenso y específico, aun dentro de las limitaciones de tamaño de esta obra. 380 Principios de Psicometría Consistencia interna La consistencia interna de un test, como ya se ha explicitado anteriormente, indica cómo se relacionan entre sí las distintas partes de un test. En el Capítulo 5 se han tratado algunas de estas formas. En general, la consistencia interna de un test se evalúa mediante el patrón de correlaciones entre los ítems o entre cada ítem y la puntuación total en el test. Si se tienen dos grupos, por ejemplo, de diferente género, debe examinarse la consistencia interna de ambos grupos de forma separada. Si en ambos se obtienen los mismos o similares patrones de correlación, entonces se admite que es poco probable que exista sesgo en la medición del constructo a favor de uno u otro grupo. Si esos patrones correlacionales no son iguales o similares en ambos grupos, es muy probable que si se aplica ese test a ambos grupos, se esté obteniendo una medición sesgada del constructo. Téngase en cuenta que la detección del sesgo no se hace observando las puntuaciones de ambos grupos en el test, sino por las posibles diferencias en los patrones de correlación que miden la consistencia interna en uno y otro grupo. Esto es, en uno de los grupos se pueden obtener sistemáticamente puntuaciones más bajas que en el otro, pero esto no significa que haya sesgo a favor del otro grupo, sino simplemente que los valores de ese grupo en ese constructo son menores. Índices de discriminación Otra forma de detectar sesgos en la medición del constructo es calcular el índice de discriminación de cada ítem. Esta forma de detección es muy similar a la anterior, ya que la discriminación de un ítem evalúa el grado en que ese ítem puede estar afectado por la consistencia interna del test. En este caso, se estiman separadamente los índices de discriminación de cada uno de los ítems en los grupos que componen la población (por ejemplo, hombres y mujeres). Valores del índice de discriminación de un ítem iguales o similares en los diferentes grupos son indicadores de que ese ítem no está sesgado. Rango de dificultad Una forma intuitiva y fácil de detectar sesgos en la medición del constructo en varios grupos es ordenando los ítems del test según su dificultad. Si los ítems Capítulo 14. El sesgo en los tests 381 mantienen el orden en los diferentes grupos, se considera que no están sesgados en la medición del constructo. Si uno o varios ítems aparecen entre los fáciles o muy fáciles en un grupo y entre los difíciles en otro grupo, hay que sospechar la existencia de sesgos. Formalmente, comoquiera que lo que se establece entre los ítems es una relación de orden, para comparar los rangos, se debe utilizar una prueba no paramétrica, como el coeficiente de correlación por rangos de Spearman, cuyo cálculo es fácil y los resultados se interpretan de forma similar a los coeficientes de correlación cuando se establece entre valores numéricos. En el caso de correlación entre rangos, no es el valor de la dificultad de cada ítem lo que se utiliza en la correlación, sino el orden que ocupa según su valor. Por lo tanto, se estima que no hay sesgo si los patrones de correlación entre los grupos son muy similares, aun cuando el test pudiera resultar más difícil para unos grupos que para otros. Análisis factorial Uno de los muchos usos que se puede dar al análisis factorial en psicología es para la detección del sesgo en la evaluación de un constructo. El análisis factorial sirve para evaluar la estructura interna de un test, descubriendo si esa estructura está compuesta por uno o más factores. Por ejemplo, en el test de agresividad al que nos hemos referido en los Apartados 8.4, 8.7 y 9.5 de esta obra (AQ de Buss & Perry) se han identificado cuatro factores: agresividad física, verbal, ira y hostilidad. Si al realizar los análisis los ítems que entran a formar parte de cada uno de esos factores no fuesen los mismos para las muestras de hombres que para las de mujeres, entonces habría sesgo en su estructura interna y el test no tendría validez. Cuando se hizo la adaptación de ese test a adolescentes y niños (Santisteban et al., 2007), fue necesario comprobar que se confirmaba su estructura de cuatro factores, para lo que se utilizaron las técnicas de análisis factorial. Si se hubiese encontrado que en los niños o en los adolescentes (aunque fuese en ambos géneros) en lugar de cuatro sólo se identifican dos factores, por ejemplo agresividad física y hostilidad, entonces el test AQ no sería válido para esas edades, al menos en lo referente a su estructura interna, y habría sesgo en las mediciones en esos grupos de edad en relación con las de los adultos, si se utilizase ese test. 382 Principios de Psicometría Funcionamiento diferencial de los ítems Los métodos anteriormente expuestos para detectar sesgos en la medición de los constructos son aproximaciones útiles y relativamente sencillas, pero su relevancia queda muy disminuida si se compara con los métodos de análisis que se han generado en lo que se ha dado en llamar funcionamiento diferencial del ítem (DIF). El estudio del DIF es sin duda el mejor procedimiento para evaluar posibles diferencias en el comportamiento de los ítems en diferentes grupos. Su teoría y sus técnicas nacen y se desarrollan vinculadas a los conceptos de la TRI, que es la que permite el estudio individualizado de los ítems y la estimación de la aptitud de cada uno de los participantes en la prueba, con independencia de cómo ha respondido el resto. No obstante, en la literatura sobre DIF se incluyen una gran cantidad de métodos, como χ2, los de clase latente o el Mantel-Haenszel, que están basados en tablas de contingencia, que trataremos más adelante, así como los loglineales (Mellenbergh, 1982), o los basados en técnicas de regresión logística (Swaminathan y Rogers, 1990). También se han realizado estudios para comparar la eficacia de distintos procedimientos (e.g., entre Mantel-Haenszel y los modelos loglineales) en la detección del comportamiento diferencial de los ítems, estudiándose, entre otras características, la potencia de las pruebas y las tasas de detección de ítems anómalos. Los métodos de detección del sesgo en la TRI están basados en las características de la CCI del ítem, o del conjunto de los ítems que componen la prueba y una de sus principales desventajas en relación con otros métodos es que éstos exigen tamaños de muestra mucho mayores para realizar los análisis. Un ítem de un test que mide un determinado rasgo se dice que funciona diferencialmente cuando la probabilidad de acertar ese ítem es diferente para sujetos que supuestamente tienen el mismo nivel en ese rasgo que el test pretende medir. Cuando las comparaciones se hacen entre diferentes grupos, por ejemplo, hombres y mujeres, si esas probabilidades son mayores en un grupo que en el otro en todos los niveles del rasgo, entonces se dice que el DIF es uniforme. Si no es así, si las diferencias están a favor de uno u otro grupo en diferentes valores del rasgo, entonces se dice que el DIF es no uniforme. En la Figura 14.1 se presenta un ejemplo de DIF uniforme en el que el ítem está sesgado a favor de uno de los grupos (del grupo B). Supóngase que el ítem corresponde a una prueba de rendimiento y que la muestra B es una muestra de mujeres y que la A es de hombres, entonces diríamos que el ítem está sesgado a favor de las mujeres, pues para cada nivel de apti- Capítulo 14. El sesgo en los tests 383 tud ellas tienen mayores probabilidades de acertar el ítem. Esto es, que para tener la misma probabilidad de acierto en el ítem, los hombres tienen que tener mayor valor en el rasgo que las mujeres. Ahora bien, si el rasgo que mide el ítem fuese de otro tipo, por ejemplo intolerancia, el ítem estaría sesgado a favor de los hombres, pues para que se les considerase igualmente intolerantes que las mujeres, necesitarían mayores valores en ese rasgo. Figura 14.1. Ejemplo de DIF uniforme. A y B son las curvas características del mismo ítem en dos grupos de población. El DIF es no uniforme cuando las probabilidades de acierto de sujetos que tienen el mismo valor en el rasgo son mayores en un grupo B que en otro A para algunos valores de θ, en tanto que para otros valores de θ, ocurre lo contrario. Es decir, que las probabilidades de respuesta correcta de sujetos que tienen el mismo nivel en el rasgo son mayores o menores, no sólo dependiendo de si pertenecen a un grupo u otro (A o B) sino también de dónde esté situado su valor en el rasgo. Por ejemplo, un cierto ítem que mida hostilidad, puede estar sesgado a favor de las mujeres en los niveles altos de ese rasgo y a favor de los hombres en los niveles bajos. En la Figura 14.2 se presenta un ejemplo de DIF no uniforme, observándose que son mayores las probabilidades de acierto de los sujetos que pertenecen al grupo B en el los valores de θ > – 0.40, siendo sin embargo más bajas para θ < – 0.40. En el DIF no uniforme las curvas características de un ítem obtenidas con diferentes grupos se cortan en un determinado punto θ = θk, en el 384 Principios de Psicometría que cambia el sentido del sesgo. Si en el ejemplo de la Figura 14.2 la curva B correspondiese a mujeres y la A a hombres en relación con una prueba de matemáticas para su admisión en una universidad, diríamos que el ítem está sesgado a favor de las mujeres en los niveles medios y altos de la aptitud (a partir de θk = – 0.40) y a favor de los hombres en los niveles bajos de aptitud, aunque los sesgos que se presentan en la Figura 14.2 son moderados. Figura 14.2. Ejemplo de DIF no uniforme. m14.2. El método Mantel-Haenszel para estimar el DIFm Se han propuesto muchos métodos para detectar el DIF, estando entre los más utilizados el que proponen Holland y Thayer (1988), al aplicar la medida de asociación de Mantel-Haenszel (1959) al estudio de este problema. Es un método en el que los datos se disponen en tablas de contingencia y que está basado en el concepto de odds ratio, que se ha traducido como razón de ventajas o razón de plausibilidades. El uso de este método requiere la dicotomía en los ítems y que se disponga de los datos de cada uno de los sujetos, en cuanto a si han respondido correcta o incorrectamente al ítem, así como de su puntuación total en el test. Las respuestas a cada ítem se suelen codificar como uno (acierto) y cero (error), por lo que la puntuación total en una prueba de n ítems se obtiene como total de respuestas correctas, tomando por lo tanto esa suma de aciertos valores entre cero y n. 385 Capítulo 14. El sesgo en los tests La presencia de sesgo se trata de detectar viendo si todas las personas con igual valor en el rasgo tienen la misma probabilidad de acertar el ítem. Por lo tanto, para esta prueba, se consideran distintas categorías o estratos de la variable que se quiere controlar. Concretamente, se considera que la puntuación global se subdivide en k intervalos o clases de equivalencia (todas las personas cuya puntuación total esté contenida en un determinado intervalo, pertenecen a una misma clase). Además, hay que disponer de datos de sujetos que correspondan a dos grupos, a los que se les llama grupo de referencia y grupo focal, que se corresponden con los que se denominan en epidemiología grupos de controles y de casos, que es el contexto donde originalmente se propuso este método. Los datos se disponen como en la Tabla 14.1. El sesgo se detecta comparando ambos grupos a través de las diferentes categorías mediante las denominadas odds ratio. El estimador de las odds ratio propuesto por Mantel-Haenszel, ajustado para los efectos de la variable de estratificación, que en el caso de detección de DIF son las categorías, viene dado por la ecuación (14.1). Tabla 14.1. Tabla de datos para estimar el DIF. Grupo Categoría Referencia Focal Total 1 Acierto Error Total a1 b1 n11 c1 d1 n21 m11 m21 n1 2 Acierto Error Total a2 b2 n12 c2 d2 n22 m12 m22 n2 … … … … … Acierto Error Total aj bj n1j cj dj n2j m1j m2j nj … … … … … k Acierto Error Total ak bk n1k ck dk n2k m1k m2k nk j 386 Principios de Psicometría (14.1) donde a, b, c, d, m y n se corresponden con los datos que están en las casillas según se han dispuesto en la Tabla 14.1. La interpretación que se da a este cociente como medida de DIF es que valores de αMH iguales a la unidad indican que el ítem se comporta de la misma forma en ambos grupos, en el focal y en el de referencia. Valores mayores que uno indican que las probabilidades de acierto son mayores en el grupo de referencia que en el focal. En muchas ocasiones, se utiliza como indicador del DIF el logaritmo neperiano de αMH, al que se suele denotar por βMH. Si se hace esta transformación, para la interpretación del indicador hay que tener en cuenta que cuando es αMH = 1, el valor de βMH es igual a ln 1 = 0. Significación estadística de los valores α MH En la práctica, los valores que se obtienen para las odds ratio no suelen ser iguales a uno. Por lo tanto, una vez calculados estos valores, en particular αMH , la pregunta inmediata es cuál es la magnitud de las desviaciones al valor uno que puede ser admisible para considerar que no hay DIF. Para ello se propone contrastar la hipótesis nula: H0 : αMH = 1 frente a cualquiera de las siguientes alternativas, lo que supone un contraste bilateral o bien uno de los unilaterales siguientes: H1: αMH ≠ 1 H1: αMH > 1 H1: αMH < 1 387 Capítulo 14. El sesgo en los tests El test de contraste propuesto por Mantel-Haenszel es: χ 2MH = k k ∑aj − ∑E aj − 1 j= 1 j= 1 ( ) ∑ Var (a j ) k 2 2 (14.2) j= 1 que bajo H0 sigue aproximadamente una distribución χ2 con un grado de libertad. El término 1/2 se introduce para la corrección por continuidad. Las expresiones E(aj) y Var(aj) indican, respectivamente, la media y la varianza condicional de la j-ésima categoría o clase de puntuaciones, que se pueden calcular mediante las expresiones: ( ) E aj = n1j m1j nj ( ) ; Var a j = ( ) n1j n 2 j m1j m 2 j n2j n j − 1 (14.3) Una forma sencilla de cálculo del estadístico de contraste, análoga a la anterior, viene dada por la expresión: χ 2MH = ( ∑ k j= 1 k a d − b c 2 j j ∑ j j n j j= 1 a j + bj c j + d j a j + c j )( ) ( ) (b j + d j ) n2j (n j − 1) (14.4) Para aceptar o rechazar H0 , los valores obtenidos mediante la expresión (14.2) o la (14.4) hay que compararlos con los de la distribución χ2 teórica para comprobar si los valores del estadístico pertenecen a la zona de aceptación de la hipótesis nula cuya amplitud es 1 – α. 388 Principios de Psicometría Ejemplo 14.1 En la Tabla 14.2 se dan las frecuencias de acierto a un mismo ítem de los grupos de referencia y focal de dos categorías diferentes, una corresponde a adultos y la otra a niños. Se desea calcular si hay algún efecto de asociación entre la probabilidad de dar la respuesta correcta y la pertenencia a una de las categorías, así como si ese ítem se comporta de diferente manera (aumentando la probabilidad de acierto) en alguno de esos dos grupos. Tabla 14.2. Aciertos y errores en los grupos focal y de referencia para dos grupos de edad*. Niños Adultos Referencia Focal Referencia Focal 15 43 58 31 88 119 128 14 142 73 8 81 Aciertos Errores Totales Odds ratio · = 0.99 OR 1 · = 1.00 OR 2 * Obsérvese que los datos de las dos categorías (grupos de edad) en esta tabla están dispuestos unos al lado de otros, en vez de unos debajo de otros, como en la Tabla 14.1. El valor del indicador de sesgo se obtiene mediante la expresión (14.1). αMH = (15)(88) + (128)(8) ( )( ) + ( )( ) 177 31 43 177 223 = 12.05 = 0.995 12.11 73 14 223 Puede comprobarse que este valor es la media de las odds ratio de cada grupo. Por ello, muchas veces es conveniente tener información de las odds ratio de cada uno de los grupos pues, si las diferencias entre ellos fuesen muy grandes, al calcular αMH se pierde gran parte de la información relevante que proporciona el conocimiento de esas diferencias. En el caso que nos ocupa, calculado αMH hay que contrastar la hipótesis H0 : αMH = 1 frente a la alternativa H0 : αMH ≠ 1. 389 Capítulo 14. El sesgo en los tests El valor del estadístico de contraste, calculado usando la expresión (14.4) es: (15)(88) − (43)( 31) (128)(8) − (14 )(73) 2 + 177 223 2 χ = = 0.0003 (58)(119)(46)(131) (142)(81)( 201)( 22) + (177)2 (176) ( 223)2 ( 222) Este valor pertenece a la región de aceptación de H0 con probabilidad p > 0.99. Luego se acepta que la prueba no se comporta de forma diferenciada a favor de alguno de esos dos subgrupos de población categorizados en función de su edad. Ejemplo 14.2 En una prueba de admisión se hace una reclamación porque se afirma que la pregunta conlleva que el tipo de respuesta esté fuertemente influenciado por el género de la persona que responde. A la vista de los resultados de la prueba (Tabla 14.3), ¿se debe aceptar esta reclamación? Tabla 14.3. Aciertos y errores en los grupos focal y de referencia para los dos géneros. Masculino Aciertos Errores Totales Odds ratio Femenino Referencia Focal Referencia Focal 21 18 39 30 50 80 19 10 29 70 80 150 · = 1.94 OR 1 · = 2.17 OR 2 El valor del indicador de sesgo calculado es αMH = 2.05, que es la media de las odds ratio de cada grupo. El valor del estadístico de contraste calculado mediante la ecuación (14.4) resulta ser χ2 = 6.25. Este valor pertenece a la región de rechazo de H0, ya que para un valor crítico α = 0.02 y un grado de libertad es χ2 = 5.41. Por lo tanto, se debe aceptar la reclamación, pues si se repitiera el proceso un número muy grande de veces las diferencias entre ambos géneros serían significativas en más del 98% de los casos. 390 Principios de Psicometría Cuadro 14.1 El concepto de odds ratio o razón de ventajas es un concepto central en las medidas de asociación y es útil en la interpretación de coeficientes en regresión logística. Limitándose al caso particular de una tabla de contingencia 2 × 2, se presentan las odds ratio en un modelo de regresión con sólo dos variables X e Y, ambas dicotómicas. La forma de la ecuación que representa un modelo de regresión lineal simple en el que se regresa la variable Y sobre la variable X es: ( ) E Y X = β0 + β1 x donde E (Y X) es la esperanza matemática, o media condicional de Y con respecto a cada una de las modalidades de X, que a su vez es un valor de probabilidad P(x), luego ( ) () 0 ≤ E Y X =P x ≤1 siguiendo en este modelo P(x) la siguiente distribución de probabilidad: () eβ0 + β1 x P x = 1+ e β0 + β1 x = 1 ( 1+ e − β0 + β1 x ) que es una distribución logística de parámetros β0 y β1, cuyo logit es: ( ) g x = ln ( ) 1− P ( x ) P x = β0 + β1 x Para una variable dicotómica, los correspondientes logits son: ( ) logit p1 = ln ( ) p1 = β0 + β1 x1 1 − p1 logit p 2 = ln Luego: ln ( ) (1− p2 ) p1 1 − p1 p2 p2 = β0 + β1 x 2 1 − p2 ( = β1 x1 − x 2 ) 391 Capítulo 14. El sesgo en los tests ¶ ) al cociente: denominándose odds ratio (OR ( ) (1− p2 ) p1 1 − p1 p2 siendo ¶ = e β 1 ( x1 − x 2 ) OR Ejemplo 14.3 En la Tabla 14.4 se dan las frecuencias observadas del número de aciertos y de errores en un ítem en una muestra de mujeres y en otra de hombres. Se desea corroborar que esta prueba está sesgada a favor de uno de los grupos. Tabla 14.4. Aciertos y errores en dos grupos. Variable Y Variable X Mujeres Hombres Totales Totales Acierto Error 30 8 38 10 48 58 40 56 96 Las probabilidades estimadas de acertar o no en cada muestra son: pˆ 1 = 30 / 40; 1− pˆ 1 = 10 / 40; pˆ 2 = 8 / 56; 1− pˆ 2 = 48 / 56 ¶ ) toma el valor en este caso: La odds ratio (OR ( ) ¶ = pˆ 1 1 − pˆ 2 = 18 OR pˆ 2 1 − pˆ 1 ( ) lo que indica que la probabilidad de acertar el ítem en el grupo de mujeres es 18 veces superior a la del grupo de los hombres. 392 Principios de Psicometría El procedimiento Mantel-Haenszel está entre los más utilizados por su facilidad de cálculo e interpretación. Tiene la ventaja de que no sólo proporciona un indicador de la cuantía del comportamiento diferencial del ítem (ecuación (14.1)), sino que además proporciona el estadístico (ecuación (14.2) o (14.4)) mediante el cual se puede contrastar si el valor obtenido es o no significativo para aceptar la no existencia de DIF. Otra de las ventajas de este método es que se puede aplicar con muestras pequeñas, mientras que la aplicación de otros métodos, como los de la TRI, requiere un apreciable tamaño muestral. m14.3. Estimación del DIF haciendo uso de las CCIm En los modelos TRI, si un ítem que mide un cierto rasgo θ está calibrado, es de esperar que ese ítem produzca las mismas mediciones para cualquier sujeto, con independencia del grupo de población al que pertenezca. Por lo tanto, bajo esos supuestos, los tests formados por ítems homogéneos para la medición de ese rasgo, es de esperar que estén ausentes de sesgo. No obstante, como el sesgo no es una cuestión teórica sino que en la práctica se pueden introducir sesgos en cualquier fase de la construcción, de la administración o de la evaluación de un test, es conveniente tener herramientas que ayuden a detectar la presencia de esos sesgos. Sólo así se puede proceder a su análisis, a detectar sus posibles fuentes y a tratar de eliminarlos o, al menos, saber que existen y valorar sus posibles consecuencias. En la TRI la presencia de sesgo se detecta comparando las CCI estimadas para los diferentes grupos. Siguiendo la nomenclatura anterior, a esos grupos se les puede llamar grupo focal y de referencia. En la Figura 14.3 se muestra la ausencia de sesgo comparando dos grupos, aunque actúan de forma diferenciada en el ítem. En las Figuras 14.4 y 14.5 se muestran ítems sesgados. En la Figura 14.4 el ítem que se representa está sesgado en todo el rango de θ a favor de uno de los grupos (sesgo uniforme). En la Figura 14.5 el ítem representado también está sesgado, pero el signo del sesgo depende de si el valor de θ pertenece a los niveles bajos o altos de la aptitud. Para dos sujetos con igual valor en el rasgo, si esos valores son bajos, el sujeto del grupo A tiene más probabilidad de acertar el ítem que el del grupo B. Sin embargo, para valores del rasgo superiores a 0.4, es el del grupo B el que tiene mayor probabilidad de acertar el ítem. Capítulo 14. El sesgo en los tests Figura 14.3. Ítem insesgado. Las curvas inferiores representan las distribuciones de las puntuaciones de los grupos A y B. Figura 14.4. Ítem con un DIF desfavorable al grupo A en todo el rango de θ. 393 394 Principios de Psicometría Figura 14.5. DIF desfavorable al grupo A en los niveles altos de θ y al grupo B en los bajos. En la literatura TRI se han propuesto diversos métodos para evaluar el sesgo, entre los cuales citaremos los siguientes: a) El cálculo del área entre las CCI de ambos grupos, que si hay sesgo no serán coincidentes. b) Comparar las diferencias entre las probabilidades en ambos grupos. c) Comparar los parámetros (en principio invariantes) de los ítems. d) Comprobar el ajuste al modelo elegido y evaluar la bondad del ajuste con ambos grupos. e) Comparar los modelos mediante el test de razón de verosimilitudes. Un procedimiento para comparar las CCI consiste en calcular el área comprendida entre las CCI correspondientes a cada grupo sobre el rango de variación de θ. La idea que sustenta el procedimiento es que si no existe sesgo, la CCI para cualquier subgrupo de población tiene que ser la misma, o con diferencias tan pequeñas que puedan ser atribuibles a las fluctuaciones por azar. El área comprendida entre ambas curvas puede obtenerse mediante la ecuación (14.5): Capítulo 14. El sesgo en los tests Ds = ∫−∞ ∞ PA ( θ) − PB ( θ) dθ 395 (14.5) Un valor aproximado de esa área puede obtenerse mediante la expresión (14.6) Ds ≈ ∑ PA ( θk ) − PB ( θk ) ∆θ n k=1 (14.6) que corresponde a la suma de las áreas de todos los rectángulos con base ∆θ y altura |PA(θ) – PB(θ)| en el rango de θ que sea de interés, por ejemplo, entre –3 y +3 con ∆θ = 0.10 (para más detalle véase Santisteban, 1990a, pág. 364). Tanto en la ecuación (14.5) como en la (14.6) las diferencias se toman en valor absoluto ya que, por una parte, no tendría sentido hablar de áreas negativas y por otra, en los casos en los que el sesgo fuese no uniforme, las diferencias serían positivas en un cierto rango de θ y negativas en el otro (como se puede observar, por ejemplo en la Figura 14.5) dando un valor Ds inferior al real, o incluso nulo, falseando así el verdadero valor de la diferencia existente entre las áreas de ambas curvas y por lo tanto del DIF. Es evidente que para utilizar este método hay que haber estimado previamente los parámetros característicos del ítem y las variaciones de θ en uno y otro grupo, teniendo en cuenta que ambas CCI deben estar representadas sobre el mismo continuo de la aptitud θ. Esto requiere que se trabaje con valores que estén estandarizados, tanto para θ como para los coeficientes de dificultad, debiéndose tener en cuenta las condiciones para la invarianza de θ con respecto a transformaciones de la escala (Apartado 12.2). Entre los problemas que plantea este método, y que no lo hacen muy aconsejable a pesar de su sencillez, es que considera la uniformidad en las áreas. Es decir, que todas las áreas tienen el mismo peso, con independencia de dónde esté situado el ∆θ correspondiente a cada uno de los rectángulos que contribuyen al cálculo del área total. Otro aspecto que no se contempla y que tiene un gran efecto sobre el cálculo del área entre las curvas es si la probabilidad de aciertos por azar (parámetro c) es diferente en uno u otro grupo. Además este método tampoco provee de algún criterio o prueba de significación que indique a partir de qué valor esa área tiene un valor significativo para considerar que existe DIF. Una de las formas de resolver estos problemas en los tests es hacer un análisis individualizado de cada uno de los ítems del test y observar el comportamiento 396 Principios de Psicometría de sus respectivas CCI en relación a la existencia de DIF. Otra de las propuestas (e.g., Camilli y Shepard, 1994) es calcular las diferencias en probabilidad entre ambos grupos en determinados valores de θ. Para ello se considera uno de los grupos como el grupo de referencia (generalmente al más amplio) y al otro el grupo focal, con funciones de probabilidad P R (θ) y PF (θ), respectivamente. El indicador del DIF viene dado por el valor medio de la diferencia entre las probabilidades en ambos grupos, para aquellos valores θ en los que al menos haya un sujeto del grupo focal que lo posea. Para nF sujetos del grupo focal, cada uno con su respectivo valor θj, la expresión (14.7) es un indicador de esa diferencia, cuyo signo también indicará el sentido del sesgo, si el sesgo es uniforme. nF PR ( θj ) − PF ( θj ) j=1 nF Dp = ∑ (14.7) En el caso en que el sesgo no sea uniforme, o no se conozca de antemano si lo es o no, las diferencias del numerador de la expresión (14.7) se deben tomar en valor absoluto, o bien elevarlas al cuadrado. En estos casos, el signo de esas diferencias en los distintos intervalos de θ hay que observarlo representando las CCI de ambos grupos, al menos en aquellos intervalos que contienen los valores θj. Algunos métodos fundamentados en la misma lógica son los que se basan en las comparaciones entre los vectores de los parámetros de los ítems, o bien en la bondad de las estimaciones de los parámetros de los ítems, o bien en la bondad de ajuste de los modelos. La comparación entre los vectores de los parámetros en uno y otro grupo la propuso Lord (1980) basándose en las propiedades de las estimaciones de máxima verosimilitud de los parámetros. Si los vectores de parámetros en uno y otro grupo son vA = (a1, b1, c1 )' y vB = (a2, b2, c2 )' las estimaciones de máxima verosimilitud de los parámetros siguen (asintóticamente) distribuciones normales multivariantes, con media el valor del parámetro y varianza (matriz de varianzas y covarianzas) igual a la inversa de la cantidad de información de Fisher (Cuadro 12.3). Para la detección de DIF, se contrasta la hipótesis nula H0 frente a la alternativa H1: H0 : vA= vB H1: vA ≠ vB 397 Capítulo 14. El sesgo en los tests El estadístico mediante el que se realiza el contraste de las diferencias entre ambos grupos, con matrices de información IA e IB, es la forma cuadrática Q = (vA – vB )' (IA–1 + IB–1) –1 (vA –vB) que sigue una distribución χ2 con tantos grados de libertad como el número de parámetros (de los ítems) que se comparan. En el caso particular del modelo de Rasch ese estadístico es: Q = ( b A − bB ) 2 ( −1 −1 I A + IB ) −1 valor que se compara, a un nivel α de significación, con el de la distribución χ2 con un grado de libertad. Este método no es aplicable cuando se realiza la estimación simultánea de la aptitud y de los parámetros de los ítems, o sea de (θ, ai, bi y ci), puesto que el método implica la distribución asintótica de la forma cuadrática que sirve como estadístico de contraste, y esta distribución asintótica de los parámetros de los ítems sólo es válida para un θ dado. Un procedimiento basado directamente en la estimación de la bondad del ajuste del modelo a los datos lo propusieron Wright et al. (1976) y Linn y Harnish (1981), quienes lo juzgan muy conveniente especialmente cuando se trata con modelos logísticos de tres parámetros. Sin embargo, el método basado en la comparación de modelos que parece más prometedor es el que se basa en la razón de sus verosimilitudes (Thissen et al., 1993) utilizando las ventajas de estos procedimientos para comparar los modelos, ya que es conocido el estadístico que sigue el cociente de dos verosimilitudes. Si es RL esa razón entre las funciones de verosimilitud de ambos modelos, el estadístico de contraste es – 2 ln RL, que sigue una distribución χ2 con m – h grados de libertad, siendo m el número de grados de libertad del numerador y h los del denominador. Las pretensiones de este texto no van más allá de hacer notar que todos estos procedimientos parten de una idea común: si no hay sesgos en la medición de un cierto rasgo θ, las CCI y, en general, los modelos tienen que coincidir en los diferentes subgrupos de la población. Sin embargo, a pesar de la sencillez de la premisa, la detección de sesgos no es inmediata, no ya la parte sustantiva del sesgo, que haría necesaria la detección de la fuente o las fuentes que lo producen y su explicación, sino también en la parte más técnica de su detección y evaluación. 398 Principios de Psicometría Una explicación más detallada de las bases de algunos de los procedimientos TRI se puede encontrar en Santisteban (1990a), aunque entre los métodos más eficaces con los que actualmente se cuenta están los Mantel-Haenszel entre los no paramétricos, y los basados en la razón de verosimilitudes entre los paramétricos. En cualquier caso, como a la literatura se van incorporando nuevos desarrollos, se requiere que los especialistas hagan una revisión actualizada en el momento en el que se vaya a proceder, no sólo para elegir el método más adecuado de acuerdo con sus objetivos y las características de sus datos, sino también en lo relacionado con la parte sustantiva del sesgo, que ha quedado relegada en comparación con la más técnica, como se indica en AERA, APA & NCME (1999). Los análisis del DIF, como hemos ido mencionando para otras cuestiones referentes a los modelos TRI, cuentan con software adecuado, al menos para los modelos dicotómicos y algunos politómicos (BILOG, PARSCALE, etc.). Los estudios del DIF en modelos con ítems politómicos se han planteado en la mayoría de los casos como una extensión de los métodos utilizados en los modelos dicotómicos y en la actualidad existen bastantes propuestas en la literatura especializada. Aunque su aparición es relativamente reciente y presentan algunos problemas específicos derivados del tipo de respuesta, se pueden encontrar buenos resúmenes (e.g., Penfield y Lam, 2000) sobre diferentes técnicas de identificación del DIF en estos modelos. Puntos clave 3 3 3 3 El sesgo es cualquier desviación sistemática que distorsiona los resultados y por lo tanto la validez de las conclusiones. El uso masivo y la influencia de los tests en múltiples ámbitos científicos, industriales, clínicos, etc. debe forzar a los psicómetras a que extremen las precauciones para la no inclusión de sesgos en su construcción. El uso de tests sesgados, además de invalidar las conclusiones que se derivan de su aplicación, su falta de equidad puede tener consecuencias económicas, sociales e individuales no deseadas. En algunos ámbitos de la psicometría desde hace algunas décadas no se suele utilizar el vocablo sesgo, habiéndolo sustituido por el de funcionamiento diferencial del ítem (DIF, acrónimo de sus siglas en inglés). Ahora bien, el estudio del sesgo va más allá de la mera comprobación de si el comportamiento del test es diferente para diferentes grupos de población. Capítulo 14. El sesgo en los tests 3 3 3 3 3 399 Bajo la denominación de estudios DIF se recoge una gran variedad de métodos que se podrían agrupar en los derivados de las tablas de contingencia, los logísticos (loglineales y regresión logística), los basados en la razón de verosimilitudes y los basados en las propiedades de las CCI y de los modelos TRI. Para el estudio del DIF, el procedimiento Mantel-Haenszel es de los más utilizados por su facilidad de cálculo e interpretación y porque se puede aplicar a muestras pequeñas, a diferencia de los métodos TRI que requieren tamaños grandes de muestras. Las comparaciones entre las curvas características de los ítems en diferentes grupos pueden dar la medida del sesgo, así como información sobre si el sesgo es o no uniforme. El sesgo en modelos TRI se puede detectar contrastando estadísticamente si son iguales o diferentes los parámetros de los ítems en uno y otro grupo (generalmente entre el de referencia y el focal), o comprobando la bondad del ajuste. Un método muy adecuado para la comparación de modelos con el fin de detectar sesgos se basa en el contraste basado en el cociente de las verosimilitudes (la razón de verosimilitud) entre dos modelos. Conocer muchos métodos para detectar el funcionamiento diferencial de los ítems y de los tests no es suficiente, pues hay que entrar en la parte sustantiva, en el análisis del sesgo. Hay que tener en cuenta que los problemas de sesgo son problemas de validez, que afectan tanto a las mediciones como a las conclusiones que se deriven del uso de los tests. Actividades r Plantee una situación en la que intervengan un grupo de referencia (control) y uno focal (de casos) en dos grupos de población. Disponga los datos de forma similar a los que se presentan en la Tabla 14.2 y calcule el estadístico Mantel-Haenszel y su significación estadística. r Discuta el significado de las curvas de la Figura 14.3 explicitando por qué el ítem no está sesgado a favor de ninguno de los dos grupos y cuáles son las diferencias en las probabilidades de acierto en uno y otro grupo. r Compare la Figura 14.4 con la 14.5 y discuta en dónde radican sus diferencias. r En dos grupos de población con diferente etnia se observan diferencias en sus probabilidades de acertar un ítem cuando los valores del rasgo están entre θ = 0 y θ = 1.6. La diferencia máxima es de 0.20 y se da en el punto 400 Principios de Psicometría θ = 0.80 disminuyendo aproximadamente en 0.05 al disminuir o aumentar los niveles de θ en 0.20. ¿Se puede decir que el ítem está sesgado? ¿Hay diferentes maneras de calcular el DIF? Si es así, calcule y compare esos valores discutiendo su significado. r Basándose en la literatura, haga una revisión sobre los métodos estadísticos de detección del DIF y de los métodos sustantivos. r Discuta las diferencias entre DIF, equidad y sesgos y saque conclusiones de la revisión que ha hecho como actividad en el punto anterior. r Discuta por escrito y si es posible en un foro, las conexiones entre validez y sesgo y las consecuencias que puede conllevar el uso de tests sesgados. Medición y psicometría Medición, escalas e interpretación de las puntuaciones 15 La psicometría trata de las teorías, modelos, métodos, procedimientos y herramientas que se utilizan en la medición psicológica. La medición no es simplemente asignar números a las propiedades de los objetos. Las magnitudes deben permitir operar matemáticamente con ellas, conservando su sentido y sus propiedades, ser resistentes a la manipulación experimental, y que sea posible que se establezcan comparaciones y hacer predicciones. En este capítulo se va a tratar: ã La conexión entre el concepto de lo métrico con la operación de medir. ã Las diferencias, si las hay, entre las denominadas medición directa e indirecta. ã La teoría de la medición como parte de los contenidos de la psicometría. ã Las propiedades que deben poseer las representaciones numéricas a las que se llama magnitudes. ã Los tres problemas que clásicamente se han considerado en la medición: representación, unicidad y significación. ã Tipos de escalas y normas. ã Operaciones y transformaciones admisibles. ã Algunos de los requisitos exigibles a las medidas psicométricas y a las escalas para que, tanto las medidas como las escalas, posean la validez necesaria. 402 Principios de Psicometría m15.1. Psicología, psicometría y mediciónm La teoría de la medida abarca casi todos los campos, desde el filosófico hasta el matemático, dando explicación a multitud de aspectos de la vida diaria. En psicología se ha ido generando todo un cuerpo de conocimientos, generalmente en el seno de la psicometría y muy especialmente en el de la psicología matemática, desarrollándose en esos contextos la denominada teoría de la medición psicológica, que no es un tema fácil si se quiere abordar en profundidad. En este texto no se intenta hacer una disertación sobre la teoría de la medición, que en el desarrollo de sus fundamentos lógicos y su axiomatización tiene un referente claro en Hölder (1901). Sin embargo, se introducen las nociones y conceptos que pueden ayudar a entender el significado de los tests e interpretar la información que proporcionan las medidas que con ellos se obtienen. La cotidianidad en el uso de los instrumentos para la medición de los atributos físicos, al compararlos con los psicológicos, hace que surjan dudas de si estos últimos son medibles y si hay instrumentos adecuados para hacerlo, ya que la mayoría no son directamente medibles. Sin embargo, los tests son instrumentos de medida que, al igual que los que se utilizan en el mundo físico, dan cuenta de manifestaciones observables. En general, en el ámbito de lo físico y de lo psicológico la primera cuestión es si el atributo pertenece a los que se han dado en llamar cualitativos o a los cuantitativos. Los conceptos cualitativos son aquellos que son comparativos o simplemente clasificatorios. Los conceptos cuantitativos son los mensurables y/o métricos. La inclusión o clasificación de conceptos concretos en una u otra clase es casi siempre un problema epistemológico, si bien es evidente que en la naturaleza o en la realidad que se esté estudiando, existen propiedades que indican que el fenómeno que se estudia haya que considerarlo esencialmente cualitativo, o bien, esencialmente cuantitativo. En cualquier caso, esa clasificación depende tanto de la naturaleza del fenómeno, como de la atribución de cualitativo o cuantitativo que le hace quien lo estudia, basándose en la estructura conceptual desde la que aborda ese estudio e incluso de las necesidades o exigencias del experimentador. Al no ser ningún fenómeno estrictamente cualitativo o cuantitativo, per se, es responsabilidad de quien lo estudia el incluirlo en una u otra clase (Santisteban, 2003). Las llamadas ciencias físicas no tienen dificultad en considerarse cuantitativas y el concepto de medición en ellas es tan fundamental y está tan arraigado, que es difícil imaginar que pensaran prescindir de él. La psicología y las ciencias sociales se han ido incorporando a las ciencias cuan- Capítulo 15. Medición y psicometría 403 titativas y en la práctica, lo cuantitativo y/o lo medible se ha utilizado al menos en dos vertientes diferentes. Por un lado se ha considerado en el mismo sentido que las medidas físicas, cuando se trata de magnitudes como, por ejemplo, tiempos de respuesta. Por otro lado, se han desarrollado los tests con procedimientos propios y peculiares que llevan al establecimiento de ciertos índices y a escalas de medida, que no se pueden interpretar fuera de su contexto conceptual, como el cociente de inteligencia (CI), las escalas de aptitud o las de actitudes, etc. La psicometría no está exenta de los problemas estructurales que conlleva la medición. De hecho, en los textos de psicometría es donde se han venido tratando estos problemas, al menos los tres más clásicos: (1) el de la representación, que surge ante la hipotética pregunta de si se pueden medir todos los atributos; (2) el de la unicidad, que tiene que responder a cómo se caracterizan las relaciones entre las escalas numéricas y de cuánta libertad se dispone para la construcción de una escala que no dé lugar a confusiones; y (3) el del significado, esto es, el de la interpretación correcta de las escalas. Más adelante se tratan formalmente las escalas y cómo se construyen, aunque nadie desconoce qué es una escala, pues ha recibido la calificación en un examen, o le han evaluado su capacidad para recordar y ha sabido si sus niveles eran medios, altos o bajos. En cuanto al significado, también es intuitivamente un concepto sencillo, pues se refiere a si las puntuaciones realmente reflejan aquello que se mide y que, aunque se transformen a otra escala (por ejemplo sumándoles a todas un valor), no pierdan ese significado. Cuadro 15.1 Hay autores que cifran la eclosión de la teoría de la medición, entendida como disciplina en psicología, en la primera mitad del siglo XX, pues la revista Psychometrika se funda en 1935, y muy poco después el Educational and Psychological Measurement (1941) y el British Journal of Statistical Psychology (1947). Por lo tanto, cuando se invoca la teoría de la medición, hay que tener presente la psicometría y su contribución, sin que por ello se deba considerar que todo el cuerpo teórico que conlleva e implica la teoría de la medición esté necesariamente contenido en ella. La psicometría, en su acepción general de medición de las variables psicológicas, abarca un campo muy amplio de estudio aunque en algunos ámbitos se hace un uso reduccionista del término, asimilándola al estudio de la teoría de los tests psicológicos. En este aspecto, se puede decir que la teoría de los tests es la parte más 404 Principios de Psicometría visible del gran iceberg que es la psicometría: medición, teorías, métodos, técnicas y modelos. La mayor parte de los modelos matemáticos que se desarrollan en psicología con anterioridad y a mediados del siglo XX tratan de hacer ciencia tomando sus bases cuantitativas en los números reales, ya que la introducción del lenguaje cuantitativo que está relacionado con la medición es lo que comúnmente se considera como garantía, e incluso como piedra angular en el establecimiento del método científico. Como ya se ha expuesto en el Capítulo 1, las publicaciones de los psicólogos de esa época incluyen mediciones y prolifera el establecimiento de escalas psicológicas. Esto ocurre muy especialmente en psicometría y en psicofísica, donde lo que se tiene en la mente es una escala real-valuada como las que se usan en física para las medidas de ciertos atributos, y que han sido tan fructíferas en el desarrollo científico. Este intento, sin embargo, llevó en algunos campos de la psicología a conclusiones erróneas y a confusiones teóricas. Todo ello impulsó que se exploraran otros dominios numéricos que dieran cuenta, de mejor manera, de las necesidades y características especiales que pudiera tener la medición en psicología, y para el establecimiento de teorías psicológicas, formalmente establecidas, formuladas en términos matemáticos, pero no necesariamente en términos cuantitativos en un sentido tan restrictivo. Entonces es cuando comienzan a proliferar los estudios con una concepción más amplia del mundo de lo numérico en que se contemplan los números reales desde una perspectiva más general, y desde un punto de vista más abstracto, que la simple representación numérica de una medida o de un valor de escala. Es entonces cuando en psicología se da el paso adelante en cuanto a que la distinción estricta entre lo cualitativo y lo cuantitativo pasa a ser un viejo principio filosófico, pues ahora en su ámbito de estudio el concepto de cantidad se ve a la luz de otras premisas y desde otras perspectivas donde lo cuantitativo, o el concepto de cantidad, se puede recalificar desde el punto de vista de la teoría de la medición psicológica. Volviendo la mirada atrás se puede considerar que el paradigma de medición que publican Scott y Suppes en 1958, explicando el paradigma representacional de Von Helmholtz (1887/1977) de una forma general, precisa y estructurada, es un pilar básico de la actual concepción de la teoría matemática de la medición en psicología. m15.2. Métrica y espacios métricosm La conexión entre el concepto de lo métrico y la operación de medir ha inducido a que en muchas ocasiones se haya afirmado, y así aparece en muchos textos, que Capítulo 15. Medición y psicometría 405 medir es asignar números a las cosas, o bien, que medir es asignar números a las propiedades de los objetos. Estas definiciones son incorrectas por imprecisas, pues la simple asignación de números no garantiza: que esos números representen las propiedades específicas de los elementos que se quieren expresar, es decir sus magnitudes; que sea su representación inequívoca; que permitan la manipulación experimental, así como la comparación con otras mediciones o magnitudes. Esto es, las representaciones numéricas de las propiedades de los objetos o elementos, a lo que se llama magnitudes, deben ser resistentes a la manipulación experimental y ser susceptibles de operar matemáticamente con ellas, conservando tras esas operaciones su sentido y propiedades, permitiendo además que se pueda hacer con ellas comparaciones y predicciones. Por lo tanto, para resolver el problema de la unicidad es necesario que existan transformaciones admisibles para la transformación de las puntuaciones. El conjunto de todas las transformaciones admisibles en el sistema numérico indica si se tiene o no unicidad de la medida y determina el tipo de escala. Ahora bien, para que se mantengan las propiedades y las comparaciones, se tienen que mantener las distancias entre las puntuaciones que las representan. Esto conlleva haber definido con anterioridad el espacio métrico, pues un espacio métrico es un conjunto de elementos entre los que se ha definido una distancia (o sea, una métrica) y que esta métrica permita hacer operaciones con los elementos, operaciones que tendrán en cada caso unas determinadas propiedades. Por lo tanto, la medición aparece como consecuencia lógica de la metrización de los espacios y habrá distintos tipos de espacios métricos dependiendo de las propiedades que cada espacio posea. La definición de la distancia, sus propiedades y las operaciones que se puedan realizar con esa distancia es lo que determina la estructura de ese espacio métrico. m15.3. Medición, estructuras, representación y escalasm La medición, como se ha dicho, aparece como consecuencia lógica de la metrización de los espacios. Por lo tanto, presupone que se puedan establecer condiciones de mensurabilidad. La medición se ha establecido, bien porque se quiere llegar a cuantificar y relacionar de algún modo las características más simples de los objetos (peso, longitud, color, …), bien para hacer universalmente comparables esas características de los objetos, o bien para contrastar teorías y establecer leyes, 406 Principios de Psicometría generando conocimiento científico, lo que en filosofía de la ciencia se ha llamado ciencia normal, frente a otras formas de hacer ciencia (Kuhn, 1961, 1962; Santisteban, 2003). A través de la medición, del cálculo de errores, de la estimación de magnitudes, etc., se ha podido determinar en muchas ocasiones que una teoría establecida es falsa, como sucedió por ejemplo en astronomía, donde hubo que desterrar la teoría geocéntrica mantenida durante más de dos milenios para sustituirla por la heliocéntrica. La medición, como proceso experimental y de utilidad, va unida al desarrollo de la humanidad y no se le puede poner fecha de inicio. Sin embargo, sus fundamentos lógicos y su axiomatización tienen un referente claro en Hölder, 1901 (una traducción al idioma inglés se puede encontrar en Michell y Ernst, 1996). A raíz de esa fecha son muchos los trabajos que se han ocupado del análisis lógico del proceso de medición, de la justificación de los diversos procedimientos y del significado y relevancia de sus resultados. Los problemas estructurales que la teoría de la medición conlleva, al menos teóricamente, son varios. Clásicamente se han considerado estos tres: (1) el de la representación, (2) el de la unicidad y (3) el de la significación. El problema de la representación Este problema surge ante la hipotética pregunta de si se pueden medir todos los atributos. Es decir, si las relaciones que se observan en el sistema empírico (en el mundo real) se pueden describir mediante sistemas formales (el sistema numérico). De forma general, se puede decir que el problema de la representación consiste en representar un sistema de relaciones empíricas por un sistema relacional formal (el modelo), y si el modelo es numérico, la representación se llama medición. Si en el sistema empírico A se establecen las relaciones R y en el sistema numérico B las relaciones S, se dice que el sistema empírico está representado por el numérico, si existe una función f de A en B (cada elemento a de A tiene una imagen única f (a) en B) tal que para cualesquiera elementos a, b en A, se dé la siguiente relación: a R b ⇒ f(a) S f(b) O sea, que si el sistema empírico está representado por el numérico, existe una correspondencia f que aplica A en B, de modo que la relación R que se da entre Capítulo 15. Medición y psicometría 407 elementos de A (sean a, b), implica que en B se dé la relación S entre f(a) y f(b), que son las imágenes de a y de b respectivamente. Si la representación se da en ambos sentidos, entonces se dice que existe isomorfismo, o que los dos sistemas son isomorfos. Si en el sistema empírico se establecen un conjunto de preferencias, y ese conjunto de preferencias se puede representar en el sistema formal, entonces se podrá construir una escala. La relación empírica preferido a ( f ) conllevaría una representación numérica mayor que (>). Esto implica que la transitividad en la relación empírica es condición necesaria para poder representarla en el sistema numérico, concretamente por la relación mayor que en el sistema de los números reales. Si es a f b f c, entonces f(a) > f(b) > f(c). Si por el contrario, fuese a ≺ b ≺ c entonces f(a) < f(b) < f(c). Uno de los principales objetivos de la teoría de la medición es investigar las condiciones bajo las cuales se pueden construir diversas representaciones numéricas. Un compendio de esos resultados lo da el llamado teorema de la representación. El problema de la unicidad El teorema de la representación resuelve el problema de construcción de escalas, pero de él no se deriva que haya una única escala, pues los valores de la escala no están determinados por el modelo de medida. Entonces, habrá que preguntarse ¿cómo se caracterizan las relaciones entre las diversas escalas numéricas de un teorema de representación? ¿De cuánta libertad se dispone para la construcción de una escala que no dé lugar a confusiones? En primer lugar, se establecen las relaciones entre los elementos. Si esa relación es simplemente una relación de preferencia (que se traduce en una relación mayor, o igual a, en una escala numérica) se tiene una escala ordinal y se dice que la escala es única salvo una transformación que preserve el orden. Cualquier transformación de la escala que preserve ese orden produce otra escala admisible. Así, dos escalas admisibles cualesquiera están relacionadas por una transformación que conserva el orden, esto es, por una transformación monótona. Si además de establecerse un orden de preferencias estricto se pueden ordenar las diferencias de manera que haya la misma distancia entre elementos consecutivos, se tiene una escala de intervalo. En esta escala, para que una transformación sea admisible, no sólo debe conservar el orden de los valores (en correspondencia con el de las preferencias), sino también las diferencias y el orden de las diferencias entre esos valo- 408 Principios de Psicometría res. La única transformación que conserva la ordenación de los intervalos es una transformación lineal. Bajo estas condiciones, una vez seleccionados dos valores de la escala, el resto de los valores están unívocamente determinados. Por lo tanto, la definición formal de transformación admisible es necesaria para establecer el problema de la unicidad. Para los dos sistemas relacionales anteriormente definidos, el empírico y el numérico, para cualquier objeto a ∈ A existe un único valor de escala f (a) en B, donde las relaciones en la escala reflejan las relaciones entre los objetos. Una transformación de la escala en B se dice admisible si el sistema numérico que se genera en B, al sustituir los valores de la escala original por los de la escala transformada, representa también al sistema empírico. El problema del significado El problema surge cuando se quieren interpretar correctamente las escalas. Esto es, cuando se desea describir el significado de los números que representan las características de una determinada población, o bien cuando se trata de hacer inferencias basadas en los valores de esa escala. El problema es especialmente grave cuando se trata de justificar una asignación de números a objetos, o a las propiedades de los objetos, que no se derive de un teorema de representación establecido, y el problema es especialmente difícil cuando los enunciados que incluyen valores numéricos no están soportados por un modelo explícito de medición, como es el caso de algunos atributos psicológicos. En la literatura se ha discutido mucho este problema y en términos no fácilmente comprensibles para cualquier lector. Por ejemplo, según Suppes y Zinnes (1963), un enunciado que incluye valores numéricos es formalmente significativo solamente si su verdad o falsedad permanece invariante bajo todas las transformaciones de los valores de la escala. Es decir, hacen que la significación dependa de los modelos de medición que se utilizan para obtener los valores numéricos. Éste es un problema difícil y que consideramos que está poco desarrollado en la investigación psicológica. Nuestro punto de vista es que el problema de la significación se resuelve, por un lado, construyendo escalas cuya interpretación inicial sea extremadamente clara y que las inferencias basadas en los valores de esa escala sean invariantes respecto a las transformaciones admisibles de la escala. Por otro lado, y en cualquier caso, la significación de los resultados depende de la vali- Capítulo 15. Medición y psicometría 409 dez de los supuestos subyacentes, aun cuando los números que se hayan asignado a los objetos o a sus propiedades no estén soportados por un modelo de medición bien definido. m15.4. Medición directa e indirectam La medición de los atributos psicológicos se clasifica en la que se ha llamado medición indirecta, para contraponerla a lo que se llama medición directa, si bien muchas veces esta distinción no está realmente bien justificada. Se llama medición directa a aquella que no depende de la medida de ninguna otra cantidad. El paradigma ya clásico de medición directa es la medida de la longitud. Sin embargo, la medición de otras magnitudes tales como la temperatura, la densidad o la velocidad requiere que exista la posibilidad de medir otras magnitudes para que se logre la de la que está en cuestión. Estas mediciones no sólo deben cumplir algunos axiomas exigibles a la medida directa como es la transitividad, sino que además conllevan la necesidad de que se definan ciertas leyes empíricas. Por ejemplo, la medida de la temperatura mediante un termómetro implica una medida directa de longitud, que es la altura que alcanza la columna de mercurio, pero también requiere que se cumplan muchas otras condiciones, como por ejemplo, que el coeficiente de dilatación del mercurio sea mucho mayor que el del vidrio, que ambos coeficientes prácticamente no varíen dentro del intervalo de temperatura medida, que el capilar por el que asciende el mercurio sea de un diámetro uniforme, que el descenso capilar sea despreciable, etc. La opinión de que hay ambigüedad en que una cantidad se pueda medir o no directamente no carece de sentido, pues aunque pudiera medirse directamente, muchas veces se prefiere hacerlo de forma indirecta porque la medición suele ser más fácil e incluso mucho más precisa. Por ejemplo, es posible que un grupo de expertos lleguen a un consenso en cuanto a que cierta persona es más inteligente o más brillante que otra, incluso se puede establecer la asimetría y la transitividad. Esto es, si la persona a es más brillante que la persona b, entonces, la b lo es menos que la a, y si la persona a es más brillante que la persona b y ésta lo es más que la c, entonces la persona a es más brillante que la c. No obstante, hacer uso en la práctica de este juicio directo sería extremadamente arriesgado y, de hecho, no son éstas las mediciones de la inteligencia de las que se hace uso. La medida de la inteligencia más común es la del CI, que 410 Principios de Psicometría es una medida indirecta, pues para cada persona se obtiene como cociente entre la edad mental y la cronológica. Este cociente, aun bajo su aparente simplicidad, es una medida doblemente indirecta, pues la medición de la edad mental se obtiene tras la aplicación de tests, como ocurre con muchas otras medidas psicométricas, que son mediciones inferidas de las puntuaciones en tests, asumiendo que todas esas medidas tienen todas las debidas garantías de precisión y de validez. Campbell (1957) dice que aunque las unidades de algunas magnitudes fuese relativamente fácil medirlas directamente, es preferible definirlas en términos de medición indirecta. Creemos que el problema no radica en que la medición sea directa o indirecta, sino que lo fundamental es, por un lado, asegurarse en qué grado la medida indirecta mide aquello que se quiere medir, es decir, el problema de la validez de la medición y, por otro, cuál es la precisión de esas medidas. Cuadro 15.2 En la literatura psicológica hay multitud de trabajos que tratan de distinguir qué clase de información conllevan y representan las magnitudes. Por ello, se han propuesto distintas clasificaciones para designar los diferentes tipos de mediciones, según el procedimiento mediante el que se han llevado a cabo. Cuando para inferir números o leyes que representen unas propiedades hay que hacer uso de otras propiedades, a esa medida Campbell la ha llamado medida o medición derivada. Es el caso de la medida de la densidad, que se obtiene mediante la razón de la medida de la masa y la del volumen. Cuando los números se pueden asignar de acuerdo con las leyes naturales que representan propiedades de los objetos, sin necesidad de que ello presuponga la medición de ningunas otras variables, autores como Campbell (1957) y Kranz et al. (1971), en el ámbito de la literatura en psicología, lo designan con el término de medición o medida fundamental. Se puede considerar y definir la medida fundamental como la construcción de escalas, estableciendo una relación isomórfica entre un sistema relacional empírico y un sistema relacional numérico, si bien, en el sentido en que también usan el término Hempel (1952) y Suppes y Zinnes (1963), la medición derivada, genera una nueva escala a partir de otras escalas dadas. Autores como Pfanzagl (1968) expresan sus dudas acerca de si es razonable considerar la medición derivada propiamente como medición, sugiriendo que el objetivo de la ciencia debe ser construir escalas fundamentales para las propiedades de los objetos, con formulación de leyes empíricas y significados independien- Capítulo 15. Medición y psicometría 411 tes, en lugar de tratar de satisfacer las propiedades de las escalas derivadas. Michell (1986, 1990) distingue entre teorías representacional, operacional y clásica, señalando que en la teoría operacional no se requiere la existencia de un sistema empírico y que la teoría clásica coincide con la representacional en cuanto a la existencia de una realidad objetiva, pero sólo considera medibles los atributos cuantitativos. En la teoría de la medición, una asignación consistente de los números reales a los elementos de una estructura empírica se suele decir que es una escala para dicha estructura. Con la aparición de la obra de Luce y Tukey en 1964, se acuña un nuevo término en la literatura psicológica, es el concepto de medición conjunta. Se llama medición conjunta a la forma de identificar la estructura aditiva de los atributos de forma indirecta, a través del establecimiento de relaciones de dos atributos con un tercero. Si lo ilustramos con un ejemplo traído de la física, se llamaría medición conjunta a la forma en que se establecen las diferencias en densidad, observando las diferencias en volumen manteniendo la masa constante, revelándose así la estructura aditiva oculta en el atributo densidad. m15.5. Tipos de escalasm Muchas de las estructuras empíricas que observamos en el mundo real presentan un cierto orden natural y las escalas suelen reflejar ese orden, por lo que se las denomina escalas ordenadas. Se han considerado diferentes tipos de escalas ordenadas, dependiendo de la estructura que se mida y de cómo se hace la medición de esa estructura. Las escalas más comunes, enumeradas desde la más débil a la más fuerte, en relación con las exigencias en las propiedades exigibles en la medición, son las conocidas como: 1) escalas ordinales 2) escalas de intervalo 3) escalas de razón Entre las distintas clasificaciones que se han presentado en la literatura, muchas de ellas son muy conocidas y ya clásicas como la de Stevens (1951), que distingue entre escala nominal, ordinal, de intervalo y de razón. Es decir, añade a las dadas aquí 412 Principios de Psicometría la denominada escala nominal, que no se ha incluido en la clasificación anterior porque no es propiamente una escala. Las escalas nominales se construyen, o bien denominando o nominando los diferentes objetos, o bien asignándoles un número para distinguirlos, o bien haciéndolo con las clases de objetos, agrupados según unas determinadas características. En este último caso, los numerales servirán para identificar las clases. Pero en el concepto de medición, como entendemos y usamos este término, no ha lugar para las escalas nominales, pues los números que se asignan deben referirse al grado o a la cantidad relativa en que un objeto posee una cierta propiedad, pero no que ese número sea la propiedad del objeto en sí misma. El punto de vista de Campell (1928) es que las escalas aparecen ligadas a la medida, pues dice que la concepción de una magnitud es inseparable del orden de las características que posee. Autores como Torgerson (1958), además de que consideran que ese orden debe existir y estar definido, indican que la escala puede poseer un origen y las características de una distancia, por lo que proponen que se distingan las escalas unidimensionales como se muestra en la Tabla 15.1. Tabla 15.1. Clasificación de Torgerson para las escalas. No distancia Distancia Origen no natural Origen natural Escala ordinal Escala ordinal con origen natural Escala de intervalo Escala de razón Una clasificación más compleja es la que propone Coombs (Coombs, 1952; Coombs et al., 1954), que añade a las de Stevens una quinta escala a la que denomina escala parcialmente ordenada. Bajo la concepción de Coombs, se debe pensar en las escalas considerando primero los objetos en sí mismos y después las distancias entre los objetos. Los objetos se pueden clasificar ordenándolos, o bien parcialmente, o bien totalmente y las distancias entre los objetos también pueden producir clasificaciones totales o parciales. Esto ha dado lugar a que lleguen a distinguirse entre once clases de escalas diferentes. Cada una de estas escalas se nombra con dos términos, el primero hace referencia al tipo de objeto y el segundo al orden o a la distancia, por ejemplo, escala nominal parcialmente ordenada. Nueve de las once escalas de Coombs pertenecen a la jerarquía de las escalas de intervalo de Stevens. Capítulo 15. Medición y psicometría 413 Escalas ordinales Escalas ordinales son las que tratan con estructuras en las que, o bien sólo se conoce el orden de los elementos, o bien sólo el orden de los elementos es relevante. Un conjunto A de elementos estará débilmente ordenado si entre esos elementos se establece la relación de preferencia o de indiferencia, que es una relación binaria y transitiva sobre A. Para dos elementos diferentes a y b de A, o el elemento a se prefiere a b, o bien el b se prefiere a a. Si esas relaciones entre los objetos se conservan en los números reales que los representan, entonces la relación a se prefiere a b (b ≺ a) se transforma en b < a y si a es indiferente a b (a ~ b), entonces es en el sistema numérico a = b. Si es R el conjunto de los números reales, una función f : (A, ≺ ) → (R, ≤) es una escala ordinal y A es escalable. Esas funciones f que preservan el orden son monótonas. Al ser las escalas ordinales muy débiles, son las que menos se han desarrollado en la teoría matemática, en comparación con las escalas de intervalo y las de razón. Sin embargo, en psicología se les ha prestado atención y ha sido Droste (1987) uno de los autores que más se ha ocupado del papel que juegan estas escalas en el contexto de la teoría de la medición. Escalas de intervalo y de razón Los tipos más importantes de escalas son las de intervalo y las de razón. Son escalas únicas sobre un grupo de transformaciones lineales unidimensionales. Esto es, si se considera el grupo de transformaciones lineales (positivas) de los números reales en los números reales (de R en R), y si es x un elemento genérico del sistema empírico, cuya imagen en el sistema numérico es f(x), se tiene una escala de intervalo o de razón cuando el conjunto de todas las transformaciones admisibles f son de tal forma que: f (x) = a x + b, con a ∈ R+, b ∈ R La exigencia de que sea a > 0 lo que implica es que la escala tiene una relación de orden empírica, que viene representada por el orden existente en R. Si fuese a < 0, entonces no se preserva el orden. 414 Principios de Psicometría En el caso en que sea b ≠ 0 (b ∈ R), se dice que la escala es una escala de intervalo, y si b = 0 entonces es una escala de razón. Las escalas de intervalo y de razón implican la igualdad de intervalos. Esta igualdad se da si diferencias equivalentes entre las magnitudes representan la misma cantidad de diferencia en la propiedad que se mide. Adicionalmente, las escalas de razón, admiten que la medida tenga cero absoluto. El tipo de escala viene definido por el tipo de transformación admisible, esto es, por el tipo de transformaciones que mantienen su correcta representación. La escala de medida que se use predetermina el modelo de escalamiento. El tipo de transformaciones admisibles de los valores de la escala que preservan la precisión en las predicciones de ese modelo define el nivel de medida que se obtiene mediante la escala. Cuadro 15.3 El escalamiento se puede hacer de estímulos, de sujetos o de respuestas y, a su vez, cada uno de estos escalamientos se puede hacer atendiendo a un solo atributo, o a más de uno, en cuyo caso se los denomina respectivamente escalamiento unidimensional o multidimensional. Los métodos de escalamiento centrados en los estímulos se han desarrollado fundamentalmente en el contexto de la psicofísica. Los métodos de escalamiento centrado en los sujetos utilizan preferentemente la teoría de los tests para la medida de los atributos y generalmente se busca el establecimiento de las diferencias individuales mediante la aplicación de algún modelo psicométrico para inferir el nivel del rasgo que posee el sujeto. En la medición de las actitudes, se suelen escalar los sujetos utilizando también otras técnicas como la de diferencial semántico. Los métodos de escalamiento centrados en la respuesta distinguen entre respuesta categórica y respuesta comparativa. Para respuestas categóricas el método más conocido es el escalograma de Guttman, y para los métodos de respuesta comparativa el modelo de Coombs. Escalamientos clásicos como los de Guttman, así como otros centrados en el sujeto se están viendo sustituidos por los que se están generando con modelos TRI no paramétricos. Un ejemplo clásico de escalamiento en psicometría es el modelo de Thurstone (1925). Son realmente brillantes sus artículos sobre la unidad de medida y el cero de la escala (Thurstone, 1925, 1927, 1928). Un estudio detallado sobre la construcción de escalas de intervalo basadas sobre operaciones métricas, así como las basadas sobre distancias se puede encontrar en los capítulos 6 y 9 de la obra de Pfanzagl (1968). Capítulo 15. Medición y psicometría 415 Transformaciones admisibles Independientemente de la clasificación que se adopte para las escalas, una cuestión fundamental es que las transformaciones algebraicas no alteren aquello que se representa. Esto es, se requiere la invarianza de las características de los objetos que la escala representa cuando se realicen transformaciones algebraicas. Por ello, hay que tener en cuenta cuáles son las transformaciones admisibles para cada tipo de escala. Considerando cómo se han definido las diferentes escalas y sus propiedades, es fácil deducir que las transformaciones admisibles para cada una de ellas son: a) Escala ordinal: transformaciones monótonas b) Escala de intervalo: transformaciones lineales de la forma g (x) = a f(x) + b c) Escalas de razón: transformaciones de la forma g (x) = a f(x) Un ejemplo sencillo de estas transformaciones se tiene si se pone en relación la longitud de una circunferencia con su diámetro. Si se considera una escala ordinal, esta relación es monótona, siendo la longitud una función monótona del diámetro, pues considerando entre ellos sólo una relación ordinal, cuando el diámetro crece también lo hace su longitud. Ahora bien, la relación se puede considerar una escala de razón, pues se mantiene la proporcionalidad entre las magnitudes con cambios cualesquiera de la longitud y del diámetro, siendo el número π la constante de proporcionalidad. Si la transformación admisible para una escala es el producto por una constante, la representación será una escala proporcional. Si las transformaciones admisibles son las lineales del tipo g(x) = a f(x) + b, la representación es una escala de intervalos, y si la transformación lineal es del tipo g (x) = f(x) + b, se tendrá una escala de intervalos absolutos, en el sentido de que permanece constante la diferencia entre los valores. Si las transformaciones admisibles son del tipo g(x) = a [f(x)]n, entonces se generarán escalas de intervalos logarítmicos, ya que la relación entre ellas es lineal, pues log g(x) = log a + n log f(x). Para transformaciones g (x) = [f(x)]n, se generarán escalas de proporciones logarítmicas, caracterizadas por permanecer constante el cociente de los logaritmos de los valores, pues es n = [ log g(x) / log f(x)]. Algunas transformaciones admisibles de la variable aptitud se han presentado, por ejemplo, en los Apartados 12.2 y 12.3. 416 Principios de Psicometría Cuadro 15.3 Interés en la medición y controversias Existe y ha existido cierta controversia, muy marcada en algunas épocas, no solamente en relación con la naturaleza de la medición, sino también con el interés e intensidad con el que la comunidad científica aborda el tema y la conexión de la realidad de los que en la práctica necesitan la medición para hacer ciencia y el abordaje del tema desde la propia filosofía de la ciencia (Kranz et al., 1971; Kyburg, 1984, Santisteban, 2003). Hay una gran dispersión en la literatura, pues en economía, matemáticas, filosofía, física, psicología y estadística existen sistemas de axiomas y teoremas que intentan explicar cómo algunos de los atributos de los objetos, de la esencia de ciertas cosas y los sucesos se pueden representar numéricamente de forma razonable. Esos resultados son los que constituyen los fundamentos matemáticos de la medición y podría esperarse que las discusiones sobre medición jugaran un importante papel en los escritos sobre filosofía de la ciencia. En un debate sobre la influencia del método y/o los métodos en el desarrollo de la ciencia (Santisteban, 2003) se puso de manifiesto la aparente disociación entre el desarrollo científico y el de la filosofía de la ciencia al tratar estos temas, y se hacen puntualizaciones acerca de la cuantificación, la medición, la búsqueda y el establecimiento de estructuras, así como sobre la necesidad de la formalización. Ellis (1968) y Koslow (1981) coinciden con Kyburg en que los problemas de la medición no sólo no son suficientemente entendidos, sino que puede que ni siquiera sean suficientemente apreciados. Ellis dice que tiene que remontarse a los años veinte para encontrar grandes trabajos que traten la medición y que sean de naturaleza filosófica, refiriéndose concretamente a los trabajos de Campbell (1920, 1928) y a los de Bridgman (1922), en tanto Koslow, algunos años después, aun compartiendo la opinión de Ellis, admite que la literatura sobre el tema está en auge entre sus contemporáneos y que en esos años se había escrito más sobre medición que antes de mediados de los sesenta. Entre los grandes autores clásicos sobre medición cita a Mach (1960) y a Von Helmholtz (1887/1977). Autores como Kranz, Luce, Suppes, Tversky, Zinnes, Pfanzagl y Nagel opinan que la medición es un tema perfectamente comprendido, pero que hay muchas cuestiones de fondo complejas y muchas cuestiones técnicas, algunas de ellas de gran dificultad, que hay que explorar e investigar y a ello dedican obras muy relevantes, tanto por su extensión como por su profundidad. En la literatura hay también una ingente cantidad de trabajos, que se centran en problemas técnicos muy concretos, pero se quedan en la parte técnica del problema, sin llegar a establecer los pertinentes axiomas que permitan la generalización de los resultados, para que se cumplan al menos los teoremas de representación y de unicidad. Capítulo 15. Medición y psicometría 417 La aportación de Rasch a la medición en psicología fue fundamental. Sus primeras propuestas ya muestran que, la formulación en una familia de distribuciones de Poisson, no sólo es suficiente para la construcción de mediciones estables, sino que poder hacer uso de las propiedades multiplicativas de las leyes de Poisson es la solución matemática para tener funciones medibles en teoría de tests. Andrich (1995, 1996) confirma que en el modelo de Rasch la separabilidad requiere la distribución de Poisson para estimar medidas a partir de observaciones discretas y Bookstein (1996) también muestra la necesidad del uso de la distribución compuesta de Poisson, en cuanto a que se satisfacen los requisitos de divisibilidad, definidos por Levy (1937) y por Kolmogorov (1950). En forma muy resumida se puede decir que la propuesta de Rasch implica, no sólo que se pueden obtener estimadores suficientes de los parámetros, sino que las mediciones que se hacen cumplen los requisitos teóricamente exigibles de estabilidad, separabilidad e independencia muestral, así como el requisito de la aditividad conjunta que, en teoría de la medición, es un requisito fundamental y decisivo. Un concepto que aparece en los años ochenta del siglo XX es el de objetividad específica. En el modelo de Rasch se cumple el principio de objetividad específica o equivalentemente, de independencia muestral. Roskam (Roskam y Jansen, 1984) indica que la objetividad específica es una condición metodológica básica para la definición y medición de constructos teóricos como la aptitud verbal o el control interno. La condición de objetividad específica es de especial importancia para el estudio de las actitudes y de los rasgos de personalidad. m15.6. Interpretación de las puntuaciones: escalas y normasm Tipificar consiste en transformar las puntuaciones directas en otras puntuaciones más fácilmente interpretables. En el contexto de la TCT, cuando un test está tipificado o estandarizado, la puntuación típica de un sujeto indica su posición relativa con respecto al grupo normativo, lo que permite comparar los resultados de diferentes sujetos en un mismo test, o los de un sujeto en diferentes tests. Las escalas en las que vienen dadas las puntuaciones de los tests son numerosas, por ello, para una correcta interpretación de las puntuaciones obtenidas con esos tests es imprescindible conocer el tipo de escala y sus características. En la TRI las interpretaciones se hacen por la posición del sujeto en la escala del rasgo. 418 Principios de Psicometría Existen distintos tipos de transformaciones para realizar la tipificación de las puntuaciones, o sea, transformaciones que permiten convertir las puntuaciones en datos comparables expresándolos en el mismo tipo de escala. La elección del tipo de transformación que da origen a la escala depende en gran medida del tipo de puntuación y de los objetivos de la prueba. Las transformaciones pueden ser lineales o no lineales, como se ha puesto ya de manifiesto en diferentes apartados y concretamente al hablar de transformaciones admisibles (Apartado 15.5). Las lineales tienen la ventaja de conservar la forma de las distribuciones de las puntuaciones y no modifican el tamaño de las correlaciones, pues las correlaciones son invariantes ante cambios de origen y de escala, lo que es de gran ayuda en el contexto de la TCT, que se basa esencialmente en un modelo correlacional. En cualquier caso, todas las transformaciones deben ser monótonas, por lo tanto, si las puntuaciones están ordenadas en orden creciente, la transformación no altera ese orden. Es decir, como se ha explicitado en los Apartados 15.3 y 15.5, si un sujeto tiene una puntuación directa a que es mayor que la b obtenida por otro sujeto, entonces la transformación f debe conservar ese orden de forma que f(a) > f(b). En aquellos contextos en los que las interpretaciones se hacen en relación con el grupo normativo, se dice que se hacen interpretaciones referidas a la norma, diferenciándose de aquellas otras que se hacen en relación con ciertos objetivos o criterios concretos, a las que se denomina interpretaciones referidas al criterio. Aunque para ambos tipos de pruebas se siguen procedimientos que no difieren en lo esencial, las pruebas con interpretaciones referidas a la norma dan origen a escalas y en las referidas al criterio las interpretaciones se suelen hacer en relación a algún punto de corte, o sea, con una división de los valores de la escala, usualmente en dos categorías exhaustivas y excluyentes. Hay interpretaciones que se basan en la dificultad del contenido. Estas interpretaciones se suelen utilizar en pruebas de rendimiento escolar, comparando la calificación del sujeto con la máxima calificación posible. En una prueba de respuestas dicotómicas, la calificación X que se otorga a un sujeto es X = R / T, en donde R es su número de respuestas correctas y T el total. Las puntuaciones se suelen dar en porcentajes y usualmente no se utilizan como escalas, sino que se suelen tratar dentro del grupo de las interpretaciones referidas al criterio. Entre las numerosas escalas que se han construido, se citan a continuación algunas de las más usuales. Capítulo 15. Medición y psicometría 419 Escalas estandarizadas La tipificación de puntuaciones consiste en una transformación lineal en la que a todas ellas se les resta la media (cambio de origen) y esa diferencia se divide por la desviación típica (cambio de escala). En el Apartado 1.6 se ha expuesto cómo obtener puntuaciones tipificadas (estandarizadas) y las que dan origen a las escalas estandarizadas derivadas, o escalas tipificadas derivadas. Entre las escalas derivadas tradicionalmente más utilizadas están las siguientes: a) La de puntuaciones T, con media 50 y desviación típica 10: T = 50 + 10 z. b) Estaninos o eneatipos, con media 5 y desviación típica 2: E = 5 + 2z. c) AGCT (Army General Classification Test): AGCT = 100 + 20 z. d) CEEB (College Entrance Examination Board): CEEB = 500 + 100 z. e) Escalas CIS (Cociente Intelectual estándar). Todas estas escalas fijan la media en 100, pero la desviación típica (la unidad de medida de la escala) se suele tomar de acuerdo con los objetivos del test. Los CI de Wechsler (que se usa en escalas muy conocidas tales como WPPSI, WISC y WAIS) es CI = 100 + 15 z. En la de Stanford-Binet es CI = 100 + 16 z. Normas centiles Las normas centiles dan la posición relativa del sujeto con respecto al grupo al que pertenece. Una vez que se ordenan (generalmente en orden creciente) y se tabulan las puntuaciones, observando su valor y su frecuencia, se calculan las frecuencias acumuladas, pudiéndose determinar así el porcentaje de sujetos que alcanzan un valor menor o igual a una puntuación dada y hacer divisiones o clases de acuerdo con esos porcentajes. 420 Principios de Psicometría En la Tabla 15.2 se presenta un ejemplo en el que se puede hacer una interpretación de los centiles, pues el 10% de los sujetos tienen puntuaciones iguales o menores que 2, el 50% tienen puntuaciones iguales o menores que 5, en el 85% sus puntuaciones son iguales o menores que 8, etc. Tabla 15.2. Distribución de frecuencias absolutas y absolutas acumuladas de 100 sujetos. Puntuación: Xi 0 1 2 3 4 5 6 7 8 9 10 Frecuencia: Ni 2 3 5 15 10 15 15 10 10 5 10 Frecuencias acumuladas 2 5 10 25 35 50 65 75 85 90 100 Entre las clasificaciones centílicas más usuales están: – Clasificación por la mediana: Este valor Me divide a la población en dos grupos, el 50% de los sujetos que tienen calificaciones superiores a Me y las del otro 50% de los sujetos son iguales o inferiores. Esta clasificación es muy pobre, pues discrimina muy poco entre los sujetos. En el ejemplo de la Tabla 15.2 es Me = 5. – Clasificación cuartílica: En este caso, la división se hace en cuatro grupos, separados por los valores de cada cuartil. Es decir, el 25% de los sujetos tienen valores iguales o menores al del primer cuartil Q1, el segundo al 50% por lo que Me = Q2, y el 75% del total de sujetos tendrán valores iguales o menores que la puntuación Q3. En la Tabla 15.2 es Q1 = 3, Q2= 5 y Q3 = 7 y sólo los sujetos con puntuaciones 8, 9 y 10 pertenecen al cuarto cuartil. – Clasificación decílica: Esta clasificación sigue el mismo criterio que las dos anteriores, haciéndose aquí la clasificación dividiendo en 10 intervalos las calificaciones, en correspondencia con una división de la frecuencia total en 10 grupos de igual tamaño. En el ejemplo de la Tabla 15.2, el primer decil es D1 = 2, con el 10% de la frecuencia acumulada, el D5 = Q2 = Me y el noveno y último decil es D9 = 9. – Clasificación percentílica: Los rangos percentílicos son los más utilizados. La idea básica es la misma que la de cualquier norma centil estando aquí divi- Capítulo 15. Medición y psicometría 421 dida la frecuencia acumulada en 100 grupos divididos por 99 valores. Así el primer percentil P1 acumula el 1% de la frecuencia y el P99 al 99%. En los datos de la Tabla 15.2 el P85 lo delimita el valor 8. En cualquier escala centílica, al estar ordenadas las puntuaciones (los valores de cualquier variable) en orden creciente y sus frecuencias acumuladas, se pueden realizar las comparaciones entre sujetos conociendo a qué centil pertenecen. Ahora bien, al hacer esas comparaciones hay que tener en cuenta que las distancias intercentílicas no son todas iguales (e.g., Figuras 15.1 y 15.2), pues dependerán de la dispersión de las puntuaciones en el grupo. Estas distancias también variarán entre diferentes grupos o con diferentes pruebas. Figura 15.1. Relaciones entre diferentes rangos centílicos. Escalas de puntuaciones normalizadas En el caso en que las puntuaciones sigan distribuciones normales, o aproximadamente normales, las escalas anteriores se dice que están normalizadas. Muchas de ellas se refieren a pruebas de rendimiento, generalmente en el ámbito educativo, en donde las distribuciones de las puntuaciones en la población suelen ser aproximadamente normales. Cuando se tiene un conjunto de puntuaciones que no se desvían sensiblemente de la normalidad, una forma fácil de realizar la normalización de esos datos es distribuirlos en una escala percentílica, y utilizando las frecuencias acumuladas, asimilar los valores de los percentiles a los correspondientes en una distribución normal, haciendo posteriormente un suavizado de la función resultante. Este proceso está implementado en los programas diseñados para realizar transformaciones que se pueden encontrar en los paquetes estadísticos como el SPSS. 422 Principios de Psicometría En muchas ocasiones las puntuaciones normalizadas z, que aproximadamente se distribuyen según una N(0,1) son incómodas de manejar y difíciles de interpretar, pues sus valores teóricamente van desde –∞ a +∞, aunque en la práctica estén entre z = – 3 y z = 3. Por ello, se suelen utilizar escalas derivadas normalizadas en las que el rango de las puntuaciones va de 0 a 100 puntos. Es decir, el punto z = 0 de la escala anterior es ahora T = 50 y un valor, z = – 2.5, ahora es un valor T = 50 + 20 (–2.5) = 0, como puede deducirse también de las relaciones que anteriormente se han establecido (Apartado 1.6) entre las puntuaciones z y las estandarizadas derivadas. Los casos más comunes de escalas normalizadas son las escalas T y las de eneatipos, mencionadas anteriormente como escalas derivadas. Con el uso de la escala T lo que se realiza es una evaluación del rango percentílico de la puntuación directa. Los eneatipos o estaninos (de la contracción standard nine) son una variación de la escala T con la diferencia de que esta escala está compuesta por nueve intervalos de igual longitud que delimitan distintas áreas bajo la curva normal. Una modificación de los eneatipos son las denominadas escalas C que elabora Guilford introduciendo una unidad adicional en cada uno de los extremos de la escala de estaninos, con lo que tiene once intervalos en lugar de nueve. Otras calificaciones de rango son similares a las C, con extremos abiertos, utilizadas en algunas pruebas de Catell, las ITED (Iowa Test of Educational Development) que son calificaciones estándar normalizadas con media 15 y desviación típica 5. Un poco diferentes son las denominadas puntuaciones jerárquicas percentuales, que se utilizan para indicar la posición del sujeto en una escala de 101 puntos en un rango de puntuaciones de cero a 100. Esta escala se construye en cada caso con las puntuaciones del grupo, de manera que si a y b son las puntuaciones directas más alta y más baja obtenidas en ese grupo, entonces X = 100 (X – b) / (a – b), que viene dado en porcentajes. Figura 15.2. Deciles bajo una distribución normal. Capítulo 15. Medición y psicometría 423 Las normas que acompañan a los tests deben explicitar el tipo de escala y deben ser claras, pues se establecen para facilitar la interpretación de las puntuaciones a los usuarios de los tests. Una revisión escueta y actualizada de los diferentes tipos de normas se puede consultar en Thorndike (2005). Equiparación de puntuaciones Las transformaciones en las puntuaciones se hacen cuando se trata de hacer la equiparación entre tests. La equiparación consiste en el proceso que se lleva a cabo para que dos pruebas se puedan considerar equivalentes. Las condiciones para que realmente se dé la equivalencia entre tests son muy exigentes, pues ambas pruebas deben medir el mismo rasgo, con las mismas dimensiones, que se hayan construido los ítems con las mismas especificaciones, etc. Que exista equiparación entre dos tests X e Y implica que esos tests sean intercambiables en el sentido de que la aplicación de uno u otro no hará variar el nivel de aptitud que se le estima al sujeto. Esto implica la invarianza de la puntuación verdadera cuando se igualan las puntuaciones. También implica el principio de simetría entre los tests, es decir, que no importa cuál de ellos se ha utilizado como base o como referencia. En el contexto de la TCT, los métodos de equiparación son la equiparación en media, la lineal y la equipercentílica. En la TRI se establecen las relaciones entre los parámetros de los ítems y la puntuación verdadera estimada del sujeto en el test. Para generar los datos con los que se va a llevar a cabo la equiparación se utilizan diferentes diseños: a) se administran ambos tests a una muestra; b) se utilizan dos grupos o dos muestras equivalentes en cuanto a su tamaño, representatividad, etc. y se administra el test X a una muestra y el Y a la otra; y el diseño c) en el que también se utilizan dos grupos o dos muestras, cumplimentando cada una uno de los tests, además de un conjunto de ítems Z. Así un grupo cumplimenta nY + nZ ítems y el otro nX + nZ, estableciéndose la equivalencia a partir de los datos obtenidos de los nZ ítems que al ser comunes a ambos grupos actúan como anclaje en la relación entre X e Y. Este diseño tiene la ventaja adicional de que no es necesario que los dos grupos o las dos muestras sean equivalentes. En la TCT, el método de equiparación de medias supone que la diferencia entre las puntuaciones entre los tests se debe a la dificultad y que esa diferencia se mantiene a lo largo de todas las puntuaciones. Por lo tanto, si es d = Y − X , 424 Principios de Psicometría la equiparación se realiza mediante las relaciones: Ye = X + d (Ye es la puntuación equiparada a la X) y Xe = Y – d. Esta equiparación es muy simple, pero muy poco realista, porque difícilmente se darán esas condiciones en las puntuaciones. La equiparación lineal se basa en igualar las puntuaciones tipificadas, es decir, en una transformación lineal de unas puntuaciones en otras, que es un procedimiento similar al que se ha utilizado anteriormente para otras comparaciones. Esto es, si se establece la igualdad: Y−Y X−X = sY sX entonces, se equiparan las puntuaciones mediante cualquiera de las dos ecuaciones siguientes Ye = sY (X − X) + Y sX s Xe = X ( Y − Y ) + X sY Ejemplo 15.1 Si las medias y las desviaciones típicas de dos pruebas X e Y que se van a equiparar son respectivamente X = 42 , sX = 6 ; Y = 48 sY = 8. La equiparación de medias supone que para toda puntuación en el test X su correspondiente (equiparada) en el test Y, y viceversa Xe = X + 6 ; Ye = Y – 6. Si la equiparación tiene también en cuenta la variabilidad, la equiparación es lineal, siendo: Ye = (8/6) (X – 42) + 48 = (8/6) X – 8 Xe = (6/8) (Y – 48) + 42 = (6/8) Y + 6 La equiparación percentílica es la que más se utiliza y consiste en hacer que se correspondan las puntuaciones percentílicas. Esto es, si la puntuación 42 es la que corresponde al percentil 70 en el test X y la puntuación para ese percentil en el Capítulo 15. Medición y psicometría 425 test Y es de 50 puntos, entonces, la puntuación 42 de X se equipara a la puntuación 50 del test Y. Para hacer estas comparaciones hay que tener en cuenta la no equidistancia entre percentiles, pues las distancias en puntuación son diferentes para un percentil y otro en el mismo test y en tests diferentes. Los métodos para la equiparación de puntuaciones que se utilizan en la TRI son variados y además se distingue cuando se hacen las calibraciones separadas de cada uno de los tests, o cuando se hace conjunta. En el caso en que el diseño sea de anclaje, se pueden calibrar los tests con (nX + nZ ) ítems y (nY + nZ ) ítems separadamente, o bien tratar los datos como si todos los sujetos hubiesen resuelto los (nX + nY + nZ ) ítems, tratando los ítems no cumplimentados por alguno de los grupos como datos faltantes, teniéndose en este caso todas las estimaciones en una escala común. (Una exposición detallada en español de algunos de estos métodos se puede consultar en Santisteban, 1990a.) Los métodos más idóneos y que proporcionan las equiparaciones más precisas son los que se basan en las CCI. Casi todos se basan en una primera estimación de las puntuaciones verdaderas de los sujetos en el test. Estas puntuaciones verdaderas se corresponden con la suma de las Pi (θ) de todos los ítems del test. Así, para un nivel del rasgo θ = θj , la puntuación verdadera estimada para ese nivel del rasgo en un test de n ítems es: Vj = ∑ Pi ( θj ) n i=1 Las estimaciones de las puntuaciones en una misma escala, con diseños de anclaje y análisis conjunto de los (nX + nY + nZ) se pueden obtener con el software que proporcionan programas como BILOG-MG o PARSCALE. La equiparación se realiza estableciendo relaciones lineales entre los parámetros de los ítems, de ambos tests y los de anclaje. Estas equiparaciones suelen hacerse con el índice de dificultad b, porque es más estable y porque, como se ha visto en el Apartado 12.3, las transformaciones en b son idénticas a las de θ y viceversa, cuando se realizan transformaciones admisibles para la escala, aunque también se puede incluir el parámetro a. Es decir, la conexión entre las escalas original y equiparada, siempre se podrá establecer mediante las relaciones θe = kθ + s; be= kb +s y ae = a/k, teniendo en cuenta además que aunque el modelo incluye un tercer parámetro, el parámetro c, a ese parámetro no le afectan las transformaciones métricas señaladas. 426 Principios de Psicometría La escala de aptitud θ en la TRI La construcción de las escalas y la interpretación de los niveles de aptitud que en la TCT se hace en relación con las del grupo normativo, en los procedimientos TRI hay que realizarla al estimar los parámetros característicos de los ítems y del rasgo θ. Los valores estimados para los niveles de θ se pueden transformar en valores de una escala conveniente para la interpretación de los resultados. La escala, en principio, se elige de forma arbitraria y las transformaciones lineales de la escala de aptitud, acompañadas de las correspondientes a los parámetros son admisibles, pues no alteran ni la forma ni las características de las funciones Pi (θ). Estas propiedades de invarianza se han comprobado para diferentes modelos en los Apartados 12.2 y 12.3. La arbitrariedad en la elección de la escala y la invarianza de las CCI con respecto a las transformaciones lineales generan indeterminaciones que se deben eliminar en el proceso de estimación. El método más simple, al igual que en la TCT, es tipificar la variable. En este caso, la indeterminación se puede eliminar eligiendo para las constantes k y s de las ecuaciones (12.10) valores con los que la media y la desviación típica de la variable transformada θ* sean cero y uno respectivamente. De hecho, los programas de ordenador disponibles para el tratamiento de estos modelos, como es el LOGIST, trabajan con los valores de la variable tipificada, con media cero y desviación típica unidad. La tipificación conduce a que se obtengan valores de la variable decimales y que también pueden ser negativos, lo que dificulta su interpretación. La forma que se sugiere para abordar el problema es la misma que la que se ha propuesto para las escalas convencionales de puntuaciones. Consiste en construir escalas derivadas, buscando valores apropiados para la media y la varianza que a ser posible proporcionen puntuaciones enteras y positivas para la variable estimada. Una de las propuestas que se han hecho en este contexto fue fijar la media en 200 y la desviación típica en 10 (o sea, k = 10 y s = 200), pero no ha resultado ser satisfactoria, por lo que se han propuesto para estos modelos transformaciones logarítmicas y la utilización de los logits que tan buen resultado han dado en las aplicaciones biométricas, especialmente en relación con las escalas dosis-respuesta. Entre los autores que sugirieron la escala logarítmica están Rentz y Bashaw (1977), que la propusieron al no obtener una escala interpretable cuando usaban la transformación normalizada con media 200 y desviación típica 10, en el desarrollo del test de lectura NRS (National Reference Scale). Para estas transfor- Capítulo 15. Medición y psicometría 427 maciones usualmente se han utilizado logaritmos neperianos, pero los resultados son generalizables a cualquier tipo de base logarítmica. La elección de la base es arbitraria y se debe elegir aquella base logarítmica que en cada problema facilite la interpretación. Entre esas escalas están las Wθ de Woodcock (1978) y la WITS de Wright (1977) que usan escalas logarítmicas de base 9 y 3 respectivamente. Una explicación en castellano más detallada de las transformaciones y de estas escalas se puede ver en Santisteban (1990a, págs. 380-386). Sobre medición y las transformaciones logarítmicas, por ejemplo, en modelos basados en el de Rasch son de interés trabajos de autores como los ya mencionados Woodcock (1999) y Wright (1999). Puntos clave 3 3 3 3 3 3 3 3 3 3 Medir es más que asignar números a las propiedades de los objetos. Los conceptos cualitativos son aquellos que son comparativos, o simplemente clasificatorios. Los conceptos cuantitativos son los mensurales y/o métricos. La medición aparece como consecuencia de la metrización. La medición se establece porque se quiere llegar a cuantificar y relacionar las características de los objetos y/o para hacerlas universalmente comparables y/o para comparar teorías y establecer leyes. En medición hay que resolver los problemas de la legitimidad de representar mediante números las características de los objetos, así como la unicidad de esa representación y su significado. La medición de los atributos psicológicos es del tipo que se denomina medición indirecta. Se llama medición conjunta a la forma indirecta de identificar la estructura aditiva de los atributos. La asignación consistente de los números reales a los elementos de una estructura empírica se suele decir que es una escala para dicha estructura. En la literatura se han dado muchas clasificaciones para identificar tipos de escalas. En psicología una de las más clásicas es la de Stevens. Es necesario que se mantengan las características de los objetos que la escala representa cuando en ella se realizan transformaciones algebraicas. Las transformaciones que lo cumplen se dice que son admisibles para ese tipo de escala. La interpretación de las puntuaciones en los tests requiere que se conozcan el tipo y las características de la escala en la que vienen dadas esas puntuaciones. 428 Principios de Psicometría 3 3 3 3 3 La interpretación de las puntuaciones a veces se hace en relación con una partición de esas puntuaciones (generalmente en dos clases) atendiendo a un determinado criterio. La tipificación de las puntuaciones es un primer paso para poder compararlas y para el posterior establecimiento de la escala. El paso de puntuaciones directas a tipificadas y de ellas a otros valores estandarizados se hace mediante transformaciones lineales. La normalización de la escala se puede hacer partiendo de una escala percentílica, siempre y cuando la distribución de las puntuaciones sea aproximadamente normal. Tanto en la TCT como en la TRI las transformaciones lineales son admisibles, sin embargo, las transformaciones más adecuadas en la TRI son las transformaciones logarítmicas. Actividades r Ponga seis ejemplos de atributos o cualidades de los objetos o de las personas que se puedan considerar esencialmente cualitativos, otros seis que sean de naturaleza cuantitativa y trate de establecer condiciones para, si es posible, pasarlos de una categoría a otra. Esto es, poder dar a los cualitativos tratamiento cuantitativo y viceversa. r Comente la siguiente frase: “Todo lo que conlleva e implica la teoría de la medición no está contemplado en la psicometría, pero las bases rigurosas de la medición deben tener presencia en ella y en todos los ámbitos de la psicología en los que se quieran desarrollar teorías formalmente construidas y con modelos experimentalmente contrastables”. r Busque en la literatura los denominados axiomas de cantidad de Hölder (1905) y coméntelos, distinguiendo entre los que sólo permiten establecer relaciones de orden y los que permiten algún tipo de operaciones entre magnitudes. r Compare los axiomas de cantidad de Hölder con los fundamentos lógicos de la medición dados por Campbell. r Comente la importancia y el significado que en los tests tiene la definición de representación que dan Suppes y Zinnes: “Es la relación homeomórfica establecida entre dos sistemas relacionales, el empírico y el numérico”. Capítulo 15. Medición y psicometría 429 r Ponga un ejemplo, o búsquelo en la literatura psicométrica, de dos sistemas relacionales, uno empírico y otro numérico, que cumplan las condiciones de representación, unicidad y significación. r Comente el problema de la unicidad en la construcción de escalas en los tests psicológicos. r Haga un supuesto de un test en el contexto de la TCT, tipifique sus puntuaciones, normalícelas y construya diferentes escalas derivadas. r Haga supuestos sobre dos tests en el contexto de la TCT y haga una equiparación percentílica de las puntuaciones. r Construya las curvas características de dos tests, estime las puntuaciones verdaderas y trate de equiparar sus puntuaciones con el software adecuado. r Compruebe que la eficiencia relativa de dos tests es invariante ante transformaciones monótonas de θ. r Compruebe que utilizar en la relación logist Y (Y = ln (Pi (θ)/ (Qi (θ)) la base logarítmica 2, es equivalente al escalamiento de la aptitud θ con logist unidad y logaritmos neperianos multiplicados por 0.7. Bibliografía AERA, APA & NCME (1999). American Educational Research Association, American Psychological Association, and National Council on Measurements in Education. Standards for educational and psychological testing. Washington, D.C.: American Educational Research Association. Alvarado, J. M. & Santisteban, C. (2006). La validez en la medición psicológica. Aula abierta. Madrid: Ediciones UNED. Amón, J. (1984). Estadística para psicólogos. Vol. 2 (3ª ed.). Madrid: Pirámide. Anastasi, A. (1950). The concept of validity in the interpretation of test scores. Educational and Psychological Measurement, 10, 67-78. — (1954). Psychological testing. New York: MacMillan. Anastasi, A. & Urbina, S. (1997). Psychological testing. (7ª ed.) Englewood Cliffs. NJ: Prentice-Hall. Andersen, E. B. (1973). Conditional inference and models for measuring. Copenhagen: M. Forlag. Andrich, D. (1995). Models for measurement: Precision and the non-dichotomization of graded responses. Psychometrika, 60, 7-26. — (1996). Measurement criteria for choosing among models for graded responses. En A. von Eye & C. C. Clogg (ed.). Analysis of categorical variables in developmental research (págs. 3-35). Orlando, Fl: Academic Press. Angoff, W. H. (1982). Used of difficulty and discrimation indices for detecting item bias. En R.A. Berk (ed.). Handbook of methods for detecting test bias. Baltimore, MD: The Johns Hopkins University Press. APA (1954). American Psychological Association. Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51, 201-238. Baker, F. B. (1992). Item response theory: Parameter estimation techniques. New York, NY: Marcel Dekker. 432 Principios de Psicometría Baker, F. B. & Kim, S. H. (2004). Item response theory: Parameter estimation techniques. (2ª ed.). New York: Marcel Dekker. Bartholomew, D. J., Steele, F., Moustaki, I. & Galbraith, J. I. (2002). The analysis and interpretation of multivariate data for social scientists. Boca Ratón: Chapman and Hall/CRC. Barton, M. A. & Lord, F. M. (1981). An upper asymptote for the three parameter logistic itemresponse model. Research Bulletin, 8120, Princeton, NJ: Educational Testing Service. Becker, K. A. (2003). History of the Stanford-Binet intelligence scales: Content and psychometrics. (Stanford-Binet Intelligence Scales, Fifth Edition Assessment Service Bulletin No. 1). Itasca, IL: Riverside Pub. Binet, A. (1886). La psychologie du raisonnement: recherches exp¯rimentales par l’hypnotisme. Paris, F. Alcan. (Traducida al inglés como The psychology of reasoning. Chicago, IL, Open Court, 1896). — (1887). On double consciousness: Experimental psychological studies (2007) Kessinger Pub. — (1903). L’etude exp¯rimentale de l’Intelligence. Paris. Schleicher. Binet, A. & F¯r¯, C. (1887). Le magn¯tisme animal. Paris: Felix Alcan. Binet, A. & Henri, V. (1895). La psychologie individuelle. L’ann¯e Psychologique, 2, 411-463. Binet, A. & Simon, T. H. (1905). Application de m¯thodes nouvelles au diagnostic du niveau intellectuel chez les enfants anormaux d’hospice et d’¯cole primaire. L’ann¯e Psychologique, 11, 191-244. — (1908). Le d¯veloppement de l’intelligence chez l’enfant. L’ann¯e Psychologique, 14, 1-94. (Traducida por E. S. Kite al inglés como The development of intelligence in children. 1916. Vineland, NJ.: Publications of the Training School at Vineland). — (1911). La mesure du d¯veloppment de l’intelligence chez les jeunes enfants. Paris: A. Coneslant. Birnbaum, A. (1968). Some latent trait models and their use in inferring a examinee’s ability. En F. M. Lord & M. Novick. Statistical theories of mental test scores (págs. 395-479). Menlo Park, CA: Addison Wesley Pub. — (1969). Statistical theory for logistic mental test models with a prior distribution of ability. Journal of Mathematical Psychology, 6, 258-276. Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37, 29-51. Bock, R. D. & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: an application of an EM algorithm. Psychometrika, 46, 443-459. Bookstein, A. (1996). Informetric distributions. III. Ambiguity and randomness. Journal of the American Society for Information Science, 48, 2-10. Bibliografía 433 Borsboom, D., Mellenbergh, G. J. & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. Brennan, R. L. (2001). Generalizability theory (2ª ed.). New York: Springer-Verlag. Bridgman, P. W. (1922). Dimensional Analysis. New Haven: Yale University Press. Bryant, F. B. & Yarnold, P. R. (1995). Principal-components analysis and exploratory and confirmatory factor analysis. En L. G. Grimm & P. R. Yarnold, Reading and understanding multivariate analysis. (Capítulo 4). American Psychological Association Books. Burt, C. (1955). Test reliability estimated by analysis of variance. British Journal of Statistical Psychology, 8, 103-118. Buss, A. H. & Durkee, A. (1957). An inventory for assessing different kinds of hostility. Journal of Consulting Psychology, 21, 343-348. Buss, A. H. & Perry, M. (1992). The aggression questionnaire. Journal of Personality and Social Psychology, 63, 452-459. Camilli, G. & Shepard, L. (1994). Methods for identifying biased test items (Measurement methods for the social science. Series 4). Thousand Oaks: Sage. Campbell, N. R. (1920/1957). Physics: The elements. London: Cambridge University Press. (Reimpreso en 1957 como Foundations of Science. New York: Dover) — (1928). An account of the principles of measurement and calculation. London: Logmans Green. Campbell, D. T. (1957). Factors relevants to the validity of experiments in social settings. Psychological Bulletin, 54, 297-312. — (1960). Recommendations for APA test standards regarding construct, trait and discriminant validity. American Psychologist, 15, 546-553. Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-104. Campbell, D. T. & Stanley, J. C. (1963). Experimental and quasi-experimental designs for research and teaching. En N. L. Gage (ed.). Handbook of Research on Teaching. Chicago: Rand McNally. Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. London: Sage. Clearly, T. A. & Hilton, T. L. (1968). An investigation of item bias. Educational and Psychological Measurement, 28, 61-75. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159. College Board (2006). SAT Reasoning Test. Utilizado el 12/01/2009 de http://www.collegeboard.com/student/testing/sat/about/SATI.html. 434 Principios de Psicometría Connolly, A. J., Nachtman, W. & Pritchett, E. M. (1971). Key math diagnostic arithmetic test. Circle Pines, MN.: American Guidance Service. Coombs, C. H. (1952). A theory of psychological scaling. Engineering Research Bulletin, 34. Ann Arbor: University of Michigan Press. Coombs, C. H., Raiffa, H. & Thrall, R. M. (1954). Some views on mathematical models and measurement theory. Psychological Review, 61, 132-144. Croker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York. Holt, Rinehart and Winston. Cronbach L. J. (1949/1990). Essentials of psychological testing. (5ª ed.). New York. Harper & Row. — (1951). Coefficient alpha and the internal structure of tests. Psychometrika 16, 297-334. — (1971). Test validation. En R. L. Thorndike (ed.). Educational measurement. (2ª ed.). Washington: American Council of Education. — (1975). Five decades of public controversy over mental testing. American Psychologist, 30, 1-14. — (1989). Construct validation after thirty years. En R. L. Linn (ed.). Intelligence: Measurement, theory and public policy. Urbana, IL.: University of Illinois Press, págs. 147-171. Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 51, 281-302. Cronbach, L. J., Rajaratnam, N. & Gleser, G. C. (1963). Theory of generalizability. A liberalization of the reliability theory. British Journal of Mathematical and Statistical Psychology, 16, 137- 173. Cronbach, L. J. & Gleser, G. C (1965). Psychological tests and personnel decisions (2ª ed.). Champaign: University of Illinois Press. Cronbach, L. J., Gleser, G. C., Nanda, H. & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. New York: John Wiley. Cronbach, L. J. & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and succesor procedures. Educational and Psychological Measurement, 64, 391-418. Cureton, E. E. (1950). Validity, reliability and baloney. Educational and Psychological Measurement, 10, 94-96. Darlington, R. B. (1990). Regression and linear models. New York: McGraw-Hill. Deville, C. W. & Prometric, S. (1996). An empirical link of content and construct validity evidence. Applied Psychological Measurement, 20, 127-139. Ding, C. S. & Hershberger, S. C. (2002). Assessing content validity and content equivalence using structural equation modeling. Structural Equation Modeling, 9, 283-297. Bibliografía 435 Draper, N. R. & Smith, H. (1981). Applied regression analysis (2ª ed.). New York: John Wiley. Dressel, P. L. (1940). Some remarks on Kuder Richardson reliability coefficient. Psychometrika 5, 305-310. Droste, M. (1987). Ordinal scales in the theory of measurement. Journal of Mathematical Psychology, 31, 60-82. Ellis, B. (1968). Basic concepts of measurement. Cambridge: Cambridge University Press. Embretson, S. E. (1983). Construct validity. Construct representation versus nomothetic span. Psychological Bulletin, 93, 179-197. Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, N.J.: Lawrence Erlbaum. ETS, 2008. Página WEB del Educational Testing Service. Escriba CAT en http://search.ets.org. Utilizada el 12/01/2009. Fan, X. & Thompson, B. (2001). Confidence intervals for effect sizes. Confidence intervals about score reliability coefficient, please: An EPM guideline editorial. Educational and Psychological Measurement, 61, 517-531. Fechner, G. T. (1860). Elemente der psychophysik. Leipzig: Breitkopf und Hartel. Traducción inglesa por H. E. Adler. Elements of psychophysics. (1966). New York: Holt, Rinehart & Winston. Feldt, L. S. (1990). The sampling theory for the intraclass reliability coefficient. Applied Measurement in Education, 3, 361-367. Feldt, L. S., Woodruff, D. J. & Salih, F. A. (1987). Statistical Inference for coefficient alpha. Applied Psychological Measurement, 11, 93-103. Feldt, L. S. & Brennan, R. L. (1989). Reliability. En R.L. Linn (ed.). Educational measurement (3ª ed., págs. 105-146). Washington, DC: American Council on Education. Ferguson, G. A. (1942). Item selection by the constant process. Psychometrika, 7, 19-29. Fischer, G. H. & Molenaar, I. W. (1995). Rasch Models. Foundations, Recent Developments, and Applications. New York: Springer-Verlag. Fishburn, P. C. (1964). Decision and value theory. New York: John Wiley. — (1970). Utility theory for decision making. New York: John Wiley. Gleser, G. C., Cronbach, L. J. & Rajaratnam, N. (1965). Generalizability of scores influenced by multiple source of variance. Psychometrika, 30, 395-418. Gorsuch, R. L. (1983). Factor analysis (2ª ed.). Hillsdale, NJ: Lawrence Erlbaum. Orig ed. 1974. Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Measurement, 6, 427-439. 436 Principios de Psicometría Gulliksen, H. (1936). The content reliability of a test. Psychometrika, 1, 189-194. — (1950a). Theory of Mental Tests. New York: John Wiley (reeditado en 1987). — (1950b). Intrinsic validity. American Psychologist, 5, 511-517. Guttman, L. (1941). The quantification of a class attributes: A theory and method of scale construction. En P. Horst, P. Wallin, L. Guttman, F. B. Wallin, J. A. Clausen, R. Reed & E. Rosenthal (eds.). The prediction of personal adjustment (págs. 319-348). New York: Social Science Research Council. — (1945). A basis for analyzing testretest reliability. Psychometrika, 10, 255-282. — (1953). A special review of Harold Gulliksen’s theory of mental test. Psychometrika. 123-130. Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston, MA: Kluwer-Nijhoff. Harris, J. A. (1997). A further evaluation of the aggression questionnaire: Issues of validity and reliability. Behaviour Research and Therapy, 35, 1047-1053. Heise, D. R. & Bohrnstedt, (1970). Validity, invalidity and reliability. En E. F. Borgatta & G.W Bohrnstedt (eds.). Sociological methodology. San Francisco: Jossey Bass (págs. 104129). Hempel, C. G. (1952). Fundamentals of concept formation in empirical science. International Encyclopedia of Unified Science, Vol. II. Chicago: University Chicago Press. Hill, R. W., Huelsman, T. J., Furr, R. M., Kibler, J., Vicente, B. B. & Kennedy, C. (2004). A new measure of perfectionism: The perfectionism inventory (PI). Journal of Personality Assessment, 82, 80-91. Hocking, R. R. (1976). The analysis and selection of variables in linear regression. Biometrics, 32, 1-49. Hölder, O. (1901). Die axiome der quantität und die lehre von mass. Berichte über die Verhandlugen der Königlich Säclisischen Gesellschaft der Wissenschaften zu Leipzig. Mathematische-Physiscke Klasse, 53, 1-64. Holland, W. P. & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel procedure. En H. Wainer & H.I. Braun (eds.). Test validity. Hillsdale, NJ.: Lawrence Erlbaum. Howard, L. W. (1999). Validity evidence for measures of procedural/distributive justice and pay/benefit satisfaction. Journal of Business and Psychology, 14, 135-147. Howell, D. C. (2002). Statistical methods for Psychology (5ª ed.) Belmont, CA: Duxbury Press. Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika 6, 153-160. Bibliografía 437 Hsu, L. M. (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Methods, 9, 183-197. Hull, C. L. (1928). Aptitude Testing. L.W. Terman (ed.). Yonkers-on-Hudson, N.Y: World Book Co. Jackson, R. W. & Ferguson, G. A. (1941). Studies on the reliability of test. Bulletin No. 12. Department of Educational Research. University of Toronto. Jarjoura, D. & Brennan, R. L. (1982). A variance components model for measurement procedures associated with a table of specifications. Applied Psychological Measurement, 6, 161-171. Jensema, C. J. (1976). A simple technique for estimating latent trait mental test parameters. Educational and Psychological Measurement, 36, 705-715. Knott, M. & Bartholomew, D. J. (1999). Latent variable models and factor analysis (2ª ed.). London: Edward Arnold. Kolmogorov, A. N. (1950). Foundations of the theory of probability. New York: Chelsea Publishing. Koslow, A. (1981). Quality and quantity: Some aspects of measurement. En Proceedings of the Philosophy of Science Association, PSA, 1, 183-198. Kranz, D. H., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement. Vol 1. New York: Academic Press. Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160. Kuhn, T. S. (1961). The function of measurement in modern Physical Science. Isis, 52, 161-193. — (1962). The structure of scientific revolutions. Chicago: University Chicago Press. Kyburg, H. E. (1984). Theory and measurement. Cambridge studies in phylosophy. London: Cambridge University Press. Lawley, D. N. (1943). On problems connected with item selection and test construction. Proceeding of the Royal Society of Edinburgh, 61, 273-287. — (1944). The factorial analysis of multiple item tests. Proceedings of the Royal Society of Edinburgh, 62A, 74-82. Lawley, D. N. & Maxwell, A. E. (1971). Factor analysis as a statistical method. London: Butterworth & Co. Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. En S. A. Stoufer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen (eds.). Measurement and Prediction: Studies in Social Psychology in World War II, Vol. 4. Princeton: Princeton University Press. Levy, P. (1937). Théorie de l’addition des variables aléatoires (2ª ed. 1954). Paris: Gauthier-Villars. 438 Principios de Psicometría Linn, R. L. & Harnish, D. L. (1981). Interactions between item content and groups membership on achievment test items. Journal of Educational Measurement, 18, 109-118. Loevinger, J. (1957). Objetive tests as instruments of psychological theory. Psychological Reports, 3, 635-694 (Monograph supplement 9). Lord, F. M. (1952). A theory of test scores. Psychometric Monographs, 7. — (1953a). The relation of test score to the trait underlying the test. Educational and Psychological Measurement, 13, 517-548. — (1953b). An application of confidence intervals of maximum likelihood to the estimation of an examinee’s ability. Psychometrika, 18, 57-76. — (1963). Elementary models for measuring chance. In Harris, C. W. (ed.). Problems in measuring change (págs. 21-38). Madison: University of Wisconsin Press. — (1965). A strong true-score theory, with applications. Psychometrika, 30, 239-270. — (1968). An analysis of the verbal scholastic aptitude test using Birbaum’s three-parameter logistic model. Educational and Psychological Measurement, 28, 989-1020. — (1975a). The ‘ability’ scale in item characteristic curve theory. Psychometrika, 40, 205-217. — (1975b). Evaluation with artificial data of a procedure for estimating ability and item characteristic curve parameters. Research Bulletin, 75-133. Princeton, NJ: Educational Testing Service. — (1980). Applications of item response theory to practical testing problems. Hillsdale, New Jersey: Lawwrence Erlbaum Associates. Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Menlo Park, CA: AddisonWesley Publishing Company. Loveland, E. H. (1952). Measurement of factors affecting test-retest reliability. Ph. D. Thesis. University of Tennessee. Luce, R. D. & Raiffa, H. (1957). Games and decisions. New York: John Wiley. Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of fundamental measurement. Journal of Mathematical Psychology, 1, 1-27. Lumsden, J. (1961). The construction of unidimensional tests. Psychological Bulletin, 58, 122-131. Mach, E. (1960). The science of mechanics. La Salle: Open Court. Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of National Cancer Institute, 22, 719-748. Meliá, J. L. & Santisteban, C. (2009). Métodos de estimación en los modelos TRI. En prensa. Mellenbergh, G. J. (1982). Contingency table models for assessing item bias. Journal of Educational Statistics, 7, 107-118. Bibliografía 439 Messick, S. M. (1989/1993). Validity. En R. L. Linn (ed.). Educational measurement. 3ª ed. New Yotk. MacMillan. págs. 13-103. — (1995). Standards of validity and the validity of standards in performance assessment. Educational Measurement: Issues and Practice, 14, 5-8. Michell, J. (1986). Measurement scales and statistics: A class of paradigms. Psychological Bulletin, 100, 398-407. — (1990). An introduction to the logic of psychological measurement. Hillsdale: Erlbaum. Michell, J. & Ernst, C. (1996). The axioms of quantity and the theory of measurement: translated from Part I of Otto Hölder’s German text “Die Axiome der Quantität und die Lehre vom Mass”. Journal of Mathematical Psychology, 40, 235-252. Mulaik, S. A. (1972). The foundation of factor analysis. New York. McGrawHill. NCSBN, 2008. Página WEB del National Council of State Boards of Nursing. Escriba CAT en la caja search de https://www.ncsbn.org y presione GO. Utilizado el 12/01/2009. Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods. 5, 343-355. Owen, R. A. (1975). Bayesian sequential procedure for quantal response in the context of adaptative mental testing. Journal of the American Statistical Association, 70, 351-356. Pardo, A. & San Martín, R. (1994). Análisis de datos en psicología II. (2ª ed.: 1998) Madrid: Pirámide. Patton, J. H., Stanford, M. S. & Barratt, E. S. (1995). Factor structure of the Barratt impulsiveness scale. Journal of Clinical Psychology, 51, 768-774. Payne, S. C., Youngcourt, S. S. & Beaubien, J. M. (2007). A meta-analytic examination of the goal orientation nomological net. Journal of Applied Psychology, 92, 128-150. Penfield, R. D. & Lam, T. C. M. (2000). Assessing differential item functioning in performance assessment: Review and recommendations. Educational Measurement: Issues and Practice, 19, 5-15. Pfanzagl, J. (1968). Theory of measurement. New York: Wiley. Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs. NJ: Prentice Hall. — (1984). Specifying the domain of content of behaviour. En: R. A. Berk (ed.), A guide to criterion-referenced test construction. Baltimore: Johns Hopkins University Press. Raju, N. S. (1977). A generalization of coefficient alpha. Psychometrika, 42, 549-565. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Danish Institute for Educational Research. Chicago: MESA Press. Recio, P., Santisteban, C. & Alvarado, J. M. (2004). Estructura factorial de una adaptación española del test de impulsividad de Barratt. Revista de Metodología de las Ciencias del Comportamiento, Suplemento 2004, 517-521. 440 Principios de Psicometría Reckase, M. D. (1979). Unifactor latent trait models applied to multifactor tests: results and implications. Journal of Educational Statistics, 4, 207-230. Rentz, R. R. & Bashaw, W. L. (1977). The national reference scale for reading: An application of the Rasch model. Journal of Educational Measurement, 14, 161-179. Richardson, M. W. (1936). The relationship between the difficulty and the differential validity of a test. Psychometrika, 1, 33-49. Richardson, M. W. & Kuder, G. F. (1939). The calculation of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology, 30, 681-687. Rosenthal, R. (1990). How are we doing in soft Psychology? American Psychologist, 45, 775777. Rosenthal, R. & Rubin, D. B. (1979). Comparing significance levels of independent studies. Psychological Bulletin. 86, 1165-1168. — (1982). A simple, general purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169. Rosenthal, R. & Rosnow, R. L. (2008). Essentials of behavioral research: Methods and data analysis (3ª ed.). New York: McGraw-Hill. Roskam , E. E. & Jansen, P. G. (1984). A new derivation of the Rasch model. En E. Degreef & V. Buggenhaut (eds.). Trends in mathematical psychology (págs. 293-307). Ámsterdam: North Holland. Rudner, L. M., Getson, P. R. & Knight, D. L. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233. Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by splithalves. Harvard Educational Review, 9, 99-103. — (1946). On the validity of educational tests. Harvard Educational Review, 16, 290-296. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, No. 17. — (1972). A general model for freeresponse data. Psychometric Monograph, No. 18. — (1973). Homogeneous case of the continuous response model. Psychometrika, 38, 203219. — (1974). Normal ogive model on the continuous response model in the multidimensional latent space. Psychometrika, 39, 111-121. — (1977). A method of estimating item characteristic functions using the maximum likelihood estiamte of ability. Psychometrika, 42, 163-191. Santisteban, C. (1984). Los modelos del rasgo latente en la teoría de los tests. Madrid: Publicaciones DMCC. — (1990a). Psicometría: Teoría y práctica en la construcción de tests. Madrid: Ediciones Norma. Bibliografía 441 — (1990b). SENSIT-NN. Madrid: Ediciones Norma. — (1999). Métodos epidemiológicos en Psicología de la salud, págs. 328-331. En: Manual de Psicología de la Salud: Fundamentos, Metodología y Aplicaciones. M. A. Simón (ed.). Madrid: Biblioteca Nueva. — (2003). Los métodos y el progreso de la ciencia. Madrid: Ediciones UNED. Santisteban, C. & Alvarado, J. M. (2001). Modelos Psicométricos. Madrid: Ediciones UNED. Santisteban, C., Alvarado, J. M. & Recio, P. (2007). Evaluation of the Spanish version of the Buss and Perry aggression questionnaire: Some personal and situational factors related to the aggression scores of young subjects. Personality and Individual Differences, 42, 14531465. Santisteban, C. & Alvarado, J. M. (2009). The aggression questionnaire for Spanish preadolescents and adolescents. The Spanish Journal of Psychology, en prensa. Scheuneman, J. A. (1979). A method of assessing bias in test items. Journal of Educational Measurement, 16, 143-152. Schmidt, F. L. (1977). The Urry method approximating the item parameters of latent trait theory. Educational and Psychological Measurement, 37, 613-620. Scott, D. & Suppes, P. (1958). Foundational aspects of theories of measurement. Journal of Symbolic Logic, 23, 113-128. Shavelson, R. J. & Webb, N. M. (1991). Generalizability theory: A primer. Newbury Park, CA: Sage. Shavelson, R. J., Gao, X. & Baxter, G. P. (1995). On the content validity of performance assessments: Centrality of domain specification. En M. Birenbaum & F. Douchy (eds.). Alternatives in assessment of achievements, learning processes and prior knowledge. Boston: Kluwer Academic Publishers, págs. 131-141. Sireci, S. G. & Geisinger, K. F. (1992). Analyzing test content using cluster analysis and multidimensional scaling. Applied Psychological Measurement, 16, 17-31. — (1995). Using subject matter experts to assess content representation: An MDS analysis. Applied Psychological Measurement, 19, 241-255. Spearman, C. (1904a). The proof and measurement of association between two things. American Journal of Psychology, 15, 72-101. — (1904b). General Intelligence objectively determined and measured. American Journal of Psychology, 15, 201-293. Spencer, S. J., Steele, C. M. & Quinn, D. M. (1999). Stereotype threat and women’s math performance. Journal of Experimental and Social Psychology, 35, 4-28. Stanley, J. C. (1971). Reliability. En R. L. Thorndike (ed.). Educational Measurement (2ª edición), págs. 356-442. Washington D. C., American Council Education. 442 Principios de Psicometría Stegelmann, W. (1983). Expanding the Rasch model to a general model having more than one dimension. Psychometrika, 48, 259-267. Stern, W. (1912). The psychological methods of intelligence testing. Baltimore: Warwick and York. Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677-680. — (1951). Mathematics, measurement, and psychophysics. En S. S. Stevens (ed.), Handbook of experimental psychology (págs. 1-49). New York: Wiley. Suppes, P. & Zinnes, J. L. (1963). Basic measurement theory. En R. D. Luce, R. R. Bush & E. Galanter (eds.), Handbook of mathematical psychology, vol I. (págs. 3-76). New York: Wiley. Swaninathan, H. & Gifford, J. A. (1982). Bayesian estimation in the Rasch model. Journal of Educational Statistics. 7, 175-191. Swaminathan, H. & Rogers, H. J. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational measurement 27, 361-370. Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection. Discussion and tables. Journal of Applied Psychology, 23, 565-578. Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide for the use of the Stanford revision and extension of the Binet-Simon Intelligence Scale. Boston: Houghton Mifflin. Terman, L. M. & Merrill, M. A. (1937). Measuring intelligence: A guide to the administration of the new revised Stanford-Binet tests of intelligence. Boston: Houghton Mifflin. — (1973). Stanford-Binet intelligence scale: Manual for the third revision form L-M (1972 norm tables by R. L. Thorndike). Boston: Houghton Mifflin. Thissen, D., Steinberg, L. & Wainer, H. (1993). Detection of differential item functioning using the parameters of item response models. En P. W. Holland & H. Wainer (eds.). Differential item functioning (págs. 67-113). Hillsdale, NJ: Lawrence Erlbaum Associates. Thompson, B. (2004). Exploratory and confirmatory factor analysis: Understanding concepts and applications. Washington, DC: American Psychological Association. Thorndike, R. L. (1947). Research problems and techniques. (Report nº 3 AAF Aviation Psychology Program Research Reports). Washington, D. C.: U.S. Government Printing Office. Thorndike, R. M. (2005). Measurement and evaluation in psychology and education (7a ed.) Upper Saddle River, NJ: Pearson Education. Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of Educational Psychology. 16, 433-451. — (1927). The unit of measurement in educational scales. Journal of Educational Psychology. 18, 505-524. Bibliografía 443 — (1928). The absolute zero in the measurement of intelligence. Psychological Review, 35, 175197. Torgerson, W. S. (1958). Theory and methods of scaling. New York: Wiley. Tucker, L. R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11, 1-13. — (1961). Factor analysis of relevant judgments: An approach to content validity. Presentado en Invitational Conference on testing problems, Princeton, NJ. Reimpreso en A. Anastasi. (1966). Testing Problems in Perspective (págs. 577-586). Washington, D. C.: American Council on Education. Urry, V. W. (1974). Approximations to item parameters of mental test models and their uses. Educational and Psychological Measurement, 34, 253-269. Van der Linden, W. J. & Hambleton, R. K. (1997). Handbook of modern item response theory. New York: Springer-Verlag. Vance, R. J. & Colella, A. (1990). The utility of utility análisis. Human Performance, 3, 123-139. Von Davier, M. & Carstensen, C. H. (2007). Multivariate and mixture distribution Rasch models: Extensions and applications. New York: Springer Science. Von Helmholtz (1887/1977). Zählen und Messen erkenntnistheortisch betrachtet. Philosophische Aufsätze Eduard Zeller zu seinem fünfzigjährigen Doktorjubiläum gewidmet, Fues’ Verlag, Leipzig (Traducción inglesa por M. F. Lowe). Numbering and measuring from an epistemological viewpoint. En R. S. Cohen and Y. Elkana (eds.). Hermann von Helmholtz epistemological writings. Dordrecht: Reidel. Von Neumann, J. & Morgenstern, O. (1944). Theory of games and economic behaviour. Princeton: Princeton University Press. Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins. — (1997). WAIS-III Administration and scoring manual. The Psychological Corporation, San Antonio, TX. — (2003). Wechsler Intelligence Scale for Children–4th Edition (WISC-IV® ). San Antonio, TX: Harcourt Assessment. Westen, D. & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures. Journal of Personality and Social Psychology, 84, 608-618. Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45, 479-494. Widaman, K. E. (1985). Hierarchically nested covariance structure models for multitrait-multimethod data. Applied Psychological Measurement, 9, 1-26. Wiggins, J. S. (1988). Personality and prediction: Principles of personality assessment. Malabar, FL: S. A. Krieger Pub (primera edición en 1973 en Reading, Ma: Addison-Wesley). 444 Principios de Psicometría Winer, B. J. (1971). Statistical principles in experimental design. New York: MacGraw-Hill. Winer, B. J., Brown, D. R. & Michels, K. M. (1991). Statistical principles in experimental design. New York: MacGraw-Hill. Wood, R. L., Wingersky, M. S. & Lord, F. M. (1976). LOGIST: A computer program for estimating examinee ability and item characteristic curve parameters. Research Memorandum 766. Princeton, N.J.: Educational Testing Service. Wittmann, M., Arce, E. & Santisteban, C. (2008). How impulsiveness, trait anger, and extracurricular activities might affect aggresion in school children. Personality and Individual Differences, 45, 618-623. Woodcock, R. W. (1974). Woodcock reading mastery test. Circle Pine: Minn. American Guidance Service. — (1978). Development and standarization of the Woodcock-Johnson Psycho-Educational Battery. Itasca, IL: Riverside. — (1999). What can Rasch-based model scores convey about a person test performace? En S. E. Embretson & S. L. Hershberger (ed.) The new rules of measurement (págs. 105-127). Mahwah, NJ: Lawrence Erlbaum Associates. Woodruff, D. J. & Feldt, L. S. (1986). Tests for equality of several alpha coefficients when their sample estimates are dependent. Psychometrika, 51, 393-413. Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of the Educational Measurement, 14, 97-116. — (1999). Fundamental measurement for psychology. En S. E. Embretson & S. L. Hershberger (ed.) The new rules of measurement (págs. 65-104). Mahwah, NJ: Lawrence Erlbaum Associates. Wright, B. D. & Panchapakesan, N. (1969). A procedure for sample free item analysis. Educational and Psychological Measurement, 29, 23-48. Wright, B. D., Mead, R. J. & Draba, R. (1976). Detecting and correcting item bias with a logistic response model. Research memorandum 22, Chicago: University Chicago, Statistic Laboratory. Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago: Mesa Press. Índice de contenidos Aditividad conjunta, 417 Agresividad (véase Cuestionarios) Análisis de la Varianza (ANOVA), 139, 145, 187, 189-190, 192, 195 efectos principales, 186, 190, 192, 193, 205 diferencial de los ítems (véase DIF) Factorial (AF) confirmatorio, 261, 263, 298 comunalidad, 141, 142 exploratorio, 261, 262, 298-299 valores propios, 141, 143, 145 Aptitud (véase Rasgo) Atenuación corrección (véase Corrección por atenuación) BESD (Binomial Effect Size Display), 276-279 CI (Cociente de Inteligencia), 24, 419 Ciencia/s de la salud, 270 estadística, 26, 416 filosofía de la, 406, 416 físicas, 402-403 normal, 406 psicométrica, 186 sociales, 45, 402 Clasificaciones centílicas cuartílica, 420 decílica, 420 percentílica, 420-421, 423-424 por la mediana, 420 Coeficiente alfa (α), 122-136, 145, 176-179 beta (β), 136-138 de alienación, 241-243 de correlación lineal, 26, 58, 62, 67-68, 72, 231, 239-240, 247, 258 de determinación, 79, 240-241, 243 de fiabilidad, 78-95, 100, 115, 117, 123125, 144-149, 173-174, 176 de generalizabilidad (véase Generalizabilidad) de validez, 231-241, 243, 244, 256-259, 277-284, 289 de valor predictivo, 242-243 kappa (κ), 285-286 omega (Ω), 141-143 theta (θ), 143-144 Componentes de la varianza, 187-189, 190-195, 202-205 Construcción de tests (véase Tests) Contrastes de hipótesis de coeficientes alfa, 176-179 de coeficientes de correlación, 174 de igualdad de medias, 65, 69, 70, 164-173 de igualdad de varianzas, 71 Corrección por atenuación, 233-234, 236 por continuidad, 387 446 Principios de Psicometría Correlación/ones coeficiente, 30, 58-59, 78-84, 173-177, 212, 219-220, 231-234, 239, 250-251, 276281 entre medidas paralelas, 61-64, 67, 173, 232 entre puntuación observada y error, 59, 64 desatenuadas, 234-235 Cota inferior de la fiabilidad (véase Fiabilidad) Cualitativo, concepto de, 402, 404 Cuantitativo/cuantificar, 20, 26, 30, 46, 402405, 416 Cuestionarios de agresividad, 220, 223, 254-255, 261-263 de impulsividad, 220, 254-255 de sensibilidad al ruido, 220 Curva característica del test, 308, 311 CCI (Característica del Ítem) (véase también Modelos), 297, 306-310, 317, 319-325, 334-336, 339, 344 de eficiencia, 370, 372-374 de información, 361-367, 371, 373 iosr (Item-Observed Score Regression), 309-310 ROC (Receiver Operating Characteristic Curves), 273-276 Decisión/ones absolutas, 196-198, 200-203 estudios de, 27, 267-269, 273, 276-290 relativas, 196-203 DIF (Funcionamiento Diferencial de los Ítems) método de Mantel-Haenszel, 382, 384-389, 392, 398 métodos de clase latente, 382 no uniforme, 382-384, 395-396 uniforme, 382-384, 392, 395-396 Diferencias de medias (véase Contrastes) individuales, 20, 22, 24, 25, 26, 28, 36, 39, 148, 185-187, 195-196, 214 Dimensiones/dimensionalidad, 44, 103-104, 141-143, 145, 261-262, 297-299, 341, 423 Diseño/s anidados, 188, 204-205 cruzados, 188, 190-191, 193-195, 204-205 de dos facetas, 185, 193-195, 201-202, 204205 de una faceta, 188-193, 198-201 mixtos, 188 Distribución/ones de probabilidad asimétrica, 33-34 bimodal, 34-35 binomial, 42, 45, 340 condicionales, 45, 346-347 logísticas (véase también Modelos logísticos) marginales, 300 normal, 32-33, 38, 42, 70-71, 159-162, 165166, 171, 175, 316-320, 327, 357, 421422 normal acumulada (véase también Modelos ojiva normal) Poisson, 42, 316, 340, 417 uniforme, 32 División del test en dos partes, 85-90 Eficiencia función de, 370 relativa, 368, 369-374 Elemento, 23, 42, 90-92, 103-105, 108, 110116, 119, 123-124, 126, 130-131, 136-137, 146-147, 230, 236, 238-239, 244, 405-407, 411, 413 Equidad (véase Sesgo) Equiparación de puntuaciones, 423-425 Error/es aleatorios, 40, 60, 378 de predicción, 156, 158-159, 243 de medida, 40, 148, 156-157, 159-161, 164, 170, 223, 233, 239, 245, 250, 348, 355356, 367-368 de estimación, 156, 157-159, 241, 243, 249 relación entre, 156, 159 sistemáticos, 259 Escala admisible, 407 Índice de contenidos Binet-Simon, 25 centíl/centílica, 38, 419-420 continua, 340 de actitudes, 340 de aptitud/del rasgo, 39, 310-312, 360, 373-374, 403, 426-427 de Coombs, 412, 414 de estímulos, 20-21, 414 de Guttman, 27, 414 de intervalo, 187, 312, 407, 411-415 de intervalos absolutos, 415 de intervalos logarítmicos, 415 de Likert, 262, 276 de proporciones logarítmicas, 415 de puntuaciones, 21, 24, 37, 155, 171, 417429 de puntuaciones normalizadas, 38, 421422 de razón, 411-415 de Stevens, 27, 411-412 de Thurstone, 26, 414 de Torgerson, 412 derivada, 411-419, 422, 426 estandarizada/s, 37-38, 419 logarítmica, 326, 426-427 nominal, 411-412 ordenada, 411-412 ordinal, 45, 407, 411-413, 415 parcialmente ordenada, 412 real-valuada, 404 transformada/transformaciones de, 395, 403, 408, 413, 414, 415 Esperanza matemática, 29, 54, 56-57, 61, 106, 348, 390 Estabilidad de las puntuaciones, 78, 83-84 en la medida del constructo, 258, 262 Estadística, 34, 54, 66, 164, 167-168, 174, 180, 189, 205, 299, 341-342, 347, 357, 416 Estadístico, 29, 31, 41, 60, 66, 69-71, 87, 165179, 244, 249, 341, 342, 349, 379, 387, 389, 392, 397 447 Estimación, métodos de bayesiana, 348-349 condicionales/no condicionales, 346-349 conjunta, 342, 346-347, 349 marginal, 342, 347 de máxima verosimilitud, 342-345, 347349, 357, 358, 396 Estimador/es, de máxima verosimilitud (máximo verosímil), 343, 347-348, 357-358, 396 propiedades de los, 347, 396 Estímulo físico, 20 Estructura tetrafactorial, 223 Estudios D (de decisión), 184-188, 196-204 G (de generalización), 184-196 multifaceta, 201, 205 Faceta fija, 188 aleatoria, 188, 199 Factor/es ambientales, 22 de agresividad, 192, 195, 223, 261-263 de contexto, 22 de escalamiento, 327 de inteligencia (g y s), 26 de personalidad, 41 o dimensiones, 103, 141-142, 145, 257, 261-262, 297-298 rotación de, 143, 262 Fiabilidad, 122-149, 184-187, 199, 232-236 coeficiente (véase Coeficiente de fiabilidad) concepto de, 58, 76-83 cota inferior, 123, 125-130, 145-146 consistencia interna (véase Coeficiente alfa) y longitud, 103-118, 147-148 y variabilidad, 66, 71, 100-102, 116 Flanagan y Guttman, ecuación de, 90, 94-95, 130 fMRI (Imagen Funcional por Resonancia Magnética), 21 Formas paralelas, 63, 84-85, 105-107 448 Principios de Psicometría Fracción de falsos negativos/positivos, 269, 271-276, 287-290 verdaderos negativos/positivos, 268, 271274, 289-290 Función característica del ítem binario, 302 característica del test, 308, 309, 311 de información del ítem, 353-357, 359, 367, 373, 374 de información del test, 353-354, 357-366, 371, 373, 375-376 de respuesta para un ítem binario, 302 para un vector de respuesta, 302, 330331, 345 de verosimilitud, 342-349 Funcionamiento diferencial del ítem (véase DIF) Generalizabilidad, teoría de la, 141, 183-207 Grupo normativo, 39-40, 124, 149, 166, 294295, 417-418, 426 Hipótesis alternativa, 165, 173-174, 177-178 de nulidad de errores, 54 del modelo de Spearman, 54-59 nula, 69-71, 82, 165, 167, 170, 171, 173178, 251, 386-387, 396 Hoyt, ecuación de, 131-132 Independencia entre ítems, 41, 300-301, 317 entre sujetos, 300-301 local, 297, 299-301, 304-305, 317, 327, 339 muestral, 417 Índice/s AGFI (Adjusted Goodness of Fit Index), 264 de asimetría, 33-34 de dificultad, 323-324, 336, 341, 346, 365, 378, 425 de discriminación, 321-322, 324, 327-328, 330-331, 336, 338, 341, 346, 356, 359, 363, 366-367, 379-380 de fiabilidad, 78-80, 81-82, 86-90, 123-125, 129-137, 141-151, 233, 239 GFI (Goodness of Fit Index), 264 RMSEA (Root Mean Square Error of Approximation), 264 Información cantidad de, 324, 331, 339, 348, 354, 357, 359, 361, 364 cota superior de la, 358 de Fisher, 348, 357, 364-365, 396 funciones de, 339, 348, 354-367, 371-376 Interpretación de las puntuaciones referidas a la norma, 418 referidas al criterio, 418 Intervalos de confianza, 159-164, 179, 248249, 348 Ítem/s análisis diferencial de (véase DIF) bancos de, 296, 367-368 curva característica del (véase Curva característica del ítem) dicotómicos, 123, 130, 135, 309-310, 316, 327, 330, 339-340, 344, 349, 354, 374, 384 independencia de (véase Independencia) función de información del (véase Función de información del ítem) peso óptimo (véase Ponderaciones de los ítems/pesos óptimos) redacción de los, 47, 48, 217 Kuder-Richardson, ecuaciones de, 123, 125, 145 Logits, 326, 329, 333, 337, 390, 426 Matrices, 80, 219, 220, 251, 257-259, 397 Medición axiomas, 406, 409, 416 conjunta, 411 directa, 210, 409-411 estable, 417 indirecta, 409-411 problemas de la representación, 403, 406-407 Índice de contenidos significado, 403, 406, 408-409 unicidad, 403, 407-408 y experimentación, 19-20, 22 Medidas congenéricas, 65 de agresividad (véase Cuestionarios) asimetría (véase Índice de) correlación, 26, 29-30 covarianza, 29-30 dispersión: desviación típica, varianza, 29, 31-33 impulsividad (véase Cuestionarios) tendencia central, media, mediana, moda, 29, 31-33 físicas, 76, 78, 273 paralelas (véase también paralelismo) correlación entre, 61-64, 67-68, 70-72, 78-81, 87-89, 100, 105-106, 125126, 169, 173 definición de, 60 tau-equivalentes, 64-65, 80 MEG (magnetoencefalografía), 21 Mensurable, 405 (véase también métrico) Método/s de estimación (véase Estimación) de Mantel-Haenszel (véase DIF) de Westen y Rosenthal, 256 psicofísicos, 20-21 Métrico/a, 45, 311, 317, 337, 368, 402-404, 405, 414, 425 en funciones de información, 372-373, 374 espacios métricos, 404-405 Modelos de crédito parcial, 44 de error binomial, 42, 340 de Poisson, 42, 211, 340, 417 de Rasch, 43-44, 295, 297, 335-342, 397, 417 de respuesta continua, 340 de respuesta graduada, 44, 339 de respuesta nominal, 339-340 de Spearman, 22, 39-42, 54-61, 92, 153, 233 449 de Variables Latentes (LVM), 44-45 factorial simple, 41 LCM (de clases latentes), 45 lineales/no lineales, 38-45 logísticos, 43-44, 297, 317, 325-336, 338339, 340, 346, 356, 358-367, 397 logístico lineal, 340 LPM (de perfiles latentes), 45 LTM (de rasgo latente), 45 ojiva normal, 42, 297, 316-318, 325, 327, 331, 341, 354 multidimensionales, 44, 297-298, 341 TRI (de la Teoría de la Respuesta al Ítem), 39, 41-44, 211, 294-312, 316-349, 358361, 364-369 Multirrasgo-multimétodo, 257-259 Normas centiles (véase Escalas) del test, 21, 38, 47, 49, 213-216, 378, 418, 419, 423 Objetividad específica, 417 Odds ratio, 384-386, 388-391 Origen de la escala, 36, 38, 56-57, 155, 248, 310, 312, 336, 412, 414, 418-419 Paralelismo condiciones, 60-61, 64, 80-81, 84-86, 88, 106, 107, 108, 117-118, 125-126, 130, 146-147, 149 comprobación, 65, 69, 72 Parámetros, 29, 43-44, 49, 66, 250, 264, 295, 296, 297, 317-320, 323, 325-327, 330-336, 338, 343, 346-349, 356, 358-361, 364-367, 370, 371, 390, 394-397, 417, 423, , 425, 426 PET (Tomografía de Emisión de Positrones), 21 Ponderaciones de los ítems/pesos óptimos, 363-374 Pronóstico mediante regresión lineal simple, 154-156, 247, 248 lineal múltiple, 250-253 logística, 382, 390 por pasos, 253 450 Principios de Psicometría regresiones parciales, 252 intervalos de confianza, 159-164, 248-249, 348 batería de predictores, 250-253 Psicofísica, 20, 273, 404, 414 Psicometría antecedentes/definiciones y desarrollo de la, 20-27, 402-404 Puntuación/ones diferenciales, 154-155, 159, 248 directas, 37-38, 154-155, 159-160, 162, 171, 248, 417-418, 422 estandarizadas, 37-38, 419, 422 normalizadas, 38, 421-422 tipificadas, 36-37, 154-155, 160-162, 248, 419, 424 universo, 41, 184-185, 191 verdadera, 42, 54-72, 78, 80, 82, 153-159, 161-164, 185, 198, 211, 232-234, 309311, 423, 425 Rasgo/s espacio del, 297-298, 317 latente/latencia del, 42, 44-45, 47, 294-295 multidimensional, 44 nivel en el, 36-39, 47, 294, 297, 303, 305, 311-312, 324, 329-334, 337-338, 369, 378, 382-383 unidimensional, 44, 297-299, 306, 327 Razón de selección, 280-284, 287 de verosimilitudes, 394, 397-398 Red nomológica, 219, 224, 253, 255-256 Regresión (véase Pronóstico mediante) Relación predictor y criterio, 232-234, 243, 270 fiabilidad, longitud y varianza, 116-119 Respuesta abierta, 28 categórica (véase también Likert), 28, 262, 276, 339, 414 cerrada, 28 comparativa, 414 continua, 273-274, 340 dicotómica, 28, 44, 46, 301, 302, 308, 418 formato de, 22, 261, 262, 378 funciones de (véase CCI) multiple/multicategórica/politómica, 26, 44, 46, 273, 339 patrón de, 303-305, 330, 331, 345 tiempo de, 21, 221 vector de, 302, 303, 330-331, 345 Rulon, ecuación de, 91-95, 130 Selección de variables predictoras, 252-253 Sensibilidad del test, 270-276 Señal/ruido, 20, 192-199, 201, 273 Separabilidad, 417 Sesgo en la evaluación del constructo, 379, 382 en los ítems, 296, 378-379, 382-389, 394, 396-398 en los tests, 378-379, 392, 394-398 equidad, 225, 378 Sistemas isomorfos, 407 Spearman-Brown, ecuación de, 104-115, 146149 Tablas de Taylor-Russell, 279-284, 287 Tasa base, 269, 273, 279-284, 287 Tasa de aciertos, 269-270, 279 Técnicas de imagen, 21 Teoría de la generalizabilidad, 184-205 débil de las puntuaciones verdaderas, 185, 340 fuerte de las puntuaciones verdaderas, 340 TCT (Clásica de los Tests), 40, 41, 43, 45-47 TRI (de la Respuesta al Ítem), 42-47, 294305, 315-352 (véase también Modelos) Test/s Adaptativos Computarizados (CAT), 368 administración, 48-49, 301, 368, 369, 378, 392 construcción, 21, 23-24, 35-36, 42, 46-48, 67, 85, 90, 110, 213-214, 217, 225, 230-232, 294, 298, 378, 392 Índice de contenidos compuestos, 22, 23, 80, 104, 107, 118 de Mantel-Haenszel (véase DIF) de potencia, 28 de Stanford-Binet, 25, 419 de velocidad, 28, 145 eficacia del, 269, 271-272, 369-372 especificidad, 225, 270-276 paralelos, 66, 105, 107, 116, 118, 170 psicológicos, 20, 36, 213, 282, 403 psicométricos, 22, 39, 42, 103, 164, 289 referidos a la norma, 27-28 referidos al criterio, 27-28 sensibilidad (véase Sensibilidad del test) test-retest, 83-84, 86, 88, 134, 145, 168 Transformación/ones lineal, 38, 65, 328, 333, 390, 408, 413, 415, 419, 424, 426 admisibles, 38, 312, 326, 328-329, 336, 405, 407-408, 414-415, 418, 425 monótonas, 407, 415, 418 logarítmicas, 426-427 en los parámetros, 328-329, 333, 336, 347 Unidad de medida, 35-38, 155, 312, 414, 419 Unidimensionalidad del rasgo, 297-299 Universo de generalización, 41, 185 de ítems, 184-188 de observaciones admisibles, 184 Utilidad, análisis de, 284-290 Validez aparente, 217-218 coeficiente de, 230-231, 235, 256-259, 276284 acotaciones del, 239-240 concurrente, 212, 213, 222, 232 convergente, 218-219, 253-260 de constructo, 213-215, 220, 223-226, 256257, 259-260 451 de contenido, 213-218, 230-231, 236 de criterio, 211-213, 218-219, 246-253, 256, 268-270, 276-279, 282 de la estructura interna, 223, 260-263 definición de, 209-212, 231-232, 243 discriminante, 218-220, 253-260 empírica, 212-214, 233-236 en los procesos de respuesta, 221-222 factorial, 212-213 predictiva, 212-213, 232, 255 tipos, 211-215, 222-223 y fiabilidad, 232-240, 258 y longitud, 236-239 y representación muestral, 243-247 Valor de corte, 197, 273-275 predictivo, 242-243, 271-273, 279 Valores propios, 143, 145 Variabilidad atribuible al error, 66-68 de las puntuaciones, 28-34, 66-68, 100-103, 243 Variable latente, 45, 317 Variables métricas, 45 Variaciones de la fiabilidad, 105, 108, 144-147 Varianza de las puntuaciones observadas y de las verdaderas, 54-68, 82, 116-118, 153164 de los errores, 57, 59-65, 82, 93, 101-102, 116, 118, 147-148, 156-159, 198, 243 partición de la, 189-190 WAIS, 27, 419 Verosimilitud/es máxima (véase Estimación de máxima verosimilitud) razón de, 394, 396-398 WISC, 27, 419