Propiedades psicométricas de un test: validez y confiabilidad Fases (Muñiz y Fonseca-Pedrero, 2019) Definición de la variable medida Especificaciones Construcción de los ítems Edición Estudios piloto Selección de otros instrumentos de medida Aplicación del test Propiedades psicométricas Versión final del test Marco general Objetivo de aprendizaje • Conocer y diferenciar las propiedades psicométricas de un test: validez y confiabilidad. • Conocer y diferenciar las evidencias específicas de validez y confiabilidad aplicadas a las pruebas psicométricas. • Explica los pasos para determinar algunas propiedades psicométricas de un test: evidencias de validez de contenido y confiabilidad por consistencia interna. Entonces, ¿en qué se diferencian la validez de la confiabilidad? La propiedad psicométrica de confiabilidad nos informa si estamos midiendo con mucho o con poco error de medida. En cambio, la propiedad psicométrica de validez nos informa de qué atributo exactamente estamos midiendo. Validez Se refiere al grado en que la evidencia empírica y la teoría apoyan la interpretación de las puntuaciones de los tests relacionada con un uso específico Los estudios de validez van a aportar significado a las puntuaciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer de ellas es o no adecuado. AERA, APA & NCME (2014) Algunas consideraciones sobre Validez No es preciso hablar de validez de un test sino de validez de las puntuaciones de un test. No tiene sentido hablar de “propiedades del test”, ya que éstas dependen del contexto de evaluación y la muestra específica. El profesional responsable de la aplicación de un test debe consultar el manual del mismo para averiguar si la utilización e interpretación pretendida por él coincide con la proporcionada por la prueba. De lo contrario, para poder realizar la interpretación pretendida deberá desarrollar una investigación, un estudio de validación, que le permita recoger información que apoye (o no) su uso. Abad, Olea, Ponsoda & García (2010) Por ejemplo ¿Serán válidas las puntuaciones e interpretaciones del IDER en personas de nuestro país si están basadas a partir de las normas o baremos de este manual? ¿Serán válidas las puntuaciones e interpretaciones del IDER si se obtienen a partir de la aplicación a una muestra de niños? ¿Serán válidas las puntuaciones e interpretaciones del IDER en personas de nuestro país si están basadas a partir de las normas o baremos de este manual? Rpta: NO, porque como bien se señala en la imagen la interpretación está basada en un grupo normativo español (adaptación española). ¿Serán válidas las puntuaciones e interpretaciones del IDER si se obtienen a partir de la aplicación a una muestra de niños? Rpta: NO, porque como bien se señala en la imagen anterior la prueba está orientada a la evaluación del constructo/variable en adolescentes, jóvenes y adultos. Entonces, ¿qué podría validar el uso e interpretación de la puntuaciones del IDER en nuestro país? Respuesta: La realización previa de estudios de tipo instrumental cumplen con ese objetivo: validar las propiedades psicométricas de las puntuaciones de un test para su interpretación en un determinado contexto o muestra específica. Evidencias de Validez Estructura interna Contenido Relación con otras variables Standards for Educational and Psychological Testing (AERA, APA, & NCME, 2014) 1.1. Evidencia de validez basada en el contenido Validez de contenido Busca garantizar que la muestra de ítems que componen la prueba es relevante, y representativa del constructo, además de clara en cuanto a su redacción. También son objeto de la validez de contenido las instrucciones, los ejemplos de práctica, el material de la prueba, el tiempo de ejecución, etc. La consulta a expertos (juicio de expertos) es la vía más usual para apreciar la calidad del contenido de los ítems. Una de las técnicas estadísticas más empleadas para este propósito es la V de Aiken (analiza el grado de acuerdo entre jueces sobre la relevancia del contenido de un ítem). Juicio de expertos • El juicio de expertos se define como una opinión informada de personas con trayectoria en el tema, que son reconocidas por otros como expertos cualificados en éste, y que pueden dar información, evidencia, juicios y valoraciones (Escobar y Cuervo, 2008). Criterios de evaluación de los expertos: Escobar-Pérez y Cuervo-Martínez (2008) Formato de evaluación de juicio de expertos: Escobar-Pérez y Cuervo-Martínez (2008) V de Aiken Este estadístico se basa en la opinión de expertos sobre la validez de un material evaluativo. Este coeficiente es una de las técnicas para cuantificar de validez de contenido o relevancia del ítem respecto a un dominio de contenido en N jueces, cuya magnitud va desde 0.00 hasta 1.00. El valor 1.00 es la mayor magnitud posible que indica un perfecto acuerdo entre los jueces respecto a la mayor puntuación de validez de los contenidos evaluados. Merino & Livia (2009) V de Aiken Plantilla para el cálculo de la V de Aiken Consideraciones para la interpretación de la V de Aiken: El intervalo de confianza para la V de Aiken permite al usuario probar si la magnitud obtenida del coeficiente es superior a una que es establecida como mínimamente aceptable para concluir sobre la validez de contenido de los ítems. Por ejemplo, se desea probar si un coeficiente V es significativamente diferente del mínimo nivel de validez según los estándares de los expertos; este estándar puede estar en un nivel liberal (Cicchetti, 1994) de Vo = 0.50, o en un nivel más conservador, como Vo = 0.70 o más (Charter, 2003). Se considera que hay un insuficiente o inadecuado grado de acuerdo entre los jueces si el intervalo de confianza inferior de la V de Aiken resulta menor a 0.70 ó 0.50 según el criterio empleado (conservador o liberal respectivamente). Ejemplo Luego de recolectar el juicio de 5 jueces, en una escala de 1 al 5, el rating promedio es 4.2, y al 95% de confianza el intervalo del coeficiente obtenido será [Límite inferior = 0.62, Límite superior = 0.90]. ¿Podremos aceptar el ítem? Ejemplo Luego de recolectar el juicio de 5 jueces, en una escala de 1 al 5, el rating promedio es 4.2, y al 95% de confianza el intervalo del coeficiente obtenido será [Límite inferior = 0.62, Límite superior = 0.90]. Con este dato, no podemos aceptar el ítem a la luz del estándar mínimo más conservador (0.70), ya que el límite inferior del intervalo está por debajo de tal punto (0.62). En las fases iniciales de la construcción de ítems, se puede elegir un criterio más liberal (Vo < 0.50). Interpretaciones y decisiones (criterio conservador): Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.70 en claridad, se toma la decisión de modificar la redacción del ítem según la recomendación de los jueces expertos. Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.70 en coherencia, se analiza la posibilidad de incluirlo en otra dimensión del test según las recomendaciones de los jueces expertos. Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.70 en relevancia, se toma la decisión de eliminar el ítem de la versión final del test. Interpretaciones y decisiones (criterio liberal): Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.50 en claridad, se toma la decisión de modificar la redacción del ítem según la recomendación de los jueces expertos. Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.50 en coherencia, se analiza la posibilidad de incluirlo en otra dimensión del test según las recomendaciones de los jueces expertos. Si un ítem presenta una V de Aiken cuyo límite inferior del intervalo es menor a 0.50 en relevancia, se toma la decisión de eliminar el ítem de la versión final del test. ¿Qué decisiones tomarían con los siguientes ítems? 1.2. Evidencia de validez basada en la estructura interna Validez de estructura interna Se busca verificar empíricamente si los ítems se ajustan a la dimensionalidad prevista por el constructor (autor) de la prueba, es decir, si se ajusta a la teoría. Los estudios sobre dimensionalidad, permiten determinar la estructura del test, que puede haber sido construido para medir una o varias dimensiones, y ver si coincide con la estructura postulada al construir la prueba. Por lo general, suele llevarse a cabo con ayuda de la técnica estadística del análisis factorial (exploratorio y/o confirmatorio). Por ejemplo • Se hizo un estudio para verificar la dimensionalidad teórica del Maslach Burnout Inventory (MBI) que consta de 3 dimensiones: Agotamiento emocional, Despersonalización y Falta de realización personal. Figura 1. Propuesta teórica original (MBI) 3 dimensiones 22 ítems Figura 2. Propuesta en una muestra específica (MBI) 3 dimensiones 18 ítems En este caso a partir del análisis factorial confirmatorio se ha validado la estructura teórica de 3 dimensiones del MBI (Figura 1), aunque como se ve en la Figura 2, las puntuaciones e interpretaciones en la muestra específica serán válidas a partir de la consideración de 18 de los 22 ítems de la prueba en la calificación. 1.3. Fuente de evidencias externas (relaciones con otras variables) Relaciones con otras variables El objetivo es establecer si las relaciones observadas entre las puntuaciones en el test y otras variables externas relevantes son consistentes con la interpretación propuesta para las puntuaciones Por ejemplo: Si queremos validar las puntuaciones de una escala que mide susceptibilidad al castigo (que mide el grado de evitación de situaciones aversivas), ésta debe proporcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con estabilidad emocional. 1.3. Fuente de evidencias externas (relaciones con otras variables) Si las relaciones observadas son consonantes con lo predicho por el modelo teórico en el que se inserta el constructo medido por el test, entonces hemos obtenido evidencia favorable a la interpretación propuesta. Si las relaciones observadas no son las esperadas hay que cuestionar la adecuación de la prueba, la adecuación de las medidas de las otras variables o incluso el modelo teórico. 1.3. Fuente de evidencias externas (relaciones con otras variables) Las variables externas relevantes en este tipo de evidencia de validez pueden ser: La validez convergente: otras medidas del mismo constructo/variable obtenidas con diferentes test. La validez discriminante: medidas de constructos diferentes pero que se insertan en el modelo teórico donde se encuadra el constructo/variable de interés. La validez de criterio: algún tipo de variable (criterio) que pretendamos predecir a partir de las puntuaciones en el test. Se espera que la asociación entre pruebas que midan el mismo constructo, sean mayores (validación convergente) que entre test que miden constructos diferentes (validación discriminante). Aunque en ambos casos se espera que sean significativas. Confiabilidad La fiabilidad se concibe como la consistencia o estabilidad de las medidas cuando el proceso de medición se repite. AERA, APA & NCME (2014) Distintos métodos para estimar la confiabilidad Test /Retest Formas paralelas Consistencia interna Consistencia de las puntuaciones de distintos calificadores • Administrar la misma prueba a las mismas personas, en diferentes momentos (estabilidad) • Aplicación a una muestra de personas en la misma ocasión o en distintas ocasiones de dos versiones del test equivalentes en contenido, dificultad, etc). • División del test en dos subconjuntos equivalentes de ítems o estimación a partir de las covarianzas entre los ítems de la prueba (Alfa de Cronbach) • Evaluación de una muestra de conducta por calificadores independientes. Consideraciones para la interpretación de los coeficientes de confiabilidad (Prieto & Delgado, 2010) ¿Qué grado de fiabilidad deben tener las puntuaciones para que su uso sea aceptable? Cuando las puntuaciones vayan a emplearse para tomar decisiones que impliquen consecuencias relevantes para las personas (p. ej., aceptación o rechazo en una selección de personal), el coeficiente de fiabilidad debería ser muy alto (al menos de 0.90). Sin embargo, si se trata de describir las diferencias individuales a nivel de grupo (como en una investigación), bastaría con alcanzar valores más modestos (al menos 0.70). Los coeficientes de confiabilidad asumen valores que van de 0 a 1. Mientras que cercano esté el valor a 1, la consistencia y/o estabilidad será más alta, por el contrario mientras más cercano esté a 0 el error de la medición será mayor. Sin duda, la magnitud requerida depende de las consecuencias derivadas del uso de las puntuaciones. Coeficiente alfa de Cronbach: Se consideran aceptables coeficientes de consistencia interna iguales o mayores a 0.70, lo que significa que los puntajes obtenidos en el factor/dimensión analizado tienen poco margen de error. En este caso , la consistencia interna de esta dimension ha sido acceptable, pues supera el valor mínimo de 0.70 Es necesario aclarar dos malentendidos frecuentes: Considerar que la confiabilidad y la validez son características de los tests cuando corresponden a propiedades de las interpretaciones, inferencias o usos específicos de las medidas que esos tests proporcionan. Tratar la confiabilidad y la validez como propiedades que se poseen o no en lugar de entenderlas como una cuestión de grado. Prieto & Delgado (2010) Evidencia Procedimiento Estadístico Validez basada en el contenido Juicio de expertos V de Aiken Validez basada en la estructura interna Análisis deDimensionalidad AnálisisFactorial Exploratorio(AFE) AnálisisFacto rialConfirmatorio (AFC) Validez basada en relaciones con otras variables Análisis de validezconvergente y discriminante Correlaciones(Pearson o Spearman) Confiabilidad porestabilidad Test-retest Coeficiente deCorrelación Intraclase(CCI) Confiabilidadporequivalencia Formas paralelas CorrelaciónPearson Confiabilidad por consistencia interna Dos mitades Coeficiente deGuttman, coeficiente deRulon Covarianzas entre ítems Coeficiente alfa (α) Coeficiente theta (θ) Coeficiente omega (Ω) A modo de conclusión… • “Mi test es válido y confiable”. • “Si el test tiene buena confiabilidad es suficiente” • “Las puntuaciones obtenidas al aplicar el test en mi muestra son válidas (son interpretables) y confiables (tienen poco error)”. • “Un test o instrumento puede ser confiable pero no válido”. Por ellos es importante examinar ambas propiedades.