Subido por Cloe MIranda

Propiedas psicometricas de un test (2)

Anuncio
Propiedades psicométricas de un
test: validez y confiabilidad
Fases (Muñiz y Fonseca-Pedrero, 2019)
Definición de la
variable medida
Especificaciones
Construcción de
los ítems
Edición
Estudios piloto
Selección de otros
instrumentos de
medida
Aplicación del test
Propiedades
psicométricas
Versión final del
test
Marco general
Objetivo de aprendizaje
• Conocer y diferenciar las
propiedades psicométricas de
un test: validez y confiabilidad.
• Conocer y diferenciar las
evidencias específicas de validez
y confiabilidad aplicadas a las
pruebas psicométricas.
• Explica
los
pasos
para
determinar algunas propiedades
psicométricas
de
un
test: evidencias de validez de
contenido y confiabilidad por
consistencia interna.
Entonces, ¿en qué se diferencian la validez de la
confiabilidad?​
La propiedad psicométrica
de confiabilidad nos informa
si estamos midiendo con
mucho o con poco error de
medida.​
En cambio, la propiedad
psicométrica de validez nos
informa de qué atributo
exactamente estamos midiendo.​
Validez
Se refiere al grado en que la evidencia empírica y
la teoría apoyan la interpretación de las puntuaciones de
los tests relacionada con un uso específico
Los estudios de validez van a aportar significado a las
puntuaciones que estamos obteniendo, permitiéndonos
conocer si el uso que pretendemos hacer de ellas es o no
adecuado.
AERA, APA & NCME (2014)​
Algunas consideraciones sobre Validez
No es preciso hablar de validez de un test sino de validez de las puntuaciones de un
test. No tiene sentido hablar de “propiedades del test”, ya que éstas dependen del
contexto de evaluación y la muestra específica.​
El profesional responsable de la aplicación de un test debe consultar el manual
del mismo para averiguar si la utilización e interpretación pretendida por él
coincide con la proporcionada por la prueba.
De lo contrario, para poder realizar la interpretación pretendida deberá desarrollar
una investigación, un estudio de validación, que le permita recoger información que
apoye (o no) su uso.​
Abad, Olea, Ponsoda & García (2010)​
Por ejemplo
¿Serán válidas las puntuaciones
e interpretaciones del IDER en
personas de nuestro país si están
basadas a partir de las normas o
baremos de este manual?​
¿Serán válidas las puntuaciones
e interpretaciones del IDER si se
obtienen a partir de la
aplicación a una muestra de
niños?​
¿Serán válidas las puntuaciones
e interpretaciones del IDER en personas de
nuestro país si están basadas a partir de las
normas o baremos de este manual?​
Rpta: NO, porque como bien se señala en la
imagen la interpretación está basada en un grupo
normativo español (adaptación española).​
¿Serán válidas las puntuaciones
e interpretaciones del IDER si se obtienen a
partir de la aplicación a una muestra de niños?​
Rpta: NO, porque como bien se señala en la imagen anterior la
prueba está orientada a la evaluación del constructo/variable
en adolescentes, jóvenes y adultos.​
Entonces, ¿qué podría validar el
uso e interpretación de la
puntuaciones del IDER
en nuestro país?​
Respuesta: La realización previa de
estudios de tipo
instrumental cumplen con ese
objetivo: validar las propiedades
psicométricas de las puntuaciones de
un test para su interpretación en
un determinado contexto o
muestra específica.​
Evidencias de Validez
Estructura interna​
Contenido​
Relación con otras
variables​
Standards for Educational and Psychological Testing (AERA, APA, & NCME, 2014)​
1.1. Evidencia de validez basada en el contenido
Validez de contenido
Busca garantizar que la muestra de
ítems que componen la prueba
es relevante, y representativa del
constructo, además de clara en
cuanto a su redacción.
También son objeto de la validez
de contenido las instrucciones, los
ejemplos de práctica, el material
de la prueba, el tiempo de
ejecución, etc.
La consulta a expertos (juicio de
expertos) es la vía más usual para
apreciar la calidad del contenido
de los ítems.​
Una de las técnicas estadísticas
más empleadas para este
propósito es la V de Aiken (analiza
el grado de acuerdo entre jueces
sobre la relevancia del
contenido de un ítem).​
Juicio de expertos​
• El juicio de expertos se define
como una opinión informada
de personas con trayectoria en
el tema, que son reconocidas
por otros como expertos
cualificados en éste, y que
pueden dar
información, evidencia, juicios
y valoraciones
(Escobar y Cuervo, 2008).​
Criterios de
evaluación
de los
expertos:​
Escobar-Pérez y Cuervo-Martínez (2008)​
Formato de
evaluación de
juicio de
expertos:​
Escobar-Pérez y Cuervo-Martínez (2008)​
V de Aiken
Este estadístico se basa en
la opinión de expertos
sobre la validez de un
material evaluativo.
Este coeficiente es una de
las técnicas para
cuantificar de validez
de contenido o relevancia
del ítem respecto a un
dominio de contenido en
N jueces, cuya magnitud
va desde 0.00 hasta 1.00.
El valor 1.00 es la mayor
magnitud posible que
indica un
perfecto acuerdo entre los
jueces respecto a la mayor
puntuación de validez de
los contenidos evaluados.​
Merino & Livia (2009)​
V de Aiken
Plantilla para el cálculo de la V de Aiken​
Consideraciones para la interpretación de la V de Aiken:​
El intervalo de confianza para la V de
Aiken permite al usuario probar si
la magnitud obtenida del coeficiente
es superior a una que es establecida
como mínimamente aceptable para
concluir sobre la validez de contenido
de los ítems.
Por ejemplo, se desea probar si un
coeficiente V es significativamente
diferente del mínimo nivel de validez
según los estándares de los expertos;
este estándar puede estar en un nivel
liberal (Cicchetti, 1994) de Vo = 0.50, o
en un nivel más conservador, como Vo
= 0.70 o más (Charter, 2003).​
Se considera que hay un insuficiente o
inadecuado grado de acuerdo entre
los jueces si el intervalo de confianza
inferior de la V de Aiken resulta menor
a 0.70 ó 0.50 según el criterio
empleado (conservador o
liberal respectivamente).​
Ejemplo
Luego de recolectar el juicio de 5
jueces, en una escala de 1 al 5, el
rating promedio es 4.2, y al 95%
de confianza el intervalo del
coeficiente obtenido será [Límite
inferior = 0.62, Límite superior =
0.90].
¿Podremos aceptar el ítem?
Ejemplo
Luego de recolectar el juicio de 5
jueces, en una escala de 1 al 5, el
rating promedio es 4.2, y al 95%
de confianza el intervalo del
coeficiente obtenido será [Límite
inferior = 0.62, Límite superior =
0.90].
Con este dato, no podemos
aceptar el ítem a la luz del
estándar mínimo más
conservador (0.70), ya que el
límite inferior del intervalo está
por debajo de tal punto (0.62).
En las fases iniciales de la construcción de ítems, se
puede elegir un criterio más liberal (Vo < 0.50).​
Interpretaciones y decisiones (criterio conservador):​
Si un ítem presenta una V de Aiken cuyo
límite inferior del intervalo es menor a 0.70 en
claridad, se toma la decisión de modificar la
redacción del ítem según la recomendación de los
jueces expertos.​
Si un ítem presenta una V de Aiken cuyo
límite inferior del intervalo es menor a 0.70 en
coherencia, se analiza la posibilidad de incluirlo en
otra dimensión del test según las recomendaciones
de los jueces expertos.​
Si un ítem presenta una V de Aiken cuyo límite inferior
del intervalo es menor a 0.70 en relevancia, se toma la
decisión de eliminar el ítem de la versión final del test.​
Interpretaciones y decisiones (criterio liberal):​
Si un ítem presenta una V de Aiken cuyo
límite inferior del intervalo es menor a 0.50 en
claridad, se toma la decisión de modificar la
redacción del ítem según la recomendación de los
jueces expertos.​
Si un ítem presenta una V de Aiken cuyo
límite inferior del intervalo es menor a 0.50 en
coherencia, se analiza la posibilidad de incluirlo en
otra dimensión del test según las recomendaciones
de los jueces expertos.​
Si un ítem presenta una V de Aiken cuyo límite inferior
del intervalo es menor a 0.50 en relevancia, se toma la
decisión de eliminar el ítem de la versión final del test.​
¿Qué decisiones
tomarían con los
siguientes ítems?​
1.2. Evidencia de validez basada en la estructura interna
Validez de estructura
interna
Se busca verificar empíricamente si los
ítems se ajustan a
la dimensionalidad prevista por el
constructor (autor) de la prueba, es
decir, si se ajusta a la teoría.​
Los estudios
sobre dimensionalidad, permiten
determinar la estructura del test, que
puede haber sido construido para
medir una o varias dimensiones, y ver
si coincide con la estructura postulada
al construir la prueba.​
Por lo general, suele llevarse a cabo
con ayuda de la técnica estadística
del análisis factorial (exploratorio y/o
confirmatorio).​
Por ejemplo​
• Se hizo un estudio para verificar la dimensionalidad teórica
del Maslach Burnout Inventory (MBI) que consta de 3
dimensiones: Agotamiento emocional, Despersonalización
y Falta de realización personal.​
Figura 1. Propuesta teórica original
(MBI)
3 dimensiones
22 ítems
Figura 2. Propuesta en una muestra específica (MBI)
3 dimensiones
18 ítems
En este caso a partir del análisis factorial confirmatorio se ha validado la
estructura teórica de 3 dimensiones del MBI (Figura 1), aunque como se ve
en la Figura 2, las puntuaciones e interpretaciones en la muestra específica
serán válidas a partir de la consideración de 18 de los 22 ítems de la prueba
en la calificación.​
1.3. Fuente de evidencias externas (relaciones con otras
variables)​
Relaciones con otras variables
El objetivo es establecer si las
relaciones observadas entre las
puntuaciones en el test y otras
variables externas relevantes son
consistentes con la
interpretación propuesta para las
puntuaciones
Por ejemplo: Si queremos validar las
puntuaciones de una escala que
mide susceptibilidad al castigo (que
mide el grado de evitación de
situaciones aversivas), ésta debe
proporcionar puntuaciones
relacionadas directamente
con neuroticismo e inversamente con
estabilidad emocional.
1.3. Fuente de evidencias externas (relaciones con otras
variables)​
Si las relaciones observadas son
consonantes con lo predicho por el
modelo teórico en el que se inserta el
constructo medido por el test,
entonces hemos obtenido evidencia
favorable a la interpretación
propuesta.
Si las relaciones observadas no son
las esperadas hay que cuestionar la
adecuación de la prueba, la
adecuación de las medidas de las
otras variables o incluso el modelo
teórico.​
1.3. Fuente de evidencias externas (relaciones con otras
variables)​
Las variables externas relevantes en este tipo de evidencia de validez pueden ser:
La validez
convergente: otras
medidas del mismo
constructo/variable
obtenidas con diferentes
test.​
La validez
discriminante: medidas de
constructos diferentes
pero que se insertan en el
modelo teórico donde se
encuadra el
constructo/variable de
interés.​
La validez de criterio:
algún tipo de variable
(criterio) que
pretendamos predecir a
partir de las puntuaciones
en el test.​
Se espera que la asociación entre pruebas que midan el mismo
constructo, sean mayores (validación convergente) que entre
test que miden constructos diferentes (validación
discriminante). Aunque en ambos casos se espera que
sean significativas.​
Confiabilidad
La fiabilidad se concibe como
la consistencia o estabilidad de
las medidas cuando el proceso
de medición se repite.​
AERA, APA & NCME (2014)​
Distintos métodos para estimar la confiabilidad​
Test /Retest
Formas paralelas
Consistencia interna
Consistencia de las puntuaciones
de distintos calificadores
• Administrar la misma prueba a las mismas personas,
en diferentes momentos (estabilidad)
• Aplicación a una muestra de personas en la misma
ocasión o en distintas ocasiones de dos versiones del
test equivalentes en contenido, dificultad, etc).
• División del test en dos subconjuntos equivalentes
de ítems o estimación a partir de las covarianzas entre
los ítems de la prueba (Alfa de Cronbach)
• Evaluación de una muestra de conducta por
calificadores independientes.
Consideraciones para la interpretación de los coeficientes
de confiabilidad (Prieto & Delgado, 2010)
¿Qué grado de fiabilidad deben tener las puntuaciones para que su uso sea aceptable?
Cuando las puntuaciones
vayan a emplearse para
tomar decisiones que
impliquen consecuencias
relevantes para las
personas (p. ej.,
aceptación o rechazo en
una selección de
personal), el coeficiente
de fiabilidad debería ser
muy alto (al menos de
0.90).
Sin embargo, si se trata de
describir las diferencias
individuales a nivel de
grupo (como en una
investigación), bastaría
con alcanzar valores más
modestos (al menos
0.70).
Los coeficientes de
confiabilidad asumen
valores que van de 0 a 1.
Mientras que cercano
esté el valor a 1, la
consistencia y/o
estabilidad será más alta,
por el contrario mientras
más cercano esté a 0 el
error de la medición será
mayor.​
Sin duda, la magnitud requerida depende de las consecuencias
derivadas del uso de las puntuaciones.
Coeficiente alfa de Cronbach:
Se consideran aceptables coeficientes
de consistencia interna iguales o mayores a
0.70, lo que significa que los puntajes obtenidos
en el factor/dimensión
analizado tienen poco margen de error.​
En este caso , la consistencia
interna de esta dimension
ha sido acceptable, pues
supera el valor mínimo de
0.70
Es necesario aclarar dos
malentendidos frecuentes:​
Considerar que la confiabilidad y
la validez son características de
los tests cuando corresponden a
propiedades de las
interpretaciones, inferencias o
usos específicos de las medidas
que esos tests proporcionan.
Tratar la confiabilidad y la validez
como propiedades que se
poseen o no en lugar de
entenderlas como una cuestión
de grado.​
Prieto & Delgado (2010)​
Evidencia
Procedimiento
Estadístico
Validez basada en el contenido​
Juicio de expertos​
V de Aiken​
Validez basada en la estructura​
interna​
Análisis deDimensionalidad​
AnálisisFactorial
Exploratorio(AFE) AnálisisFacto
rialConfirmatorio (AFC)​
Validez basada en relaciones
con​ otras variables​
Análisis de
validezconvergente y​
discriminante​
Correlaciones(Pearson o​
Spearman)​
Confiabilidad porestabilidad​
Test-retest​
Coeficiente deCorrelación​
Intraclase(CCI)​
Confiabilidadporequivalencia​
Formas paralelas​
CorrelaciónPearson​
Confiabilidad por consistencia​
interna​
Dos mitades​
Coeficiente deGuttman,​
coeficiente deRulon​
Covarianzas entre ítems​
Coeficiente alfa (α) Coeficiente
theta (θ) Coeficiente omega (Ω)​
A modo de conclusión…​
• “Mi test es válido y confiable”.​
• “Si el test tiene buena confiabilidad
es suficiente”​
• “Las puntuaciones obtenidas al aplicar el test en
mi muestra son válidas (son interpretables) y
confiables (tienen poco error)”.​
• “Un test o instrumento puede ser confiable pero
no válido”. Por ellos es importante examinar
ambas propiedades.​
Descargar