5.- VALIDEZ REFERIDA A CRITERIO DEFINICIÓN: Predicción de un criterio externo para el que se va a utilizar el test (correlaciones). TIPOS: PREDICTIVA (p.e., test de selección) CONCURRENTE diagnóstico). SELECCIÓN APTITUD APTITUD TIEMPO rxy RENDIM? LA ELECCIÓN DEL CRITERIO Es fundamental y debe cumplir ciertas características: • Debe ser fiable. • Debe ser válido... • Más criterios mejor que menos. • Vigilar la temporalidad del criterio (p.e., efecto de las variables de personalidad mediado por el mes de ingreso). (pe., tests de certificación TEST DE NIVEL DE INGLÉS rxy RENDIM • Que la correlación entre predictor y criterio no se deba a variables extrañas: • CONTAMINACIÓN (que el predictor y el criterio correlacionen pero no por lo que queremos) p.e., extroversión-evaluación subjetiva del rendimiento por el supervisor pueden correlacionar pero no porque extroversión se relacione con el rendimiento sino porque el extrovertido le cae mejor al supervisor. FORMACIÓN EN INGLÉS 5.1.- EL COEFICIENTE DE VALIDEZ PROCEDIMIENTO: muy sencillo, una correlación. Ejemplo: Queremos predecir y a partir de x x y y’ y-y’ 2 4 2.6 1.4 4 2 4.2 -2.2 8 8 7.4 .6 6 6 5.8 .2 Media 5 5 5 0 Varianza 5 5 3.2 1.8 Desviación típica 2.24 2.24 1.79 1.34 y ¿COMO PREDECIR Y A PARTIR DE X? BUSCAMOS LA PREDICCIÓN QUE MINIMIZA LOS ERRORES DE PREDICCIÓN (AL CUADRADO) 9 4 7 5 1 3 2 2 d indica la proporción de varianza del criterio que es pronosticable a partir del test. 1 4 3 rxy 2 = 2 2 1 1 0 0 1 2 3 4 5 6 7 8 9 Y Y “d” es el coeficiente de determinación 4 6 5 4 Interpretación: d = r2 = .64 3 8 7 6 rxy= .8 es el coeficiente de validez. 9 3 8 S2 y 0 0 X S2 y' 1 2 3 4 5 6 7 8 9 X Recordatorio sobre la Regresión simple En nuestro ejemplo: PREDICCIÓN DE Y A PARTIR DE X: 1.- Estimación puntual: Ecuación de regresión de Y sobre X y’ es la predicción que hacemos de y a partir de X Y’=A+BX B = rxy Sy Sx A = Y − BX B = rxy Sy Sx = .8(1) = .8 A = Y − BX = (5) − (.8)(5) = 1 Luego, Y’=1+.8X Si la persona hubiera sacado 10 en el test le predeciríamos una puntuación de 9 en el criterio. 2.- Estimación por intervalos: Queremos calcular a partir de la puntuación en el test X el intervalo en el que se encontrara la puntuación en el criterio Y con probabilidad 1-α. P(Lm < Y < LM)=1-α Lógica: Si cogiéramos a todas las personas con una determinada puntuación X en el test. Sus puntuaciones Y se distribuirán normalmente con media su puntuación pronosticada (Y’) y desviación típica la de los errores de pronóstico: Sy-y’ (error típico de estimación). Calculamos los límites del intervalo: Lm=Y’+zα/2*Sy-y’ LM=Y’+z1-α/2*Sy-y’ Por ejemplo, si • α=.05 • P(Lm < Y < LM)=0.95 Æz.025=-1.96 Æz.975=+1.96 Lm=Y’+zα/2*Sy-y’=Y’-1.96(Sy-y’) LM=Y’+z1-α/2*Sy-y’=Y’+1.96(Sy-y’) Sy-y’ es el error típico de estimación (no confundir con el error típico de medida Se), es la desviación típica de los errores de pronóstico y se puede hallar mediante: 2 Sy−y' = Sy 1− rxy = 5 1− .64 = 1.34 Lm=Y’-1.96(1.34) LM=Y’+1.96(1.34) Si la persona hubiera sacado 10 en el test predeciríamos que su puntuación en el criterio se encuentra entre 6.374 y 11.626 (9±2.626) en el criterio con un 95% de confianza. Ilustración de la interpretación de r2 (sólo para curiosos): Sy − y' = Sy 1− r 2 xy Factores que afectan a la amplitud del intervalo (LM-Lm): y S2y = S2y' + S2 y − y' puesto que los errores no correlacionan entre sí. Simplificando y desarrollando: S2y' = S2y − S2y − y' dividiendo ambos lados por Sy2 y: S2y' S2 y S2y' S2 y = 1− 2 = rxy ( S2y 1− r 2 xy S2 y ) • Nivel de confianza (cuanto mayor, mayor amplitud) • Coeficiente de determinación (cuanto mayor, menor amplitud) Demostración (sólo para curiosos): S y' = rxy y x + A S x 2 S y− y ' = S 2 y + S y2' − 2ryy' S y S y ' 2 Sy Sy S 2 y− y ' = S 2 y + rxy S x2 − 2rxy S y rxy S x S S x x 2 2 2 2 2 2 S y− y ' = S y + rxy S y − 2r xy S y S 2 y− y ' = S 2 y (1 + rxy2 − 2r 2 xy ) = S 2 y (1 − r 2 xy ) S y− y ' = S y (1 − rxy2 ) 5.2.- FACTORES QUE AFECTAN AL COEFICIENTE DE VALIDEZ (RXY) 1º: LA VERDADERA RELACIÓN ENTRE EL TEST Y EL CRITERIO Y LA FIABILIDAD DEL TEST Y DEL CRITERIO: Si al criterio Y se le puede aplicar la teoría clásica se demuestra que: rVxVy = rxy rxx ryy rVxVy es la verdadera relación entre X e Y, es decir: el coeficiente de validez si no hubiera errores de medida. DEMOSTRACIÓN (sólo para curiosos): rV xV y = SV X V y SV X S V y y si los errores del test y el criterio no correlacionan entre sí ni con las puntuaciones verdaderas (supuestos de la teoría clásica) entonces: ∑ xy S xy = N ∑ (Vx + E x )(Vy + E y ) − xy = − (Vx + Ex )(Vy + Ey ) = N ∑(Vx Vy + E x Vy + VxEy + E xEy ) = N y sabiendo que: S2V rxx = X S x = S 2x S 2V X rxx N − (Vx Vy ) = SVxVy rxy = S xy S x Sy = SV V X y S x Sy = luego: rxy = rV xV y Pregunta: ¿Que cantidad es más interesante desde el punto de vista aplicado? rVxVy? rV xV y = rxy rxx ryy rxVy? rxV y = rxy ryy rVxy? rV xy = rxy rxx Sy = La fiabilidad del test y criterio determinan el máximo coeficiente de validez observable S2V y a.- Como rxx y ryy, rVxVy ≤1 b.- Existe un límite para el coeficiente de validez observado: rxy ≤ rxx ryy ryy entonces: ∑(Vx Vy ) − (Vx Vy ) = S2V ryy = y S2y SV V X y S2V S2V rxx ryy X y rxx ryy = rxy ≤ rxx SV V rxx ryy X y SV SV X y rV xV y = rxy rxx ryy rVxVy? Es preferible cuando se está analizando la relación entre constructos pero no desde el punto de vista aplicado. rVxy? Es ideal para saber a que podemos aspirar con nuestro test. rxVy? Desde el punto de vista aplicado está justificado si el criterio real no está contaminado. rxy ≤ ryy Es decir, la correlación de un test con un criterio nunca puede superar el índice de fiabilidad del test (o del criterio) “si el test no es fiable, no puede tener validez referida a ningún criterio”. Consecuencias de la relación entre los coeficientes de validez y los coeficientes de fiabilidad: rxy = rV xV y rxx ryy Relación real: rVxVy .81 .81 .81 .81 rxx ryy Relación observada: Fiabilidad del test rxy .49 .81 .51 Muy Baja .64 .81 .58 Baja .81 .81 .66 Buena 1 .81 .73 Perfecta Cúando y atenuación: demostración: 2º: Efecto de la longitud de las pruebas Fijo el valor de rVxVy a más fiabilidad del test mayor rxy. Por lo tanto, existe un efecto de la longitud del test Un test tiene un coeficiente de fiabilidad rxx y un coeficiente de validez rxy. Tras alargarlo “n” veces, su nuevo coeficiente de validez Rxy será: Rxy = rxy 1 − rxx + rxx n Rxy = rVxVy Rxx ryy = rxy Rxx ryy rxx ryy rxy = nrxx 1 + (n − 1)rxx rxx = rxy 1 − rxx + rxx n despejando n queda: n= 1 − rxx rxy2 − rxx Rxy2 cómo aplicar la corrección - Debe existir un estimador insesgado de la fiabilidad y del coeficiente de validez (p.e., malos estimadores son aquellos que se calculan en muestras muy pequeñas) - Los errores del test y del criterio no deben correlacionar. c.- Coeficiente de validez del test alargado. 3º. Variabilidad en X y en Y, pues rxy es una correlación Homogeneidad de la muestraÆrestricción de rango Por ejemplo, si calculamos rxy sólo en el grupo de los sujetos que fueron seleccionados Ejemplo 1: Los coeficientes de fiabilidad y de validez de un test de 20 items son .6 y .5 respectivamente. Alargamos el test 3 veces: a.- El número de ítems del test alargado (20)(3)=60 items Corrección por restricción de rango: b.- Coeficiente de fiabilidad del test alargado R=nr/(1+(n-1)r)=(3)0.6/(1+2*.6)=.82 - Es uno de los problemas más graves en los estudios de validez referida a criterio. - La restricción del rango hace infraestimar severamente los coeficientes de validez. por .5 = .58 1 − .6 + .6 3 d.- Queremos que el Test tenga un coeficiente de validez de .6 (¿Cúantos items debiera tener?) n= 1 − .6 = 4.23 .5 2 − .6 2 .6 El número de ítems sería 4.23*20=85 e.- Queremos que el test tenga un coeficiente de validez de .9 ¿cúantos ítems debería tener? n= 1 − .6 = −1.37 .52 − . 6 .92 El resultado negativo indica que no se puede alcanzar una validez .9 por alargamiento del test. Como .5 = r .6 r el máximo valor que se puede alcanzar alargando el test será r 1 r =.5/√.6=.645 V xV y yy V xV y yy