EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN UNA

Anuncio
ISBN: 978-970-92251-2-9
EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN
UNA PRUEBA DE INGENIERÍA1
Olga Rosalba Rodríguez Jiménez
Universidad Nacional de Colombia – IEIA
El trabajo tiene como objetivo presentar los resultados de dos procedimientos de
equiparación de puntuaciones uno basado en la TRI y el otro en TCT. La prueba utilizada
fue la versión piloto del examen EXIM aplicado por Asociación Colombiana de Ingeniería.
La muestra estuvo conformada por 261 estudiantes y se presentan los resultados del uso de
cada método en la equiparación de dos formas de prueba. Se concluye que el método
basado en modelos IRT específicamente en Rasch aporta mayor precisión, sin embargo se
reconoce que el uso de uno u otro modelo debe hacerse en función de las necesidades
específicas de quien aplica el examen y de la flexibilidad en el cumplimiento de los
requerimientos de los modelos.
1
La autora agradece al Doctor Eduardo Silva Director Ejecutivo de la Asociación Colombiana de Facultades
de Ingeniería quien autorizó el uso de esta información con fines investigativos.
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Introducción
Cuando se realizan aplicaciones masivas de pruebas, contar con mútiples versiones de una
prueba se hace necesario, la pregunta que se presenta entonces esta referida a la forma de
hacer comparables los resultados de las mismas, es decir, garantizar que los resultados de
una prueba que se usa para un mismo propósito en dos momentos distintos significan lo
mismo. El procedimiento que se ha usado para este propósito se denomina equiparamiento.
El equiparamiento hace referencia a los procesos estadísticos que se usan para ajustar los
puntajes de las formas de una prueba de manera tal que puedan ser usados de manersa
intercambiable, garantizando así su comparabilidad.
Se considera como condición necesaria que las pruebas a ser comparadas sean similares en
su contenido (Lord , 1980 citado por Harris y Crouse en 1993, hace énfasis en que la
pruebas midan el mismo constructo) y en sus parámetros estadísticos. Navas (1996)
menciona por ejemplo que para poder hacer una real equivalencia de puntajes se deben
cumplir cuatro requisitos: medir el mismo constructo, invarianza en la población, simetría y
equidad, esta última entendida como la posibilidad de intercambiar completamente los
puntajes de una prueba con los de la otra. Este mismo autor señala que los pasos para
realizar el proceso de equiparación deben ser:
1. Elección de un diseño para recoger datos
2. Recogida de datos
3. Selección del método
4. Determinación de la tabla de conversión
5. Evaluación de la equiparación
Autores como Harris y Crouse (1993) señalan como pasos del equiparamiento los
propiamente relacionados con el diseño y el método para hacer la comparación.
En cuánto al diseño Kolen y Brennan (1995) señala que esencialmente se presentan los
siguientes diseños para realizar el equiparamiento, a saber:
a. Diseño de grupos al azar: implica la asignación al azar de cada grupo a las formas que
van a ser equiparadas.
b. Diseño de grupo simple: al mismo grupo de examinado se le aplican las dos formas de la
prueba, primero la forma uno y luego la forma dos.
c. Diseño de grupo simple con contrabalanceo: se hace la aplicación de las dos formas de
la prueba al mismo grupo de examinados siguiendo un orden específico, a la mitad de los
examinados se aplica la forma uno y luego la dos y a la otra mitad la forma dos y luego la
uno.
d. Grupos no equivalentes con ítems comunes: en este diseño las dos formas de la prueba
tienen ítems en común y se administran a grupos diferentes de examinandos las dos formas.
2
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Cuando los ítems comunes contribuyen al puntaje total se considera interno, de lo contrario
se denomina externo.
Para esta último diseño es necesario tener en cuenta que los ítems comunes deben ser
construidos con las mismas características de la prueba total (Shumacker, R, 2005) y con un
porcentaje de ítems comunes cercano al 20% (Angoff, 1971, citado por Kolen y Brennan
1995). Se considera que este diseño podría presentar dificultades en el equiparamiento si las
especificaciones de las pruebas cambian y si aparecen en posiciones considerablemente
diferente al orden de las preguntas en las pruebas (Kolen y Brennan 1995).
Después de hacer la recolección de los datos es importante elegir el método para hacer la
transformación, la elección depende del marco en el cual se espera trabajar ya sea desde la
Teoría Clásica de los Test o la Teoría de Respuesta al Ítem.
Métodos basados en la Teoría Clásica de los Test (TCT)
En este grupo se ubican los métodos lineales que pretenden una transformación lineal que
consideran:
a. Puntuaciones equiparadas a las que corresponden al mismo centil. b.
Puntuaciones equiparadas a las que corresponden a la misma puntuación típica. c.
Puntuaciones verdaderas equiparadas a las que corresponden al mismo nivel estimado de la
característica evaluada por los test.
Dentro de los métodos lineales se encuentran los de Levine, Braun-Holland, equipercentil y
Tucker entre otros. A continuación se presenta el utilizado en el presente trabajo, el método
de Tucker, el cual se basa en la regresión de los puntajes totales a partir de los puntajes de
los ítems comunes, y en la varianza condicional estimada a partir los mismos. Este
método usado en un diseño de ítems comunes exige que la naturaleza de la regresión sea
lineal. Se considera un método adecuado cuando se cuenta con muestras pequeñas y se
trabaja con puntajes observados.
La construcción de la regresión lineal es
σs (Y )
lys ( x) =
[x − µs ( X )]+ µs (Y )
σs ( X )
Donde s indica que corresponde al estadístico de la población sintética, la cual constituye la
combinación de la población uno y dos.
µs ( X ) = µ1( X ) − w2γ1µ1(V ) − µ 2(V ) 
µs (Y ) = µ 2(Y ) − w1γ2 µ1(V ) − µ 2(V )
γ1 =
σ ( X ,V )
σ 12 (V )
3
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
γ2 =
σ 2(Y , V )
σ 22 (V )
y W es el peso de la población sintética.
Luego de contar con la ecuación de regresión, se expresan los puntajes de una prueba en
función de la otra, y se calcula el error estándar, el cual se considera un índice útil que
indica la cantidad de error de equiparamiento y se concibe como la desviación estándar
de los puntajes igualados sobre réplicas hipotéticas de un procedimiento de
equiparamiento en una muestra de una población de examinados y se define como la
raíz cuadrada del error de varianza.
Error de varianza es
σ 2 (Y ) 

var lˆy ( Xi ) ≅
2(1 −
Ntot 

[
]
2
[
( X ,V ) + 1 −
4
]
2
xi − µ ( X ) 
( X ,V ) 

 σ (X ) 





Métodos basados en la Teoría de Respuesta al Item (TRI)
Estos métodos describen como las personas con diferentes niveles de habillidad responden a
los ítems de una prueba (Zhu, 2001). Se considera una ventaja inicial de estos métodos la
invarianza de los parámetros tanto de personas como de los ítems, lo que significa que a
pesar de contestar diferentes pruebas una persona tendrá el mismo nivel de atributo.
Además, los parámetros de las preguntas no dependen de la población, sin embargo en la
práctica esto no ha sido del todo cierto (Zhu, 2001), lo que ha llevado a que desde la IRT se
planteen métodos para garantizar la comparabilidad de los puntajes.
Así la equiparación en modelos IRT requiere por lo menos tres pasos (Kolen y
Brennan,1995):
1. Estimación de los parámetros.
2. Escalamiento o re-escalamiento de los parámetros a una escala IRT usando una
transformación lineal.
3. Escala de puntajes, los puntajes en la nueva forma son convertidos a la de la vieja
forma.
Se considera que el equiparamiento con IRT tiene muchas ventajas
sobre la forma
tradicional de hacer equiparamiento dado que tiene más exactitud en los puntajes extremos
de la escala, mayor flexibilidad a la hora de elegir las versiones previas de las pruebas,
mayor facilidad en los distintos momentos de equiparamiento, menor grado de error.
Adicionalmente, es posible hacer pre-equiparamiento permitiendo de esta manera preparar
las tablas y escalas de conversión (Zhu, 2001).
Uno de los métodos usados se basa en el modelo de Rasch, el cual se describirá dado que
fue el utilizado en el presente trabajo debido al tamaño de la muestra. En el modelo de
Rasch se asume que la discriminación es igual a 1 y la adivinanza es 0 (Kolen y Brennan
4
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
1995). El equiparamiento basado en este modelo permite determinar la exactitud y la
estabilidad de las escalas que se generan, entendiendo por exactitud, el grado en el que la
habilidad estimada por una prueba es estadísticamente equivalente a la habilidad estimada
con la otra y el grado en el cual una relación estable de equivalencia entre dos pruebas para
una muestra puede ser duplicada en otra muestra, por estabilidad, (Zhu, 2001).
El modelo de Rasch que permite hacer la calibración de las preguntas se expresa de la
siguiente manera:
pi (θ ) =
1
1+ e
− D (θ −bi )
Donde θ = Habilidad
b = Dificultad
D = Constante
del ítem i
(1,7)
e = 2.718
Después de realizar la calibración de los ítems para cada prueba se procede a realizar el reescalamiento el cual puede llevarse a cabo utilizando distintos métodos, uno de los cuales se
conoce como el método media/sigma y media/media. El primero descrito por Marco en
1997 (Citado por Kolen y Brennan 1995) usa la media y la desviación estándar del
parámetro b estimado a partir de los ítems comunes y el segundo descrito por loyd y
Hoover en 1980 (Citado por Kolen y Brennan 1995) usa la media del parámetro a de los
ítems comunes.
El método de media/sigma se define de la siguiente manera:
δTEST 2 − C = AδTEST 1 − C + B
En donde δTEST 2 − C y δTEST 1 − C es la media de los ítems comunes de ambas pruebas, siendo
A y B constantes. En el modelo de Rasch A y B son iguales de donde B sería igual a
B = δTEST 1 − C − AδTEST 2 − C
Luego de hacer el nuevo escalamiento de las pruebas es necesario determinar la exactitud y
la estabilidad ambas estimadas a partir del índice D, que se expresa:
D=
ˆ1 − ˆ 2
σˆ 12 + σˆ 22
Donde ˆ corresponde a la habilidad estimada con las pruebas y σˆ el error de varianza
respectivo.
Se considera que los dos métodos descritos, Tucker y Rasch, funcionan de manera
adecuada en el diseño de grupos no equivalentes con ítems comunes cuando se cuenta con
muestras pequeñas y los ítems tienen similitudes en la dificultad. Se debe garantizar que los
5
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
ítems son representativos de la prueba y los grupos no difieren mucho en el nivel de atributo
medido.
A partir de lo planteado en este trabajo se pretende evaluar el equiparamiento de los
puntajes de una prueba usando dos métodos distintos cada uno basado en una de las teorías
psicométricas.
METODO
Muestra
Tabla 1. Descripción de la muestra
Prueba Número de
Estudiantes
1
132
2
129
La muestra total de esta aplicación piloto estuvo conformada por 379 estudiantes, para el
equiparamiento se presentan los resultados para dos formas de prueba.
La instituciones participantes tanto de Bogotá como de fuera de ella, fueron: Universidad
de Norte de Barranquilla, Pontificia Bolivariana de Montería y Medellín, Universidad de
Nariño de Pasto, Universidad Tecnológica de Pereira, Universidad de Antioquia y de
Bogotá, las universidades Católica, Escuela Colombiana de Ingeniería y Militar.
Instrumento
La prueba utilizada fue la versión piloto del Examen Intermedio de Ciencias Básicas para
Ingeniería EXIM, consta de 130 preguntas y da cuenta de las cuatro áreas básicas para
ingeniería: Matemáticas, Física, Química y Biología. Todas las preguntas dependen de un
contexto y utilizan el formato de selección múltiple con única respuesta. Esta versión fue
desarrollada y aplicada en el 2006. El análisis se realizó para 127 ítems en la TCT y 126 en
IRT debido a dificultades de impresión o ausencia de variabilidad.
Análisis de datos
Toda la información fue realizada utilizando los programas SPSS versión 7.5, WINSTEPS y
Excel 2003.
Se desarrollaron los siguientes pasos:
1. Análisis psicométrico de las pruebas con TCT
2. Comprobación de la normalidad de los datos.
3. Comprobación de la unidimensionalidad para ajustar modelo Rasch.
4. Realización del equiparamiento con el modelo de Tucker y luego con el modelo de
Rasch. Se realizaron previamente las verificaciones de linealidad y se garantizó la
calidad de los ítems.
6
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
7
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
RESULTADOS
En las tablas 2 y 3 se presenta la información psicométrica de las pruebas con la Teoría
Clásica de los Test, en primer lugar la información sobre la confiabilidad y luego sobre los
descriptivos de los parámetros de los ítems.
Tabla 2. Confiabilidad
Prueba
Uno
Dos
Prueba
Coeficiente
de
confiabilidad
Uno
Dos
,85
,80
Tabla 3. Resumen del análisis de ítems
Estadístico Dificultad Discriminación
Media
Desviación
Media
Desviación
0,11
0,22
0,13
0,23
0,29
0,19
0,32
0,21
Tabla 4. Normalidad de los puntajes de las pruebas
Prueba
Uno
Kolmogorov - Smirnov
1,025
(,244)
Prueba
Dos
0,809
(0,529)
Valor entre paréntesis corresponde a la significación.
Linealidad de la relación entre las pruebas y los ítems comunes
40
30
30
20
20
10
10
0
-10
0
20
40
60
80
100
V
V
0
-10
0
P1
P2
8
10
20
30
40
50
60
70
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Gráfica 1. Diagrama de dispersión de
La prueba uno con los ítems
comunes
Gráfica 2. Diagrama de dispersión de
prueba dos con los ítems
comunes
Tabla 5. Descriptivos de las pruebas utilizados para el Método de Tucker
prueba Uno
Ítems comunes 1
prueba Dos
Ítems comunes 2
n
132
132
129
129
Media Desviación Varianza Covarianza Correlación
39,19
12,16
147,76
77,90
0,90
15,26
7,11
50,56
38,91
10,85
117,63
59,68
0,87
15,91
6,32
39,97
Método Tucker
Puntajes de Y estimados a partir de X con la siguiente ecuación de regresión
Lˆ y ( s )( x) = (11.3873294 / 11.6380766)( x − 39.6956382) + 38.4241138
Tabla 6. Predicción del puntaje de la prueba dos (Y) a partir de la prueba uno ( X)
Prueba Uno
X
1
10
20
30
40
50
60
70
80
90
100
110
120
130
Prueba Dos
Error Estándar
Y
1
1,78
9
1,36
19
0,9
29
0,43
39
0,04
49
0,51
58
0,97
68
1,44
78
1,91
88
2,37
97
2,84
107
3,31
117
3,78
127
4,24
Modelo de Rasch
La dificultad de la prueba uno cubre un rango entre –2.43 y 2.62 logits. La prueba dos
cubre el rango entre -2.10 y 1.75 logits. La media de la dificultad en las dos pruebas fue
cercana a cero y la desviación muy próxima a uno.
Para la prueba uno los ítems 9 y 12 presentaron desajuste, mientras que ninguno presento
esta condición en la prueba dos.
Tabla 7. Descriptivos del parámetro dificultad para las pruebas
9
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Prueba
Media
Desviación
Uno
Dos
0,001 -0,040
0,893 0,716
Items
Comunes
0,053
0,763
Todos los ítems fueron anclados a la prueba uno, para la conversión a la nueva escala se
conservan los valores originales de la prueba uno para los ítems no comunes y para los
ítems comunes el promedio del reescalamiento en la prueba dos con el valor de la prueba
uno. El reescalamiento para los ítems comunes de la prueba dos fue realizado agregando al
valor promedio de dificultad de los ítems comunes al valor de dificultad de cada ítem, en
este caso 0,053. (En el anexo 1 se presenta la información numérica de los ítems). Después
de este proceso, la media para el parámetro dificultad para la prueba uno fue de -0,01 con
una desviación de 0,88 y para la dos 0,0044 con una desviación de 0,680.
La habilidad o nivel de atributo de los evaluados expresada también en logits, se estimó con
el modelo de Rasch, al comparar las medias y desviaciones y encontrarlas muy cercanas, se
decide no hacer el reescalamiento. La media para la prueba uno es de -0,0002 logit y la
desviación de 2,08 logits. La prueba dos tiene una media de
-0,0002 y una desviación de 2,02 logits. Pese a lo anterior, para confirmar la exactitud de la
estimación se calculó el índice D encontrando una media de -0,056 y una desviación de
0,086. Se presenta finalmente la conversión de la habilidad en escala T de McCall para las
dos pruebas (Anexo 2).
Discusión y Conclusiones
Como se aprecia en los resultados con el método clásico es posible predecir los puntajes de
la prueba dos a partir de la prueba uno. Se aprecia que los mayores niveles de error se
encuentran en los puntajes de los extremos inferiores y superiores, en estos último siendo
crecientes. En caso de utilizar la prueba dos debe asumirse que el puntaje varía mínimo en
una y máximo en dos unidades. Respecto al uso del método se puede afirmar que su
aplicación fue adecuada dado que la relación entre las pruebas y los ítems comunes es de
naturaleza lineal, como se aprecia en las gráficas 1 y 2, y que adicionalmente los puntajes
provienen de una distribución normal.
En cuanto al escalamiento con el modelo de Rasch se encuentra que hacerlo para los ítems
hace que en efecto la métrica de las dos pruebas sean aún más equivalentes, dado que hay
más cercanía entre las medias y desviaciones estándar de las pruebas. Este procedimiento
permite evidenciar que la prueba dos es un poco más difícil que la prueba uno. En el caso
de la habilidad se encuentra que las dos pruebas difieren muy poco en sus descriptivos. La
escala T permite apreciar que la equivalencia con los puntajes directos en las dos pruebas es
igual; se observan diferencias entre una y dos unidades, siendo mayores las diferencias en
los puntajes altos de la escala que siempre resultan más difíciles de estimar. Es de aclarar
que se uso este modelo pese a que no se pudo comprobar la unidimensionalidad, sin
embargo Kolen y Brennan (1995) señala que este es un modelo robusto a la violación de
este supuesto.
10
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Es claro que los dos métodos se aplicaron contando con las condiciones psicométricas
necesarias, así las dos pruebas fueron confiables y los ítems cumplían con los criterios
estadísticos respectivos en cada modelo.
A partir de los resultados se puede afirmar que el método basado en TRI es más preciso que
clásico basado en la Teoría Clásica de los Test dado que las escalas presentan menor
diferencia entre las pruebas .
Finalmente vale la pena señalar como lo menciona Navas (1996) que si los test no difieren
en dificultad, ni los grupos en nivel de habilidad los métodos clásicos funcionan bien. De
igual modo cuando es posible ajustar modelos TRI los métodos basados en estos, también
funcionan bien.
11
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
BIBLIOGRAFÍA
Harris, D y Crouse, J. (1993). A study of crietria used in Equating. Applied measurement in
education, 195-240.
Kolen, M. y Brennan, R. (1995). Test equating; Methods and practices. New York:
Springer.
Navas, M. (1996). Equiparación de puntuaciones. En psicometría. Madrid: Editorial
Universitas S.A.
Schumacker, R. (2005). Test equating. Applied Measurement Associates.
Zhu, W. (2001). An emprirical investigation of Rasch equating of motor function task.
Adapted physical activity quartely, 72-89.
12
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
PRUEBA UNO
Número
Item
1
2
3
4
5
6
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
PRUEBA DOS
ITEMS COMUNES
Error
Error
Error
Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Reescalamiento
Estándar
Estándar
Estándar
2,62
-1,68
-1,72
-1,31
-1,54
-1,04
-1,47
0,9
1,35
0,15
1,04
-1,01
-1,47
-1,91
-0,78
-0,58
-1,51
0,23
-0,58
-0,42
0,03
-1,47
-1,01
-1,14
-0,82
0,03
-0,17
0,72
-1,27
0,51
0,19
0,19
0,18
0,19
0,18
0,19
0,25
0,3
0,2
0,26
0,18
0,19
0,2
0,18
0,18
0,19
0,21
0,18
0,19
0,2
0,19
0,18
0,18
0,18
0,2
0,19
0,24
0,18
1,03
0,99
1,13
1,12
1,02
1,08
1,02
1,09
1,01
0,99
1,05
1,07
0,99
1
1
1,01
0,98
1,11
0,94
1,07
0,99
1,03
0,94
1,01
1,06
1,08
1,06
0,97
1
1,34
0,98
1,15
1,12
1,01
1,11
1,01
1,4
1,11
1,12
1,67
1,11
0,97
0,99
1
1,03
0,95
1,25
0,93
1,09
0,98
1,01
0,92
1
1,06
1,17
1,08
0,96
0,98
-0,88
0,62
-0,48
-0,81
-1,14
1,43
-0,09
-0,58
-0,51
0,07
0,62
-0,78
0,28
-0,2
0,18
0,23
0,18
0,18
0,18
0,31
0,19
0,18
0,18
0,2
0,23
0,18
0,21
0,19
0,95
1,02
1,01
0,95
0,98
0,99
1,01
0,99
0,96
1,04
1,05
0,92
0,94
1,03
0,95
1,28
1,09
0,98
1
0,87
1,1
1,03
0,94
1,19
1,12
0,93
0,89
1,04
0,03
-0,71
-0,55
13
0,2
0,18
0,18
1,01
1,08
1,07
1,01
1,1
1,07
2,62
-1,68
-1,72
-1,31
-1,54
-1,04
-1,47
0,9
1,35
0,15
1,04
-1,01
-1,47
-1,91
-0,78
-0,58
-1,51
0,23
-0,58
-0,42
0,06
-1,06
-0,75
-1,14
-0,82
0,03
-0,17
0,72
-1,27
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Número
Item
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
47
48
49
50
51
52
53
54
55
56
58
59
60
PRUEBA UNO
PRUEBA DOS
ITEMS COMUNES
Error
Error
Error
Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Reescalamiento
Estándar
Estándar
Estándar
-0,82
-0,85
-1,27
-0,58
0,46
-0,52
-2,43
-0,55
0,56
-0,13
-0,55
0,61
0,46
0,51
-1,24
-0,45
-1,21
0,07
0,97
-0,38
0,72
1,53
0,9
-0,38
-0,31
0,15
0,07
-0,2
0,18
0,18
0,18
0,18
0,22
0,18
0,22
0,18
0,23
0,19
0,18
0,23
0,22
0,22
0,18
0,19
0,18
0,2
0,26
0,19
0,24
0,32
0,25
0,19
0,19
0,2
0,2
0,19
0,97
1,04
1,05
1
1,08
0,98
0,96
0,98
1,15
0,99
1,15
1,02
1,09
1
1,01
1,01
1,07
1,06
1,01
1,03
1,08
1,02
1,06
1,07
1,03
1,1
1,04
1,01
0,97
1,02
1,05
0,99
1,29
0,96
0,91
0,96
1,35
0,98
1,17
1,05
1,25
1,06
1
1,04
1,06
1,07
0,95
1,03
1,21
1,04
1,11
1,1
1,05
1,16
1,14
1,01
-0,27
-0,05
0,07
0,46
1,18
0,19
0,2
0,2
0,22
0,28
1,03
0,91
0,93
1
0,94
1,02
0,86
0,86
0,96
0,77
0,97
-0,2
-0,23
14
0,26
0,19
0,19
1,02
1
0,96
0,98
0,98
0,94
-0,82
-0,85
-1,27
-0,58
0,46
-0,52
-2,43
-0,55
0,56
-0,13
-0,55
0,61
0,46
0,51
-1,24
-0,45
-1,21
0,07
0,97
-0,38
0,72
1,53
0,9
-0,38
-0,31
0,59
-0,04
-0,19
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
Número
Item
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
PRUEBA UNO
PRUEBA DOS
ITEMS COMUNES
Error
Error
Error
Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Reescalamiento
Estándar
Estándar
Estándar
0,07
-0,42
-0,13
0,32
0,72
-0,98
0,23
-1,87
-0,01
0,72
-0,01
0,56
0,28
1,53
0,51
0,32
-0,09
0,15
1,53
-0,45
-0,13
-0,2
0,67
0,03
1,64
0,72
0,32
0,07
1,88
0,28
0,2
0,19
0,19
0,21
0,24
0,18
0,21
0,2
0,2
0,24
0,2
0,23
0,21
0,32
0,22
0,21
0,19
0,2
0,32
0,19
0,19
0,19
0,23
0,2
0,33
0,24
0,21
0,2
0,37
0,21
1,12
0,96
1,03
1,1
1,1
1,12
1,06
0,94
1,09
1,1
0,98
1,01
1,02
1,01
1,06
0,97
0,96
1
0,99
0,84
0,92
0,95
0,97
1,02
1
0,95
1
0,99
1,04
1,04
1,24
0,96
1,04
1,14
1,32
1,13
1,12
0,92
1,16
1,21
0,95
1
1
0,92
1,11
0,9
0,93
0,95
0,86
0,8
0,86
0,91
0,86
0,97
0,89
0,81
0,95
0,91
1,15
1,02
-1,89
-1,51
0,46
0,37
0,32
-0,78
0,28
0,72
0,46
-0,65
-0,12
-1,97
0,97
1,18
-1,11
0,2
0,19
0,22
0,21
0,21
0,18
0,21
0,24
0,22
0,18
0,19
0,2
0,26
0,28
0,18
1
0,93
1,04
1,04
1,06
1,07
1
1,02
1,06
1,01
1,06
0,93
1,05
1
1
0,96
0,91
1,2
1,03
1,11
1,07
1,07
1,11
1,07
1
1,08
0,9
1,13
1,02
0,99
0,32
0,24
0,21
0,21
1,01
1,01
0,99
1,01
15
-0,23
-0,01
-0,05
1,04
1,75
-0,71
0,07
-2,1
-0,01
0,19
0,2
0,2
0,26
0,35
0,18
0,2
0,21
0,2
1,06
1,01
1,03
1,09
1,01
1,02
1,07
1
1
1,08
1,01
1,03
1,37
1,07
1,04
1,08
1
1,04
0,97
0,11
-0,09
1,64
-0,3
-0,37
-0,05
0,51
0,46
-0,37
0,11
-0,55
0,28
0,19
1,11
0,37
0,19
0,24
1,11
0,24
0,26
0,2
0,19
0,33
0,19
0,19
0,2
0,22
0,22
0,19
0,2
0,18
0,21
0,21
0,27
0,21
0,21
0,21
0,27
0,21
1,04
0,99
0,95
1,05
1
0,96
0,95
1
0,96
0,87
0,97
0,98
0,94
1
0,99
1,02
0,95
1
1
0,96
1,1
1
0,95
1,27
0,97
0,93
0,93
1
0,89
0,83
0,92
0,96
0,88
0,97
0,93
1,03
0,9
0,97
0,98
0,92
-0,05
-0,19
-0,06
0,71
1,26
-0,82
0,18
-1,96
0,02
0,72
0,51
0,36
0,12
1,61
0,13
0,00
-0,04
0,36
1,02
-0,38
0,02
-0,35
0,50
0,14
1,40
0,57
0,28
0,18
1,52
0,29
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
PRUEBA UNO
PRUEBA DOS
ITEMS COMUNES
Número
Error
Error
Dificultad Error Estándar INFIT OUTFIT Dificultad
INFIT OUTFIT Dificultad
INFIT OUTFIT Reescalamiento
Item
Estándar
Estándar
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
-0,09
0,03
0,03
1,76
0,37
0,97
1,26
0,78
-0,17
0,67
0,46
1,18
0,97
-0,38
0,61
0,07
0,23
0,19
0,78
-0,48
-0,24
0,32
1,04
0,51
0,9
0,28
0,19
-0,31
1,64
-0,13
0,07
0,78
0,46
-0,85
0,56
-0,55
0,51
-0,09
-0,82
-1,01
0,19
0,2
0,2
0,35
0,22
0,26
0,29
0,24
0,19
0,23
0,22
0,28
0,26
0,19
0,23
0,2
0,21
0,21
0,24
0,18
0,19
0,21
0,26
0,22
0,25
0,21
0,21
0,19
0,33
0,19
0,2
0,24
0,22
0,18
0,23
0,18
0,22
0,19
0,18
0,18
0,93
0,97
0,98
0,97
1
0,98
0,99
0,98
0,91
0,91
0,96
0,98
1,03
0,97
1,01
0,99
0,95
0,92
1,05
0,93
0,97
0,97
1,01
1
0,95
0,93
0,95
0,83
0,99
0,94
0,88
1,01
0,95
0,86
1
0,89
0,97
0,89
0,87
0,8
0,87
0,92
0,92
0,9
0,97
0,93
0,88
0,9
0,86
0,77
0,88
0,83
1
0,93
0,94
0,93
0,91
0,85
1,05
0,89
0,91
0,92
1
0,91
0,83
0,84
0,88
0,77
0,82
0,87
0,81
0,93
0,87
0,84
0,92
0,86
0,89
0,83
0,85
0,78
0,28
0,46
-0,2
0,19
-0,23
0,28
-0,58
-0,23
1,34
-0,01
0,9
-0,12
-1,77
-0,37
0,56
1,26
0,21
0,22
0,19
0,21
0,19
0,21
0,18
0,19
0,3
0,2
0,25
0,19
0,2
0,19
0,23
0,29
1,11
1,02
0,99
1,03
1,03
1
1,06
1,05
0,99
1
1,03
0,98
1
1,04
1,01
0,99
1,22
1,09
0,97
1,03
1,04
1,04
1,07
1,09
1,03
1,01
1,05
0,97
0,97
1,06
1,05
0,91
-0,01
0,15
-0,2
-0,05
0,67
-0,37
0,2
0,2
0,19
0,2
0,23
0,19
1,06
1,02
1,07
1,04
1,06
1,03
1,1
1,07
1,09
1,07
1,11
1,02
-0,71
0,42
0,62
-0,27
0,51
0,11
0,24
0,15
0,32
-0,05
-0,2
-0,84
-0,81
-0,27
-0,3
0,18
0,22
0,23
0,19
0,22
0,2
0,21
0,2
0,21
0,2
0,19
0,18
0,18
0,19
16
0,19
0,97
1,01
1,06
1
0,98
1,02
1,09
0,97
1,06
1,06
1,06
1,08
1,04
0,96
1,04
0,96
0,99
1,07
1,04
0,99
1,09
1,14
0,95
1,12
1,1
1,06
1,07
1,04
0,94
1,06
0,11
1,26
0,97
-0,71
-0,16
0,2
0,29
0,26
0,18
0,19
0,94
1,03
0,98
0,92
0,95
0,9
1,02
0,86
0,9
0,92
-0,48
0,9
0,28
0,28
0,24
-0,01
-1,41
0,56
-1,01
0,46
-0,71
-1,31
-1,31
0,18
0,25
0,21
0,21
0,21
0,2
0,19
0,23
0,18
0,22
0,18
0,18
0,18
0,91
0,97
0,94
0,98
1,01
0,98
0,88
0,98
0,91
0,96
0,95
0,88
0,88
0,89
0,87
0,87
0,92
0,98
0,95
0,88
0,92
0,91
0,88
0,94
0,86
0,87
-0,09
0,03
0,03
1,76
0,37
0,57
1,29
0,90
-0,41
0,28
0,46
1,18
0,97
-0,38
0,61
0,07
0,23
0,19
0,78
-0,48
-0,24
0,32
1,04
0,51
0,90
0,28
0,19
-0,37
1,30
0,10
0,20
0,54
0,25
-1,10
0,59
-0,75
0,51
-0,37
-1,04
-1,13
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
ANEXO 2
CONVERSION DE LA HABILIDAD A PUNTAJES T
PUNTAJES T
PUNTAJE PRUEBA PRUEBA INDICE
DIRECTO
UNO
DOS
D
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
19
25
28
30
32
33
34
35
35
36
37
37
38
38
39
39
39
40
40
40
41
41
41
42
42
42
19
25
28
30
32
33
34
35
35
36
37
37
38
38
39
39
39
40
40
41
41
41
42
42
42
42
-0,063
-0,084
-0,092
-0,110
-0,108
-0,114
-0,119
-0,123
-0,127
-0,119
-0,121
-0,124
-0,126
-0,129
-0,130
-0,119
-0,120
-0,136
-0,124
-0,125
-0,126
-0,113
-0,129
-0,115
-0,115
-0,117
PUNTAJES T
PUNTAJE PRUEBA PRUEBA INDICE
DIRECTO
UNO
DOS
D
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
42
43
43
43
43
44
44
44
44
45
45
45
45
45
46
46
46
46
46
47
47
47
47
47
48
48
43
43
43
43
44
44
44
44
45
45
45
45
45
46
46
46
46
46
47
47
47
47
47
48
48
48
17
-0,118
-0,103
-0,104
-0,104
-0,106
-0,106
-0,106
-0,091
-0,108
-0,093
-0,108
-0,093
-0,094
-0,078
-0,078
-0,079
-0,079
-0,079
-0,079
-0,079
-0,079
-0,080
-0,080
-0,064
-0,064
-0,064
PUNTAJES T
PUNTAJE PRUEBA PRUEBA INDICE
DIRECTO
UNO
DOS
D
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
48
48
48
49
49
49
49
49
49
50
50
50
50
50
50
51
51
51
51
51
52
52
52
52
52
52
48
48
48
49
49
49
49
49
50
50
50
50
50
50
51
51
51
51
51
51
52
52
52
52
52
53
-0,048
-0,065
-0,065
-0,049
-0,049
-0,049
-0,049
-0,049
-0,032
-0,049
-0,032
-0,032
-0,032
-0,032
-0,016
-0,032
-0,032
-0,016
-0,016
-0,016
-0,016
0,000
-0,016
-0,016
0,000
0,000
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
PUNTAJES T
PUNTAJE PRUEBA PRUEBA INDICE
DIRECTO
UNO
DOS
D
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
53
53
53
53
53
54
54
54
54
54
55
55
55
55
55
56
56
56
56
57
57
57
57
58
53
53
53
53
53
54
54
54
54
54
55
55
55
55
56
56
56
56
56
57
57
57
57
58
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,016
0,016
0,016
0,016
0,031
0,015
0,015
0,031
0,030
0,030
0,030
0,030
0,030
0,029
0,029
0,044
18
PUNTAJES T
PUNTAJE PRUEBA PRUEBA INDICE
DIRECTO
UNO
DOS
D
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
58
58
58
59
59
59
60
60
60
61
61
61
62
62
63
63
64
65
65
66
67
68
70
72
75
58
58
58
59
59
59
60
60
60
61
61
62
62
63
63
64
64
65
66
67
68
70
72
75
81
0,029
0,043
0,029
0,028
0,042
0,028
0,028
0,027
0,027
0,027
0,026
0,013
0,013
0,013
0,000
-0,012
-0,023
-0,034
-0,055
-0,085
-0,111
-0,161
-0,245
-0,433
-0,635
2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa
CURRICULUM
Mtra. Olga Rosalba
Rodríguez Jiménez
Psicóloga de la Universidad Nacional de Colombia con Maestría en Educación
de la Pontificia Universidad Javeriana.
Investigadora, docente y asesora en Psicometría y métodos cuantitativos en
psicología y educación, con énfasis en la construcción y análisis estadístico
de instrumentos de medición y evaluación del aprendizaje.
Docente universitaria en el Departamento de Picología de la Universidad
Nacional de Colombia.
Ha intervenido en varios proyectos de extensión y de investigación en
instituciones educativas, Secretarías de Educación de Colombia y
asociaciones de profesionales colombianos, para el análisis psicométricos de
las pruebas nacionales ECAES.
Cuenta con numerosos artículos técnicos y de divulgación.
Descargar