ISBN: 978-970-92251-2-9 EQUIPARACIÓN DE PUNTUACIONES CON TRI Y TCT EN UNA PRUEBA DE INGENIERÍA1 Olga Rosalba Rodríguez Jiménez Universidad Nacional de Colombia – IEIA El trabajo tiene como objetivo presentar los resultados de dos procedimientos de equiparación de puntuaciones uno basado en la TRI y el otro en TCT. La prueba utilizada fue la versión piloto del examen EXIM aplicado por Asociación Colombiana de Ingeniería. La muestra estuvo conformada por 261 estudiantes y se presentan los resultados del uso de cada método en la equiparación de dos formas de prueba. Se concluye que el método basado en modelos IRT específicamente en Rasch aporta mayor precisión, sin embargo se reconoce que el uso de uno u otro modelo debe hacerse en función de las necesidades específicas de quien aplica el examen y de la flexibilidad en el cumplimiento de los requerimientos de los modelos. 1 La autora agradece al Doctor Eduardo Silva Director Ejecutivo de la Asociación Colombiana de Facultades de Ingeniería quien autorizó el uso de esta información con fines investigativos. 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Introducción Cuando se realizan aplicaciones masivas de pruebas, contar con mútiples versiones de una prueba se hace necesario, la pregunta que se presenta entonces esta referida a la forma de hacer comparables los resultados de las mismas, es decir, garantizar que los resultados de una prueba que se usa para un mismo propósito en dos momentos distintos significan lo mismo. El procedimiento que se ha usado para este propósito se denomina equiparamiento. El equiparamiento hace referencia a los procesos estadísticos que se usan para ajustar los puntajes de las formas de una prueba de manera tal que puedan ser usados de manersa intercambiable, garantizando así su comparabilidad. Se considera como condición necesaria que las pruebas a ser comparadas sean similares en su contenido (Lord , 1980 citado por Harris y Crouse en 1993, hace énfasis en que la pruebas midan el mismo constructo) y en sus parámetros estadísticos. Navas (1996) menciona por ejemplo que para poder hacer una real equivalencia de puntajes se deben cumplir cuatro requisitos: medir el mismo constructo, invarianza en la población, simetría y equidad, esta última entendida como la posibilidad de intercambiar completamente los puntajes de una prueba con los de la otra. Este mismo autor señala que los pasos para realizar el proceso de equiparación deben ser: 1. Elección de un diseño para recoger datos 2. Recogida de datos 3. Selección del método 4. Determinación de la tabla de conversión 5. Evaluación de la equiparación Autores como Harris y Crouse (1993) señalan como pasos del equiparamiento los propiamente relacionados con el diseño y el método para hacer la comparación. En cuánto al diseño Kolen y Brennan (1995) señala que esencialmente se presentan los siguientes diseños para realizar el equiparamiento, a saber: a. Diseño de grupos al azar: implica la asignación al azar de cada grupo a las formas que van a ser equiparadas. b. Diseño de grupo simple: al mismo grupo de examinado se le aplican las dos formas de la prueba, primero la forma uno y luego la forma dos. c. Diseño de grupo simple con contrabalanceo: se hace la aplicación de las dos formas de la prueba al mismo grupo de examinados siguiendo un orden específico, a la mitad de los examinados se aplica la forma uno y luego la dos y a la otra mitad la forma dos y luego la uno. d. Grupos no equivalentes con ítems comunes: en este diseño las dos formas de la prueba tienen ítems en común y se administran a grupos diferentes de examinandos las dos formas. 2 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Cuando los ítems comunes contribuyen al puntaje total se considera interno, de lo contrario se denomina externo. Para esta último diseño es necesario tener en cuenta que los ítems comunes deben ser construidos con las mismas características de la prueba total (Shumacker, R, 2005) y con un porcentaje de ítems comunes cercano al 20% (Angoff, 1971, citado por Kolen y Brennan 1995). Se considera que este diseño podría presentar dificultades en el equiparamiento si las especificaciones de las pruebas cambian y si aparecen en posiciones considerablemente diferente al orden de las preguntas en las pruebas (Kolen y Brennan 1995). Después de hacer la recolección de los datos es importante elegir el método para hacer la transformación, la elección depende del marco en el cual se espera trabajar ya sea desde la Teoría Clásica de los Test o la Teoría de Respuesta al Ítem. Métodos basados en la Teoría Clásica de los Test (TCT) En este grupo se ubican los métodos lineales que pretenden una transformación lineal que consideran: a. Puntuaciones equiparadas a las que corresponden al mismo centil. b. Puntuaciones equiparadas a las que corresponden a la misma puntuación típica. c. Puntuaciones verdaderas equiparadas a las que corresponden al mismo nivel estimado de la característica evaluada por los test. Dentro de los métodos lineales se encuentran los de Levine, Braun-Holland, equipercentil y Tucker entre otros. A continuación se presenta el utilizado en el presente trabajo, el método de Tucker, el cual se basa en la regresión de los puntajes totales a partir de los puntajes de los ítems comunes, y en la varianza condicional estimada a partir los mismos. Este método usado en un diseño de ítems comunes exige que la naturaleza de la regresión sea lineal. Se considera un método adecuado cuando se cuenta con muestras pequeñas y se trabaja con puntajes observados. La construcción de la regresión lineal es σs (Y ) lys ( x) = [x − µs ( X )]+ µs (Y ) σs ( X ) Donde s indica que corresponde al estadístico de la población sintética, la cual constituye la combinación de la población uno y dos. µs ( X ) = µ1( X ) − w2γ1µ1(V ) − µ 2(V ) µs (Y ) = µ 2(Y ) − w1γ2 µ1(V ) − µ 2(V ) γ1 = σ ( X ,V ) σ 12 (V ) 3 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa γ2 = σ 2(Y , V ) σ 22 (V ) y W es el peso de la población sintética. Luego de contar con la ecuación de regresión, se expresan los puntajes de una prueba en función de la otra, y se calcula el error estándar, el cual se considera un índice útil que indica la cantidad de error de equiparamiento y se concibe como la desviación estándar de los puntajes igualados sobre réplicas hipotéticas de un procedimiento de equiparamiento en una muestra de una población de examinados y se define como la raíz cuadrada del error de varianza. Error de varianza es σ 2 (Y ) var lˆy ( Xi ) ≅ 2(1 − Ntot [ ] 2 [ ( X ,V ) + 1 − 4 ] 2 xi − µ ( X ) ( X ,V ) σ (X ) Métodos basados en la Teoría de Respuesta al Item (TRI) Estos métodos describen como las personas con diferentes niveles de habillidad responden a los ítems de una prueba (Zhu, 2001). Se considera una ventaja inicial de estos métodos la invarianza de los parámetros tanto de personas como de los ítems, lo que significa que a pesar de contestar diferentes pruebas una persona tendrá el mismo nivel de atributo. Además, los parámetros de las preguntas no dependen de la población, sin embargo en la práctica esto no ha sido del todo cierto (Zhu, 2001), lo que ha llevado a que desde la IRT se planteen métodos para garantizar la comparabilidad de los puntajes. Así la equiparación en modelos IRT requiere por lo menos tres pasos (Kolen y Brennan,1995): 1. Estimación de los parámetros. 2. Escalamiento o re-escalamiento de los parámetros a una escala IRT usando una transformación lineal. 3. Escala de puntajes, los puntajes en la nueva forma son convertidos a la de la vieja forma. Se considera que el equiparamiento con IRT tiene muchas ventajas sobre la forma tradicional de hacer equiparamiento dado que tiene más exactitud en los puntajes extremos de la escala, mayor flexibilidad a la hora de elegir las versiones previas de las pruebas, mayor facilidad en los distintos momentos de equiparamiento, menor grado de error. Adicionalmente, es posible hacer pre-equiparamiento permitiendo de esta manera preparar las tablas y escalas de conversión (Zhu, 2001). Uno de los métodos usados se basa en el modelo de Rasch, el cual se describirá dado que fue el utilizado en el presente trabajo debido al tamaño de la muestra. En el modelo de Rasch se asume que la discriminación es igual a 1 y la adivinanza es 0 (Kolen y Brennan 4 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa 1995). El equiparamiento basado en este modelo permite determinar la exactitud y la estabilidad de las escalas que se generan, entendiendo por exactitud, el grado en el que la habilidad estimada por una prueba es estadísticamente equivalente a la habilidad estimada con la otra y el grado en el cual una relación estable de equivalencia entre dos pruebas para una muestra puede ser duplicada en otra muestra, por estabilidad, (Zhu, 2001). El modelo de Rasch que permite hacer la calibración de las preguntas se expresa de la siguiente manera: pi (θ ) = 1 1+ e − D (θ −bi ) Donde θ = Habilidad b = Dificultad D = Constante del ítem i (1,7) e = 2.718 Después de realizar la calibración de los ítems para cada prueba se procede a realizar el reescalamiento el cual puede llevarse a cabo utilizando distintos métodos, uno de los cuales se conoce como el método media/sigma y media/media. El primero descrito por Marco en 1997 (Citado por Kolen y Brennan 1995) usa la media y la desviación estándar del parámetro b estimado a partir de los ítems comunes y el segundo descrito por loyd y Hoover en 1980 (Citado por Kolen y Brennan 1995) usa la media del parámetro a de los ítems comunes. El método de media/sigma se define de la siguiente manera: δTEST 2 − C = AδTEST 1 − C + B En donde δTEST 2 − C y δTEST 1 − C es la media de los ítems comunes de ambas pruebas, siendo A y B constantes. En el modelo de Rasch A y B son iguales de donde B sería igual a B = δTEST 1 − C − AδTEST 2 − C Luego de hacer el nuevo escalamiento de las pruebas es necesario determinar la exactitud y la estabilidad ambas estimadas a partir del índice D, que se expresa: D= ˆ1 − ˆ 2 σˆ 12 + σˆ 22 Donde ˆ corresponde a la habilidad estimada con las pruebas y σˆ el error de varianza respectivo. Se considera que los dos métodos descritos, Tucker y Rasch, funcionan de manera adecuada en el diseño de grupos no equivalentes con ítems comunes cuando se cuenta con muestras pequeñas y los ítems tienen similitudes en la dificultad. Se debe garantizar que los 5 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa ítems son representativos de la prueba y los grupos no difieren mucho en el nivel de atributo medido. A partir de lo planteado en este trabajo se pretende evaluar el equiparamiento de los puntajes de una prueba usando dos métodos distintos cada uno basado en una de las teorías psicométricas. METODO Muestra Tabla 1. Descripción de la muestra Prueba Número de Estudiantes 1 132 2 129 La muestra total de esta aplicación piloto estuvo conformada por 379 estudiantes, para el equiparamiento se presentan los resultados para dos formas de prueba. La instituciones participantes tanto de Bogotá como de fuera de ella, fueron: Universidad de Norte de Barranquilla, Pontificia Bolivariana de Montería y Medellín, Universidad de Nariño de Pasto, Universidad Tecnológica de Pereira, Universidad de Antioquia y de Bogotá, las universidades Católica, Escuela Colombiana de Ingeniería y Militar. Instrumento La prueba utilizada fue la versión piloto del Examen Intermedio de Ciencias Básicas para Ingeniería EXIM, consta de 130 preguntas y da cuenta de las cuatro áreas básicas para ingeniería: Matemáticas, Física, Química y Biología. Todas las preguntas dependen de un contexto y utilizan el formato de selección múltiple con única respuesta. Esta versión fue desarrollada y aplicada en el 2006. El análisis se realizó para 127 ítems en la TCT y 126 en IRT debido a dificultades de impresión o ausencia de variabilidad. Análisis de datos Toda la información fue realizada utilizando los programas SPSS versión 7.5, WINSTEPS y Excel 2003. Se desarrollaron los siguientes pasos: 1. Análisis psicométrico de las pruebas con TCT 2. Comprobación de la normalidad de los datos. 3. Comprobación de la unidimensionalidad para ajustar modelo Rasch. 4. Realización del equiparamiento con el modelo de Tucker y luego con el modelo de Rasch. Se realizaron previamente las verificaciones de linealidad y se garantizó la calidad de los ítems. 6 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa 7 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa RESULTADOS En las tablas 2 y 3 se presenta la información psicométrica de las pruebas con la Teoría Clásica de los Test, en primer lugar la información sobre la confiabilidad y luego sobre los descriptivos de los parámetros de los ítems. Tabla 2. Confiabilidad Prueba Uno Dos Prueba Coeficiente de confiabilidad Uno Dos ,85 ,80 Tabla 3. Resumen del análisis de ítems Estadístico Dificultad Discriminación Media Desviación Media Desviación 0,11 0,22 0,13 0,23 0,29 0,19 0,32 0,21 Tabla 4. Normalidad de los puntajes de las pruebas Prueba Uno Kolmogorov - Smirnov 1,025 (,244) Prueba Dos 0,809 (0,529) Valor entre paréntesis corresponde a la significación. Linealidad de la relación entre las pruebas y los ítems comunes 40 30 30 20 20 10 10 0 -10 0 20 40 60 80 100 V V 0 -10 0 P1 P2 8 10 20 30 40 50 60 70 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Gráfica 1. Diagrama de dispersión de La prueba uno con los ítems comunes Gráfica 2. Diagrama de dispersión de prueba dos con los ítems comunes Tabla 5. Descriptivos de las pruebas utilizados para el Método de Tucker prueba Uno Ítems comunes 1 prueba Dos Ítems comunes 2 n 132 132 129 129 Media Desviación Varianza Covarianza Correlación 39,19 12,16 147,76 77,90 0,90 15,26 7,11 50,56 38,91 10,85 117,63 59,68 0,87 15,91 6,32 39,97 Método Tucker Puntajes de Y estimados a partir de X con la siguiente ecuación de regresión Lˆ y ( s )( x) = (11.3873294 / 11.6380766)( x − 39.6956382) + 38.4241138 Tabla 6. Predicción del puntaje de la prueba dos (Y) a partir de la prueba uno ( X) Prueba Uno X 1 10 20 30 40 50 60 70 80 90 100 110 120 130 Prueba Dos Error Estándar Y 1 1,78 9 1,36 19 0,9 29 0,43 39 0,04 49 0,51 58 0,97 68 1,44 78 1,91 88 2,37 97 2,84 107 3,31 117 3,78 127 4,24 Modelo de Rasch La dificultad de la prueba uno cubre un rango entre –2.43 y 2.62 logits. La prueba dos cubre el rango entre -2.10 y 1.75 logits. La media de la dificultad en las dos pruebas fue cercana a cero y la desviación muy próxima a uno. Para la prueba uno los ítems 9 y 12 presentaron desajuste, mientras que ninguno presento esta condición en la prueba dos. Tabla 7. Descriptivos del parámetro dificultad para las pruebas 9 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Prueba Media Desviación Uno Dos 0,001 -0,040 0,893 0,716 Items Comunes 0,053 0,763 Todos los ítems fueron anclados a la prueba uno, para la conversión a la nueva escala se conservan los valores originales de la prueba uno para los ítems no comunes y para los ítems comunes el promedio del reescalamiento en la prueba dos con el valor de la prueba uno. El reescalamiento para los ítems comunes de la prueba dos fue realizado agregando al valor promedio de dificultad de los ítems comunes al valor de dificultad de cada ítem, en este caso 0,053. (En el anexo 1 se presenta la información numérica de los ítems). Después de este proceso, la media para el parámetro dificultad para la prueba uno fue de -0,01 con una desviación de 0,88 y para la dos 0,0044 con una desviación de 0,680. La habilidad o nivel de atributo de los evaluados expresada también en logits, se estimó con el modelo de Rasch, al comparar las medias y desviaciones y encontrarlas muy cercanas, se decide no hacer el reescalamiento. La media para la prueba uno es de -0,0002 logit y la desviación de 2,08 logits. La prueba dos tiene una media de -0,0002 y una desviación de 2,02 logits. Pese a lo anterior, para confirmar la exactitud de la estimación se calculó el índice D encontrando una media de -0,056 y una desviación de 0,086. Se presenta finalmente la conversión de la habilidad en escala T de McCall para las dos pruebas (Anexo 2). Discusión y Conclusiones Como se aprecia en los resultados con el método clásico es posible predecir los puntajes de la prueba dos a partir de la prueba uno. Se aprecia que los mayores niveles de error se encuentran en los puntajes de los extremos inferiores y superiores, en estos último siendo crecientes. En caso de utilizar la prueba dos debe asumirse que el puntaje varía mínimo en una y máximo en dos unidades. Respecto al uso del método se puede afirmar que su aplicación fue adecuada dado que la relación entre las pruebas y los ítems comunes es de naturaleza lineal, como se aprecia en las gráficas 1 y 2, y que adicionalmente los puntajes provienen de una distribución normal. En cuanto al escalamiento con el modelo de Rasch se encuentra que hacerlo para los ítems hace que en efecto la métrica de las dos pruebas sean aún más equivalentes, dado que hay más cercanía entre las medias y desviaciones estándar de las pruebas. Este procedimiento permite evidenciar que la prueba dos es un poco más difícil que la prueba uno. En el caso de la habilidad se encuentra que las dos pruebas difieren muy poco en sus descriptivos. La escala T permite apreciar que la equivalencia con los puntajes directos en las dos pruebas es igual; se observan diferencias entre una y dos unidades, siendo mayores las diferencias en los puntajes altos de la escala que siempre resultan más difíciles de estimar. Es de aclarar que se uso este modelo pese a que no se pudo comprobar la unidimensionalidad, sin embargo Kolen y Brennan (1995) señala que este es un modelo robusto a la violación de este supuesto. 10 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Es claro que los dos métodos se aplicaron contando con las condiciones psicométricas necesarias, así las dos pruebas fueron confiables y los ítems cumplían con los criterios estadísticos respectivos en cada modelo. A partir de los resultados se puede afirmar que el método basado en TRI es más preciso que clásico basado en la Teoría Clásica de los Test dado que las escalas presentan menor diferencia entre las pruebas . Finalmente vale la pena señalar como lo menciona Navas (1996) que si los test no difieren en dificultad, ni los grupos en nivel de habilidad los métodos clásicos funcionan bien. De igual modo cuando es posible ajustar modelos TRI los métodos basados en estos, también funcionan bien. 11 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa BIBLIOGRAFÍA Harris, D y Crouse, J. (1993). A study of crietria used in Equating. Applied measurement in education, 195-240. Kolen, M. y Brennan, R. (1995). Test equating; Methods and practices. New York: Springer. Navas, M. (1996). Equiparación de puntuaciones. En psicometría. Madrid: Editorial Universitas S.A. Schumacker, R. (2005). Test equating. Applied Measurement Associates. Zhu, W. (2001). An emprirical investigation of Rasch equating of motor function task. Adapted physical activity quartely, 72-89. 12 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa PRUEBA UNO Número Item 1 2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 PRUEBA DOS ITEMS COMUNES Error Error Error Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Reescalamiento Estándar Estándar Estándar 2,62 -1,68 -1,72 -1,31 -1,54 -1,04 -1,47 0,9 1,35 0,15 1,04 -1,01 -1,47 -1,91 -0,78 -0,58 -1,51 0,23 -0,58 -0,42 0,03 -1,47 -1,01 -1,14 -0,82 0,03 -0,17 0,72 -1,27 0,51 0,19 0,19 0,18 0,19 0,18 0,19 0,25 0,3 0,2 0,26 0,18 0,19 0,2 0,18 0,18 0,19 0,21 0,18 0,19 0,2 0,19 0,18 0,18 0,18 0,2 0,19 0,24 0,18 1,03 0,99 1,13 1,12 1,02 1,08 1,02 1,09 1,01 0,99 1,05 1,07 0,99 1 1 1,01 0,98 1,11 0,94 1,07 0,99 1,03 0,94 1,01 1,06 1,08 1,06 0,97 1 1,34 0,98 1,15 1,12 1,01 1,11 1,01 1,4 1,11 1,12 1,67 1,11 0,97 0,99 1 1,03 0,95 1,25 0,93 1,09 0,98 1,01 0,92 1 1,06 1,17 1,08 0,96 0,98 -0,88 0,62 -0,48 -0,81 -1,14 1,43 -0,09 -0,58 -0,51 0,07 0,62 -0,78 0,28 -0,2 0,18 0,23 0,18 0,18 0,18 0,31 0,19 0,18 0,18 0,2 0,23 0,18 0,21 0,19 0,95 1,02 1,01 0,95 0,98 0,99 1,01 0,99 0,96 1,04 1,05 0,92 0,94 1,03 0,95 1,28 1,09 0,98 1 0,87 1,1 1,03 0,94 1,19 1,12 0,93 0,89 1,04 0,03 -0,71 -0,55 13 0,2 0,18 0,18 1,01 1,08 1,07 1,01 1,1 1,07 2,62 -1,68 -1,72 -1,31 -1,54 -1,04 -1,47 0,9 1,35 0,15 1,04 -1,01 -1,47 -1,91 -0,78 -0,58 -1,51 0,23 -0,58 -0,42 0,06 -1,06 -0,75 -1,14 -0,82 0,03 -0,17 0,72 -1,27 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Número Item 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 47 48 49 50 51 52 53 54 55 56 58 59 60 PRUEBA UNO PRUEBA DOS ITEMS COMUNES Error Error Error Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Reescalamiento Estándar Estándar Estándar -0,82 -0,85 -1,27 -0,58 0,46 -0,52 -2,43 -0,55 0,56 -0,13 -0,55 0,61 0,46 0,51 -1,24 -0,45 -1,21 0,07 0,97 -0,38 0,72 1,53 0,9 -0,38 -0,31 0,15 0,07 -0,2 0,18 0,18 0,18 0,18 0,22 0,18 0,22 0,18 0,23 0,19 0,18 0,23 0,22 0,22 0,18 0,19 0,18 0,2 0,26 0,19 0,24 0,32 0,25 0,19 0,19 0,2 0,2 0,19 0,97 1,04 1,05 1 1,08 0,98 0,96 0,98 1,15 0,99 1,15 1,02 1,09 1 1,01 1,01 1,07 1,06 1,01 1,03 1,08 1,02 1,06 1,07 1,03 1,1 1,04 1,01 0,97 1,02 1,05 0,99 1,29 0,96 0,91 0,96 1,35 0,98 1,17 1,05 1,25 1,06 1 1,04 1,06 1,07 0,95 1,03 1,21 1,04 1,11 1,1 1,05 1,16 1,14 1,01 -0,27 -0,05 0,07 0,46 1,18 0,19 0,2 0,2 0,22 0,28 1,03 0,91 0,93 1 0,94 1,02 0,86 0,86 0,96 0,77 0,97 -0,2 -0,23 14 0,26 0,19 0,19 1,02 1 0,96 0,98 0,98 0,94 -0,82 -0,85 -1,27 -0,58 0,46 -0,52 -2,43 -0,55 0,56 -0,13 -0,55 0,61 0,46 0,51 -1,24 -0,45 -1,21 0,07 0,97 -0,38 0,72 1,53 0,9 -0,38 -0,31 0,59 -0,04 -0,19 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa Número Item 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 PRUEBA UNO PRUEBA DOS ITEMS COMUNES Error Error Error Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Reescalamiento Estándar Estándar Estándar 0,07 -0,42 -0,13 0,32 0,72 -0,98 0,23 -1,87 -0,01 0,72 -0,01 0,56 0,28 1,53 0,51 0,32 -0,09 0,15 1,53 -0,45 -0,13 -0,2 0,67 0,03 1,64 0,72 0,32 0,07 1,88 0,28 0,2 0,19 0,19 0,21 0,24 0,18 0,21 0,2 0,2 0,24 0,2 0,23 0,21 0,32 0,22 0,21 0,19 0,2 0,32 0,19 0,19 0,19 0,23 0,2 0,33 0,24 0,21 0,2 0,37 0,21 1,12 0,96 1,03 1,1 1,1 1,12 1,06 0,94 1,09 1,1 0,98 1,01 1,02 1,01 1,06 0,97 0,96 1 0,99 0,84 0,92 0,95 0,97 1,02 1 0,95 1 0,99 1,04 1,04 1,24 0,96 1,04 1,14 1,32 1,13 1,12 0,92 1,16 1,21 0,95 1 1 0,92 1,11 0,9 0,93 0,95 0,86 0,8 0,86 0,91 0,86 0,97 0,89 0,81 0,95 0,91 1,15 1,02 -1,89 -1,51 0,46 0,37 0,32 -0,78 0,28 0,72 0,46 -0,65 -0,12 -1,97 0,97 1,18 -1,11 0,2 0,19 0,22 0,21 0,21 0,18 0,21 0,24 0,22 0,18 0,19 0,2 0,26 0,28 0,18 1 0,93 1,04 1,04 1,06 1,07 1 1,02 1,06 1,01 1,06 0,93 1,05 1 1 0,96 0,91 1,2 1,03 1,11 1,07 1,07 1,11 1,07 1 1,08 0,9 1,13 1,02 0,99 0,32 0,24 0,21 0,21 1,01 1,01 0,99 1,01 15 -0,23 -0,01 -0,05 1,04 1,75 -0,71 0,07 -2,1 -0,01 0,19 0,2 0,2 0,26 0,35 0,18 0,2 0,21 0,2 1,06 1,01 1,03 1,09 1,01 1,02 1,07 1 1 1,08 1,01 1,03 1,37 1,07 1,04 1,08 1 1,04 0,97 0,11 -0,09 1,64 -0,3 -0,37 -0,05 0,51 0,46 -0,37 0,11 -0,55 0,28 0,19 1,11 0,37 0,19 0,24 1,11 0,24 0,26 0,2 0,19 0,33 0,19 0,19 0,2 0,22 0,22 0,19 0,2 0,18 0,21 0,21 0,27 0,21 0,21 0,21 0,27 0,21 1,04 0,99 0,95 1,05 1 0,96 0,95 1 0,96 0,87 0,97 0,98 0,94 1 0,99 1,02 0,95 1 1 0,96 1,1 1 0,95 1,27 0,97 0,93 0,93 1 0,89 0,83 0,92 0,96 0,88 0,97 0,93 1,03 0,9 0,97 0,98 0,92 -0,05 -0,19 -0,06 0,71 1,26 -0,82 0,18 -1,96 0,02 0,72 0,51 0,36 0,12 1,61 0,13 0,00 -0,04 0,36 1,02 -0,38 0,02 -0,35 0,50 0,14 1,40 0,57 0,28 0,18 1,52 0,29 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa PRUEBA UNO PRUEBA DOS ITEMS COMUNES Número Error Error Dificultad Error Estándar INFIT OUTFIT Dificultad INFIT OUTFIT Dificultad INFIT OUTFIT Reescalamiento Item Estándar Estándar 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 -0,09 0,03 0,03 1,76 0,37 0,97 1,26 0,78 -0,17 0,67 0,46 1,18 0,97 -0,38 0,61 0,07 0,23 0,19 0,78 -0,48 -0,24 0,32 1,04 0,51 0,9 0,28 0,19 -0,31 1,64 -0,13 0,07 0,78 0,46 -0,85 0,56 -0,55 0,51 -0,09 -0,82 -1,01 0,19 0,2 0,2 0,35 0,22 0,26 0,29 0,24 0,19 0,23 0,22 0,28 0,26 0,19 0,23 0,2 0,21 0,21 0,24 0,18 0,19 0,21 0,26 0,22 0,25 0,21 0,21 0,19 0,33 0,19 0,2 0,24 0,22 0,18 0,23 0,18 0,22 0,19 0,18 0,18 0,93 0,97 0,98 0,97 1 0,98 0,99 0,98 0,91 0,91 0,96 0,98 1,03 0,97 1,01 0,99 0,95 0,92 1,05 0,93 0,97 0,97 1,01 1 0,95 0,93 0,95 0,83 0,99 0,94 0,88 1,01 0,95 0,86 1 0,89 0,97 0,89 0,87 0,8 0,87 0,92 0,92 0,9 0,97 0,93 0,88 0,9 0,86 0,77 0,88 0,83 1 0,93 0,94 0,93 0,91 0,85 1,05 0,89 0,91 0,92 1 0,91 0,83 0,84 0,88 0,77 0,82 0,87 0,81 0,93 0,87 0,84 0,92 0,86 0,89 0,83 0,85 0,78 0,28 0,46 -0,2 0,19 -0,23 0,28 -0,58 -0,23 1,34 -0,01 0,9 -0,12 -1,77 -0,37 0,56 1,26 0,21 0,22 0,19 0,21 0,19 0,21 0,18 0,19 0,3 0,2 0,25 0,19 0,2 0,19 0,23 0,29 1,11 1,02 0,99 1,03 1,03 1 1,06 1,05 0,99 1 1,03 0,98 1 1,04 1,01 0,99 1,22 1,09 0,97 1,03 1,04 1,04 1,07 1,09 1,03 1,01 1,05 0,97 0,97 1,06 1,05 0,91 -0,01 0,15 -0,2 -0,05 0,67 -0,37 0,2 0,2 0,19 0,2 0,23 0,19 1,06 1,02 1,07 1,04 1,06 1,03 1,1 1,07 1,09 1,07 1,11 1,02 -0,71 0,42 0,62 -0,27 0,51 0,11 0,24 0,15 0,32 -0,05 -0,2 -0,84 -0,81 -0,27 -0,3 0,18 0,22 0,23 0,19 0,22 0,2 0,21 0,2 0,21 0,2 0,19 0,18 0,18 0,19 16 0,19 0,97 1,01 1,06 1 0,98 1,02 1,09 0,97 1,06 1,06 1,06 1,08 1,04 0,96 1,04 0,96 0,99 1,07 1,04 0,99 1,09 1,14 0,95 1,12 1,1 1,06 1,07 1,04 0,94 1,06 0,11 1,26 0,97 -0,71 -0,16 0,2 0,29 0,26 0,18 0,19 0,94 1,03 0,98 0,92 0,95 0,9 1,02 0,86 0,9 0,92 -0,48 0,9 0,28 0,28 0,24 -0,01 -1,41 0,56 -1,01 0,46 -0,71 -1,31 -1,31 0,18 0,25 0,21 0,21 0,21 0,2 0,19 0,23 0,18 0,22 0,18 0,18 0,18 0,91 0,97 0,94 0,98 1,01 0,98 0,88 0,98 0,91 0,96 0,95 0,88 0,88 0,89 0,87 0,87 0,92 0,98 0,95 0,88 0,92 0,91 0,88 0,94 0,86 0,87 -0,09 0,03 0,03 1,76 0,37 0,57 1,29 0,90 -0,41 0,28 0,46 1,18 0,97 -0,38 0,61 0,07 0,23 0,19 0,78 -0,48 -0,24 0,32 1,04 0,51 0,90 0,28 0,19 -0,37 1,30 0,10 0,20 0,54 0,25 -1,10 0,59 -0,75 0,51 -0,37 -1,04 -1,13 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa ANEXO 2 CONVERSION DE LA HABILIDAD A PUNTAJES T PUNTAJES T PUNTAJE PRUEBA PRUEBA INDICE DIRECTO UNO DOS D 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 19 25 28 30 32 33 34 35 35 36 37 37 38 38 39 39 39 40 40 40 41 41 41 42 42 42 19 25 28 30 32 33 34 35 35 36 37 37 38 38 39 39 39 40 40 41 41 41 42 42 42 42 -0,063 -0,084 -0,092 -0,110 -0,108 -0,114 -0,119 -0,123 -0,127 -0,119 -0,121 -0,124 -0,126 -0,129 -0,130 -0,119 -0,120 -0,136 -0,124 -0,125 -0,126 -0,113 -0,129 -0,115 -0,115 -0,117 PUNTAJES T PUNTAJE PRUEBA PRUEBA INDICE DIRECTO UNO DOS D 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 42 43 43 43 43 44 44 44 44 45 45 45 45 45 46 46 46 46 46 47 47 47 47 47 48 48 43 43 43 43 44 44 44 44 45 45 45 45 45 46 46 46 46 46 47 47 47 47 47 48 48 48 17 -0,118 -0,103 -0,104 -0,104 -0,106 -0,106 -0,106 -0,091 -0,108 -0,093 -0,108 -0,093 -0,094 -0,078 -0,078 -0,079 -0,079 -0,079 -0,079 -0,079 -0,079 -0,080 -0,080 -0,064 -0,064 -0,064 PUNTAJES T PUNTAJE PRUEBA PRUEBA INDICE DIRECTO UNO DOS D 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 48 48 48 49 49 49 49 49 49 50 50 50 50 50 50 51 51 51 51 51 52 52 52 52 52 52 48 48 48 49 49 49 49 49 50 50 50 50 50 50 51 51 51 51 51 51 52 52 52 52 52 53 -0,048 -0,065 -0,065 -0,049 -0,049 -0,049 -0,049 -0,049 -0,032 -0,049 -0,032 -0,032 -0,032 -0,032 -0,016 -0,032 -0,032 -0,016 -0,016 -0,016 -0,016 0,000 -0,016 -0,016 0,000 0,000 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa PUNTAJES T PUNTAJE PRUEBA PRUEBA INDICE DIRECTO UNO DOS D 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 53 53 53 53 53 54 54 54 54 54 55 55 55 55 55 56 56 56 56 57 57 57 57 58 53 53 53 53 53 54 54 54 54 54 55 55 55 55 56 56 56 56 56 57 57 57 57 58 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,016 0,016 0,016 0,016 0,031 0,015 0,015 0,031 0,030 0,030 0,030 0,030 0,030 0,029 0,029 0,044 18 PUNTAJES T PUNTAJE PRUEBA PRUEBA INDICE DIRECTO UNO DOS D 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 58 58 58 59 59 59 60 60 60 61 61 61 62 62 63 63 64 65 65 66 67 68 70 72 75 58 58 58 59 59 59 60 60 60 61 61 62 62 63 63 64 64 65 66 67 68 70 72 75 81 0,029 0,043 0,029 0,028 0,042 0,028 0,028 0,027 0,027 0,027 0,026 0,013 0,013 0,013 0,000 -0,012 -0,023 -0,034 -0,055 -0,085 -0,111 -0,161 -0,245 -0,433 -0,635 2ª Reunión Regional Norte, Centro América y Caribe de Evaluación Educativa CURRICULUM Mtra. Olga Rosalba Rodríguez Jiménez Psicóloga de la Universidad Nacional de Colombia con Maestría en Educación de la Pontificia Universidad Javeriana. Investigadora, docente y asesora en Psicometría y métodos cuantitativos en psicología y educación, con énfasis en la construcción y análisis estadístico de instrumentos de medición y evaluación del aprendizaje. Docente universitaria en el Departamento de Picología de la Universidad Nacional de Colombia. Ha intervenido en varios proyectos de extensión y de investigación en instituciones educativas, Secretarías de Educación de Colombia y asociaciones de profesionales colombianos, para el análisis psicométricos de las pruebas nacionales ECAES. Cuenta con numerosos artículos técnicos y de divulgación.