Oral Presentations. IX Seminar of Applied Statistics - IASI . "Statistics in Education and Education in Statistics". 7 to 10 July 2003 . IMPA – Instituto de Matemática Pura e Aplicada. Rio de Janeiro – Brasil. Evaluación del Rendimiento Escolar en el Perú: Aspectos Metodológicos Oscar Millones omillon@pucp.edu.pe Pontificia Universidad Católica del Perú Jorge Luis Bazán jbazan@ime.usp.br Universidad de São Paulo - Brasil 1. Introducción En este trabajo se presenta una breve descripción sobre los aspectos metodológicos de las evaluaciones del rendimiento escolar en el Perú, reflexionando sobre los modelos estadísticos empleados. En el Perú, en 1996 se creó la Unidad de Medición de la Calidad Educativa (UMC) como la instancia técnica del Ministerio de Educación, responsable de crear y consolidar el sistema de evaluación. Hasta la fecha la UMC ha conducido tres evaluaciones nacionales del rendimiento escolar. En 1996, en 1998 y en el año 2001. Cada evaluación ha contemplado la incorporación de diversas herramientas estadísticas acorde con la evolución natural de las metodologías presentes en los sistemas de medición del rendimiento en América Latina, tanto en el Muestreo, evaluación psicométrica de los instrumentos, y los modelos de análisis de factores asociados. En el Muestreo se ha pasado de poblaciones objetivo urbanas a poblaciones que incorporan escuelas rurales y bilingues logrando un marco muestral cada vez más comprehensivo. En la evaluación psicométrica se ha ido incorporando la teoría de respuesta al item (Baker, 1992, De Andrade, 2001) a las metodologías de análisis clásico de los items (Lord y Novick, 1968). En el Perú se ha usado el Modelo de Rasch, primero como escala para presentar puntajes que sea alternativa a la escala de porcentajes en un modelo de normas y luego, haciendo uso de las bondades del modelo, para crear grupos de desempeño en el contexto de una evaluación por criterios. Igualmente en la elaboración 1 de modelos de factores asociados se ha pasado de modelos asociacionistas y de correlaciones múltiples o multivariados, como Modelos de Regresión, Análisis Discriminante, Análisis Factorial, Factorial de Correspondencia y Modelos de estructura de Covariancia (ver Hair et al, 1999) a Modelos Multinivel (Goldstein, 2002). El énfasis del trabajo está centrado en la evaluación de 1998 (Crecer 1998) que los autores conocen más de cerca. 2. La evaluación en 1998 La evaluación del rendimiento en el Perú en 1998 fue una evaluación del rendimiento dentro del esquema de evaluación de Normas diseñado muestralmente. La evaluación buscaba obtener resultados del rendimiento de los escolares en diferentes grados educativos y niveles, y explicarlo en función a la información obtenida de las escuelas (profesores de aula y directores de la escuela), padres de familia y de los propios estudiantes. Muestra Las pruebas de 1998 se aplicaron a una muestra representativa de escuelas polidocentes completas urbanas del Perú (escuelas urbanas de primaria o secundaria que cuentan con todos los grados y con profesores diferentes por grado). En el nivel de educación primaria (6 grado) y secundaria (5 grado) se incluyeron aproximadamente 17000 estudiantes en los grados evaluados. Los grados corresponden en primaria a cuarto y sexto, y en secundaria a cuarto y quinto de secundaria. La muestra representa aproximadamente un 58% del alumnado nacional. El nivel de representación que es suficiente como para hacer conclusiones sobre este segmento con una precisión mayor del 95% de confiabilidad y con errores de estimación no mayores a 5%. El estudio, pues, excluye la población nacional rural y urbana unidocente. El diseño muestral (Calderón et al, 2002) incluye conjuntamente muestreo estratificado y de conglomerados (de escuelas). Asimismo, se combinaron los criterios de gestión (escuela estatal o no estatal), región y departamento1 para formar los estratos. Dentro de éstos, se seleccionaron conglomerados (de escuelas) en forma proporcional a sus tamaños. Desde el punto de vista de la selección, el muestreo empleado fue bietápico. Las unidades primarias de muestreo (UPM) fueron las escuelas y las unidades de muestreo de la segunda etapa (USM) fueron los alumnos de las mismas. En la primera etapa, y en cada estrato, se seleccionaron UPMs o 2 escuelas. En la segunda etapa, en cada estrato y en cada escuela seleccionados, se seleccionaron los alumnos. Para los efectos de los cálculos agregados y cálculos de los promedios de los puntajes se usaron las ponderaciones correspondientes con el fin de corregir la no proporcionalidad respecto de los tamaños de los estratos2 del universo. Debido al diseño de muestreo complejo de la muestra, las estimaciones del error estándar con las fórmulas del muestreo aleatorio simple no eran recomendables a nivel de alumnos pero sí a nivel de escuelas. Para una estimación del error estándar alternativa a las fórmulas correspondientes del diseño se usó métodos de remuestreo como Jacknife y Bootstrap sobre la base de escuelas (ver Farro, et al, 2002), y fue desarrollada empleando el software Wesvar y programas propios implementados en Splus. Instrumentos Las pruebas nacionales crecer 98 son pruebas de selección múltiple basadas en el modelo de normas (Bazán, J. y Millones, O., 2002 a). El siguiente cuadro resume los contenidos de las pruebas para cada grado y nivel educativo. Cuadro 1. Pruebas empleadas en CRECER 1998 Primaria # de Tiempo ítemes prueba 4to de primaria: Secundaria # de Tiempo ítemes prueba 4to de Secundaria Comunicación Integral 30 60 Lenguaje y Literatura 38 60 Lógico Matemática 30 75 Matemática Forma 1 25 60 Ciencia y Ambiente 30 60 Matemática Forma 2 25 60 Personal Social 27 60 6to de Primaria: 5to de Secundaria Lenguaje 31 60 Lenguaje y Literatura 38 60 Matemática 30 75 Matemática Forma 1 25 60 Ciencias Naturales 30 60 Matemática Forma 2 25 60 Ciencias Hist- Sociales 30 60 3 Dado que el uso principal de las pruebas es el de comparar los resultados entre grupos relevantes, cualquier transformación monótona sobre los puntajes obtenidos (suma de los aciertos de las preguntas) a una nueva escala resulta apropiada para los fines de comparación. Por ello, para la variable rendimiento de los alumnos en las pruebas nacionales se usó la escala de Rasch. El modelo de Rasch postula que la relación entre el rendimiento y la dificultad de una pregunta sigue una función que permite obtener la probabilidad de acertar una pregunta determinada para un rendimiento específico (Baker, 1992, Andrade et al, 2001). La escala empleada es una estimación de las habilidades de los alumnos bajo el modelo de Rasch. Sin embargo, es importante anotar que en las pruebas CRECER 98, sólo se empleó la escala como una transformación no lineal de los puntajes de las pruebas sin usar otras características e información generada por este modelo (ver Van der Linden y Hambleton, 1997).. El uso de la escala de Rasch es posible si se cumplen ciertas condiciones relativas a: a) el comportamiento de los alumnos durante las pruebas, b) las características de las pruebas y c) la aplicación misma. a) Respecto al comportamiento de los alumnos, se asume que los que saben las respuestas tienen más oportunidad de responder correctamente las preguntas que los que no las saben. Es decir, existe una correspondencia entre habilidad y rendimiento reflejada por la mayor probabilidad de acierto de los más hábiles. Otro aspecto sobre el comportamiento de los alumnos es la independencia de sus respuestas. Sobre esto hubo control para evitar interferencia entre alumnos al momento de la prueba por lo que se mantuvo estas condiciones. Verificaciones empíricas de estos supuestos se hicieron realizando el análisis de aleatoriedad de los puntajes de cada prueba (ver Bazán. y Millones, 2002b). b) Con respecto a las características de las pruebas, se verificó que ellas evaluaran el rendimiento del alumno de manera unidimensional (ver Bazán y Millones ,2002 a). Esto sugiere que una sola habilidad o un grupo de habilidades homogéneas sería suficiente para explicar la varianza de los puntajes de las pruebas. Esto fue evaluado mediante un análisis factorial de correspondencias. Adicionalmente, por construcción, las preguntas en una área fueron diseñadas para que midan sólo esta área de rendimiento. También se chequeó que la respuesta a una pregunta no fuese afectada por las respuestas a otras. c) Respecto a la aplicación de las pruebas, consideramos que los tiempos asignados a las pruebas fueron suficientes para su ejecución. Una evidencia de esto son las bajas tasas de no respuesta encontradas en las pruebas. Sólo en los casos de las pruebas de matemática en el cuarto y quinto grados de secundaria la no respuesta es más alta sin ser esta significativa. 4 Respecto a los puntajes recogidos, la escala transformada toma valores de 50 a 550 y corresponde a una transformación no lineal estandarizada con ponderaciones, con media 300 y varianza 50. La correlación entre esta escala transformada y la escala porcentual es muy alta en todas las pruebas (por encima de r=0.98) reflejo de que las posiciones relativas de ambas escalas son las mismas. Es interesante notar que cuando se quiere comparar entre áreas de rendimiento, la escala de Rasch tiene la ventaja de superar las limitaciones de una escala de porcentajes. La escala de Rasch permite saber qué grupos de alumnos han obtenido mayores o menores rendimientos, es decir una comparación relativa, de posición, respecto a un grupo de áreas pues éstas se presentan en una misma escala. 3 Modelos de Análisis Modelos de Análisis Psicométricos En la evaluación de 1998 se empleó el modelo de Análisis de Items Clásico (Lord e Novick, 1968) que incluye la Validez (correlación item-test), Dificultad, Discriminación e Indice de no respuesta. El examen de estos indicadores nos permitió concluir que en general las preguntas fueron elaboradas en forma óptima, se detectaron algunas excepciones.. Mayores detalles sobre estos resultados pueden ser revisados en Bazán y Millones (2002a y 2002b). Modelos de Análisis de Factores Asociados Los modelos usados en la Teoría de Respuesta al Item se especifican básicamente alrededor de la variable rendimiento educativo, cualquiera sea la definición de esta variable o su desagregación. Desde el punto de vista de la especificación de modelos para el análisis, se podría decir que son modelos simples, uniecuacionales y descriptivos en la medida que el rendimiento es explicado por parámetros que incluyen el nivel de dificultad, poder de discriminación y otros parámetros asociados a la misma variable dependiente. Excepto por los psicometristas, pocos investigadores están interesados en el estudio de los puntajes per-se. En los estudios sobre problemas educativos, el investigador explora o analiza un conjunto de factores asociados al rendimiento. Aunque se han empleado una serie de metodologías que van desde el análisis cuantitativo del tipo análisis de regresión múltiple (ver por ejemplo , Rivera, 1977; Schiefelbein y Heikkinen, 1991) hasta estrategias más cualitativas en la evaluación de logros académicos que inciden en aspectos sociales y culturales (ver por ejemplo Ansión et al. ,1998; León 5 y Stacheli, 2001). Los estudios cuantitativos, son relativamente escasos. En general, los resultados de aprendizaje se han ido afinando desde medidas gruesas de retención, repetición, y acceso hasta las medidas de rendimiento educativo mismo e indicadores de calidad. En el Perú los estudios de rendimiento educativo que se basan en información en gran escala son recientes y los reportes cuantitativos derivados de ellos son aun escasos. Como se ha descrito anteriormente, una razón es que el primer estudio de gran escala en el país fue hecho en 1996 en el área de rendimiento de matemáticas y los resultados sólo fueron difundidos ensayando algunos resultados en términos de correlaciones a nivel de porcentajes. En los estudios cuantitativos, bajo el esquema de regresión, el modelo básico es de la forma: y β x β1 . . . x β ε , 1i ki k i 0 i [3.1] donde yi es rendimiento educativo del alumno i x ki son k regresores o factores asociados ε i es el efecto de factores excluidos o disturbancias. 1 K son los k parámetros o efectos a estimar 0 es la constante de regresión Las hipótesis usuales en este modelo son que existen diferencias en el rendimiento educativo yi que son atribuidas a factores sociales, condiciones económicas o diferencias en las condiciones del proceso educativo. Al estudiar la naturaleza del “proceso generador de datos” del rendimiento educativo, es interesante notar que se incluyen variables de la escuela (material usado, infraestructura, características del profesor, del director, etc.) y variables del alumno y de su entorno familiar. Esta clasificación origina un procedimiento estándar para el recojo de la información (ver sección 2), donde se muestrea escuelas y familias. Un problema que esto origina es que estudiantes del mismo grupo, interactúan en un ambiente donde los efectos de variables externas (de la clase o escuela) son comunes al grupo. Al tratar de explicar las variaciones de rendimiento con base a la información recogida en estos estudios, se está desaprovechando la varianza potencial que existe entre los grupos o escuelas, al considerar el mismo valor de las variables de la escuela que se repite para cada alumno. Adicionalmente, esto lleva a una de las violaciones del supuesto de independencia de las observaciones. 6 Una estrategia para enfrentar este problema consiste en considerar un modelo de componentes de varianza (ver por ejemplo, Bryk y Raudenbush, 1992). En este esquema se reconoce que las disturbancias ε i en la ecuación [3.1] tienen en realidad un componente individual y otro de grupo. Los componentes individuales son independientes, mientras que los componentes de grupo son independientes entre los grupos. Esto define los modelos de multinivel, es decir, un nivel donde se explica el comportamiento de los estudiantes y otro nivel, el nivel de grupo, donde se modelan los factores del grupo o escuela, ver Goldstein (2002). Formalmente estos modelos tienen una jerarquía de estructura, de allí su denominación de Modelos Jerárquicos Lineales (o HLM) y son de la forma: y β x β ... x β ε , 0j 1ij 1j kij kj ij ij [3.2] donde y x ε es rendimiento educativo del alumno i en la escuela j ij kij ij son k regresores o factores asociados es el efecto de factores excluidos o disturbancias. 1j Kj son k parámetros o efectos a estimar 0j es la constante de regresión Es importante notar que, estadísticamente, las estimaciones 1 K en la ecuación [3.1] recogen solo los efectos de las variaciones intra grupo o nivel del alumno i. Si las diferencias entre grupos o nivel de escuela j son importantes es necesario considerar formalmente también la varianza entre estos grupos j. Los efectos de esta varianza adicional son recogidos por los coeficientes 1j Kj en la ecuación [3.2] que estimar adicionalmente estos nuevos efectos j. Una interpretación de estos efectos grupo consiste en considerar que cada grupo tiene una regresión propia y que los coeficientes de estas regresiones pueden variar entre los grupos. Si los efectos estimados en las variables factores que explican el rendimiento educativo son distintos entre grupos, es recomendable el empleo del HLM en su versión de efectos aleatorios. En la medida que los efectos entre los grupos sea homogénea, solo será necesario estimar un HLM en su versión de 7 coeficientes fijos. La metodología implícita en la ecuación [3.2] representa una mejora en la estrategia del empleo de regresión múltiple en los estudios de rendimiento de la ecuación [3.1]. Una primera aplicación importante del HLM con la información de CRECER 98 ha sido descrita en UMC (2001), relacionada al efecto del factor “escuela” en el rendimiento educativo en el área lógico-matemática en cuarto año de primaria. El argumento principal presentado es el ver si la característica extra grupo relacionada al tipo de gestión (estatal-no estatal, “efecto gestión”), es importante en explicar la varianza intra grupo del rendimiento de los alumnos de este grado. Partiendo de un “efecto gestión” inicial de diez puntos porcentajes a favor de las escuelas no estatales, el HLM, permitió “limpiar” estos efectos por controles sucesivos de variables, mayormente del niveles que están “arriba” del estudiante, como son región, procesos o agentes educativos y nivel socioeconómico de las escuelas, para llegar a un efecto final de solo 0.1 por ciento. Este resultado abre un debate interesente después que un estudio anterior (ver The World Bank, 1999), con información de la evaluación de rendimientos de 1996, estimó que un 54% de la variación del rendimiento de los alumnos es debida a diferencias de las escuelas. Otros Modelos de Análisis Si el foco de análisis deja de ser el rendimiento educativo, y ésta se vuelve una variable independiente o factor explicativo de otras variables, el panorama de investigación cambia en cuanto a la disponibilidad de estudios. En el área de Economía de la Educación se ha investigado ampliamente sobre el rol que juega en general la educación o en especial los factores cognitivos para explicar los salarios, la elección ocupacional y otras variables económicas, ver por ejemplo, Gertler (1992), Gertler y Glewwe (1990), Jacoby (1993), Parandeker (1999), Rodríguez (1993), Selden y Wasylenko (1995), Robles et al. (1997), Saavedra y Felices (1997), entre otros. En general, en estos trabajos, la variante en cuanto a la especificación de modelos es incluir la variable educación o rendimiento educativo como variable independiente para explicar otras variables. Investigaciones en este enfoque, proponen estimar los efectos de variables que incluyen nivel educativo, experiencia y origen étnico sobre los salarios o elección ocupacional. Se retoman los desarrollos de Hernstein y Murray (1994) sobre la hipótesis de la meritocracia consistente en afirmar que la habilidad es la base para el rendimiento productivo y otros productos sociales. 8 Como ejemplo podemos decir que los modelos son del tipo siguiente: Wti a i β Xit t εit , donde Wti es el salario hora por persona i en el año t a i es un puntaje de habilidad, escalar o vector es el (o los) efecto de la habilidad a estimar X it son factores educacionales (Capital Humano). t es el término de intercepto del año t. ε it es el término de error para el individuo i en el año t Otros tipos de aplicación combinan estudios de series de tiempo con información de corte transversal que usualmente proveen las encuestas de propósitos múltiples o encuestas de niveles de vida, LSMS (Living Standards Measurement Study Survey). Los modelos se especifican alrededor de resultados o logros educacionales básicos, que van desde, habilidades cognitivas básicas (analfabetismo, retención escolar), medidas más complejas (razonamiento matemático o verbal, habilidades técnicas especializadas) hasta logros complejos en términos de valores o normas de conducta, ver Glewwe (1999). Aplicaciones potenciales que aun no se han explorado en nuestro medio es cuando la variable dependiente es binaria (aprueba/desaprueba). Argumentos estadísticos extienden esta aplicación a modelos con aproximaciones de variables continuas (proporción de alumnos aprobados en la prueba) como variable dependiente. Es el caso de los modelos Probit y Logit y los llamados modelos de frecuencia (“Count Models”). Igualmente, está todavía por explorar las potencialidades de los modelos estructurales multiecuacionales tanto del tipo modelos de Ecuaciones Simultaneas, con variables no observables, ver Hair et al. (2002) y del tipo Vectores Autoregresivos, VAR., ver Redmount (2002) y Fedderke y Luiz (2002). De manera específica, con la información de rendimiento generado en 1998 se elaboraron diversos informes de corte más pedagógico (ver Rodríguez, J. y Vargas, S., 2002) que buscaban identificar 9 una serie de elementos significativos que ayuden a explicar el rendimiento escolar en el Perú. Este conjunto de informes aborda diversos ángulos y una serie de actores y temas que incluyen: “El currículo implementado como indicador del proceso educativo”, “Elaboración y aplicación del Proyecto de Desarrollo Institucional en los centros educativos de primaria y secundaria”, “Rendimiento y actitudes hacia la Matemática en el sistema escolar peruano”, “¿Qué piensan los docentes de sus alumnos?”, y “Para explicar las diferencias en el rendimiento en Matemática de cuarto grado en el Perú urbano: Análisis de resultados a partir de un modelo básico Desde el punto de vista metodológico y más bien estadístico se hizo uso desde estadísticas de comparación de medias paramétricas y no paramétricas, pasando por el análisis correlacional y presentación de porcentajes hasta elaboración de indicadores mediante el el análisis factorial de correspondencias múltiples, llamado también análisis de homogeneidad (HOMALS) o dual scaling, y el uso del HLM o modelo jerárquico lineal (Bryk y Raudensbush, 1992) 4. Perspectivas de Desarrollo Futuros La oportunidad de diferenciar efectos de niveles (de estudiantes y de escuelas) en los estudios de rendimiento abre muchas posibilidades para la implementación de políticas educativas y toma de decisiones en el sector educativo. El HLM representa un instrumento para poder seleccionar segmentos sensibles para el cambio y mejora del sistema educativo. Al diferenciar y estimar mejor los efectos de distintos segmentos del ámbito del estudiante, como son sus familias, variables escolares, del mismo proceso escolar, etc., será posible afinar objetivos específicos de política que puedan tener resultados más focalizados en el corto o mediano plazo en el sistema escolar. En el área de Economía de la Educación se ha investigado ampliamente sobre el rol que juega la educación y en especial los factores cognitivos (habilidad, destrezas y puntajes en test de inteligencia) para explicar los salarios, la elección ocupacional, y otras variables ver por ejemplo, Blackburn y Neumark (1993), Cameron y Heckman. (1996), Murnane et al. (1995), Caroll (1993), entre otros. Sin embargo muchas de las variables importantes para explicar diferencias en el salario entre obreros y empleados no son de naturaleza cognitiva. Aquí una variante es incluir la variable educación o rendimiento educativo y otras variables de actitud o vocacionales como variable independientes para explicar ingresos o productos sociales. 10 Actualmente la Unidad de Medición de Calidad Educativa del Perú se encuentra abocada a la publicación de resultados de la evaluación del 2001. En la dirección url http://www.minedu.gob.pe/mediciondelacalidad/2003/ pueden ser encontrados diversos informes considerando informes de resultados por cuartiles de desempeño, por niveles de Desempeño y de factores asociados. Los autores invitan a las personas interesadas a recabar mayor sobre esos informes en dicha dirección. Base de datos de la evaluación del 2001 así como de 1996 y 1998 se encuentran disponibles también y pueden ser usados por investigadores interesados en realizar sus propios análisis. La evaluación del 2001 fué una evaluación diferente de 1998, está basada en criterios y contempla el uso del Modelo de Rasch para la generación de niveles de desempeño en base a los puntos de corte identificados. Supone también la aplicación de muchas más preguntas por pruebas que en 1998 presentadas en un diseño de formas rotadas. Por otro lado, esta vez el sistema de muestreo es representativo de todos los estudiantes del país. En general, desde el punto de vista metodológico, las herramientas estadísticas no son sustancialmente diferentes de las introducidas en 1998. A diferencia de otros sistemas de evaluación de la región, el modelo psicométrico de las pruebas de rendimiento en el Perú se han identificado con el Modelo de Rasch antes que con el modelo de Teoría de Respuesta al Item o TRI. Algunos de los problemas en evaluación que pueden resolverse en el marco de la TRI y que no han sido todavía explorados en el Perú son: - tests computarizados que se adecuan al nivel de habilidad del evaluado (Test adapatativos) - el problema de equiparación entre diversas pruebas para realizar comparaciones pertinentes y adecuadas en el tiempo. Estudios longitudinales - Estudio de la diferenciabilidad de preguntas y pruebas con relación a grupos de interés para valorar posibles problemas de sesgo, - Formación de banco de preguntas - Estimación de la habilidad verdadera de los evaluados - Formacion de criterios de desempeño y formación de estándares Finalmente, todo esto supone nuevos propósitos para la evaluación del logro educativo. La aproximación a la interpretación de las pruebas que abre la mayoría de estas posibilidades es el desarrollo del modelamiento de la respuesta al ítem (TRI) al cual recientemente se está incorporando modelos multinivel como en Fox, J.-P. (2001). 11 REFERENCIAS Ansión J., Lazarte A., Matos S., Rodríguez J. y Vega-Centeno P. (1998) Educación: La mejor herencia. Lima: Fondo Editorial PUCP. Baker, F. (1992) . Item Response Theory: Parameter Estimation Techniques. New York : M. Dekker. Bazán, J. y Millones, J. (2002a). Evaluación psicométrica de las pruebas CRECER 98. Documento de trabajo. En Rodriguez, J. , Vargas, S. (eds). Análisis de los Resultados y Metodología de las Pruebas Crecer 1998. Documento de trabajo 13. Lima: MECEP-Ministerio de Educación. pp: 171195 Bazán, J. y Millones, J. (2002b). Evaluación psicométrica de las preguntas de las pruebas CRECER 98. Documento de trabajo. En Rodriguez, J. , Vargas, S. (eds.). Análisis de los Resultados y Metodología de las Pruebas Crecer 1998. Documento de trabajo 13. Lima: MECEP-Ministerio de Educación. Pgs. 141-170 Blackburn McKinley L. y Neumark D. (1993). Ommited Ability bias and the increase in the return to schooling, Journal of Labor Economics, v. 11(3), pp: 521-44. Bryck A. y Raudenbush S. (1992) Hierarchical Linear Models: Applications and data analysis methods. Advanced Quantitative Techniques in the Social Sciences 1. London: Sage Publications Calderón, Arturo, Farro, Ch. , Bazán J. (2002). Diseño muestral en la aplicación CRECER 98. En Rodriguez, J. , Vargas, S. (edits). Análisis de los Resultados y Metodología de las Pruebas Crecer 1998. Documento de trabajo 13. Lima: MECEP-Ministerio de Educación. Pgs. 109-130. Cameron S. V. Y Heckman J. (1996). The dynamics of educational attainment for Blacks, Whites, and Hispanics. Unpublished manuscript, Department of Economics, University of Chicago. 12 Caroll J.B. Human (1993) Cognitive abilities: A survey of factor-analytic studies. Cambridge: Cambridge University Press. Cawley J., Heckman J. Y Vytlacil E. (1996) Measuring the effects of Cognitive Ability on Choice occupation. Unpublished manuscript, Department of Economics, University of Chicago. De Andrade, D. , Tavares, H, da Cunha, R. (2000). Teoria da resposta ao item :conceitos e aplicações. São Paulo : ABE, 2000. Farro, Ch., Bazán, J., Torreblanca, A. y Millones, O. (2002). Estimación del Error Estándar en las pruebas Crecer 98. En Rodríguez, J. , Vargas, S. (eds.). Análisis de los Resultados y Metodología de las Pruebas Crecer 1998. Documento de trabajo 13. Lima: MECEP-Ministerio de Educación. pp:. 131-140. Fedderke J. y Luiz J. (2002). Production of educational output: Time-series evidence from socioeconomically heterogeneous populations –the case of South Africa. 1927-1993. Economic Development and Cultural Change. pp: 161- 187. Fox, J.-P. (2001). Multilevel IRT: A Bayesian perspective on estimating parameters and testing statistical hypotheses. Unpublished doctoral dissertation, Twente University, Enschede, Netherlands Goldstein H. (2002). Multilevel Statistical Models. Kendall's Library of Statistics 3. Gertler, P.(1992). The willingness to pay for education for daughters versus sons: Evidence from rural Peru. World Bank Economic Review, 6(1): 171-88. Gertler P. y Glewwe P. (1990). The willingness to pay for education in Developing Countries: Evidence from rural Peru. Journal of Public Economics 42(3):251-75. Glewwe P. (1999) Education. En Margaret Grosh y Paul Glewwe. Designing Household survey questionnaires for developing countries. Lessons from 15 years of the LSMS. Volumen 1, pp: 143175. Hair, J.F., Anderson, R.E., Tatham, R.l., & Black, W.C. (1999). Análisis Multivariante. Pearson Educación. Madrid. 13 Hernstein R. y Murray C. (1994) The bell curve. New York: Free Press. Jacoby, H. (1993) Borrowing constraints and progress through school: evidence from Peru. Review of Economics and Statistics 76(10): 151-60. León E. y Stacheli M. (2001). Cultura escolar y ciudadanía. Investigaciones etnográficas en Ayacucho y Lima. Tarea, 2001. Lord, F. y Novick, M. (1968). Statistical theories of mental test scores. Reading, MA: AdissonWesley Murnane R.J., Willett J.B., y Levy F. (1995). The growing importance of cognitive skills in wage determination. Review of Economics and Statistics, v. 77(2), pp: 251-266. Parandeker S., (1999) Income elasticity of demand for Education and Engel`s Curve. En The World Bank, Peru at crossroads. Challenges and opportunities for the 21st Century, Volume II: Background Notes and Appendices. Redmount E. (2002) Cyclical patterns in school attrition and attendance: A study in the labormarket behavior of children. Economic Development and Cultural Change, pp: 135-160. Robles H. Rodríguez J. y Abler D. (1997). What can we learn about rates of return to schooling before and after structural adjustment? The Mexican and Peruvian cases- Rodríguez J. (1993) Retornos Económicos de la Educación en el Perú. Documentos de Trabajo No. 113. Lima: Publicaciones CISEPA Rodriguez, J. , Vargas, S. (eds). Análisis de los Resultados y Metodología de las Pruebas Crecer 1998. Documento de trabajo 13. Lima: MECEP-Ministerio de Educación. Saavedra J. y Felices G. (1997) Inversión y la calidad de la educación pública en el Perú y su efecto sobre la fuerza de trabajo y la pobreza. Documento No. SOC97 – 104. Departamento de Programas Sociales y Desarrollo Sostenible, Banco Interamericano de Desarrollo, Washington D. C. 14 Selden T. y Wasylenko M. (1995) Measuring the distributional effects of public education in Peru. In D. Van de Walle y K. Nead, eds., Public spending and the poor: Theory and Evidence. Baltimore, M.D.:Johns Hopkins University Press. Rivera, I (1977) Los determinantes de la calidad de la calidad de la educación en el Perú. Un estudio del Programa ECIEL. Documento de trabajo. Lima: CISEPA. Schiefelbein E. Y Heikkinen (1991) Perú. Acceso, permanencia, repetición y eficiencia en la educación básica. OREALC. Mimeo. Santiago de Chile. The World Bank (1999) Peru education at crossroads. Challenges and opportunities for the 21st century. Report No. 19066-PE. Washington, The World Bank. UMC (2001) Efecto de la escuela en el rendimiento en lógico-matemática en cuarto grado de primaria. Boletín No. 8 de la Unidad de Medición de la Calidad Educativa, UMC, Ministerio de Educación. Lima. Van der Linden, W. Y Hambleton, R. (1997). Handbook of modern item response theory. Nueva York: Springer-Verlag. Visauta, B.: Análisis estadístico con SPSS para Windows. Madrid: McGraw-Hill, 1998. 1 El Perú tiene 24 departamentos y una provincia constitucional con ese rango 2 62 estratos contienen información y se forman del cruce de la gestión y región para cada departamento. 15