“Escalamiento Multidimensional “Pesado” (WMDS)” Beatriz Estévez García y José Luís Padilla García. Departamento de sociología. Universidad de Granada. Correo electrónico: Bestgar@ugr.es Teléfono de contacto: 679562510 Resumen La llegada de inmigrantes a las aulas es una realidad educativa que ha pintado un nuevo escenario con importantes retos educativos. Dicha mezcla entre alumnado nacional e inmigrante, es tema de debate, sobre todo por cómo el alumnado inmigrante puede llegar a influir en el rendimiento y actitudes escolares de los demás componentes del aula. Dicha influencia es conocida como “peer effect”. Su análisis requiere obtener evidencias de validez de los instrumentos de evaluación cuando se comparen alumnos inmigrantes y no inmigrantes. El presente trabajo tiene como objetivo principal analizar las propiedades métricas y la equivalencia de 6 preguntas seleccionadas del Cuestionario del Estudiante del Estudio PISA 2009 (Programme for International Student Assesment), que miden actitudes del ámbito escolar. Para ello, hemos utilizamos la base de datos del PISA. El análisis se basa en la utilización de la técnica de análisis estadístico Escalamiento Multidimensional “Pesado” (WMDS). Los resultados indican que la dimensionalidad de las escalas analizadas muestra diferencia para los tres grupos. Investigaciones futuras avanzarán el estudio del “efecto compañero” utilizando metodologías mixtas de investigaciones combinando métodos cuantitativos y cualitativos Palabras clave: Inmigración, “Peer effect”, PISA, actitudes, validez, equivalencia, Escalamiento Multidimensional “Pesado” (WMDS) 1 Introducción . La llegada de alumnado inmigrante en nuestras aulas ha sido uno de los hechos más relevantes que ha experimentado el sistema educativo español en los últimos años. Esta mayor presencia se hace aún más notable en los niveles no universitarios. El presente trabajo se engloba en un proyecto más amplio, que pretende estudiar si en los contextos educativos donde hay una mayor concentración de inmigrantes, se produce una influencia por parte de dicho alumnado sobre la consecución de objetivos actitudinales en el resto del alumnado. Este “problema” de investigación se conoce en la bibliografía con el nombre de “efecto compañero” o “peer effect” en la literatura anglosajona. Según Hoxby (2000) el “peer effect” es la forma en la que se influye el alumnado entre sí, modulado también por otros factores relacionados con la escuela, como el profesorado, las características del centro, o de la familia, el nivel educativo de los padres, el nivel socioeconómico, etc. La importancia del efecto de los compañeros- peer effects- radica en que, si existe, afecta de forma significativa al sistema educativo y en definitiva a las políticas educativas que se tengan que adoptar (Calero, 2009). Son muy numerosos los estudios realizados sobre actitudes del alumnado en el ámbito académico relacionándolas con variables socioeconómicas, nivel educativo de los padres, titularidad de la escuela, etc. (Hugalde, 2007). En cambio, los estudios que se han centrado en el vínculo de estas variables con la diversidad étnica y cultural del alumnado son más escasos. La concentración de alumnos inmigrantes en las escuelas puede tener consecuencias en la calidad educativa en la medida que los alumnos provenientes de la inmigración influyan significativamente en las actitudes académicas de los alumnos nativos, y viceversa. Los alumnos inmigrantes llegan al país de destino con diferentes niveles educativos, muchos no dominan la lengua del país de llegada, etc. Todo esto hace necesario recurrir a refuerzos educativos adicionales: profesorado para la adaptación lingüística (ATAL), políticas educativas encaminadas a la integración de menores inmigrantes, etc., (Álvarez de Sotomayor, 2011). 2 La influencia del “peer effect” en la consecución de los objetivos actitudinales en la escuela es el objeto del proyecto de investigación en el que se encuadra el presente estudio. “Actitudes” que vienen recogidas en la programación del curso, materializándose más concretamente en las unidades didácticas de cada una de las materias. Para estudiar el “peer effect” de forma sólida, es conveniente asegurar la calidad de las mediciones aportadas por los instrumentos de evaluación especialmente, en el caso de las variables actitudinales. Calidad que la Psicometría ha abordado tradicionalmente desde el estudio de la Fiabilidad y la Validez de las mediciones. Problemas de fiabilidad y validez en las evaluaciones podrían poner en duda los resultamos que obtengamos en la comparación entre estudiantes con diferentes antecedentes étnicos y/o culturales. Obtener evidencias sobre la fiabilidad y la validez permite inferir el grado de equivalencia logrado entre las evaluaciones de diferentes grupos. Con dichas evidencias evitamos incertidumbres y dudas. Podemos decir que la equivalencia y la validez se asocian con el nivel de “seguridad” con el que los resultados obtenidos por los diferentes grupos culturales pueden ser comparados (van de Vijver y Leung, 1997). A continuación, se introducirán brevemente los conceptos y contenidos comúnmente aceptados sobre los conceptos de “equivalencia” y “validez”, para enmarcar los objetivos del estudio. 2. Equivalencia Diferentes ciencias humanas, ha pretendido comprender mejor al ser humano, focalizando sus estudios desde diferentes perspectivas. A través de los mismos, Jensen (1980) y Eysenck (1984) propusieron la existencia de marcadas diferencias en las habilidades cognitivas de individuos de varios grupos culturales. A pesar de ello, en las últimas décadas se han producido importantes cambios que ha dado lugar a un sistema más homogéneo y conectado a nivel mundial, produciendo una importante mezcla cultural. De ahí que los estudios transculturales hayan sido y sean en la actualidad objeto de la actividad de numerosas investigaciones (Tanzer y Sim, 1999; van de Vijver y Poortinga, 1997). Con el tiempo, fue surgiendo la necesidad de investigación para desarrollar métodos eficaces para evaluar el grado para que los instrumentos de 3 medición son equivalentes a través de diferentes contextos y grupos culturales. Los estudios transculturales son “estudios empíricos de miembros de varios grupos culturales que han tenido diferentes experiencias que los conducen a diferencias predecibles y significativas en su conducta. En la mayoría de tales estudios, los grupos bajo estudio hablan diferentes lenguajes y son gobernados por unidades políticas diferentes entre sí" (Brislin, et al, 1973, p. 5). Para poder realizar una comparación transcultural objetiva en la que los resultados obtenidos por los diferentes grupos culturales sean comparables, es importante que tenga lugar un proceso de adaptación del instrumento y/o evaluación de su equivalencia entre los grupos objeto de la comparación, procesos que atienden no sólo aspectos idiomáticos, sino también culturales así como idiosincráticos de cada país. Esto nos muestra la necesidad de tener en cuenta los aspectos tanto sustantivos como metodológicos y psicométricos (Muñíz, 1996; Hambleton, 1994; Hambleton y Kanjee, 1994; Hambleton y Staler, 1996; Hambleton y Slater, 1997). Por tanto, en ese proceso de adaptación del instrumento adquiere una gran relevancia la evaluación de grado de equivalencia entre las diferentes versiones del test que se han desarrollado para atender los diferentes idiomas y culturas (Hambleton, 1994). Hullin (1987) propuso una definición de equivalencia ampliamente citada en la bibliografía: “si individuos con la misma cantidad de rasgos a ser estimados tienen diferente probabilidad de producir una respuesta específica al ítem cuando éste está en diversos idiomas, los ítems están sesgados o son no equivalentes” (p.138). La equivalencia ha sido cuestión de discusión y se han propuesto diferentes tipos de clasificaciones. A continuación vamos a centrarnos en exponer la clasificación de Tanzer y Sim (1999) que establecen cuatro niveles de equivalencia: de constructo, de contenido, ecológica y global de la medida. A continuación se define cada una de ellas: La equivalencia de constructo o equivalencia estructural tiene lugar cuando las propiedades psicométricas pueden extrapolarse a diferentes culturas, es decir, mide el mismo constructo aunque este opere de diferente manera en los diversos grupos. La equivalencia de contenido hace referencia a que el mismo comportamiento o características que posee el constructo es igual para todas las poblaciones que son de 4 nuestro interés. La equivalencia ecológica tiene que ver con la forma en la que se adecua un test a las diferentes poblaciones de interés. La equivalencia global de medida se obtiene cuándo: 1) se establecen la equivalencia de constructo, contenido y ecológica; 2) cuando la conexión entre los rasgos latentes y los resultados del test son idénticos en todas las poblaciones y; 3) se eliminan o minimizan aquellos factores que pudieran amenazar la validez del test. El grado de equivalencia condiciona la validez de las interpretaciones transculturales. Aunque las propiedades psicométricas de las diferentes versiones del test sean excelentes, esto no es una condición suficiente para asumir que las comparaciones transculturales son validas. La validez de las comparaciones supone que las mediciones aportadas por las diferentes versiones tienen el mismo “significado psicológico” para las personas a las que se han administrado. Cuando esto ocurre la variable esta “libre de sesgo” o disponemos de medidas “equivalentes” (Van de Vijver y Poortinga, 1997). Por su parte, el sesgo también juega un importante papel, puesto que este engloba el conjunto de factores que amenazan la validez de la interpretaciones “deseadas” sobre el contenido de las comparaciones transculturales (van de Vijver y Leung, 1997). 3. Validez. En la última edición de los Standards for Educational and Psychological Testing (APA, AERA y NCME, 1999), se dota a la validez de una gran importancia, definiéndola como “… la consideración más importante en la elaboración y evaluación de los tests” (p. 9). Dicha importancia atiende a la finalidad de adaptar los tests de forma que alcancen la garantía suficiente para la realización de comparaciones en los estudios transculturales. Las fuentes de evidencia sobre la validez son valoradas por los Estándares (APA, AERA, NCME, 1999) como estrategias ligadas a las interpretaciones deseadas de las puntuaciones. La enumeración de las fuentes de evidencias más relacionadas con las prácticas habituales durante la adaptación de instrumentos, se dan de forma explícita o implícita. En dicha enumeración se parte de la base de que la validez adquiere gran 5 importancia en todas las fases y actividades de adaptación de un test o cuestionario. A continuación las presentamos las categorías de validez de los Estándares, completadas con el tiempo por "Normas" (el nombre corto común del manual preparado en 1954 por la American Psychological Association, la American Educational Research Association, y el Consejo Nacional de Medición de la Educación) En “Normas” por primera vez, el concepto de "evidencia de validez" juega un papel clave en el proceso de validación. Para el desarrollo del concepto hay que agrupar las fuentes de validez en cinco categorías: Evidencias basadas en el contenido del test. Se trata de analizar las relaciones entre el contenido del test y el constructo que se pretende medir. Por contenido del test se hace referencia a “… los temas, palabras y formatos de los ítems, tareas o cuestiones que forman el test, así como a las instrucciones para los procedimientos de administración y puntuación". Evidencias basadas en la estructura interna. Según los Estándares "el análisis de la estructura interna de un test puede indicar el grado en que las relaciones entre los ítems del test y los componentes del test se ajustan al constructo sobre el cual se basan las interpretaciones de las puntuaciones del test”. Dentro de este tipo de evidencias se incluyen los estudios sobre el posible funcionamiento diferencial de los ítems para subgrupos identificables de personas. Funcionamiento diferencial de los ítems que se considera la prueba clave para asegurar la equivalencia métrica entre la versión original y la versión adaptada del test o cuestionario. Evidencia basada en la relación con otras variables. Esta fuente de evidencia integra un conjunto de relaciones del test con criterios que se espera que prediga el test y con otros instrumentos que miden constructos relacionados; es una de las fuentes de evidencia más prácticas. Se consideran variables externas: “… medidas de algún criterio que se espera prediga el test, así como relaciones con otros tests que se supone miden el mismo constructo, y con tests que miden constructos diferentes o relacionados” (p. 13). Evidencias sobre las consecuencias del uso del test. Esta fuente de evidencia muestra la conexión entre la última edición de los Estándares y el consenso actual sobre la validez: presta una gran atención durante el proceso de validación a las consecuencias previstas e imprevistas del uso del test. , así como la evaluación de la idoneidad del uso 6 de la prueba (Shepard, 1997), las implicaciones éticas asociadas con la interpretación de los resultados y las consecuencias sociales asociadas con el uso de la prueba (Messick, 1989). Las pruebas basadas en los procesos de respuesta, mediante el análisis teórico y empírico de los procesos de respuesta de los encuestados durante la prueba, la obtención de pruebas en el ajuste entre la construcción y el carácter detallado de la actuación o respuesta realmente puestos en práctica por los encuestados. 4. Informe PISA. El Estudio PISA (Programme for International Student Assessment-Programa para la Evaluación Internacional de los Alumnos-), es un estudio longitudinal que permite una evaluación internacional estandarizada y cuyo desarrollo se realiza conjuntamente con los países participantes. PISA es realizado por la Organización para la Cooperación y el Desarrollo Económico (OCDE) con una regularidad trienal. Comenzó a ponerse en marcha en 1997, con una muestra de 32 países. Desde entonces han participado en el año 2000, 43 países, en 2003, 41 países, en 2006, 57 países, en 2009, 65 países, en el Estudio PISA que se ha realizado el presente año 2012 engloba un total de 69 países, y para 2015 se prevé que se abarcarán más de 70 países. Cada Informe PISA supone un ciclo, en el cual se analiza en profundidad un área principal, a la cual se le destina dos tercios del tiempo de la prueba. Las otras áreas serán estudiadas de forma secundaria. En el año 2000 la principal área de conocimiento era la lectura, en 2003 las matemáticas, en 2006 las ciencias y en 2009 nuevamente la competencia lectora, aunque enfocado en un marco de la lectura renovado ya que incorpora competencias con el formato electrónico y profundiza más en el interés por la lectura y la metacognición. Centrado en las áreas de comprensión lectora, matemáticas y ciencias, el programa PISA aborda la evaluación del rendimiento educativo desde el innovador concepto de “competencia básica”, que se define como la capacidad de los estudiantes para extrapolar lo que han aprendido y aplicar sus conocimientos ante nuevas circunstancias, su relevancia para el aprendizaje a lo largo de la vida y su regularidad (Informe Español PISA 2006). De ahí que, la evaluación del rendimiento se 7 realice en alumnos de 15 años de edad cuando estos se encuentran finalizando el periodo de enseñanza obligatoria. En el estudio PISA 2009 participaron 62 países siendo evaluados entre 4500 y 10000 alumnos en cada país. Los alumnos responden a una prueba escrita cuya duración total es de 2 horas. La prueba incluye el denominado “cuestionario cognitivo” en el que en el PISA 2009 la competencia científica fue el área principal, aunque también se evaluaron la competencia lectora y la competencia matemática. Junto con el “cuestionario cognitivo”, la prueba del estudio PISA incluye un “cuestionario del estudiante”. El “cuestionario del estudiante” (CE) en el estudio PISA 2009 será el objeto sobre el que se centrará el presente proyecto de investigación. El presente estudio se centrará en el Estudio PISA 2009, y más concretamente en las escalas que miden actitudes por parte del alumnado en relación a la lectura. Cuando PISA alude a la fiabilidad se refiere, precisamente, a la consistencia y la precisión de las medidas realizadas. PISA también habla de validez ante los instrumentos que utiliza, garantizando que con los mismos se puedan obtener resultados comparables. De esta manera, vemos como nos encontramos ante un estudio transcultural cuando hablamos de comparar las respuestas de escalas entre alumnado inmigrante y no inmigrante, siendo por tanto el estudio PISA la herramienta. De esta forma, nuestro trabajo examina la equivalencia para determinar el grado en el que se podrán realizar comparaciones validas entre las puntuaciones en las escalas actitudinales del PISA entre el grupo de alumnos inmigrantes y el de no inmigrantes. 4.1. Actitudes en el Informe PISA 2009. PISA adopta una perspectiva “competencial” que pretende medir la capacidad del alumnado a la hora de hacer uso de conocimientos y destrezas aprendidas y practicadas en la escuela. Concretamente, en el Estudio PISA 2009 se centra en la competencia lectora, siendo esta medida cognitivamente y actitudinalmente. De esta forma se evalúa cómo los alumnos pueden hacer uso de sus destrezas lectoras para comprender e interpretar distintos tipos de material escrito y la actitud ante dicha materia, planteando cuestiones a los alumnos con objeto de conocer su motivación e interés por este área de conocimiento. Este aspecto ya había sido estudiado en PISA 2000, por lo que se permite su comparabilidad. 8 En el presente trabajo nos centraremos en el cuestionario del estudiante (CE), el cual responde al objetivo del estudio PISA 2009 de conocer elementos actitudinales hacia la lectura, aunque también engloba ítems que permiten conocer un ámbito más cognitivo, así como “indicadores contextuales” (e. g., país de nacimiento, curso, profesión del padre y de la madre, lengua predominante en el hogar, equipamiento cultural del hogar, etc.), que aportan información para interpretar y analizar los resultados de los alumnos en el “cuestionario cognitivo”. El CE es un cuestionario auto-administrado de papel y lápiz que incluye 44 preguntas agrupadas en 7 secciones. Varias de las preguntas son escalas psicológicas formadas por un variado número de ítems en formato de respuesta tipo Likert con cuatro alternativas de respuesta. Dichas escalas están diseñadas para medir un conjunto de constructos psicológicos “actitudinales” que responden al constructo global denominado “Aproximaciones del Estudiante al Aprendizaje”, donde se incluyen: “estrategias de aprendizaje auto-regulado”, “creencias de auto-eficacia en los contenidos”, “implicación futura en el estudio”, etc. Marsh, Hau, Artelt, Baumert y Peschar (2009) analizaron la equivalencia transcultural entre datos de 25 países participantes en el PISA 2003 a partir de las medidas incluidas en el constructo global de “Aproximaciones del Estudiante al Aprendizaje”. Los autores también realizaron una presentación detallada de los fundamentos teóricos que subyacen a los llamados también “constructos afectivos” medidos por el CE de los estudios PISA y su relación esperable con las “medidas cognitivas”. Los resultados obtenidos mostraban como estudiantes con buen auto-concepto y que muestran buenas relaciones con su entorno, poseen mejores resultados académicos, otorgando además una influencia muy positiva a la implicación de los compañeros en el aula. 4.2. Razones para elegir el “cuestionario del estudiante” del PISA 2009. El estudio PISA 2009 no es el único estudio internacional comparativo de evaluación del rendimiento educativo que ha cobrado protagonismo en los últimos años. Cabe mencionar entre otros, el realizado por la International Association for the Evaluation of Educational Achievement (IEA) [Asociación Internacional para la Evaluación del Rendimiento Educativo] y el del Education Testing Service´s International Assessment of Educational Progress (IAEP) [Evaluación Internacional del Progreso Educativo del 9 Servicio de Evaluación Educativa]. Por tanto, es obligado exponer las razones por las que se ha elegido el CE del PISA 2009. De forma resumida, dichas razones han sido: El rigor metodológico en el diseño y ejecución del estudio garantizado por los institutos y organizaciones que forman parte del consorcio internacional encargado del estudio PISA. Entre otros: Australian Council for Educational Research,el Netherlands National Institute for Educational Measurement (CITO), la empresa WESTAT, el Educational Testing Service (ETS), etc. La implicación de estos organismos junto con los grupos de expertos de cada área garantiza un elevado rigor en los procesos de traducción, muestreo y administración de los cuestionarios, junto con la proyección internacional de los resultados esperables del presente proyecto de investigación. La disponibilidad de los archivos completos de micro-datos en las bases de datos de la OCDE para los cuestionarios del PISA 2009. A diferencia de los cuestionarios cognitivos, la totalidad de las versiones del “cuestionario del estudiante” y del “cuestionario del centro”, también son accesibles en las bases de datos de la OCDE. El estudio PISA 2009 en España implicó a todas las comunidades autónomas con una muestra representativa, exceptuando tres (Extremadura, Castilla La Mancha y la Comunidada Valenciana) junto con la muestra nacional. Alrededor de 27000 alumnos respondieron a los cuestionarios PISA 2009 en 910 centros educativos. La presencia de comunidades autónomas con más de una lengua co-oficial abre la posibilidad a la definición de grupos por antecedentes lingüísticos y culturales distintos, y analizar su relación con el posible DIF de los ítems. 5. Objetivos del estudio. El objetivo general del presente estudio es analizar las propiedades métricas y el grado de equivalencia entre las evaluaciones de las escalas actitudinales del cuestionario del estudiante del Estudio PISA 2009. En concreto, se pretendía determinar si se alcanza un nivel de equivalencia estructural que permita realizar comparaciones válidas a partir de estadísticos grupales, al comparar las respuestas de alumnado inmigrante y no inmigrante. En resumen, se trato de responder a la pregunta que debe iniciar una investigación más general sobre el “peer effect”: ¿hasta qué punto son comparables las evaluaciones aportadas por las escalas y preguntas analizadas del cuestionario del estudiante del Estudio PISA 2009 entre ambos grupos? 10 Método . 1. Participantes. Los datos recopilados por el Estudio PISA 2009 en España, se encuentran concentrados en un total de 910 centros en los que se recoge una muestra de 26.000 alumnos. Como se expuso con anterioridad, la muestra se centra en menores de 15 y 16 años de edad pertenecientes al último curso de la Educación Secundaria Obligatoria (ESO). Son tres los grupos con los que se han llevado a cabo los análisis: “inmigrantes”, “nacionales 1” y “nacionales 2”. La creación de dos grupos de nacionales se debe a que existe una gran diferencia numérica entre el grupo de nacionales e inmigrantes, puesto que el porcentaje de nacionales es de un 89,4%. Con la creación de dos muestras nacionales se iguala el tamaño de la muestra de inmigrantes, además que nos asegura los resultados que obtengamos, como muestra de validación cruzada. Cada grupo de nacionales alberga a un 12% de su población total. Dicho porcentaje corresponde al número por el que está constituida la muestra de inmigrantes. 1.1. Definición del alumno “nacional” e “inmigrante”. Para el Estudio PISA, el alumnado nacional es aquel que ha nacido en España y al menos uno de sus padres también, mientras que es considerado inmigrantes aquel que ha nacido en otro país, aunque sus padres sean nacionales, o aquellos que aún siendo nacionales, sus padres son extranjeros. De esta forma podemos exponer una combinación de seis casos en total. (Véase la tabla 1). Tabla 1: combinación para la creación de la variable nacional/inmigrante. Alumnado nacional: Alumnado inmigrante: Hijo nacional+ madre nacional+ padre Hijo inmigrante+ madre inmigrante+ nacional padre inmigrante Hijo nacional+ madre inmigrante+ padre Hijo nacional+ madre inmigrante+ padre nacional inmigrante Hijo nacional + madre nacional+ padre inmigrante 11 De la muestra total, el 10,6% (2.668) son alumnos inmigrantes, y el 89,4% (22.579). En relación al género, vemos que la distribución es de un 5,4% (1367) de hombres y un 5,2% (1.301) de mujeres sobre el total. Por su parte, el grupo de nacionales recoge un 44,0% (12.468) son hombres y el 45,5% (12.779) son mujeres. 3.2. Instrumento. Las preguntas seleccionadas del cuestionario del estudiante del PISA 2009 fueron un total de tres escalas que incluyen ítems en formato tipo Likert con 4 categorías de respuesta. La Tabla 2 presenta el “constructo objetivo” para cada escala y el número de ítems en cada una. Tabla 2: Constructo y número de los ítems seleccionados. Constructo Nº de escala Nº de ítems Índice de motivación por la lectura 24 11 Clima en el aula 33 4 34 5 Actitud hacia profesorado el Debido a la importancia que adquiere la motivación en el proceso de aprendizaje de los jóvenes, hemos resaltado su papel en el presente trabajo, centrándonos para ello en la escala Q24, que representa el índice de “motivación por la lectura” (Technnical Report, OCDE, 2009 ). A modo de ejemplo exponemos el enunciado del primer ítem de la escala y las categorías de respuesta: “¿Cómo de de acuerdo o “desacuerdo” se encuentra con las siguientes afirmaciones sobre la lectura?”. a) “ Leo sólo si tengo que hacerlo, Muy en Desacuerdo, En Desacuerdo, De Acuerdo, Muy de Acuerdo”. El anexo 1 presenta las preguntas completas correspondientes a las escalas Q24, Q33 y Q34. Las otras dos escalas tienen un valor intrínseco, ya que la escala 33 se centra en la valoración del clima en el aula y la pregunta 34 en la actitud hacia los profesores. Dos elementos que contribuyen a esclarecer la visión del alumnado en el aula. 12 3.3. Base de datos del PISA 2009. Los datos fueron obtenidos de la página web de la OCDE (OCDE, 2009). Las escalas y los sujetos fueron seleccionados y se llevo a cabo una depuración de los datos mediante la eliminación de los sujetos con respuestas incompletas en una o más preguntas. Este proceso dio lugar a una pérdida relativamente pequeña de datos en los grupos “nacionales 1” y “nacionales 2” (19,3%). 3.4. Procedimiento Según los datos recogidos en el Informe Technnical Report sobre PISA 2009 (OECD), los participantes respondieron a los cuestionarios que engloban el Estudio PISA en sesiones colectivas durante las horas de clase. La participación fue voluntaria y el tiempo requerido para completar las preguntas fue de dos horas aproximadamente. A los participantes se les garantizaba la confidencialidad, siendo usados los datos exclusivamente para fines de investigación. 3.5. Análisis Estadístico. Para llevar a cabo la comparación de la equivalencia y la validez entre los dos grupos (nacionales e inmigrantes) fue necesaria la creación de una nueva variable (“variable Total”) cuyas dos categorías de respuesta albergaran la condición de nacional y de inmigrantes. De esta forma podemos apreciar por separado los resultados, y llevar a cabo un análisis que nos permita comparar ambos grupos. En base a la definición realizada con anterioridad en el apartado de participantes sobre “nacional” e “inmigrante”, se creó de una nueva variable en la que se recoge todas las posibles combinaciones que determinaban si se es o no inmigrante o nacional. Para ello fue necesario en primer lugar la recodificación de las tres sub-preguntas de la pregunta número 17, en la cual se le pregunta al entrevistado el lugar de nacimiento suyo y de sus padres: “¿En qué país naciste tú y tus padres?” Cada categoría fue recodificada con objeto de eliminar las opciones de No sabe/No contesta y valores perdidos. Posteriormente, se procedió a elaborar seis nuevas variables. Para ello se insertaron las combinaciones expuestas en la Tabla 1. - 1+1+1 A=1 & B=1 & C=1 todos nacionales (TN) 13 - 1+2+1 A=1 & B=2 & C=1 Madre extranjera (ME) 1+1+2 A=1 & B=1 & C=2 Padre extranjero (PE) Los análisis se realizaron con el paquete estadístico para Ciencias Sociales (SPSS v.15). Para terminar, se procedió a unificar estas tres combinaciones con la siguiente fórmula que se hacía explícita en dicho programa estadístico: - TN=1 O ME=1 O PE=1 Una vez realizado este proceso, conseguimos tener en una misma variable que recogiera a todos los alumnos inmigrantes y nacionales en base a la definición realizada por PISA. La creación de esta nueva variable muestra el dato expuesto con anterioridad, en el que se recoge que la muestra está compuesta por un 10,6% de alumnos inmigrantes, y un 89,4% de alumnado nacional. Posteriormente se llevó a cabo un Escalamiento Multidimensional Pesado (WMDS). Permite analizar matrices de proximidad (similitud o disimilitud), para proporcionar una representación visual entre los datos dentro de un espacio de dimensiones reducidas. El WMDS permite descubrir la estructura dimensional común a los grupos objeto de la comparación en un único análisis. La ventaja del WMDS frente al análisis factorial exploratorio es que no es necesario identificar a priori la estructura dimensional, lo que la hace una técnica útil cuando no hay una teoría sólida sobre la dimensionalidad del conjunto de datos o se está en las fases preliminares de investigación. El WMDS ha sido aplicado con éxito para el análisis de la equivalencia estructural de escalas psicológicas en numerosos contextos (Padilla et al, 2012). El WMDS puede analizar los datos de varios grupos simultáneamente y proporciona indicaciones sobre (a) la dimensionalidad subyacente que ajusta los datos para todos los grupos, y (b) el grado en que los datos para cualquier grupo particular se desvían de la estructura común. Esto hace que esta técnica sea particularmente útil para la evaluación de la equivalencia estructural cuando un instrumento se ha administrado a diferentes grupos. Para ayudar a determinar la dimensionalidad adecuada de los datos, se utilizaron los índices de ajuste descriptivos Stress y R-square. Stress representa la raíz cuadrada de la varianza residual normalizada de la regresión monotónica de las distancias. En los valores que recoge, una menor presión indican un mejor ajuste. El índice R-square 14 refleja la proporción de la varianza de la que da cuenta cada dimensión. En este caso, los valores mayores de R indican un mejor ajuste. A través de ambos índices, el investigador primero determina el número de dimensiones subyacentes en el conjunto de datos. Una vez identificadas puede analizar la importancia relativa de dichas dimensiones para cada grupo en comparación. 5.4. Comparación de las estructuras factoriales. Para analizar la equivalencia estructural de las escalas seleccionadas es necesario comparar su dimensionalidad, ya que a través de ellas conoceremos si las escalas son similares o no para ambos grupos. A través del escalamiento multidimensional "pesado" (WMDS) podemos obtener evidencias para ello. La Tabla 3 muestra los valores de los índices de Stress y R-square para la escala Q24. Los valores de ambos índices apuntan una cierta tendencia hacia la aparición de dimensiones extra, ya que hay un cambio apreciable en los valores de R-square entre la solución de una y dos dimensiones. Tabla 3: Valores de Stress y de R. Dimensiones Valores de Stress Valores de RSQ D1 ,20303 ,88931 D2 ,05173 ,98997 D3 ,02195 ,99818 Gráfico 1 15 El gráfico 1 muestra la configuración de los estímulos. En el mismo observamos las agrupaciones de ítems y su relación con las dimensiones para la solución bidimensional. En la distribución vemos que hay una agrupación clara en el cuadrante inferior izquierdo y otra menos clara en el cuadrante superior derecho, quedando un ítems independiente en el cuadrante inferior derecho. Los ítems más agrupados en la parte inferior son los números 2 (“La lectura es uno de mis pasatiempos favoritos”), 3 (“Me gusta hablar de libros con otras personas”), 4 (“Me resulta difícil terminar libros”), 5 (“Me siento feliz si recibo un libro como regalo”), 7 (“Me gusta ir a una librería o una biblioteca”) y 11(“Me gusta intercambiar libros con mis amigos”). Estos ítems parece tener en común una actitud favorable hacia la lectura. Los ítems agrupados de forma más dispersa en la parte superior son los ítems 1 (“Leo sólo si tengo que hacerlo”), 4 (“Me resulta difícil terminar libros”), 6 (“Para mí, la lectura es una pérdida de tiempo”), 8 (“Leo sólo para obtener la información que necesito”) y 9(“No puede quedarse quieto y leer durante más de unos pocos minutos”). 16 Estos ítems muestran actitudes negativas hacia la lectura. Estos ítems son los que tuvieron necesidad de ser recodificados. Para terminar con el análisis, vemos que el único ítem que parece independiente al resto en el 10 (“Me gustaría expresar mis opiniones sobre los libros que he leído”). Parece ser que esta conducta es la que menos relación guarda con el resto de alternativas de respuesta. En la Tabla 4 se muestran la importancia que tienen estas dimensiones. Los pesos y el gráfico de dos dimensiones parecen indicar que la importancia de las dimensiones es diferente para el grupo de inmigrantes frente a los dos grupos nacionales. La dimensión 1 es la más importante para los dos grupos nacionales, mientras que la dimensión 2 es la más importante para el grupo de inmigrantes. Las diferencias no son grandes si observamos la unidad de medida en los ejes de los gráficos, pero podrían ser relevantes. Por tanto, nuestra interpretación general sería que hay indicios de que la dimensionalidad de Q24 no es la misma para el grupo de alumnos inmigrantes y no inmigrantes. El Gráfico 2 representa la localización de los grupos respecto de las dos dimensiones. Tabla 4: Importancia de las dimensiones (pesos) para dos dimensiones Grupos D1 D2 Inmigrantes ,7801 ,6181 Nacionales 1 ,8029 ,5878 Nacionales 2 ,8003 ,5906 Gráfico 2 17 La escala 33, a diferencia de la escala 34, tiene pocos ítems. Por este motivo, explorar soluciones de más de una dimensión cuando sólo hay 4 ítems es arriesgado. La Tabla 5 muestra los valores de los índices de Stress y R-square para la escala. Tabla 5: Valores de Stress y de R. Dimensiones Valores de Stress Valores de RSQ D1 ,23639 ,73040 D2 ,00001 ,99988 Los valores de ambos índices apuntan a una solución unidimensional a pesar del cambio que se produce entre D1 y D2. La decisión de optar por una solución uni- o bidimensional también debe tener en cuenta aspectos sustantivos sobre el constructo objetivo de la escala. No obstante, con el fin de explorar posibles fuentes de multidimensionalidad el análisis de la importancia de las dimensiones se realizó para una solución bi-dimensional. 18 La distribución de los ítems que se presentan en el Gráfico 3 hace que se sitúan bastante distanciados entre ellos. A pesar de ello, habría que destacar que son los ítems 2 (“La escuela ha sido una pérdida de tiempo”), 3 (“La escuela me ha ayudado a dar confianza para tomar decisiones”) y 4(“La escuela me ha enseñado cosas que podría ser útil en un trabajo”) los que se encuentran en la parte inferior de la gráfica. De estos tres ítems dos muestran una actitud positiva hacia la escuela, mientras que uno parece que posee una visión más negativa sobre la vida escolar. Es el ítems 1 (“La escuela ha hecho muy poco para prepararme para la vida adulta cuando salgo de la escuela”) Gráfico 3 En la Tabla 6 podemos apreciar la importancia relativa de las dimensiones identificadas para cada uno de los tres grupos. Tabla 6: Importancia de las dimensiones (pesos) para dos dimensiones Grupos D1 D2 Inmigrantes ,3846 ,9231 Nacionales 1 ,8114 ,5845 19 Nacionales 2 ,8491 ,5282 Tal y como podemos observar en el Gráfico 4, las diferencias en la estructura dimensional entre los grupos son algo confusas posiblemente por el reducido número de ítems lo que hace que el número de distancias estimadas pueda resultar insuficiente para obtener una dimensionalidad clara. Por tanto, podemos indicar que podría mantenerse una solución de unidimensionalidad pero estando atentos a posibles discrepancias en los análisis que sugieran amenazas a la unidimensionalidad. Gráfico 4 Con esta escala Q34 ocurre algo similar a Q33, también caracterizándose por tener pocos ítems, concretamente cinco. La Tabla 7 muestra los valores de los índices de Stress y R-square para la escala Q33. Tabla 7: Valores de Stress y de R. Valores de Stress Valores de RSQ ,14117 ,90332 ,00157 ,99998 20 Los valores de ambos índices apuntan a una solución unidimensional ya que los cambios entre D1 y D2, son relativamente pequeños. La distribución de los ítems en la Gráfica 5 nos muestra una agrupación de dos de ellos, concretamente los números 2 (“La mayoría de mis profesores están interesados en mi bienestar”) Y 3 (“La mayoría de mis profesores realmente escuchar lo que tengo que decir”). Ambos nos muestra una visión por parte del alumnado positiva en relación al profesorado. Los otros tres ítems se encuentran distribuidos de de forma independiente entre ellos. Gráfico 5 La Tabla 8 muestra que la dimensionalidad es muy similar a través de los grupos objeto de la comparación. La Tabla 8 presenta los valores para una solución bi-dimensional con el fin de poder realizar su representación gráfica. El Gráfico 6 apunta también a la igual importancia de las dimensiones para los grupos. Las distancias entre los puntos corresponden con diferencias en sus coordenadas muy pequeñas. A partir de estos resultados, se puede afirmar que la dimensionalidad de Q34 es muy similar en los tres grupos. 21 Tabla 8: Importancia de las dimensiones (pesos) para dos dimensiones Grupos D1 D2 1 ,8905 ,4599 2 ,8875 ,4607 3 ,8784 ,4779 Gráfico 6 6. Discusión . El objetivo principal de este estudio es realizar un análisis de la equivalencia estructural sobre las escalas seleccionadas del cuestionario del estudiante del PISA 2009, y averiguar de esta forma si podemos hacer sobre las mismas inferencias que sean válidas cuando se comparen las evaluaciones del grupo de inmigrantes con el grupo de alumnos nacionales. Esto es relevante en todo proceso de investigación, porque dota el 22 estudio de una base sólida en la que poder confiar. Sabemos que comparando las respuestas de ambos grupos en cada escala, no estamos cometiendo un sesgo si obtenemos evidencias de su equivalencia, puesto que son comparables. La metodología usada para alcanzar dicho objetivo, no sólo métodos tradicionales, como el análisis de descriptivos, de fiabilidad, análisis de componentes principales, etc., sino también, el escalamiento multidimensional, permite confiar en los resultados obtenidos. En general, las evidencias obtenidas apuntan a la equivalencia estructural de las escalas y preguntas seleccionadas. No obstante, hay también indicios de multidimensionalidad en las escalas Q23 y Q24, a los que habría que prestar atención en futuras investigaciones. En este estudio, se han llevado a cabo los pasos previos para realizar una investigación sobre el “peer effect” contando con evidencias sobre la equivalencia entre las evaluaciones obtenidas de alumnos inmigrantes y nacionales. A través de los análisis psicométricos y de equivalencia realizados, se han obtenido evidencias para probar el grado de equivalencia alcanzado por las escalas y preguntas seleccionadas del cuestionario del estudiante del PISA 2009. .Esta investigación parte del hecho contrastado de que la validez y la equivalencia de las evaluaciones no se pueden asumir como dadas por el hecho de que los instrumentos de evaluación hayan sido elaborados o Con respecto a la utilidad del WMDS para la evaluación de la equivalencia estructural, es importante hacer hincapié en que nos permite observar con mayor claridad el peso que cada escala posee en cada dimensión. Esto nos permite comprender con mayor claridad el peso de en cada dimensión, y por tanto si existe o no unidimensionalidad. En este estudio se compararon dos grupos diferentes que se pensaba que reaccionarían de manera diferente. Sin embargo, la evidencia indica claramente diferencias inesperadas que arrojan luz a la idea de que no existen diferencias entre grupos interculturales en el ámbito educativo. Las investigaciones futuras deberían seguir indagando en la equivalencia, ya que pueden existir diferencias estructurales en otros grupos demográficos y culturales. La presencia de alumnado inmigrantes en las aulas es un reto, sobre todo cuando se trata de personas con una reciente incorporación como ciudadanos españoles. Esto condiciona el rendimiento que el menor pueda tener, y por ende la motivación que muestre. La lengua 23 es un elemento fundamental para la integración, además de condicionar notablemente su rendimiento académico. De esta forma, entendemos que el trabajo realizado se engloba en un proceso previo a la investigación sobre el “peer effect”, el cual se fundamentará en el uso de los métodos mixtos, ya que a través de los mismos, podemos alcanzar en nuestro estudio una perspectiva más precisa del fenómeno a estudiar, consiguiendo una multiplicidad más rica de datos integrados. Incluso en la investigación del “peer effect” podemos seguir validando las escalas con las que se han trabajado en este estudio pero a través de técnicas cualitativas, como puede ser el juicio de expertos. Esta técnica nos propiciaría información sobre qué palabras, expresiones, construcciones de las oraciones, etc. pueden ser susceptibles de posibles malinterpretaciones por parte de las personas que contesten los cuestionarios (padres, alumnos y profesorado). 7. Referencias bibliográficas . Álvarez de Sotomayor, Álvaro. (2008) “El papel de la redes étnicas en el logro educativo de los hijos inmigrantes: ¿recursos u obstáculos?”,en revista de migraciones, nº 23, pp. 45-77. Benítez Isabel, Padilla Jose Luis, Hidalg, María Dolores, & Sireci, Stephen. (Submitted) (2011). A two method-two effect size measure strategy for analysing polytomous Differential Item Functioning: An illustration with Differential Step Functioning and Ordinal Logistic Regression. Language Testing. Buchmann Claudia. (2000), “Measuring family background in International Studies of Education: Conceptual Issues and Methodological Challenges” en A.C Porter y A. Gamoran (eds.), Methodological advances Cross- National Surveys of educational achievement, Washington DC, National Academic Press , PP. 150-97. Calero Julio. y Waisgrais Sebastian. (2008). Rendimientos educativos de los alumnos inmigrantes: identificación de la incidencia de la condición de inmigrante y de los peer effects. XVI Encuentro de Economía Pública. Granada, Febrero 2009. Carabaña Julio y Córdoba Claudia. (2009). “La incorporación de estudiantes inmigrantes en la escuela andaluza y su influencia en la elección de centro”, Sevilla, Centro de Estudios Andaluces, Consejería de la Presidencia de la Junta de Andalucía. 24 Cortes, K. E. (2006) “The effects of age at arrival and enclave schools on the academic performance of immigrant children”, Economics of Education Review, 25:121-132. Ellis Louisse, Marsh Herbert, y Craven, Rhonda (2009). Hacer frente a los desafíos que enfrentan los jóvenes adolescentes:. A la evaluación de métodos mixtos de los beneficios del apoyo de los compañeros. American Journal of Psicología Comunitaria, 44, 54-75. García-Bellido Rosario, & González Such José (2010). http://www.uv.es/innovamide. Recuperado el 5 de 8 de 2012. Disponible en: http://www.uv.es/innovamide/spss/SPSS/SPSS_0801B.pdf Held David. y McGrew, Anthony. (2003) Globalización / Antiglobalización. Sobre la reconstrucción del orden mundial. Paidós, pág. 13. Hoxby Caroline (2000a) “Does Competition Among Public Schools Benefit Students and Taxpayers?”, The American Economic Review, 90(5): 1209-1238. Hoxby Caroline (2000b) “Peer Effects in the Classroom: Learning from Gender and Race Variation” , National Bureau of Economic Research, Working Paper 7867. Moreno Yus, Mariangeles (2011). La guetización escolar, una nueva forma de exclusión. Revista de educación, 361 . Hugalde Adriana (2007). Efectos de la inmigración en el rendimiento educativo: El caso español. Institut d’Economia de Barcelona, Departament d’Economia Política i Hisenda Pública (J.L. Padilla, 2012), Barcelona. International Test Commission. (2010). International Test Commission Guidelines for Translating and Adapting Tests. Disponible en: http://www.intestcom.org. Jenks, C., y Mayer, S. (1990) “The Social Consequences of Growing Up in a Poor Neighorhood” in L. Lynn y M. McGreary, eds, Inner-City Poverty in the United States. Washington: National Academy Press. OCDE. (2009). PISA 2009. Programa para la evaluación Internacional de los Alumnos. Informe Español. . Madrid: Ministerio de educación. Instituto de evaluación. OCDE (2012). PISA 2009. Technical Report, PISA, OCDE Publishing. http://dx.doi.org/10.1787/9789264167872-en Padilla García, Jose Luis.; Acosta Uribe Beatriz, Guevara anuel.; Gómez Benito, Juana y González Gómez, Andrés. (2006). Propiedades Psicométricas de la Escala de Autoeficacia General Percibida en México y España. Revista Mexicana de Psicología. Padilla Jose Luis, B.I. -G. (8 de Agosto de 2012). http://ccr.sagepub.com/. Evaluating Structural Equivalence in Psychological Questionnaires Using Weighted Multidimensional Scaling. Recuperado el 3 de Agosto de 2012, de http://ccr.sagepub.com/content/early/2012/08/08/1069397112446787 Tashakkori, Abbas., & Creswell, John. (2008). Mixed methodology across disciplines. Journal of Mixed Methods Research, 2 (1), 1-5. Van de Vijver, Fons, & Tanzer Norbert (2004). Bias and equivalence in cross-cultural assessment: an overview. Revue européenne de psychologie appliquée, 54, 11925 135. doi:10.1016/j.erap. 26