Estudio de generalizabilidad del sistema de observación CLASS en aulas de secundaria en Baja California 13 de marzo de 2015 Estudio de generalizabilidad del sistema de observación CLASS en aulas de secundaria en Baja California Olga Lidia Murillo García Licenciada en Psicología por la UABC, estudiante de la Maestría en Ciencias Educativas del Instituto de Investigación y Desarrollo Educativo de la Universidad Autónoma de Baja California, México. olga.murillo@uabc.edu.mx Alicia Alelí Chaparro Caso López Doctora en Análisis Experimental de la Conducta.Investigadora del Instituto de Investigación y Desarrollo Educativo de la Universidad Autónoma de Baja California, México. achaparro@uabc.edu.mx Luis Horacio Pedroza Zúñiga Maestro en Investigación Educativa, estudiante del Doctorado en Ciencias Educativas del Instituto de Investigación y Desarrollo Educativo de la Universidad Autónoma de Baja California, México. horaciopedroza@hotmail.com PALABRAS CLAVE: Observación sistemática, Secundaria, Evaluación, Interacción, Generalizabilidad. EJE TEMÁTICO: Innovaciones en evaluación y medición del desempeño docente y directivo. Resumen El objetivo del estudio fue determinar la generalizabilidad del sistema Class en aulas de secundaria de Baja California. Este sistema de observación permite evaluar la calidad de las interacciones que suceden en el salón de clases, con base en tres grandes dominios: Apoyo emocional, Organización de la clase y Apoyo instruccional. Para la determinación del índice de generalizabilidad, se utilizó un diseño cruzado de cuatro facetas: docente, categoría, sesión y observador. Participaron en el estudio 11 aulas que fueron evaluadas con el sistema durante 3 sesiones consecutivas. Los resultados mostraron que la mayor cantidad de varianza es aportada por la faceta categoría. Sin embargo, se encontraron altos niveles de consistencia interna entre categorías, lo que apunta a que si bien hay variabilidad entre éstas, se puede afirmar que miden el mismo constructo. Se concluye que el sistema Class puede utilizarse en la evaluación de las interacciones en aulas de contexto mexicano. 2 INTRODUCCIÓN El sistema de Classroom Assessment Scoring System (Class, por sus siglas en inglés), es una opción pertinente para estudiar la complejidad de las interacciones en el aula, pues permite identificar los aspectos relacionados con las practicas pedagogías e instruccionales, el manejo de las actividades dentro del aula y el clima emocional que se despliega en ese contexto, identificados como factores que intervienen en el desempeño académico y en el desarrollo de los estudiantes (Pianta, Hamre y Allen, 2102). Class es reconocido como “uno de los instrumentos más prometedores para medir aspectos de la relación maestro-alumno en una gran variedad de contextos que, siendo esenciales en el proceso de aprendizaje, resultan difíciles de capturar con otros instrumentos” (Thomson et al., 2000, p.6). Hamre, Pianta y Mintz (2012) refieren que este sistema ha sido implementado en varios estudios a gran escala en los Estados Unidos. Con todo, en Latinoamérica, se encuentran pocas referencias de su uso. Por ejemplo, en Ecuador, se utilizó en una investigación auspiciada por el Banco Interamericano del Desarrollo (BID), realizada en 204 escuelas de educación primaria desde 2013. En Chile se utilizó con el propósito de describir el desempeño de educadoras con fines formativos (Treviño, Toledo y Gempp, 2013). Respecto a la confiabilidad del sistema Class, ésta ha sido reportada usando la fórmula de porcentaje de acuerdos, Kappa de Cohen y correlaciones intra-clase (Hamre, Pianta y Mintz, 2102). Sin embargo, si bien estas medidas resultan pertinentes en la descripción de la confiabilidad del sistema, sólo reportan la concordancia entre observadores. No obstante en la observación directa, intervienen muchas fuentes de variabilidad y el solo reporte de la concordancia no resulta suficiente (Blanco-Villaseñor, 1991). La Teoría de la Generalizabilidad es una de las alternativas propuesta para determinar el grado de fiabilidad y márgenes de error, en la que se plantea que existen fuentes de variación adicionales a las diferencias individuales, integradas a una estructura global otras fuentes de variación o error de medida en un diseño de investigación observacional. A través del cual es posible calcular las diferentes fuentes de variación que son evaluadas dentro de un mismo diseño mediante diferentes facetas y las interacciones entre las mismas (Cronbach, Gleser, Nanda y Rajaratnam, 1972, como se citó en Blanco-Villaseñor, 1991). A partir de lo anterior, el objetivo del estudio que se presenta fue determinar el índice de Generalizabilidad del sistema Class en la observación de las interacciones en aulas de secundaria en Baja California DESARROLLO Método Participantes Se involucraron 11 aulas de secundaria de la modalidad general y técnica pertenecientes al municipio de Ensenada, Baja California. Las características generales de las aulas se presentan en la tabla 1. Instrumento El sistema de observación Class está organizado en tres dominios: Apoyo emocional, Organización de la clase y Apoyo instruccional. Cada dominio se conforma por dimensiones, las cuales se centran en descripciones de diferentes aspectos de la interacción entre docente-estudiante y entre estudiantes. Cada dimensión incluye indicadores de comportamiento, observables y específicos. En la tabla 2 se ilustra la organización de los dominios y dimensiones de Class. Estas dimensiones son evaluadas con base en una rúbrica de siete puntos: 1 y 2 corresponden a un puntaje bajo; 3, 4, 5, corresponden a puntaje medio y 6,7 alto. El proceso de calificación consiste en observar sin interrupción la actividad que acontece en el aula durante 15 minutos. En ese tiempo, el observador se concentra en identificar las interacciones que suceden en el aula. Después de los 15 minutos de observación, los evaluadores asignan la puntuación correspondiente a cada dimensión. 3 Tabla 1 Características generales de identificación de los grupos Docente sexo Femenino Masculino Masculino Grado Asignatura Tipo Años experiencia docente Número Alumnas Alumnos Total 3A 19 15 34 3B 18 14 32 3D 22 13 35 3E 13 19 32 3F 17 15 32 Taller 2 9 12 21 12 6 18 15 16 31 15 21 36 15 22 37 Taller 3 1B 1F* Matemáticas Dibujo T 14 T 26 Ciencias G 24 Masculino 1C Matemáticas G 30 Masculino 1A Español G 6 Total 6 11 6 14 17 31 169 170 339 Nota: *única aula perteneciente al turno vespertino, Tipo = modalidad, T = técnica, G = general, Dibujo = dibujo arquitectónico. Tabla 2 Esquema general de dominios y dimensiones de CLASS Dominios Dimensiones Apoyo emocional Organización del aula Apoyo instruccional Clima positivo Manejo de la conducta Formatos didácticos para el aprendizaje Sensibilidad docente Productividad Comprensión del contenido Consideración hacia las perspectivas del estudiante Análisis e investigación Clima negativo Calidad de la realimentación Dialogo instruccional Compromiso del estudiante Nota: Traducido de Hamre, B.K., Pianta, R.C., & Mintz, S. (2012). Classroom Assessment Scoring System. VA: Teachstone Procedimiento Para hacer factible la determinación de la confiabilidad inter e intra observador, todas las sesiones en las aulas, fueron filmadas y posteriormente evaluadas por los observadores. Participaron 16 estudiantes de Psicología y Educación como observadores. Estos recibieron una capacitación de cinco sesiones, con un total de 27 horas. El proceso de capacitación incluyó tanto la revisión de la definición operacional de las categorías, así como práctica de evaluación individual y en colectivo. Posterior a las sesiones de capacitación, se determinó la concordancia inter-observador, estableciendo el 90% como criterio para determinar que un observador era confiable. Una vez capacitados, se asignaron los videos de las sesiones de observación, para que fueran valoradas en diadas pero, de manera independiente. Posteriormente, los datos de las valores fueron capturados y analizados. Resultados y Discusión 4 La principal contribución de los estudios de generalizabilidad es determinar qué parte de la variabilidad o de la varianza de las puntuaciones o mediciones observadas es atribuible a cada una de las facetas, o condiciones, y a sus posibles interacciones. En este estudio, se determinó el índice de generalizabilidad (Shavelson & Webb, 1991), utilizando un diseño cruzado de tres facetas: docente X sesión X observador X categoría, mediante el uso del paquete estadístico SPSS. La primera parte del proceso de análisis implicó la estimación de los cuadrados medios de cada fuente de variación del diseño, los cuales se presentan en la tabla 3. Tabla 3 Cuadro resumen del análisis de varianza del plan de observación Fuentes de variación Suma de cuadrados Gl Cuadrados medios Docente 954.57 10 95.45 Sesión 177.57 12 14.79 Docente*Sesión 1453.57 112 12.97 Observador 10.11 1 10.11 Docente*Observador 144.17 10 14.41 Categoría 8242.71 11 749.33 Docente*Categoría 547.42 110 4.97 Sesión*Observador 58.55 12 4.87 Sesión*Categoría 186.64 132 1.41 Observador*Categoría 20.32 11 1.84 Docente*Sesión*Observador 586.77 112 5.23 Docente*Sesión*Categoría 1636.60 1232 1.32 Docente*Observador*Categoría 129.62 110 1.17 Sesión*Observador*Categoría 95.09 132 0.72 Docente*sesión*Observador*Categoría 974.83 1232 0.79 Enseguida, se determinó el índice de generalizabilidad, obteniendo un valor de .097. Junto con ello, se estimaron los porcentajes de varianza de cada una de las facetas y de las interacciones de éstas. Los resultados se muestran en la tabla 4. Se puede observar que la faceta categoría (es decir dimensión de observación) es la que aporta la mayor cantidad de varianza (55.42%). Asimismo, es posible ver que los observadores no aportan varianza, lo que permite asumir que el nivel de concordancia entre ellos es alto. Finalmente, las facetas de docente y sesión muestran una varianza moderada, lo que era de esperarse dado las diferentes características entre docentes y entre los días de observación. No obstante, al encontrar esta alta varianza en las categorías de observación, resultó necesario identificar la consistencia interna entre ellas, pues, si bien cada una evalúa aspectos de la interacción diferentes, todas en su conjunto forman parte de un mismo constructo. Así, se practicó un Alfa de Cronbach entre las 12 categorías que integran el sistema Class, lo que arrojó un índice de consistencia interna de .91. Como se puede apreciar en la tabla 4, la mayor fuente de variación se ubica en la varianza del error, es decir, que hay variables que están influyendo y no se están identificando. Además, las siguientes dos interacciones con mayor variación son la de docente*sesión y docente*sesión*observador. El bajo nivel de varianza de la faceta observador, indica que existe un alto nivel de consistencia entre observadores. Por otro lado, se observa más variabilidad en la faceta docente, atribuida a las diferencias en la práctica docente. Este resultado es consistente con lo que la literatura señala, en la que se ha afirmado que existe una variación importante de la práctica en distintos momentos y distintas ocasiones, con cualquier instrumento de medida. Por ejemplo, para el caso de Class, Pianta y Hamre (2009) identificaron, que los docentes disminuyen la calidad de la práctica en las últimas horas de la jornada escolar y también durante el ciclo escolar. Este hallazgo, sugiere que para generalizar los resultados al ciclo escolar se tendría que incluir más sesiones de observación, o sea ampliar el universo al que se quiere generalizar los resultados. Y lleva a cuestionarse ¿cuántas mediciones serían adecuadas para valorar con precisión la práctica de un docente? 5 Tabla 4 Resultados de los análisis de los componentes de varianza del plan de medida Faceta Componente de varianza Porcentaje de varianza Var(docente) 240 4.84 Var(sesión) .012 0.25 Var(observador) .000 0.00 Var(categoría) 2.752 55.42 Var(docente*sesión) 294 5.92 Var(docente*observador) .062 1.25 Var(docente*categoría) .166 3.34 Var(sesión*observador) .002 0.04 Var(sesión*categoría) .000 0.00 Var(observador*categoría) .005 0.10 Var(docente*sesión*observador) 365 7.34 Var(docente*sesión*categoría) .246 4.95 Var(docente*observador*categoría) .034 0.68 Var(sesión*observador*categoría) .000 0.00 Var(docente*sesión*observador*categoría) .787 15.86 4.965 100.00% Varianza observada CONCLUSIONES 6 La principal contribución de los estudios de generalizabilidad es la identificación de la varianza atribuida a cada una de las facetas del diseño, lo que permite determinar si las observaciones realizadas son susceptibles de ser generalizadas a otros escenarios o a otra población. En el presente estudio el Índice G obtenido fue muy bajo. Sin embargo, de acuerdo a lo referido por Blanco-Villaseñor (1991), la mayor aportación del análisis de generalizabilidad es el conocer cuál de las facetas explica el mayor porcentaje de varianza del modelo de medida presentado. En este estudio la faceta observadores tuvo un porcentaje de varianza nulo, lo que indica que éstos no son una fuente de variación, es decir, que tienen un alto nivel de concordancia inter-observador, traduciéndose en que los datos obtenidos, a través de sus valoraciones, son confiables. Sin embargo, los datos también mostraron que la principal fuente de variabilidad se ubicó en la faceta de categoría. Esto hasta cierto punto es esperable, pues cada una de las categorías de observación evaluó diferentes conductas, que muestran diferente frecuencia, intensidad y dimensionalidad. Así por ejemplo, la categoría de Clima negativo es estructuralmente muy diferente a Clima positivo o a Sensibilidad docente, pues hacia el interior de sus definiciones operaciones se observa que los elementos que se tienen en cuenta para su valoración son diferentes entre sí. A pesar de estas diferencias, todas estas categorías representan un mismo constructo: interacción social; y esto quedó demostrado a través del alto valor que se obtuvo en la consistencia interna. Por lo tanto, basados en los resultados obtenidos se pueden establecer tres conclusiones. La primera, es la utilidad que el estudio de la generalizabilidad, tiene en la determinación tanto de la confiabilidad de los resultados, así como en el conocimiento de las fuentes de variación que pueden interferir en el proceso de generalización. Los datos presentados en este estudio, ayudan a afirmar que Class es útil y viable para utilizarse en la evaluación de la interacción en en salones de clase de secundaria en el contexto de Baja California. No obstante, como segunda conclusión, podemos mencionar que el índice de generalizabilidad fue bajo; pero, en palabras de Blanco-Villaseñor (1991), la principal aportación del estudio de la generalizabilidad es identificar las fuentes de varianza, o dicho en otros términos, fuentes de error. En este caso fue identificado que la principal fuente de variación es atribuible a las categorías de Class, atribuible a las diferencias en los indicadores de cada categoría. Sin embargo, y como tercera conclusión, se reconoce la necesidad de continuar analizando este sistema en diferentes contextos, de manera que pueda establecerse de una forma más fehaciente su utilidad en aulas mexicanas. BIBLIOGRAFÍA Blanco-Villaseñor, A. (1991). La teoría de la generalizabilidad a diseños observacionales. Revista mexicana de análisis de la conducta. 17(3), 23-83. Recuperado de revistas.unam.mx/index.php/rmac/article/download/23338/23846 Hamre, B.K., Pianta, R.C. & Mintz, S. (2012). Classroom assessment scoring system. Secondary manual. Virginia, USA: Teachstone. Pianta, R.C., & Hamre, B.K. (2009). Conceptualization, measurement, and improvement of classroom processes: Standardized observation can leverage capacity. Educational Researcher, 38, 109–119 Pianta, R.C., Hamre, B.K., Allen, J.P. (2012). Teacher student relationships and engagement: conceptualizing, measuring, and improving the capacity of classroom interactions. S.L. Christenson et al. (Eds.), Handbook of research on student engagement. doi 10.1007/978-1-4614-2018-7_17 Shavelson, R. & Webb, N. (1991). A Primer on Generalizability Theory. Thousand Oaks, CA: Sage Publications. Thomson, T., Symons, F., & Felce, D. (2000). Principles of behavioral observation assumptions and strategies. En T. Thomson, D. Felce & F. J. Symons (Eds.), Behavioral observation technology and applications in developmental disabilities (pp.3-15). USA: Paul H. Brookes Publishing Co. Treviño, E., Toledo, G., y Gempp, R. (2013). Calidad de la educación parvularia: las prácticas de clase y el camino a la mejora. Pensamiento educativos, revista de investigación educacional latinoamericana, 50(1), 40-62. doi:10.7764/ PEL.50.1.2013 7