Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 1 REPRESENTACIONES GRÁFICAS EN LA INVESTIGACIÓN EDUCATIVA. ANÁLISIS DE DATOS DESDE UNA PERSPECTIVA EXPLORATORIA Manuel Miguel Ramos Álvarez Junio de 2005 PRIMERA PARTE. INTRODUCCIÓN A LOS CONCEPTOS PRINCIPALES. 1) Introducción al análisis con base exploratoria. a) Objetivos y perspectiva. b) El papel de las representaciones gráficas. 2) Bases para la representación a) Tipos más frecuentes. b) Nuevos formatos de representación. c) Convenciones en torno al sistema de representación. SEGUNDA PARTE. ANÁLISIS GRÁFICO DE INVESTIGACIONES EDUCATIVAS DESTACADAS. 3) Análisis descriptivo básico. a) Propiedades elementales. i) Tendencia central, posición y variabilidad. ii) Forma: Asimetría y apuntamiento. b) La forma de la distribución según algunos modelos representativos. i) El caso de la distribución normal. ii) La distribución exponencial. c) Detección de casos anómalos. 4) Análisis de la relación entre variables. a) Introducción. b) El caso lineal. c) Relación no lineal. 5) Representaciones Multidimensionales. 1 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 2 Bibliografía 1. 2. 3. 4. 5. 6. 7. Amón, J. (1980): Estadística para Psicólogos 1. Madrid: Pirámide. Botella, J., León, O. y San Martín, R. (1993): Análisis de Datos en Psicología I. Madrid: Pirámide. Ferguson, G.A. (1986) Análisis Estadístico en Educación y Psicología. Madrid: Anaya. Freixa, M., Salafranca, L., Guardia, J., Ferrer, R. y Turbany, J. (1992): Análisis exploratorio de datos: Nuevas técnicas estadísticas. Barcelona: PPU. Guilford, J. P. y Frutcher, B. (1984): Estadística Aplicada a la Psicología y a la Educación. Bogotá: McGraw-Hill. Palmer. A. (1995). El Análisis Exploratorio de Datos. Madrid: Pirámide. Welkowitz, J., Ewen, R. B. y Cohen, J. (1981): Estadística Aplicada a las Ciencias de la Educación. Madrid: Santillana. Investigaciones Supuesto 1: Implicaciones educativas de la estructura de interacción entre los alumnos. Supuesto 2: Predicciones de éxito escolar a partir de las expectativas del profesor. Supuesto 3: Análisis de la progresión evolutiva de las destrezas cognitivas. 2 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 3 PRIMERA PARTE. INTRODUCCIÓN A LOS CONCEPTOS PRINCIPALES. 1. Introducción al análisis con base exploratoria. a) Objetivos y perspectiva. b) El papel de las representaciones gráficas. a) Objetivos y Perspectiva 1ª parte: una descripción básica de características y tipos de representaciones que se apoyará mediante transparencias y fotocopias. Incluye también unas definiciones básicas de puntos destacados, EDA como perspectiva moderna, convenciones, etc. Se realizará un breve recorrido por la estadística descriptiva, teniendo en cuenta el objetivo de representaciones, que abarca desde la perspectiva clásica hasta la moderna. 2ª parte de aplicaciones concretas. Centrado en ejemplos mejor que en técnicas. Es decir relatar ejemplos concretos de investigaciones educativas con una serie de objetivos a cubrir y entonces situar su análisis dentro de un esquema amplio de análisis donde se vea claramente la utilidad de las representaciones gráficas. Además será importante que quede patente el carácter interactivo de la perspectiva que se defiende en el curso. Es decir cómo vamos forjando Hipótesis y explorando recurrentemente las representaciones, etc. • Utilización de abundante cantidad de ejemplos que ilustren bien la problemática. A veces un tipo de representación camufla una realidad importante. Pues bien, un objetivo importante es que el supuesto seleccionado permita clarificar esta cuestión. • Múltiples representaciones de los mismos datos para ver cosas diferentes en los mismos cada vez. • De forma interactiva. Es decir presentarlo como una continua generación y contraste de Hipótesis. Explicar los ejemplos dentro del seno de la Psicología Educación. Contenidos de la Psicología de la Educación. ¾ Definición proceso básico de aprendizaje. ¾ Factores intrapersonales ¾ Factores interpersonales y socio-ambientales. ¾ Análisis psicoeducativo del proceso. ¾ Conocimiento psicológico y práctica educativa. 3 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” • 4 Describir los programas de análisis estadístico y sus posibilidades gráficas. Uno de los más destacados es SYSTAT, motivo por el que hemos optado por él. Menú Graph del programa SYSTAT: OPCIÓN Spin Plot Cplot Bar Pie Density Box Stemleaf Pplot Qplot SPLOT Icon Map … DESCRIPCIÓN Rotación gráficos 3-D Diagrama dispersión Categórico de Barras o rectángulos De tartas o circular Histograma, Polígono y Función Probabilidad Diagrama “cajas y barbas” Diagrama “tallos y hojas” Densidad –ProbabilísticosCuantiles Matricial Simbólico o Pictograma Simbólico de Mapas … 4 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 5 El fichero “repres1.syd” es para el programa SYSTAT y servirá para desarrollar los Supuestos 1 y 2. El fichero incluye la siguiente información: niño 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 rencoop rencompi exptprofe cultpadre tampandi 1 5 9,0 1 0 11 11 3,5 1 1 32 19 2,5 1 1 41 21 2,6 2 2 41 23 2,5 2 2 42 32 3,5 3 3 55 37 5,5 3 0 57 38 7,0 4 0 60 39 6,8 4 1 60 50 5,0 4 1 62 50 3,5 2 2 62 51 4,0 2 3 65 52 6,7 4 4 65 53 3,5 3 4 66 54 5,5 2 1 71 54 5,0 2 2 73 60 5,0 2 2 75 66 4,0 1 1 82 65 5,5 4 2 84 73 5,0 4 2 85 75 6,0 2 4 87 82 8,6 1 2 88 85 8,8 1 1 92 87 9,0 2 2 100 92 8,0 3 4 Aclaración: Las variables representan: • rencoop: rendimiento en situación cooperativa. • rencompi: rendimiento en situación competitiva. • Exptprofe: expectativas del profesor. • cultpadre: nivel sociocultural padres. • tampandi: tamaño de las pandillas. 5 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 6 Con los promedios: rencoop rencompi exptprofe cultpadre tampandi Promedio 62,28 50,96 5,44 2,40 1,88 Y sirven para describir las implicaciones educativas de la estructura de interacción entre los alumnos y más en concreto para analizar las predicciones de éxito escolar a partir de las expectativas del profesor. 6 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 7 El fichero “repres2.syd” es para el programa SYSTAT y servirá para desarrollar el Supuesto 3. El fichero incluye la siguiente información: edad 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 7.000 7.000 7.000 7.000 7.000 7.000 7.000 7.000 7.000 7.000 9.000 9.000 9.000 9.000 9.000 9.000 9.000 9.000 9.000 9.000 11.000 11.000 11.000 11.000 11.000 11.000 11.000 11.000 11.000 11.000 13.000 13.000 13.000 13.000 13.000 13.000 13.000 13.000 13.000 13.000 error 10.000 9.000 10.000 8.000 10.000 9.000 8.000 9.000 10.000 7.000 6.000 5.000 7.000 5.000 5.000 4.000 7.000 4.000 5.000 2.000 6.000 4.000 2.000 3.000 2.000 3.000 3.000 2.000 3.000 2.000 1.000 0.0 2.000 2.000 1.000 3.000 2.000 4.000 5.000 0.0 0.0 1.000 1.000 2.000 2.000 2.000 2.000 3.000 1.000 1.000 Aclaración: Las variables representan: • Edad: medida en años • Error: Número de errores cometidos en una batería de aptitudes. Y sirve para efectuar el análisis de la progresión evolutiva de las destrezas cognitivas. 7 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 8 Por último, el fichero “normal.syd” es para el programa SYSTAT y servirá para desarrollar la simulación de la distribución Normal Multivariada, como ilustración de las posibilidades gráficas más sofisticadas. El fichero incluye la siguiente información: Z1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,79 1,58 … Z2 2 1,79 1,58 1,37 1,16 0,95 0,74 0,53 0,32 0,11 -0,1 -0,31 -0,52 -0,73 -0,94 -1,15 -1,36 -1,57 -1,78 -1,99 -2,2 2 1,79 1,58 1,37 1,16 0,95 0,74 0,53 0,32 0,11 -0,1 -0,31 -0,52 -0,73 -0,94 -1,15 -1,36 -1,57 -1,78 -1,99 -2,2 2 … Altura 0,00292 0,00434 0,00618 0,00843 0,01099 0,01372 0,01638 0,01872 0,02046 0,02141 0,02143 0,02053 0,01882 0,01650 0,01385 0,01112 0,00854 0,00628 0,00442 0,00297 0,00192 0,00434 0,00646 0,00920 0,01255 0,01636 0,02042 0,02439 0,02787 0,03047 0,03187 0,03191 0,03056 0,02801 0,02457 0,02062 0,01655 0,01272 0,00935 0,00658 0,00443 0,00285 0,00618 … Aclaración: Las variables representan: • Z1: Tipificación Dimensión1 • Z1: Tipificación Dimensión2 • Altura: calculada a partir de la función Normal. 8 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 9 b) El papel de las representaciones gráficas. Un énfasis en • La comprensión de los datos ¿Qué hay aquí? • Tipología de Representaciones gráficas. • Aproximación de construcción tentativa de modelos y generación de Hipótesis en un proceso interactivo. Especificación modelo, análisis residual, re-especificación. • Uso de medidas robustas y re-análisis sobre subconjuntos seleccionados de datos. • Flexibilidad y escepticismo respecto al método concreto de análisis a aplicar. Descubrir patrones en los datos. Como un trabajo detectivesco, atender y observar los datos hasta que emerja una historia coherente en los mismos. Es decir aprender a partir de los datos. Abre una perspectiva que debe tomarse como complementaria más que opuesta a la perspectiva clásica. Se trata de una perspectiva exploratoria más que confirmatoria. Más que una colección de técnicas se trata de una genuina opción teórica. Es decir de una actitud hacia los datos. La tendencia reinante de análisis de datos psicológicos pretende muchas veces que todo lo que nos interesa es el contraste de algún parámetro determinado (el mito del “Test de Hipótesis”). Pero lo cierto es que hay multitud de preguntas no menos importantes, de amplio alcance, y que requieren de una perspectiva más flexible (menos tajante) en la que de manera interactiva vamos planteando diferentes preguntas a los datos, es decir planteando diferentes Hipótesis, a la vez que vamos tomando una serie de decisiones descartando algunas de las mismas y concretando otras. Así pues se trata más bien de estudiar las etapas iniciales del análisis, con perspectiva exploratoria más que confirmatoria, realizando análisis preliminares de los datos y donde las técnicas de representación gráfica son cruciales como guía del proceso. También veremos el uso de técnicas de representación como una ayuda ineludible para detectar patrones complejos en los datos. ¿Qué sucedería a un modelo por ejemplo lineal si uno de los predictores lo reducimos a algunos de los valores que puede adoptar? ¿Cuál es el modelo que mejor describe los datos? ¿Es exponencial? ¿Es logarítmico? Temas • • • • • • incluidos bajo el epígrafe EDA: Representación de datos. Transformación de variables. Línea resistente. Técnicas de suavizado. Ajuste de medianas. Estimación robusta. 9 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 10 2) Bases para la representación a) Tipos más frecuentes. b) Nuevos formatos de representación. c) Convenciones en torno al sistema de representación. a) Los tipos de representación más frecuentes 1. GRÁFICOS BÁSICOS. A. GRUPO HISTOGRAMA. 1. Diagrama rectángulos (bar). Nivel sociocultural padres (1: sin estudios, 2: primarios, 3: secundarios, 4: superiores). 10 9 8 7 Count 6 5 4 3 2 1 0 0 1 2 3 CULTPADRE 4 5 2. Diagrama barras (bar). Tamaño de las pandillas (0,1,2,3,4 ó 5 componentes). 10 9 8 Count 7 6 5 4 3 2 1 0 0 1 2 3 TAMPANDI 4 5 Histograma (histogram). Agrupación rendimiento en situación Cooperativa en intervalos de 10 puntos. e histograma acumulativo (histogram_Histogram Options “Cumulative”:) 8 30 0.3 1.2 7 1.0 4 3 0.1 2 20 0.8 Count Count 0.2 0.6 10 0.4 0.2 1 0 0 Cumulative Density 5 Proportion per Bar 6 20 40 60 80 RENCOOP 100 0.0 120 0 0 20 40 60 80 RENCOOP 100 0.0 120 10 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 11 B. GRUPO POLÍGONO FRECUENCIAS. 10 10 9 9 9 8 8 8 7 6 5 EXPTPROFE 10 EXPTPROFE EXPTPROFE 4. Perfil ortogonal (Line, Profile o Pyramid). Expectativa profesor Rendimiento cada niño del aula. 7 6 5 7 6 5 4 4 4 3 3 3 2 0 2 0 10 20 30 10 NIñO 20 2 0 30 10 20 30 NIñO NIñO Polígono frecuencias (Histogram_Type of dsiplay: Frequency Poligon). Agrupación rendimiento en situación Cooperativa en intervalos de 10 puntos. y Polígono frecuencias acumulativo (histogram_ Type of dsiplay: Frequency Poligon_ Histogram Options “Cumulative”:). 30 8 7 6 20 Count Count 5 4 10 3 2 1 0 0 0 0 20 40 60 80 RENCOOP 100 120 20 40 60 80 RENCOOP 100 120 11 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 12 C. GRUPO DIAGRAMAS SIMBÓLICOS. 6. Diagrama circular o Gráfico tarta. (Pie chart). Nivel sociocultural padres. 1 2 4 3 Pictograma (Icon Plot). Rendimiento en cada niño. 12 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 13 2. GRÁFICOS PARA ESTUDIO DE LA RELACIÓN ENTRE VARIABLES. Diagrama de dispersión o nube de puntos (scatterplot). Relación rendimiento y expectativas profesor. 120 RENCOOP 100 80 60 40 20 0 2 3 4 5 6 7 8 EXPTPROFE 9 10 13 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 14 b) Nuevos formatos de representación 3.1. Diagrama de tallos y hojas (Descriptive Statistics_stem and leaf Plot). Rendimiento en situación cooperativa. Con letra Courier New. Stem and Leaf Plot of variable: Minimum: 1.000 Lower hinge: 55.000 Median: 65.000 Upper hinge: 82.000 Maximum: 100.000 RENCOOP, N = 25 0 1 1 1 * * * Outside Values * * * 3 2 4 112 5 H 57 6 M 0022556 7 135 8 H 24578 9 2 10 0 3.2. Diagrama de cajas y bigotes (Box Plot). Rendimiento en situación cooperativa. 0 20 40 60 80 RENCOOP 100 120 14 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 15 El ejemplo de tallos-hojas a dos niveles diferentes de detalle: el sugerido por el programa SYSTAT (unas 10 líneas) y otro en que se fuerza al doble de intervalos (20 líneas). Stem and Leaf Plot of variable: Minimum: 1.000 Lower hinge: 55.000 Median: 65.000 Upper hinge: 82.000 Maximum: 100.000 RENCOOP, N = 25 0 1 1 1 * * * Outside Values * * * 3 2 4 112 5 H 57 6 M 0022556 7 135 8 H 24578 9 2 10 0 Forzando 20 niveles 0 1 1 1 * * * Outside Values * * * 3 2 3 4 112 4 5 5 H 57 6 0022 6 M 556 7 13 7 5 8 H 24 8 578 9 2 9 10 0 15 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 16 Ventajas de los sistemas modernos de representación 1) Permite retener mayor riqueza informativa (todas y cada una de las puntuaciones) pero no facilita los cálculos numéricos de diferentes estadísticos. 2) Ofrece simultáneamente un listado de las puntuaciones y un dibujo (si lo tumbamos es como un histograma). 3) Flexible para alterar el nivel de detalle. 4) Facilita la comparabilidad entre grupos, estudios diferentes, y por ende la comprensión de los datos. 16 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 17 c) Convenciones en torno al sistema de representación. 1) 2) 3) 4) 5) 6) 7) 8) 9) Valores variable en abcisas (X) y frecuencia en ordenada (Y). Graduación ordinal de derecha-izquierda y abajo-arriba desde menor a mayor. Indicaciones de ruptura del eje cuando deseamos dar un salto. Incluir toda la información posible para evitar ambigüedades y facilitar su interpretación (títulos descriptivos de los ejes y del propio gráfico). Cuando sea el caso, equiparación de diferentes grupos o niveles de una variable: a) Frecuencias relativas en lugar de absolutas para evitar distorsiones interpretativas por el tamaño. b) Indicación de dispersión en cada grupo. c) Igualar la amplitud de los ejes que representan a cada uno de ellos-. No utilizar más de 8-9 unidades conceptuales diferentes, intervalos, columnas, barras, grupos, secciones, etc. Adaptar el tipo de representación al tipo de público al que irá dirigida. No alterar o manipular los ejes para inducir imágenes inadecuadas. Por ejemplo este engaño se puede lograr recortando la altura de los histogramas correspondientes. Usar histogramas en lugar de pictogramas en la medida de lo posible. Por ejemplo, a pesar de mantener la misma altura se puede inducir la impresión visual de una mayor diferencia si por ejemplo alteramos el ancho de las figuras o símbolos utilizados. 17 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 18 SEGUNDA PARTE. ANÁLISIS GRÁFICO DE INVESTIGACIONES EDUCATIVAS DESTACADAS. 3) Análisis descriptivo básico. a) Propiedades elementales: i) Tendencia central, posición y variabilidad ii) Forma: Asimetría y apuntamiento b) La forma de la distribución según algunos modelos representativos. i) El caso de la distribución normal ii) La distribución exponencial. c) Detección de casos anómalos. Introducción Confeccionar representaciones que faciliten la comparación de grupos diferentes o donde se ha manipulado algún aspecto. En nuestro ejemplo centraremos la comparación de lo que sucede en situaciones competitivas y cooperativas. Así por ejemplo un diagrama tallos-hojas conjunto. 18 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 19 Veamos primero un ejemplo comparativo que ilustra las diferentes propiedades: 40 35 30 25 20 15 10 5 0 ¾ ¾ A B C D 1 2 3 4 5 6 7 8 9 A 1 6 10 14 37 14 10 6 2 B 2 10 12 16 19 16 12 10 3 C 8 35 30 10 7 5 3 1 1 D 1 1 3 5 7 10 30 35 8 A y B similar tendencia central (en torno a 5 puntos) pero A es más homogénea –su varianza es menor- que B. Las dos son simétricas. A es más apuntada que B. La primera tiende a ser leptocúrtica y la segunda a ser más bien platicúrtica. C y D el mismo grado de variabilidad pero C es asimétrica positiva y D negativa. El ejemplo que centraremos es el siguiente. Supuesto 1: análisis de las implicaciones educativas de la estructura de interacción entre los alumnos. Más en concreto sobre las diferencias en rendimiento y en socialización según que la estructura sea cooperativa o competitiva. 19 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 20 3. Análisis descriptivo básico a) Propiedades elementales i) Tendencia central 1. Mediante Diagrama de tallos y hojas (Descriptive Statistics_stem and leaf Plot). Comparación de rendimiento en las situaciones cooperativa y competitiva. Con letra Courier New. Sin forzar Stem and Leaf Plot of variable: Minimum: 21.000 Lower hinge: 50.000 Median: 54.000 Upper hinge: 82.000 Maximum: 100.000 RENCOOP, N = 25 2 12 3 27 4 00 5 M 0000024 6 015 7 35 8 H 24578 9 2 10 0 Stem and Leaf Plot of variable: Minimum: 22.000 Lower hinge: 37.000 Median: 50.000 Upper hinge: 60.000 Maximum: 100.000 RENCOMPI, N = 25 2 23 2 9 3 3 H 5557 4 0034 4 5 M 00002 5 5 6 H 002 6 7 2 7 5 8 2 * * * Outside Values * * * 9 8 10 0 20 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 21 Forzando 10 líneas en los dos variables para compararlas. Stem and Leaf Plot of variable: Minimum: 21.000 Lower hinge: 50.000 Median: 54.000 Upper hinge: 82.000 Maximum: 100.000 RENCOOP, N = 25 2 12 3 27 4 00 5 M 0000024 6 015 7 35 8 H 24578 9 2 10 0 Stem and Leaf Plot of variable: Minimum: 22.000 Lower hinge: 37.000 Median: 50.000 Upper hinge: 60.000 Maximum: 100.000 RENCOMPI, N = 25 2 239 3 H 5557 4 0034 5 M 000025 6 H 002 7 25 8 2 * * * Outside Values * * * 9 8 10 0 21 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 22 2. Clásica. Mediante histogramas 7 8 6 7 0.3 3 0.1 2 5 Count Count 4 6 0.2 4 3 0.1 Proportion per Bar 0.2 Proportion per Bar 5 2 1 1 0 0.0 20 30 40 50 60 70 80 90 100 110 RENCOOP 0 0.0 20 30 40 50 60 70 80 90 100 110 RENCOMPI 22 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 23 i) Variabilidad 1. Mediante Diagrama de cajas y barbas (Box Plot). Comparación de rendimiento en las situaciones cooperativa y competitiva. 20 30 40 50 60 70 80 90 100 110 RENCOMPI 20 30 40 50 60 70 80 90 100 110 RENCOOP 2. Clásica. Mediante cuantiles Displaying Error Bars on a Graph From the Graph menu, select Bar, Dot, or Line. In the dialog box choose: Options Error Bar 23 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 24 ii) Ilustración comparativa de diferentes asimetría y apuntamiento (curtosis). formas según (comparar con los índices numéricos) 12 8 8 0.3 Count 0 0 5 20 40 60 80 RENCOOP 100 0.1 2 0.0 120 12 0 2 1 2 3 CULTPADRE 4 0.0 5 3 4 5 6 7 EXPTPROFE 8 9 0.0 10 0.6 10 0.4 Count Count 0 0.0 0 10 20 30 40 50 60 70 80 90 100 RENCOMPI 0.3 5 0.2 0.1 2 0.1 2 Proportion per Bar 0.2 4 3 0.5 Proportion per Bar 0.3 6 0.2 4 1 0.4 8 5 1 15 10 0 0 0.2 4 3 0.1 2 6 Proportion per Bar 0.2 4 7 6 Proportion per Bar 0.3 6 Proportion per Bar 8 0.3 7 Count 0.4 Count 10 0.1 0 0 1 2 3 TAMPANDI 4 0.0 5 24 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 25 b) Ilustración de la forma de la distribución según algunos Modelos representativos. i) El caso de la Distribución Normal Univariada (Graph “Line” sobre fichero Normal.syd tomando Z1 e Y1). 0.4 Y1 0.3 0.2 0.1 0.0 -3 -2 -1 0 Z1 1 2 3 25 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 26 Estudio de la Forma-Modelo de la distribución 7 8 6 7 5 6 4 5 Count Count A través de representaciones específicas. “Density Function” 3 4 3 2 2 1 1 0 30 40 50 60 70 80 90 100 110 RENCOOP 0 0 10 20 30 40 50 60 70 80 90 100 RENCOMPI 3 2 1 0 -1 -2 -3 30 40 50 60 70 80 90 100 110 RENCOOP Expected Value for Normal Distribution Expected Value for Normal Distribution Que se aproximen o no a una línea recta. Cuanto más próximo a esta mejor ajusta el modelo hipotetizado. Esta función sí que incluye “smooth” para ajustar una línea recta precisamente y poder aproximarnos mejor. Veamos la aproximación a la normal. 3 2 1 0 -1 -2 -3 0 10 20 30 40 50 60 70 80 90 100 RENCOMPI 26 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 27 ii) La distribución exponencial 4 3 2 1 0 30 40 50 60 70 80 90 100 110 RENCOOP Expected Value for Exponential Distribution Expected Value for Exponential Distribution Así pues, que los juicios sean comparativos (relativos) mas que absolutos. En este caso vamos a comparar con otro tipo de modelo de distribución, vg una exponencial. 4 3 2 1 0 0 10 20 30 40 50 60 70 80 90 100 RENCOMPI Como se puede apreciar el ajuste normal es mejor que el de la exponencial por ejemplo. 27 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 28 Ilustración de diferentes tipos de relación LINEAL 8 y = a + bx 6 4 2 0 1 11 21 31 41 51 EXPONENCIAL POTENCIAL 100 0,1 80 0,08 60 0,06 y = ae bx 40 y = ax b 0,04 20 0,02 0 0 1 11 21 31 41 51 1 11 HIPERBÓLICA 21 31 1 0,1 y= 0,8 b y =a+ x 0,15 51 LOGÍSTICA 0,25 0,2 41 0,6 1 1 + ae bx 0,4 0,05 0,2 0 0 1 11 21 31 41 1 11 21 31 41 51 28 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 29 c) Detección de casos anómalos. 29 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 30 30 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 31 4. Análisis de relación entre variables a) Introducción. b) El caso lineal. c) Relación no lineal. a) Introducción Es importante la exploración gráfica de la relación, sobre todo para perfilar el tipo de relación. La más importante ha sido en las disciplinas afines a la Psicología sin lugar a dudas la lineal. Pero no es este tipo de relación ni mucho menos el único tipo posible. De hecho veremos un ejemplo extraído de la investigación educativa que apunta más bien un tipo diferente de relación. Una vez más el análisis exploratorio es crucial en este punto. Por otro lado, también es importante observar/explorar con detenimiento el conjunto de datos de nuestro estudio. Nuevamente la presencia de puntos anómalos puede se distorsionante. En este punto podríamos forjarnos una idea de relación que es inadecuada. El análisis exploratorio tipo EDA vuelve a ser crucial. Veremos un método robusto de estimación. Todos los puntos trazados están relacionados con la estadística robusta. El análisis exploratorio puede ayudarnos, además, a evitar algunos riesgos inherentes a la interpretación de relaciones. ¾ Dependencia de la variabilidad. ¾ Mediación de terceras variables. ¾ Rango de valores restringido y por tanto poco representativo de la población de referencia. ¾ Mezcla de grupos heterogéneos. Centraremos dos ejemplos de manera comparativa. Veamos el primero de ellos. Supuesto 2: Análisis de las predicciones en el éxito escolar a partir de las expectativas del profesor. Incluye un “outlier”, lo que permite apreciar la distorsión que provoca sobre la recta de regresión. Algo que se puede detectar mediante la representación gráfica correspondiente y que se puede corregir mediante la recta de Tukey que es robusta (se basa en las medianas). Le ajustamos algunos modelos diferentes para que se vea claramente la superioridad del lineal frente a otros modelos como el exponencial o logarítmico. Realmente el estudio fue de regresión múltiple, cuya ecuación sería de la forma: z ′RF = 0.62 ⋅ z EP + 0.16 ⋅ z EA 0.18 ⋅ z RAA ; R 2 = 0,801 ¾ RF: Rendimiento académico Final del curso, ¾ EP: Expectativas profesor, ¾ EA: Expectativas alumno y ¾ RAA: Rendimiento Anterior del Alumno. De Navas, Sampascual y Castejón (1991). Relación entre rendimiento y variables motivacionales cognitivas en niños de 5º EGB. 31 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 32 b) El caso Lineal 10 9 EXPTPROFE 8 7 6 5 4 3 2 1 0 20 30 40 50 60 70 80 90 100 110 RENCOOP Tantear el ajuste hasta dar con la tecla del lineal: Smoother (Scatterplot_options) 10 9 EXPTPROFE 8 7 6 5 4 3 2 1 0 20 30 40 50 60 70 80 90 100 110 RENCOOP 32 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 33 Estudio de la relación entre variables a partir del Supuesto 2 El gráfico nos permite comparar lo que sucede cuando está presente el “outlier” identificado frente a cuando éste desaparece (como si se tratara de un valor perdido). 10 9 8 Value 7 6 5 4 3 NEWEXPT EXPTPROFE 2 30 40 50 60 70 80 90 100 110 RENCOOP Por ello sería útil disponer de una estimación robusta en casos como este. Veamos la línea resistente de Tukey, una de las técnicas más representativas en este punto. X Case nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ExpecProf RendCoo 9,0 3,5 2,5 2,6 2,5 3,5 5,5 7,0 6,8 5,0 3,5 4,0 6,7 3,5 5,5 5,0 5,0 4,0 5,5 5,0 6,0 8,6 8,8 9,0 8,0 Case nº 1 11 32 41 41 42 55 57 60 60 62 62 65 65 66 71 73 75 82 84 85 87 88 92 100 3 5 4 2 6 11 14 12 18 10 16 17 20 7 15 19 21 13 9 8 25 22 23 1 24 Md Md1 Md2 Y ExpecProf RendCoo 2,5 2,5 2,6 3,5 3,5 3,5 3,5 4,0 4,0 5,0 5,0 5,0 5,0 5,5 5,5 5,5 6,0 6,7 6,8 7,0 8,0 8,6 8,8 9,0 9,0 5,0 3,5 6,9 32 41 41 11 42 62 65 62 75 60 71 73 84 55 66 82 85 65 60 57 100 87 88 1 92 65 61 74 33 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 34 Representación de la relación a partir de un diagrama de dispersión: 120 RENDIMIENTO 100 80 60 40 20 0 0,0 2,0 4,0 6,0 8,0 10,0 EXPECTATIVA PROFE Representación de la relación junto con la extrapolación de la recta de regresión lineal: 120 RENDIMIENTO 100 y = 4,4472x + 38,087 80 y = 3,8235x + 47,618 60 40 20 0 0,0 2,0 4,0 6,0 8,0 10,0 EXPECTATIVA PROFE 34 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 35 C) De tipo no lineal. Por ejemplo una función exponencial. Por otro lado, veamos otro estudio en que también interesa la relación entre dos variables. Supuesto 3: Análisis de la progresión evolutiva en las destrezas. Se mide el número de errores cometidos en una batería que incluye una muestra representativa de las habilidades cognitivas (aptitudes) más destacadas a diferentes grupos de edad. Entonces realizamos un seguimiento de las destrezas medido a través del número de errores. Como se podrá apreciar se trata de una función exponencial. Le ajustamos también algunos modelos diferentes para que se vea claramente la superioridad del lineal frente a otros modelos como el exponencial o logarítmico. Interpretación de la exponencial. Paulatinamente se comete menor número de errores, luego mejoran las destrezas básicas. Pero ese cambio no es constante en los diferentes momentos sino que es proporcionalmente mayor al principio que en edades posteriores. (Fichero “repres2.syd”) 12 10 ERR 8 6 4 2 0 0 5 10 15 EDAD Ir tanteando los ajustes hasta dar con el mejor ajuste, proporcionado por el modelo exponencial: Smoother (Scatterplot_options) 35 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 36 Supuesto 3 para estimación de relación no lineal sobre Análisis de la progresión evolutiva de las destrezas cognitivas. Matriz de datos. Dentro figura el número de errores cometido por cada niño en cada nivel de edad. NIÑOS 1 2 3 4 5 6 7 8 9 10 MEDIA 5 10 9 10 8 10 9 8 9 10 7 9,0 7 6 5 7 5 5 4 7 4 5 2 5,0 AÑOS 9 6 4 2 3 2 3 3 2 3 2 3,0 11 1 0 2 2 1 3 2 4 5 0 2,0 13 0 1 1 2 2 2 2 3 1 1 1,5 36 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 37 REPRESENTACIÓN DE LA RELACIÓN A PARTIR DE UN DIAGRAMA DE DISPERSIÓN: 12 ERRORES 10 8 6 4 2 0 0 5 EDAD 10 15 Representación de la relación junto con la extrapolación de la función exponencial: 12 ERRORES 10 8 6 4 2 0 0 5 EDAD 10 15 37 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 38 5) Representaciones Multidimensionales Se ilustrará la Normal Multidimensional, como ejemplo de gráfico 3-D y sus posibilidades. • Para ello se simulan variaciones cíclicas de una variable Z2 (tipificada) anidada a otra variable Z1 y se estima a partir de la interacción (el producto) de ambas la altura de la función. Los datos de dicha simulación se recogen en el fichero “normal.syd” y el gráfico tridimensional resultante en el fichero “Normal3D.SYG” El resultado es la representación: 38 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 39 Anexos.- Listados de diferentes análisis con el programa SYSTAT El análisis descriptivo detallado del Supuesto 1: N of cases Minimum Maximum Range Sum Median Mean 95% CI Upper 95% CI Lower Std. Error Standard Dev Variance C.V. Skewness(G1) SE Skewness Kurtosis(G2) SE Kurtosis RENCOOP 25 31.000 100.000 69.000 1607.000 65.000 64.280 72.501 56.059 3.983 19.915 396.627 0.310 -0.165 0.464 -0.815 0.902 RENCOMPI 25 5.000 92.000 87.000 1274.000 52.000 50.960 60.921 40.999 4.826 24.131 582.290 0.474 -0.125 0.464 -0.708 0.902 N of cases Minimum Maximum Range Sum Median Mean 95% CI Upper 95% CI Lower Std. Error Standard Dev Variance C.V. Skewness(G1) SE Skewness Kurtosis(G2) SE Kurtosis RENCOOP 25 1.000 100.000 99.000 1557.000 65.000 62.280 72.266 52.294 4.839 24.193 585.293 0.388 -0.880 0.464 0.763 0.902 RENCOMPI 25 5.000 92.000 87.000 1274.000 52.000 50.960 60.921 40.999 4.826 24.131 582.290 0.474 -0.125 0.464 -0.708 0.902 EXPTPROFE 25 1.000 9.000 8.000 128.500 5.000 5.140 6.017 4.263 0.425 2.124 4.512 0.413 0.205 0.464 -0.521 0.902 EXPTPROFE 25 2.500 9.000 6.500 136.000 5.000 5.440 6.302 4.578 0.418 2.089 4.362 0.384 0.376 0.464 -0.931 0.902 CULTPADRE 25 1.000 4.000 3.000 60.000 2.000 2.400 2.862 1.938 0.224 1.118 1.250 0.466 0.272 0.464 -1.253 0.902 CULTPADRE 25 1.000 4.000 3.000 60.000 2.000 2.400 2.862 1.938 0.224 1.118 1.250 0.466 0.272 0.464 -1.253 0.902 TAMPANDI 25 0.0 4.000 4.000 47.000 2.000 1.880 2.390 1.370 0.247 1.236 1.527 0.657 0.390 0.464 -0.530 0.902 TAMPANDI 25 0.0 4.000 4.000 47.000 2.000 1.880 2.390 1.370 0.247 1.236 1.527 0.657 0.390 0.464 -0.530 0.902 39 Manuel Miguel Ramos Álvarez Curso “Representaciones gráficas de datos en Psicología Educación” 40 Diferentes variaciones de representaciones modernas a partir de EDA: Stem and Leaf Plot of variable: RENCOOP, N = 25 Minimum: 31.000 Lower hinge: 55.000 Median: 65.000 Upper hinge: 82.000 Maximum: 100.000 3 112 4 112 5 H 57 6 M 0022556 7 135 8 H 24578 9 2 10 0 Stem and Leaf Plot of variable: Minimum: 5.000 Lower hinge: 37.000 Median: 52.000 Upper hinge: 66.000 Maximum: 92.000 RENCOMPI, N = 25 0 5 1 19 2 13 3 H 2789 4 5 M 0012344 6 H 056 7 35 8 257 9 2 Stem and Leaf Plot of variable: Minimum: 31.000 Lower hinge: 55.000 Median: 65.000 Upper hinge: 82.000 Maximum: 100.000 RENCOOP, N = 25 3 112 4 112 5 H 57 6 M 0022556 7 135 8 H 24578 9 2 10 0 Stem and Leaf Plot of variable: Minimum: 5.000 Lower hinge: 37.000 Median: 52.000 Upper hinge: 66.000 Maximum: 92.000 RENCOMPI, N = 25 0 5 1 19 2 13 3 H 2789 4 5 M 0012344 6 H 056 7 35 8 257 9 2 40