TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS FASES EN EL ANÁLISIS DE LOS DATOS DE UNA INVESTIGACIÓN SELECCIÓN Modelo de Análisis HIPÓTESIS DE INVESTIGACIÓN Técnica de Análisis VARIABLES Planteamiento de las hipótesis estadísticas REALIZACIÓN DEL ANÁLISIS Generación de la matriz de datos Preparación de los datos: Diagnóstico Técnica de análisis RESULTADOS PRESENTACIÓN DE RESULTADOS EN UN TRABAJO DE INVESTIGACIÓN (Tesis, artículo, memoria investigación…) Interpretación de la salida de resultados Presentación de resultados y su representación gráfica PAQUETE ESTADÍSTICO 1. SELECCIÓN. A) SELECCIÓN DEL MODELO DE ANÁLISIS HIPÓTESIS DE INVESTIGACIÓN ¿Existen diferencias entre dos grupos? ¿Es una variable buena predictora de otra? ¿Produce mejora un tratamiento? ¿Es lineal la relación entre dos variables? MODELO DE ANÁLISIS MODELO ESTRUCTURAL O DE EFECTOS MODELO DE REGRESIÓN Contraste t Análisis de Regresión Lineal Simple Análisis de la Varianza (ANOVA) MODELO ESTRUCTURAL O DE EFECTOS B) SELECCIÓN DE LA TÉCNICA DE ANÁLISIS. NIVELES DE LA VI Dos niveles Más de dos niveles Contraste t de diferencias de medias ANOVA Diferencias entre grupos Contraste t de diferencias de medias para muestras independientes Diferencias entre medidas Contraste t de diferencias de medias para muestras relacionadas C) PLANTEAMIENTO DE LAS HIPÓTESIS ESTADÍSTICAS. HIPÓTESIS DE INVESTIGACIÓN HIPÓTESIS DE INVESTIGACIÓN Diferencias en la VD entre grupos Diferencias en la VD entre medidas Hipótesis estadísticas bidireccionales Contraste t de diferencia de medias para muestras independientes HIPÓTESIS ESTADÍSTICAS Contraste t de diferencia de medias para muestras relacionadas Hipótesis estadísticas unidireccionales Un grupo superior o inferior a otro en la VD Una medida en la VD superior o inferior a otra D) REALIZACIÓN DEL ANÁLISIS. - Generación de la Matriz de datos. Contraste t de diferencia de medias para muestras independientes ANOVA Contraste t de diferencia de medias para muestras relacionadas VI Categórica VD Cuantitativa VD 1ª Medida Cuantitativa VD 2ª Medida Cuantitativa Niveles Puntuaciones Puntuaciones Puntuaciones de la en la en la en la VI VD VD VD - Preparación de los datos. Tratamiento de las omisiones Detección y tratamiento de los casos extremos Adecuación del nivel de medida de la VI CATEGORIZACIÓN Cuantitativa Categórica - Diagnóstico. a) Normalidad: -N. Univariable: Representación gráfica de la VD: Índices de forma de la VD: Histograma (Ajuste a la curva normal) Caja y patillas Asimetría (As≈0) Curtosis (K≈0) Prueba de bondad de ajuste sobre la VD (p>0,05 ó p>0,01) -N. Bivariable: Representación gráfica de la VD para cada nivel de la VI: Histograma (Ajuste a la curva normal) Caja y patillas Índices de forma de la VD para cada nivel de la VI: Asimetría (As≈0) Curtosis (K≈0) Prueba de bondad de ajuste sobre la VD para cada nivel de la VI (p>0,05 ó p>0,01) b) Homocedasticidad: Prueba de Levene (p>0,05 ó p>0,01) Relación significativa entre las dos medidas (contraste t de diferencia de medias para muestras relacionadas E) PRESENTACIÓN DE LOS RESULTADOS DEL ANÁLISIS Tabla de descriptivos Representación gráfica Tabla 1.- Descriptivos en la VD para los distintos niveles en la VI. VI n M D.T. VD Niveles de la VI Nº de sujetos Media en la VD para cada grupo o medida Desviación Típica en la VD para cada grupo o medida Total Niveles de la VI Figura 1. Medias en la VD para los diferentes niveles en la VI. Contraste t diferencia de medias para muestras independientes y relacionadas (t(gl)=…. , p=….., eta2=…..) ANOVA (F(gl1,gl2)=…. , p=….., eta2=…..) MODELO DE REGRESIÓN B) SELECCIÓN DE LA TÉCNICA DE ANÁLISIS. TIPO DE RELACIÓN Nº de VI Más de una A.de Regresión Múltiple Una Lineal A.de Regresión Lineal Simple Curvilínea A.de Regresión Polinómica C) PLANTEAMIENTO DE LAS HIPÓTESIS ESTADÍSTICAS. HIPÓTESIS DE INVESTIGACIÓN VI buen predictor diferencias VD Relación lineal VI-VD HIPÓTESIS ESTADÍSTICAS Hipótesis sobre el coeficiente de regresión Hipótesis sobre la proporción de varianza explicadas D) REALIZACIÓN DEL ANÁLISIS. - Generación de la Matriz de datos. Análisis de Regresión Lineal Simple VI Cuantitativa VD Cuantitativa Puntuaciones Puntuaciones en la VI en la VD - Preparación de los datos. Tratamiento de las omisiones Detección y tratamiento de los casos extremos - Diagnóstico. a) Normalidad: -N. Univariable: Representación gráfica de las VI y VD: Histograma (Ajuste a la curva normal) Caja y patillas Índices de forma de las VI y VD: Asimetría (As≈0) Curtosis (K≈0) Prueba de bondad de ajuste sobre las VI y VD (p>0,05 ó p>0,01) -N. Bivariable: Representación gráfica de los errores: Histograma (Ajuste a la curva normal) Caja y patillas Índices de forma de los errores: Asimetría (As≈0) Curtosis (K≈0) Prueba de bondad de ajuste sobre los errores (p>0,05 ó p>0,01) b) Linealidad: Representación gráfica: Diagrama de dispersión. Índice estadístico: Coeficiente de correlación de Pearson. Pruebas t y F (p<0,05 ó p<0,01) c) Homocedasticidad, Linealidad y Normalidad: Representación de errores sobre puntuaciones pronosticadas. E) PRESENTACIÓN DE LOS RESULTADOS DEL ANÁLISIS Tabla de descriptivos Representación gráfica Tabla 1.- Descriptivos de las VI y VD. Variables n M D.T. VD VI VD Nº de sujetos Media en las VI y VD Desviación Típica en las VI y VD VI Total Figura 1. Recta de regresión de la VD sobre la VI. Prueba t sobre el Coeficiente de Regresión (t(gl)=…. , p=….) Prueba F del ANOVA de la Regresión (F(gl1,gl2)=…. , p=….., R2=…..) ANÁLISIS DE DATOS: LOS PAQUETES ESTADÍSTICOS ENTORNO PC ENTORNO MACINTOSH STATVIEW STATGRAPHICS SAS BMDP SYSTAT SPSS COMPONENTES DE LOS PAQUETES ESTADÍSTICOS GENERACIÓN DE LA MATRIZ DE DATOS PREPARACIÓN DE LA MATRIZ DE DATOS TÉCNICAS DE ANÁLISIS Y REPRESENTACIONES GRÁFICAS ANÁLISIS DE DATOS CON EL PAQUETE ESTADÍSTICO SPSS PAQUETE ESTADÍSTICO SPSS. 1. GENERACIÓN DE LA MATRIZ DE DATOS. A) DEFINICIÓN DE LAS VARIABLES: VISTA DE VARIABLES. - Variables nominales o categóricas. - Variables cuantitativas. - Introducción de datos: Vista de datos. 2. PREPARACIÓN DE LA MATRIZ DE DATOS A) TRATAMIENTO DE LAS OMISIONES. B) DETECCIÓN Y TRATAMIENTO DE LOS CASOS EXTREMOS. - Detección de los casos extremos: exploración de los datos 600 MSGS 500 400 300 3 200 N= 10 10 c. izquierdo c. derecho C.PRESEN - Eliminación de los casos extremos del análisis: seleccionar casos. C) ADECUACIÓN DEL NIVEL DE MEDIDA DE LA VI: CATEGORIZACIÓN. -Establecer los puntos de corte: Percentiles Estadísticos MSGS N Media Mediana Desv. típ. Varianza Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Mínimo Máximo Percentiles Válidos Perdidos 20 25 40 50 60 75 80 20 0 453,65 473,50 74,76 5589,61 -1,060 ,512 ,966 ,992 271 561 395,80 413,25 453,80 473,50 486,60 501,75 510,80 -Categorizar: Recodificar Variable categorizada 3. TÉCNICAS DE ANÁLISIS Y REPRESENTACIONES GRÁFICAS A) Contraste t de diferencia de medias para muestras independientes. - Matriz de datos. - Diagnóstico. a) Normalidad: Nivel univariable. Descriptivos msgs Estadístico Error típ. Asimetría -,198 ,536 Curtosis -,797 1,038 Pruebas de normalidad a Kolmogorov-Smirnov Estadístico msgs ,124 gl 18 Shapiro-Wilk Sig. ,200 * Estadístico gl Sig. ,962 18 ,636 a. Corrección de la significación de Lilliefors *. Este es un límite inferior de la significación verdadera. a) Normalidad: Nivel bivariable. Descriptivos c.presen c.izquierdo c.derecho Estadístico Error típ. Asimetría -,267 ,717 Curtosis ,689 1,400 Asimetría ,206 ,717 Curtosis -1,479 1,400 Pruebas de normalidad a c.presen Kolmogorov-Smirnov Estadístico msgs c.izquierdo c.derecho ,128 ,157 a. Corrección de la significación de Lilliefors *. Este es un límite inferior de la significación verdadera. gl Shapiro-Wilk Sig. 9 9 Estadístico gl Sig. ,200 * ,978 9 ,951 ,200 * ,939 9 ,567 b) Homocedasticidad. Prueba de homogeneidad de la varianza Estadístico de msgs Levene gl1 gl2 Sig. Basándose en la media ,997 1 16 ,333 Basándose en la mediana. ,927 1 16 ,350 Basándose en la mediana y ,927 1 15,700 ,350 ,982 1 16 ,336 con gl corregido Basándose en la media recortada - Técnica de análisis: Prueba de significación estadística. - Salida de resultados del análisis. Descriptivos de los grupos: Estadísticos de grupo MSGS N C.PRESEN c.izquierdo c.derecho 9 9 Media 496,11 448,56 Desviación típ. 41,01 49,14 Error típ. de la media 13,67 16,38 Resultados del análisis: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F MSGS Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. ,997 ,333 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior 2,229 16 ,040 47,56 21,33 2,33 92,78 2,229 15,504 ,041 47,56 21,33 2,21 92,90 Comprobación del supuesto de homocedasticidad t (16) = 2,23; p = 0,04 (Contraste bilateral) p = 0,02 (Contraste unilateral) - Representación gráfica de los resultados. 500 490 490 480 480 Media de MSGS Media de MSGS 500 470 460 470 460 450 450 440 440 c.izquierdo c.derecho C.PRESEN c.izquierdo c.derecho C.PRESEN B) Análisis de Varianza de un factor inter (ANOVA de un factor inter) - Matriz de datos: - Diagnóstico. a) Normalidad: Nivel univariable. Descriptivos Estadístico precord Asimetría Curtosis Error típ. ,069 ,427 -1,104 ,833 Pruebas de normalidad Kolmogorov-Smirnov Estadístico precord ,126 gl a Shapiro-Wilk Sig. 30 ,200 Estadístico * a. Corrección de la significación de Lilliefors *. Este es un límite inferior de la significación verdadera. ,949 gl Sig. 30 ,163 a) Normalidad: Nivel bivariable. Para ENTRENAM= Tipo A Para ENTRENAM= G. Control 3,5 Para ENTRENAM= Tipo B 5 2,5 3,0 4 2,0 2 2,0 Frecuencia Frecuencia 3 1,5 1,5 1,0 1,0 1 Desv. típ. = 3,86 ,5 De sv. típ . = 2,83 2,0 4,0 6,0 8,0 N = 10,00 0,0 N = 10 ,0 0 0 ,5 Desv. típ. = 4,00 Media = 12,0 Med ia = 5 ,3 8,0 10 ,0 10,0 12,0 14,0 16,0 18,0 PRECORD PRECORD N = 10,00 10,0 12,0 14,0 16,0 PRECORD 30 20 10 0 N= Media = 14,7 0,0 8,0 PRECORD Frecuencia 2,5 10 10 10 G. Control Tipo A Tipo B ENTRENAM 18,0 20,0 Descriptivos entrenam precord G. Control Estadístico Asimetría ,612 ,687 -1,162 1,334 ,261 ,687 Curtosis -1,797 1,334 Asimetría -,388 ,687 Curtosis -,961 1,334 Curtosis Tipo A Tipo B Error típ. Asimetría Pruebas de normalidad a PRECORD ENTRENAM G. Control Tipo A Tipo B Kolmogorov-Smirnov Estadístico Sig. gl ,192 10 ,200* ,202 10 ,200* ,131 10 ,200* *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors Estadístico ,901 ,884 ,955 Shapiro-Wilk gl 10 10 10 Sig. ,286 ,187 ,702 a) Homocedasticidad. Prueba de homogeneidad de la varianza PRECORD Basándose en la media Basándose en la mediana. Basándose en la mediana y con gl corregido Basándose en la media recortada Estadístico de Levene 1,013 gl1 2 gl2 27 Sig. ,377 ,511 2 27 ,606 ,511 2 24,917 ,606 1,012 2 27 ,377 - Técnica de análisis: Prueba de significación estadística. - Salida de resultados del análisis. Descriptivos de los grupos: Descriptivos PRECORD N G. Control Tipo A Tipo B Total 10 10 10 30 Media 5,30 12,00 14,70 10,67 Desviación típica 2,83 3,86 4,00 5,31 Error típico ,90 1,22 1,27 ,97 Intervalo de confianza para la media al 95% Límite Límite inferior superior 7,32 3,28 14,76 9,24 11,84 17,56 8,68 12,65 Mínimo 2 7 8 2 Comprobación del supuesto de homocedasticidad: Prueba de homogeneidad de varianzas PRECORD Estadístico de Levene 1,013 gl2 gl1 2 27 Sig. ,377 Resultados del análisis: ANOVA PRECORD Inter-grupos Intra-grupos Total Suma de cuadrados 468,467 350,200 818,667 gl 2 27 29 Media cuadrática 234,233 12,970 F (2,27) = 18,06; p < 0,01 F 18,059 Sig. ,000 Máximo 10 17 20 20 - Comparaciones post hoc o a posteriori. Comparaciones múltiples Variable dependiente: PRECORD HSD de Tukey (I) ENTRENAM G. Control Tipo A Tipo B Scheffé G. Control Tipo A Tipo B (J) ENTRENAM Tipo A Tipo B G. Control Tipo B G. Control Tipo A Tipo A Tipo B G. Control Tipo B G. Control Tipo A Diferencia de medias (I-J) -6,70* -9,40* 6,70* -2,70 9,40* 2,70 -6,70* -9,40* 6,70* -2,70 9,40* 2,70 *. La diferencia entre las medias es significativa al nivel .05. Error típico 1,61 1,61 1,61 1,61 1,61 1,61 1,61 1,61 1,61 1,61 1,61 1,61 Sig. ,001 ,000 ,001 ,232 ,000 ,232 ,001 ,000 ,001 ,263 ,000 ,263 Intervalo de confianza al 95% Límite superior Límite inferior -10,69 -2,71 -13,39 -5,41 2,71 10,69 -6,69 1,29 5,41 13,39 6,69 -1,29 -2,53 -10,87 -5,23 -13,57 2,53 10,87 -6,87 1,47 5,23 13,57 -1,47 6,87 - Tamaño del efecto. Pruebas de los efectos inter-sujetos Variable dependiente: PRECORD Fuente Modelo corregido Intersección ENTRENAM Error Total Total corregida Suma de cuadrados tipo III 468,467b 3413,333 468,467 350,200 4232,000 818,667 gl 2 1 2 27 30 29 Media cuadrática 234,233 3413,333 234,233 12,970 a. Calculado con alfa = ,05 b. R cuadrado = ,572 (R cuadrado corregida = ,541) F 18,059 263,164 18,059 Significación ,000 ,000 ,000 Eta cuadrado ,572 ,907 ,572 Parámetro de no centralidad 36,118 263,164 36,118 Potencia a observada 1,000 1,000 1,000 - Representación gráfica de los resultados. 16 16 14 Media de PRECORD Media de PRECORD 14 12 10 8 12 10 8 6 6 4 4 G. Control Tipo A ENTRENAM Tipo B G. Control Tipo A ENTRENAM Tipo B C) Contraste t de diferencia de medias para muestras relacionadas. - Matriz de datos: Diagnóstico. a) Normalidad: Nivel bivariable. Descriptivos derecho izquierd Estadístico Error típ. Asimetría ,192 ,616 Curtosis -1,128 1,191 Asimetría ,184 ,616 Curtosis -1,000 1,191 Pruebas de normalidad a Kolmogorov-Smirnov derecho izquierd Shapiro-Wilk Estadístico gl Sig. ,132 13 ,200 ,200 ,109 13 Estadístico gl Sig. * ,943 13 ,502 * ,955 13 ,679 a. Corrección de la significación de Lilliefors *. Este es un límite inferior de la significación verdadera. b) Relación significativa entre las dos medidas. - Técnica de análisis: Prueba de significación estadística. - Salida de resultados del análisis. Descriptivos de los grupos: Estadísticos de muestras relacionadas Par 1 DERECHO IZQUIERD Media 497,54 508,38 N 13 13 Desviación típ. 119,70 124,11 Error típ. de la media 33,20 34,42 Relación entre las medidas Correlaciones de muestras relacionadas Par 1 derecho y izquierd N Correlación Sig. 13 ,993 ,000 Resultados del análisis: Prueba de muestras relacionadas Diferencias relacionadas Par 1 DERECHO - IZQUIERD Media -10,85 Desviación típ. 14,71 Error típ. de la media 4,08 95% Intervalo de confianza para la diferencia Inferior Superior -19,73 -1,96 t (12) = -2,66; p = 0,021 (Contraste bilateral) p = 0,0105 (Contraste unilateral) t -2,659 gl 12 Sig. (bilateral) ,021 - Representación gráfica de los resultados. 510 508 510 506 Medias TR 508 Medias TR 506 504 504 502 502 500 500 498 498 496 496 Derecho Izquierdo C.VISUAL Derecho Izquierdo C.VISUAL D) Análisis de regresión lineal simple. - Matriz de datos: - Diagnóstico. a) Normalidad a nivel Univariable. 70 7 6 60 Frecuencia 5 4 50 3 2 Desv. típ. = 7,43 1 40 Media = 47,3 N = 34,00 0 35,0 40,0 37,5 45,0 42,5 50,0 47,5 55,0 52,5 60,0 57,5 62,5 30 N= 34 EP EP 300 12 10 Frecuencia 8 200 6 4 100 2 Desv. típ. = 35,81 Media = 105,5 N = 34,00 0 40,0 80,0 60,0 120,0 100,0 160,0 140,0 200,0 180,0 0 N= 34 EF EF Pruebas de normalidad a EP EF Kolmogorov-Smirnov Estadístico gl Sig. ,117 34 ,200* 34 ,200* ,112 Estadístico ,965 ,975 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors Shapiro-Wilk gl 34 34 Sig. ,433 ,668 a) Normalidad a nivel Bivariable. 12 10 Frecuencia 8 6 4 2 Desv. típ. = ,98 Media = 0,00 N = 34,00 0 -2,00 -1,00 -1,50 0,00 -,50 1,00 ,50 2,00 1,50 Regresión Residuo tipificado 3,00 2,50 b) Linealidad. 200 180 160 140 EF 120 100 80 60 40 20 30 40 50 EP 60 70 c) Linealidad, homocedasticidad y normalidad bivariable: 4 3 Regresión Residuo tipificado 2 1 0 -1 -2 -3 -2 -1 0 1 Regresión Valor pronosticado tipificado 2 3 - Técnica de análisis: Prueba de significación estadística. - Salida de resultados del análisis. Resumen del modelo Modelo 1 R cuadrado corregida ,433 R R cuadrado ,671a ,450 Error típ. de la estimación 26,97 a. Variables predictoras: (Constante), EP ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 19054,121 23270,350 42324,471 Media cuadrática 19054,121 727,198 gl 1 32 33 F 26,202 Sig. ,000a a. Variables predictoras: (Constante), EP b. Variable dependiente: EF Coeficientesa Modelo 1 (Constante) EP Coeficientes no estandarizados Error típ. B -47,531 30,257 3,234 ,632 Coeficientes estandarizados Beta ,671 t -1,571 5,119 Sig. ,126 ,000 a. Variable dependiente: EF F (1,32) = 26,20; p = ,000; R2=0,45 t (32)=5,12, p=.000 - Representación gráfica de los resultados. 200 180 160 140 EF 120 100 80 60 40 20 40 50 60 70 EP 200 180 160 140 120 EF 30 100 80 60 40 20 30 40 50 EP 60 70