ÁNALISIS BIVARIADO • Estudiar la relación entre dos variables cualitativas 1. Contrastar si la MEDIA es igual a un valor concreto H0: µ =a ANALISIS DE FRECUENCIAS, INDEPENDENCIA • Estudiar la relación entre dos variables cuantitativas CORRELACIÓN Y REGRESIÓN LINEAL 2. Comparar DOS MEDIAS H0: µ 1 =µ 2 3. Comparar MÁS de DOS MEDIAS H 0: µ 1 =µ 2=….= µ n • Estudiar la relación entre una variable cuantitativa y una variable cualitativa COMPARACIÓN DE MUESTRAS: MEDIAS a. Valor de la distribución H0: µ =a Varianza poblacional desconocida : situación frecuente 1. Contrastar si la MEDIA es igual a un valor concreto H0: µ =a Se utiliza la varianza estimada de la muestra (s2). En este caso la distribución no es una normal. Sigue una distribuci ón t de Student con n-1 grados de libertad. t= Ejemplo |x −µ s2 n | ∼ tυ donde υ=n-1 SPSS: Analizar à Comparar medias à Prueba T para una muestra Queremos saber si la media de edad en nuestra poblaci ón es 47. Extraemos una muestra representativa de 366 sujetos y obtenemos una media de 45,2 (D.E.=19,42). Aceptamos un nivel de significación del 5%. Definición de H0: µ = 47 H1: µ ≠ 47 Valor de la distribuci ón t= | x − µ 0 | = | 45,2 − 47 | = 1,77 19 ,42 s2 366 n 1. p-valor p valor asociado=0,078 > 0,05=p valor definido ⇒ No Rechazo H0 2. Intervalo de confianza: En este caso particular IC= x ± tα/2, * s2 n = 45,2±1,96*1,01=(43,2-47,2) Incluye el valor 47 No hay evidencia para rechazar H0 1 H0 : µ=47 H0 : µ-47=0 Estadísticos para una muestra N EDAT Edat continua Media 366 Desviación típ. 45.20 Error típ. de la media 19.419 1.015 Prueba para una muestra Valor de prueba = 47 EDAT Edat continua t -1.774 gl 365 Diferencia Sig. (bilateral) de medias .077 -1.80 95% Intervalo de confianza para la diferencia Inferior -3.80 Pruebas de hipótesis para comparar medias Superior .20 COMPARACIÓN DE MUESTRAS Comparar DOS MEDIAS H0: µ 1 =µ 2 Estudiar la relaci ón entre una variable cuantitativa y una cualitativa o categórica, es comparar las medias (o medianas) de la variable cuantitativa Y, variable respuesta, en las categor ías o grupos de la variable cualitativa X, variable explicativa q Muestras independientes: Si los grupos están formados por individuos diferentes, independientes Datos independientes : los datos proceden de poblaciones distintas (ej. Comparar la edad en hombres y mujeres ) El peso es igual en hombres y mujeres, o en media los hombres tienen H 0: µ 1= µ 2 un peso superior a las mujeres? q Muestras dependientes o relacionadas / apareadas: Si los grupos Se disponen de 2 muestras con tamaños n1 y n2 están formados por los mismos individuos en dos situaciones diferent es El peso es igual antes y después de realizar un tratamiento, o en media hay una diferencia en el peso? Comparar DOS MEDIAS H0: µ 1 =µ 2 Datos apareados : los datos proceden del mismo individuo (ej. Peso al inicio y al final de un tratamiento) H 0: µ d = 0 donde µ d = µ 1 - µ 2 Se dispone de una única muestra de tamaño n Comparación de dos medias Datos independientes Datos apareados Pruebas paramétricas no paramétricas t-student U-Mann Witney t-student datos apareados Pruebas Wilcoxon 2 Ejemplo: Material A Queremos comparar 2 tipos de materiales, A y B, para suelas de botas de montaña Vamos a ir de excursión!! Material B Derecha Izquierda 1 A B 2 A B A 3 A B 5 A 4 A B 6 B 5 A B 7 B 6 A B 8 B 7 A B 9 B 8 A B 10 B 9 A B 10 A B 1 A 2 A 3 A 4 5 con material A 5 con material B Peligro!! Peligro!! Variables confusoras Efecto lado!! Derecha Izquierda 1 A B 2 B A B 3 B A A B 4 A B 5 A B 5 A B 6 B A 6 B A 7 B A 7 A B 8 B A 8 B A 9 B A 9 A B 10 B A 10 B A Derecha Izquierda 1 A B 2 A B 3 A 4 Peligro!! Variables confusoras Aleatorizamos 5 suelas a un lado y aseguramos que cada uno lleva los dos materiales 3 DATOS INDEPENDIENTES DATOS INDEPENDIENTES H0: µ1= µ 2 A B 1 2 13,2 (I) 14,0 8,2 (I) 8,8 3 4 10,9 (D) 11,2 14,3 (I) 14,2 5 6 10,7 (D) 11,8 6,6 (I) 6,4 7 8 9,5 (I) 9,8 10,8 (I) 11,3 9 10 8,8 (D) 9,3 13,3 (I) 13,6 Se utiliza una t student teniendo en cuenta: X A = 10.63 s12=s Variancias iguales 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 A s (n − 1) + s2 ( n2 − 1) s2 = 1 1 n1 + n2 − 2 υ = ( n1 − 1) + ( n2 − 1) = n1 + n2 − 2 2 8,2 9,2 10,2 11,2 12,2 13,2 t= 14,2 B | x1 − x 2 | 2 2 ≈ tυ υ = ( n1 − 1) + ( n2 − 1) = n1 + n2 − 2 s1 + s2 n1 n2 Volvemos al Ejemplo: 2 s12 ≠s 2 2 Variancias diferentes 7,2 2 |x −x | t = 12 2 2 ≈ tυ s +s n1 n2 X B = 11.04 6,2 2 DATOS APAREADOS X A = 10.63 X B = 11.04 s 2A = 6,0 s 2B = 6,34 s 2 = 6,17 | x − x | 11,04 −10,63 = 0 ,37 t = 12 2 2 = 6,17 6,17 s +s + 5 5 n1 n 2 P valor=0,716 No tengo evidencias para rechazar H 0: µ1= µ 2 DATOS APAREADOS H0: µ1= µ 2 H0: µ1-µ 2=0 1 B-A 0,8 2 3 0,6 0,3 4 5 6 -0,1 0,1 -0,2 7 8 0,3 0,5 9 10 0,5 0,3 d = 0.41 0,0 0,5 1,0 A-B B-A En el Ejemplo: s d = 0,387 X d = 0 .41 Se utiliza una t student para datos apareados Se construye una nueva variable X d que es la diferencia entre las dos medidas De esta nueva variable, se calcula: la media y la desviación típica. t= xd sd2 n = 0, 41− 0 0 ,3872 10 = 3, 4 P valor=0,009 X d ≈ N ( µ d ,σ d2 ) x t = d2 ≈ tυ sd n donde υ=n-1 Debo rechazar H 0: µ 1= µ2 4 Llegamos a conclusiones distintas… En el 1er caso: = EFECTO INDIVIDUO!!! ? En el 2o caso: Qué está pasando? SPSS: Analizar à Comparar medias à Prueba T para muestras independientes DESCRIPTIVA DE MUESTRAS INDEPENDIENTES SPSS: Analizar à Comparar medias à Prueba T para muestras relacionadas SPSS: DESCRIPTIVA DE MUESTRAS INDEPENDIENTES El peso es igual en hombres y mujeres, o en media los hombres tienen un peso superior a las mujeres? Análisis descriptivo de los grupos, describir la variable respuesta en los diferentes grupos de la variable explicativa – Estadísticos descriptivos en cada grupo – Gráficos comparativos – Análisis de la normalidad de la variable respuesta en cada uno de los grupos 5 SPSS: DESCRIPTIVA DE 2 MUESTRAS INDEPENDIENTES SPSS: GRÁFICOS DE MEDIAS E IC95% Descriptives Sexe Home Pes Statistic 75,6384 Mean Median Std. Deviation Minimum Dona Std. Error ,30537 75,0000 11,97614 43,00 168,00 62,3363 Maximum Mean Median ,26197 60,0000 11,06628 Std. Deviation Minimum 37,00 140,00 Maximum Pes homes Pes dones Gràficos de grupos según una tercera variable 180 160 140 120 100 80 l 60 Std. Dev = 11,98 Std. Dev = 11,07 Mean = 76 Mean = 62 N = 1538,06 N = 1784,49 Pes 40 20 3 14 1538 1784 Home 50 -1 13 -1 8 -3 50 -1 13 -1 75 5 10 68 30 3 14 8 -3 75 5 10 68 30 N = Dona SPSS: GRÁFICOS DE MEDIAS E IC95% F1. Peso según grupos de edad SPSS: GRÁFICOS DE MEDIANAS “diagramas de caja” F2. Peso según grupos de clase social Hombres y mujeres >=15 años Hombres y mujeres >=15 años Sexe 80 Home Dona 80 Sexe Home Dona 75 75 s70 e P IC % 5 965 s e P70 IC % 5 9 Gràficos de grupos según una tercera variable 65 60 60 55 l 15-44 anys 45-64 anys >=65 anys CS I CS II Grans grups d'edat CS III CS IV l CS V CLASSE SOCIAL SPSS: GRÁFICOS DE MEDIANAS “diagramas de caja” F1. Peso según grupos de edad F2. Peso según grupos de clase social Hombres y mujeres >=15 años Hombres y mujeres >=15 años Sexe Home Dona 100 Sexe Home Dona 100 80 80 s e P s e P 60 60 40 40 l 15-44 anys 45-64 anys Grans grups d'edat >=65 anys CS I CS II CS III CS IV Ejercicio ¿El número de cigarrillos fumados al inicio es el mismo entre hombres y mujeres? CS V CLASSE SOCIAL 6 Ejercicio de clase DESCRIPTIVA DE MUESTRAS RELACIONADAS El peso es igual antes y después del tratamiento, o en media hay una diferencia de peso? ¿El peso al final de los hombres y de las mujeres es el mismo? Análisis descriptivo del cambio, describir la variable respuesta en las dos situaciones – Estadísticos descriptivos en cada grupo – Gráfico de dispersión – Análisis descriptivo de la variable diferencia – Análisis de la normalidad de la variable diferencia SPSS: DESCRIPTIVA DE MUESTRAS APAREADAS SPSS: DESCRIPTIVA DE 2 MUESTRAS DEPENDIENTES Estadístico Media Intervalo de confianza para la media al 95% pesoini 69,1 68,1 Límite inferior Límite superior pesofin 68,1 67,1 70,1 Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis 60,00 69,2 69,0 68,0 70,0 135,8 68,7 151,4 11,7 43,0 12,3 40,7 99,0 56,0 97,6 56,9 18,0 ,1 17,8 ,0 -,5 -,7 70,00 60,00 50,00 50,00 40,00 ia c n e u c30,00 re F ia c n40,00 e u c re30,00 F 20,00 20,00 10,00 10,00 Mean = 69,1176 Std. Dev. = 11,65257 N = 527 0,00 40 60 80 Mean = 68,1166 Std. Dev. = 12,30585 N = 527 0,00 100 40 60 pesoini SPSS: GRÁFICOS DE MEDIAS E IC95% 80 100 pesofin SPSS: GRÁFICOS DE MEDIAS Y MEDIANAS F3. Peso antes y después de la dieta. Hombres y mujeres >=15 años pesoini pesofin pesoini pesofin 100,00 75 90,00 80,00 70 IC % 5 9 70,00 60,00 65 Gràficos según una tercera variable 50,00 60 40,00 Home l l Dona Sexe Home Dona Sexe 7 SPSS: DESCRIPTIVA DE LA VARIABLE DIFERENCIA PESOINI - PESOFIN Ejercicio de clase Estadístico Sexe 100,00 Home Dona Media Intervalo de confianza para la media al 95% difpeso 1,0 Límite inferior ,6 Límite superior 1,4 Mediana Desv. típ. 1,0 5,1 -14,9 Mínimo Máximo 90,00 16,3 80,00 in f o 70,00 s e p 60,00 50,00 60,00 ¿El peso al inicio del tratamiento es el mismo que al final? 40,00 ia c n e u 30,00 c e r F 50,00 20,00 10,00 40,00 Mean = 1,0011 Std. Dev. = 5,12421 N = 527 0,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00 -10,00 0,00 10,00 difpeso pesoini Ejercicio Ejercicio de clase ¿El número de cigarrillos fumados al inicio es el mismo que al final del consumo? ¿La edad de inicio al consumo de tabaco está alrededor de los 13 años? Ejercicio ¿El peso al inicio del tratamiento (pesoini) está alrededor de los 90 kilos? Ejercicio resumen ¿El número de cigarrillos fumados al inicio es el mismo entre los que tienen más de 45 años y los que tienen 45 o menos? • Obtener la variable edad en 2 categorías • Definir las hipótesis de trabajo • Decidir el tipo de datos y el tipo de prueba 8