Pruebas estadís,cas para evaluar relaciones Asociación entre dos variables categóricas • Hipótesis: frecuencias de ocurrencias en las categorías de una variable son independientes de los frecuencias en la segunda variable • Datos colectados simultáneamente para dos variables categóricas: – No es posible expresarlas de otra forma (colores de flores, especies) – Por conveniencia: imponiendo categorías a una variable continua (altura de árboles: bajos, medianos, altos) • Datos son organizados en una tabla de frecuencias → Tablas de Contingencias 1 Asociación entre dos variables categóricas Tabla de contingencia 2X4 para evaluar la independencia de coloración de cabello y sexo en un mamífero Color de Cabello Sexo Blanco Café Rubio Rojo Machos 32 43 16 9 100 Hembras 55 65 64 16 200 87 108 80 25 • Hipótesis: las frecuencias de observación encontradas en las filas son independientes de las encontradas en las columnas – Ho: las frecuencias relativas de la coloración del cabello son las mismas para machos y hembras – Ha: las frecuencias relativas de la coloración del cabello son diferentes para machos y hembras Asociación entre dos variables categóricas • Prueba de Independencia (asociación) de Chi-cuadro – Las observaciones pueden ser asignadas a una de dos o más categorías – Ho: las categorías de las dos variables son independientes → Ej: Hay independencia (no hay asociación) entre sexo y coloración del cabello – No hay supuestos acerca de la forma de los datos → Prueba no-paramétrica 2 Asociación entre dos variables categóricas Prueba de Independencia (asociación) de Chi-­‐cuadro Tabla de contingencia 2X4 para evaluar la independencia de coloración de cabello y sexo en humanos Color de Cabello Sexo Blanco Café Rubio Rojo Machos 32 43 16 9 100 Hembras 55 65 64 16 200 87 108 80 25 300 • Se adicionan las diferencias cuadradas entre el número esperado de observaciones en una combinación de categorías y el número observado • Grados de libertad= número de filas menos uno por número de columnas menos uno • Valores esperados para cada combinación de categorías= total de la fila multiplicado por el total de la columna dividido entre el número total de observaciones: – Valor esperado de machos con cabello de color blanco es: • VE= (100 X 87) / 300 → VE= 29,0 REGRESIÓN Y CORRELACIÓN • Técnicas estadísticas para describir la relación entre dos o más variables continuas. • Registrar más de una variable de cada unidad de muestreo o experimental: – Presión sanguínea y peso corporal de animales experimentales. – Abundancia de arbustos y pH del suelo de una serie de parcelas. • Se necesitan datos bivariados (dos variables registradas de cada unidad experimental o de muestreo) o multivariados (son registradas más de dos variables aleatorias). 3 Regresión y Correlación • Estos tipos de análisis difieren en el propósito: – Regresión: se intenta describir la relación de dependencia de una variable Y (dependiente) con respecto a otra X (independiente o predictora) – Entonces regresión se emplea para: • Evaluar hipótesis acerca de un posible efecto de una variable X sobre una variable Y • Predecir los valores de la variable Y a partir de los valores de la variable X – Ejemplos: efecto de temperatura sobre la tasa cardiaca, efecto de contenido de nitrógeno de suelo sobre crecimiento de una planta, efecto de la dosis de un insecticida sobre al mortalidad de una población de una especie de insecto Regresión y Correlación • Correlación: Se quiere determinar si dos variables son interdependientes (varían juntas) y el grado de interdependencia – No se expresa una como función de la otra → no hay distinción entre variables dependientes e independientes – Una variable del par puede ser la causa de la otra pero ni se conoce ni se asume ello – Un supuesto típico (aunque no esencial) es que ambas variables son el resultado de una causa común – Se desea estimar el grado a el cual las dos variables varían juntas – Ejemplos: Determinar el grado de asociación entre las longitudes de los miembros anteriores y posteriores de una especie de mamífero, el grado de asociación entre el tamaño corporal y la producción de huevos de iguanas 4 Correlación lineal simple (Pearson) • Propósito: medir la intensidad de la asociación observada entre dos variables y evaluar si esta correlación es más grande de lo que podría ser esperado por azar. • El estadístico es r (coeficiente de correlación) y está definido desde -1 hasta 1: – -1= asociación perfecta negativa – 0= No asociación – 1= asociación perfecta positiva • Supuestos acerca de las dos variables: deben ser medidas sobre una escala continua y estar distribuidas normalmente • Para reportar el resultado se realiza una gráfica de dispersión SIN LÍNEA DE TENDENCIA Correlación lineal simple (Pearson) • Se encontró una correlación positiva significativa entre X y Y (r=0.65, Gl= 22, p= 0.03) • Si no se cumplen los supuestos acerca de la distribución de las variables → Correlaciones no-paramétricas 5 Correlaciones por rangos: Spearman y Kendall • Spearman: estadístico rs • Kendall (Kendall`s Tau): estadístico T • Pruebas equivalentes a Correlación de Pearson: Rango entre -1 y 1 • Se utiliza cuando los datos son bivariados y son medidos en una escala que permita arreglar las observaciones en orden Correlaciones por rangos: Spearman y Kendall • Aunque las escalas de estos coeficientes noparamétricos son iguales a la del coeficiente de correlación lineal (Pearson) NO son comparables directamente a este. 6 • • • Regresión Lineal Simple Propósito: Establecer la forma y significancia de la relación funcional de causa-efecto entre dos variables Relación funcional: establecer una relación matemática para predecir que valores de una variable Y corresponden a determinados variables de X. Aplicaciones: 1. Describir la relación lineal entre X y Y 2. Determinar cuanto de la variación en Y puede ser explicada por su relación con X 3. Predecir nuevos valores de Y a partir de valores de X • • • Se evalúa la probabilidad de que la pendiente que mejor se ajuste a la relación entre dos variables sea igual a 0. Se evalúa también si la mejor línea que se ajusta a las dos variables pasa por el origen (0,0) → Evaluación del intercepto. No se requiere que las dos variables se distribuyan normalmente → Diferencia con Correlación de Pearson Regresión Lineal Simple Modelo: Y = β + β x + ε 0 1 • Hipótesis nula : β1=0 → la pendiente del modelo de regresión es igual a cero y por lo tanto no hay relación lineal entre X y Y 7 • • Regresión Lineal Simple Supuestos Para cada valor de X los valores de Y son independientes Normalidad: los valores de la variable Y y los términos del error están distribuidos normalmente para cada valor de X – – • Homogeneidad de Varianzas: los valores de Y y los términos del error tienen la misma variación para los valores de X – – – • Efecto importante sobre los parámetros y la evaluación de las hipótesis Verificación: gráfica de los residuales vs valores predichos Y Si no se cumple: transformar variable Y Regresión Lineal Simple Supuestos El modelo lineal describe correctamente la relación funcional entre X y Y: la relación entre las variables es lineal – • Verificación: Evaluar la distribución de los residuales Si no se cumple: transformar variable Y Verificación: gráfica de las variables à Diagrama de dispersión de X vs Y La variable X es medida sin error: si x es medida con erros las estimaciones de los parámetros es sesgada – – Solución: realizar una regresión tipo II à minimiza las distancias perpendiculares entre cada observación y la línea de regresión. Estimación a través de mínimos cuadrados es eficiente, comúnmente este supuesto es ignorado 8 Regresión Lineal Simple • Verificación del supuesto de Homogeneidad de varianzas Regresión Lineal Simple • Independencia: los valores de Y y los términos del error son independientes entre ellos – Se presenta cuando: las observaciones representan medidas repetidas o cuando existe autocorrelación espacial o temporal • Variable X fija: los valores de la variable X son controlados o establecidos por el investigador – Si no se cumple: Se recomienda realizar una Regresión tipo II porque se subestima el verdadero valor de la pendiente. Sin embargo, si solo se está interesado en evaluar la hipótesis nula de β1=0, se puede utilizar una Regresión tipo I (basada en mínimos cuadrados) 9