Clase 07. Regresión y Correlación Ficheiro

Anuncio
Pruebas estadís,cas para evaluar relaciones Asociación entre dos variables categóricas •  Hipótesis: frecuencias de ocurrencias en las categorías
de una variable son independientes de los frecuencias
en la segunda variable
•  Datos colectados simultáneamente para dos variables
categóricas:
–  No es posible expresarlas de otra forma (colores de
flores, especies)
–  Por conveniencia: imponiendo categorías a una
variable continua (altura de árboles: bajos, medianos,
altos)
•  Datos son organizados en una tabla de frecuencias →
Tablas de Contingencias
1
Asociación entre dos variables categóricas Tabla de contingencia 2X4 para evaluar la independencia de coloración de cabello y
sexo en un mamífero
Color de Cabello
Sexo
Blanco
Café
Rubio
Rojo
Machos
32
43
16
9
100
Hembras
55
65
64
16
200
87
108
80
25
•  Hipótesis: las frecuencias de observación encontradas en las filas
son independientes de las encontradas en las columnas
–  Ho: las frecuencias relativas de la coloración del cabello son las mismas
para machos y hembras
–  Ha: las frecuencias relativas de la coloración del cabello son diferentes
para machos y hembras
Asociación entre dos variables categóricas •  Prueba de Independencia (asociación) de
Chi-cuadro
–  Las observaciones pueden ser asignadas a una
de dos o más categorías
–  Ho: las categorías de las dos variables son
independientes → Ej: Hay independencia (no hay
asociación) entre sexo y coloración del cabello
–  No hay supuestos acerca de la forma de los
datos → Prueba no-paramétrica
2
Asociación entre dos variables categóricas Prueba de Independencia (asociación) de Chi-­‐cuadro Tabla de contingencia 2X4 para evaluar la independencia de coloración de cabello y
sexo en humanos
Color de Cabello
Sexo
Blanco
Café
Rubio
Rojo
Machos
32
43
16
9
100
Hembras
55
65
64
16
200
87
108
80
25
300
• 
Se adicionan las diferencias cuadradas entre el número esperado de observaciones
en una combinación de categorías y el número observado
• 
Grados de libertad= número de filas menos uno por número de columnas menos uno
• 
Valores esperados para cada combinación de categorías= total de la fila multiplicado
por el total de la columna dividido entre el número total de observaciones:
–  Valor esperado de machos con cabello de color blanco es:
• 
VE= (100 X 87) / 300 → VE= 29,0
REGRESIÓN Y CORRELACIÓN •  Técnicas estadísticas para describir la relación entre dos o más
variables continuas.
•  Registrar más de una variable de cada unidad de muestreo o
experimental:
–  Presión sanguínea y peso corporal de animales
experimentales.
–  Abundancia de arbustos y pH del suelo de una serie de
parcelas.
•  Se necesitan datos bivariados (dos variables registradas de cada
unidad experimental o de muestreo) o multivariados (son
registradas más de dos variables aleatorias).
3
Regresión y Correlación •  Estos tipos de análisis difieren en el propósito:
–  Regresión: se intenta describir la relación de
dependencia de una variable Y (dependiente) con
respecto a otra X (independiente o predictora)
–  Entonces regresión se emplea para:
•  Evaluar hipótesis acerca de un posible efecto de una
variable X sobre una variable Y
•  Predecir los valores de la variable Y a partir de los valores de
la variable X
–  Ejemplos: efecto de temperatura sobre la tasa
cardiaca, efecto de contenido de nitrógeno de suelo
sobre crecimiento de una planta, efecto de la dosis
de un insecticida sobre al mortalidad de una
población de una especie de insecto
Regresión y Correlación •  Correlación: Se quiere determinar si dos variables son
interdependientes (varían juntas) y el grado de
interdependencia
–  No se expresa una como función de la otra → no hay distinción
entre variables dependientes e independientes
–  Una variable del par puede ser la causa de la otra pero ni se
conoce ni se asume ello
–  Un supuesto típico (aunque no esencial) es que ambas variables
son el resultado de una causa común
–  Se desea estimar el grado a el cual las dos variables varían
juntas
–  Ejemplos: Determinar el grado de asociación entre las
longitudes de los miembros anteriores y posteriores de una
especie de mamífero, el grado de asociación entre el tamaño
corporal y la producción de huevos de iguanas
4
Correlación lineal simple (Pearson) •  Propósito: medir la intensidad de la asociación
observada entre dos variables y evaluar si esta
correlación es más grande de lo que podría ser
esperado por azar.
•  El estadístico es r (coeficiente de correlación) y está
definido desde -1 hasta 1:
–  -1= asociación perfecta negativa
–  0= No asociación
–  1= asociación perfecta positiva
•  Supuestos acerca de las dos variables: deben ser
medidas sobre una escala continua y estar distribuidas
normalmente
•  Para reportar el resultado se realiza una gráfica de
dispersión SIN LÍNEA DE TENDENCIA
Correlación lineal simple (Pearson) •  Se encontró una correlación positiva significativa entre X
y Y (r=0.65, Gl= 22, p= 0.03)
•  Si no se cumplen los supuestos acerca de la distribución
de las variables → Correlaciones no-paramétricas
5
Correlaciones por rangos: Spearman y Kendall •  Spearman: estadístico rs
•  Kendall (Kendall`s Tau): estadístico T
•  Pruebas equivalentes a Correlación de
Pearson: Rango entre -1 y 1
•  Se utiliza cuando los datos son bivariados
y son medidos en una escala que permita
arreglar las observaciones en orden
Correlaciones por rangos: Spearman y Kendall •  Aunque las escalas de estos coeficientes noparamétricos son iguales a la del coeficiente de
correlación lineal (Pearson) NO son
comparables directamente a este.
6
• 
• 
• 
Regresión Lineal Simple Propósito: Establecer la forma y significancia de la relación
funcional de causa-efecto entre dos variables
Relación funcional: establecer una relación matemática para
predecir que valores de una variable Y corresponden a
determinados variables de X.
Aplicaciones:
1.  Describir la relación lineal entre X y Y
2.  Determinar cuanto de la variación en Y puede ser explicada por su
relación con X
3.  Predecir nuevos valores de Y a partir de valores de X
• 
• 
• 
Se evalúa la probabilidad de que la pendiente que mejor se ajuste a
la relación entre dos variables sea igual a 0.
Se evalúa también si la mejor línea que se ajusta a las dos
variables pasa por el origen (0,0) → Evaluación del intercepto.
No se requiere que las dos variables se distribuyan normalmente →
Diferencia con Correlación de Pearson
Regresión Lineal Simple Modelo: Y = β + β x + ε
0
1
•  Hipótesis nula : β1=0 → la pendiente del modelo de regresión es
igual a cero y por lo tanto no hay relación lineal entre X y Y
7
• 
• 
Regresión Lineal Simple Supuestos Para cada valor de X los valores de Y son
independientes
Normalidad: los valores de la variable Y y los
términos del error están distribuidos normalmente
para cada valor de X
– 
– 
• 
Homogeneidad de Varianzas: los valores de Y y los
términos del error tienen la misma variación para los
valores de X
– 
– 
– 
• 
Efecto importante sobre los parámetros y la evaluación de
las hipótesis
Verificación: gráfica de los residuales vs valores predichos Y
Si no se cumple: transformar variable Y
Regresión Lineal Simple Supuestos El modelo lineal describe correctamente la
relación funcional entre X y Y: la relación entre las
variables es lineal
– 
• 
Verificación: Evaluar la distribución de los residuales
Si no se cumple: transformar variable Y
Verificación: gráfica de las variables à Diagrama de
dispersión de X vs Y
La variable X es medida sin error: si x es medida
con erros las estimaciones de los parámetros es
sesgada
– 
– 
Solución: realizar una regresión tipo II à minimiza las
distancias perpendiculares entre cada observación y la
línea de regresión.
Estimación a través de mínimos cuadrados es eficiente,
comúnmente este supuesto es ignorado
8
Regresión Lineal Simple •  Verificación del supuesto de Homogeneidad de varianzas
Regresión Lineal Simple •  Independencia: los valores de Y y los términos del error
son independientes entre ellos
–  Se presenta cuando: las observaciones representan medidas
repetidas o cuando existe autocorrelación espacial o temporal
•  Variable X fija: los valores de la variable X son
controlados o establecidos por el investigador
–  Si no se cumple: Se recomienda realizar una Regresión tipo II
porque se subestima el verdadero valor de la pendiente. Sin
embargo, si solo se está interesado en evaluar la hipótesis nula
de β1=0, se puede utilizar una Regresión tipo I (basada en
mínimos cuadrados)
9
Descargar