Curs de Modelització Estadística Bàsica amb Deducer

Anuncio
Curs de Modelització Estadística
Bàsica amb Deducer
Anabel Blasco
Ana Vázquez
Anna Espinal
Llorenç Badiella
Oliver Valero




1.Model de Regressió Lineal
2.Model ANOVA
3.Model Lineal General
4.Model de Regressió Logística








Introducción al modelo ANOVA
Estimación de parámetros
Estimación de medias e IC
Separación de medias
Ajuste por multiplicidad de contrastes
Validación del modelo
ANOVA de dos factores
Interacciones
Es posible expresar en términos de modelo estadístico un análisis ANOVA.
Admitiendo que los valores observados yij fluctúan alrededor de un valor medio
μi que caracteriza a cada grupo, el modelo es de la forma:
yij = µi + eij
donde
eij ~ N (0, σ )
son independientes entre sí.
Para realizar este análisis con Deducer seleccionaremos el menú Linear Model,
seleccionamos la variable respuesta como Outcome y la variable que define los
grupos como Factor:
Después de escoger
Continue aparece el
Linear Regression
Model Builder donde
podríamos definir el
modelo que deseamos
estimar.
Podemos simplemente
comprobar qué modelo
es el propuesto y
escoger Continue.
A continuación aparece el Linear Regression Model Explorer donde se pueden
previsualizar los resultados:
Para incluir variables categóricas en el modelo, se utilizan las transformaciones a
variables indicadoras (dummy). La transformación más habitual es la siguiente:
Variable
Original (V)
A
B
A
C
A
B
A
C
V1(A)
1
0
1
0
1
0
1
0
V2(B)
0
1
0
0
0
1
0
0
V3(C)
0
0
0
1
0
0
0
1
ejemplo para
una variable con
3 categorías
Siempre se cumple que V1+V2+V3=1, por lo tanto, no es posible considerarlas
todas ya que están auto-explicadas.
Se debe eliminar una variable cuya categoría que actuará como categoría de
referencia, por ejemplo la categoría C (V3).
De este modo, incluir en el modelo GLM una variable categórica con tres
categorías es equivalente a incluir las variables V1 y V2.
El modelo para esta variable categórica quedaría:
Y = β0 + β1V1 + β2V2 + ε
En Deducer, la categoría de referencia es siempre la primera:
Estimaciones de los
parámetros para cada una
de las categorías del
factor respecto a un valor
de referencia
(RiskFactors=0).
Aunque en el análisis de la varianza el objetivo primordial es comparar grupos,
también es posible estimar los promedios y obtener intervalos de confianza. Esto
puede permitir aportar márgenes a la estimación de las magnitudes estudiadas.
Para el promedio del grupo i, el intervalo de confianza es:
Yi ± t1N−α− I/ 2
MSE
Ni
N −I
siendo: Yi el promedio observado en el grupo i, t1−α / 2 el percentil 1- α/2 para
una distribución t con N-I grados de libertad; Ni el tamaño del grupo i; MSE la
suma de cuadrados medios del error.
Para la diferencia entre los grupos 1 y 2, el intervalo de confianza es:
 1
1 

Y1 − Y2 ± t1N−α− I/ 2 MSE 
+
 N1 N 2 
Estas fórmulas difieren ligeramente de las empleadas para la estimación de
parámetros en una o dos poblaciones en la utilización de la variabilidad común
MSE y en los grados de libertad, mayores ya que el término MSE se calcula con
todas las observaciones.
Para obtener la estimación de los parámetros debemos seleccionar la casilla
Estimate confidence intervals del menú Means:
Muchas veces el interés real del estudio reside en saber qué medias difieren
entre sí después de realizar la prueba ANOVA. Las comparaciones se realizan
mediante sucesivas pruebas t comparando todos los posibles pares de medias 2
a 2. Cada una de estas pruebas utiliza la estimación de la variabilidad conjunta
proporcionada por el modelo con todos los grupos, mejorando así el resultado
de los contrastes independientes.
Sin embargo, este procedimiento conduce habitualmente a un elevado número
de comparaciones. Si el nivel de significación o error de tipo I (probabilidad de
rechazar la hipótesis nula cuando en realidad es cierta) de cada prueba se ha
fijado en el 5%, y se desea comparar las medias de 5 grupos, será necesario
realizar 10 comparaciones 2 a 2 y cada una de ellas tendría un error de tipo I
del 5%.
Se puede comprobar que al realizar 10 pruebas (independientes entre sí) cada
una al 5%, la probabilidad de rechazar al menos una de las hipótesis nulas es
aproximadamente ¡del 40%! de manera que con un 40% de probabilidades se
obtendría alguna conclusión falsa.
Existen diversos métodos para ajustar este tipo de error y conseguir que
efectivamente el error conjunto no sea superior al 5%.
Para realizar comparaciones 2 a 2 debemos seleccionar el tipo de comparación
Tukey en la pestaña Post Hoc. En caso de no estar interesados en realizar todas
las comparaciones podríamos seleccionar otro método (por ejemplo Dunnet
cuando queremos comparar todos los grupos frente a uno de referencia).
Una primera aproximación al tratamiento de este problema es debida a Fisher,
quién propuso que sólo se compararan las diferencias entre medias 2 a 2 si el
precedente ANOVA ha resultado significativo. Estas comparaciones a posteriori
se realizan sin corrección alguna. Este método es conocido cómo LSD (Least
Significant Difference).
El método de Bonferroni es extremadamente conservador pero no depende de la
muestra, sólo del número de comparaciones. Consiste en sustituir el nivel de
significación α considerado en cada prueba por α /nc siendo nc el número de
comparaciones. El método de Sidak sustituye α por 1 - ( 1 - α ) 1/nc, siendo
utilizado cuando el investigador sólo está interesado en analizar un número
reducido de todos los posibles contrastes.
Existen otros métodos para controlar el error de cada comparación, entre ellos la
corrección de Scheffé (Scheffé, 1953) y el método HSD (Honestly Significant
Difference) de Tukey (Tukey, 1953), el más adecuado cuando se desea realizar
todas las posibles comparaciones por parejas de grupos.
Cuando todas las diferencias que se quieren estudiar son respecto a un mismo
grupo control, es habitual realizar el ajuste de Dunnett (Dunnett, 1955).
También existen métodos de comparación de grupos de medias que permiten
detectar grupos homogéneos de medias cómo el ajuste de Duncan y la
corrección SNK (Student-Newman-Keuls), que son adecuados cuando los grupos
están equilibrados y el interés reside en obtener una comparación global.
Puede darse la situación que la prueba ANOVA no permita concluir diferencias
entre grupos y sin embargo se detecten diferencias en las comparaciones
múltiples. Normalmente esta situación es provocada por la consideración de
demasiados grupos.
En Deducer seleccionaremos la opción single-step method.
Con estas opciones se obtiene:
La variación observada en la respuesta se asume que es debida al efecto de los
factores y a cierto error aleatorio independiente que explica la variación residual.
Se asume también que dicho error aleatorio sigue una distribución normal con
media 0 y desviación constante (igual en todas las observaciones).
Para estudiar la validez del modelo es necesario confirmar estas hipótesis
mediante el estudio de los residuos (valores predichos - valores observados):
normalidad, tendencias, etc. y la realización de un contraste de
homocedasticidad (homogeneidad de varianzas entre los grupos, es decir
variabilidad común).
En caso de que las varianzas no sean iguales podemos seleccionar la opción
Robust to Unequal Variance de la pestaña Options.
En la pestaña Diagnostics podemos visualizar los gráficos de diagnóstico:
histograma de los residuos y QQ Plot para evaluar la normalidad, gráficos de
dispersión para evaluar la homocedasticidad y la independencia, y el gráfico de
Cook para identificar valores influyentes:
La prueba ANOVA de dos factores permite comparar las medias de los r1 grupos
que define una variable categórica de interés principal al mismo tiempo que se
analiza el efecto en la respuesta de otra variable categórica secundaria con r2
grupos.
La prueba de hipótesis principal de la prueba ANOVA de dos factores es:
H0: Eliminando el efecto del factor secundario, no existen diferencias
entre los grupos del factor principal
HA: Eliminando el efecto del factor secundario, existen diferencias entre
los grupos del factor principal.
R cuadrado corregida: R2. Si se introduce una nueva variable en el modelo, R2
siempre aumenta (ya que se consigue explicar algo más, aunque sea muy poco).
De la misma manera, al quitar una variable R2 siempre disminuye. Como nos
interesa saber si es conveniente introducir/quitar una variable en el modelo, se
ajusta R2 según los grados de libertad (el número de variables consideradas en el
modelo):
2
R = R2 −
k −1
(1 − R 2 )
n−k
De esta manera, un aumento en la
añadir/quitar una variable.
R 2 indica que el modelo ha mejorado al
Tabla del análisis de la varianza:
Fuentes de
Variación
Suma de
Cuadrados
Grados de
Libertad
Suma de
Cuadrados
Medios
Valor F
P-valor
Entre Grupos B
SSB
GLB
MSB
FB
PB
Entre Grupos A
SSA
GLA
MSA
FA
PA
Residual
SSE
GLE
MSE
Total
SST
GLT
La interacción entre dos variables se produce cuando el efecto en la respuesta de
una de ellas depende de los niveles de la otra.
Para comprobar la existencia de interacciones, se puede estudiar el gráfico de
interacciones. Si no se observan líneas paralelas entonces se podría considerar la
existencia de la interacción.
En el caso de añadir la interacción al modelo, también se calculan las
correspondientes sumas de cuadrados y grados de libertad y se añade una fila a
la tabla ANOVA. Las sumas de cuadrados residuales y sus grados de libertad
varían ya que se añade más información al modelo. Finalmente, todos los
estadísticos F deben ser recalculados.
Descargar