Regresión Aplicada - Universidad Nacional Agraria La Molina

Anuncio
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Regresión Aplicada
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2011-2
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Introducción
Introducción
La selección de variables predictoras es un procedimiento
estadístico importante por que no todas las variables
predictoras tienen igual importancia.
Algunas variables predictoras pueden perjudicar la conabilidad
del modelo, especialmente si están correlacionadas con otras.
Computacionalmente es más fácil trabajar con un conjunto de
variables predictoras pequeño.
Es más económico recolectar información para un modelo con
pocas variables.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Métodos Stepwise
Si se reduce el número de variables entonces el modelo cumple
con el principio de la parsimonia.
La idea de estos métodos es elegir el mejor modelo en forma
secuencial pero incluyendo o excluyendo una sola variable
predictora en cada paso de acuerdo a ciertos criterios.
El proceso secuencial termina cuando se satisface una regla de
parada establecida.
Hay tres algoritmos usados: Backward Elimination, Forward
Selection y Stepwise Selección.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Backward Elimination (Eliminación hacia atrás)
En este caso se comienza con el modelo completo y en cada
paso se va eliminando una variable.
Si todas las variables predictoras son importantes, es decir
tienen p-value pequeños para la prueba t, entonces el mejor
modelo es el que tiene todas las variables predictoras
disponibles.
En caso contrario, en cada paso la variable que se elimina del
modelo es aquella que satisface cualquiera de los siguientes
requisitos equivalentes entre sí.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Backward Elimination (Eliminación hacia atrás)
Aquella variable que tiene el estadístico de t, en valor absoluto,
más pequeño entre las variables incluidas aún en el modelo.
Aquella variable que produce la menor disminución en el R 2 al
ser eliminada del modelo.
Aquella variable que tiene la correlación parcial (en valor
absoluto) más pequeña con la variable de respuesta, tomando
en cuenta las variables aún presentes en el modelo.
El proceso termina cuando se llega a un modelo con un
número prejado p ∗ de variables predictoras.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Backward Elimination (Eliminación hacia atrás)
De forma equivalente cuando la prueba F parcial para todas las
variables incluidas en el modelo son mayores que un número
prejado F-out, por lo general este valor es 4.
Tambien, si el valor absoluto del estadístico de t para cada
variable es mayor que 2.
Algunas veces se preja de antemano un nivel de signicación
dado α∗ , por ejemplo 10 %, para la prueba de t o F parcial en
cada paso y el proceso termina cuando todos los p-values son
menores que α∗ .
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Forward Selection (Selección hacia adelante)
Aquí se empieza con aquella variable predictora que tiene la
más alta corelación con la variable respuesta.
En el siguiente paso se añade al modelo la variable que reune
cualquiera de estos requisitos equivalentes entre sí.
Aquella variable que produce el mayor incremento en el R 2 al
ser añadida al modelo.
Aquí también está presente el efecto de anidamiento ya que
toda variable que es añadida al modelo ya no puede salir del
mismo.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Forward Selection (Selección hacia adelante)
El proceso termina cuando se llega a un modelo con un
número prejado p ∗ de variables predictoras.
De forma equivalente cuando la prueba F parcial para todas las
variables incluidas en el modelo son menores que un número
prejado F-out, por lo general este valor es 4.
Tambien, si el valor absoluto del estadístico de t para cada
variable es menor que 2.
Algunas veces se preja de antemano un nivel de signicación
dado α∗ , por ejemplo 15 %, para la prueba de t o F parcial en
cada paso y el proceso termina cuando todos los p-values son
mayores que α∗ .
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Métodos Stepwise
Backward Elimination (Eliminación hacia atrás).
Forward Selection (Selección hacia adelante)
Stepwise Selección (Selección Paso a Paso)
Stepwise Selección (Selección Paso a Paso)
Se empieza con un modelo de regresión simple y en cada paso
se puede añadir una variable en forma similar al método
forward, pero se coteja si alguna de las variables que ya están
presentes en el modelo puede ser eliminada.
Aqui se usan F-out y F-in con F-out>F-in.
El proceso termina cuando ninguna de las variables fuera del
modelo tiene importancia suciente como para ingresar al
modelo.
En R se puede usar la función regsubsets de la librería leaps.
En MINITAB se sigue la secuencia STAT > Regression >
Stepwise.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Ejemplo
Ejemplo
Michael Larner midió el peso y algunas medidas físicas para 22
sujetos masculinos entre 16 y 30 años de edad.
Los sujetos fueron elegidos al azar y todos gozaban de buena
salud.
A los sujetos se les pidio que tensen ligeramente cada músculo
para asegurar la consistencia de la medida.
Aparte del peso, todas las demás medidas están en
centímetros.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Selección de Variables en Regresión
Métodos Stepwise
Ejemplo
Ejemplo
Ejemplo: Descripción de las variables
Mass: Circunferencia máxima de antebrazo.
Bicep: Circunferencia máxima de bíceps.
Chest: Longitud alrededor del pecho debajo de los sobacos.
Neck: Longitud alrededor por la mitad del cuello.
Shoulder: Longitud alrededor de los hombros.
Waist: Medida de la cintura del sujeto.
Height: Altura del sujeto.
Calf: Circunferencia máxima de la pantorrilla
Thigh: Circunferencia de muslo, medida a la mitad entre la
cadera y la rodilla.
Head: Circunferencia de la cabeza.
Ms Carlos López de Castilla Vásquez
Regresión Aplicada
Descargar