Selección de Variables en Regresión Métodos Stepwise Ejemplo Regresión Aplicada Ms Carlos López de Castilla Vásquez Universidad Nacional Agraria La Molina 2011-2 Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Introducción Introducción La selección de variables predictoras es un procedimiento estadístico importante por que no todas las variables predictoras tienen igual importancia. Algunas variables predictoras pueden perjudicar la conabilidad del modelo, especialmente si están correlacionadas con otras. Computacionalmente es más fácil trabajar con un conjunto de variables predictoras pequeño. Es más económico recolectar información para un modelo con pocas variables. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Métodos Stepwise Si se reduce el número de variables entonces el modelo cumple con el principio de la parsimonia. La idea de estos métodos es elegir el mejor modelo en forma secuencial pero incluyendo o excluyendo una sola variable predictora en cada paso de acuerdo a ciertos criterios. El proceso secuencial termina cuando se satisface una regla de parada establecida. Hay tres algoritmos usados: Backward Elimination, Forward Selection y Stepwise Selección. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Backward Elimination (Eliminación hacia atrás) En este caso se comienza con el modelo completo y en cada paso se va eliminando una variable. Si todas las variables predictoras son importantes, es decir tienen p-value pequeños para la prueba t, entonces el mejor modelo es el que tiene todas las variables predictoras disponibles. En caso contrario, en cada paso la variable que se elimina del modelo es aquella que satisface cualquiera de los siguientes requisitos equivalentes entre sí. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Backward Elimination (Eliminación hacia atrás) Aquella variable que tiene el estadístico de t, en valor absoluto, más pequeño entre las variables incluidas aún en el modelo. Aquella variable que produce la menor disminución en el R 2 al ser eliminada del modelo. Aquella variable que tiene la correlación parcial (en valor absoluto) más pequeña con la variable de respuesta, tomando en cuenta las variables aún presentes en el modelo. El proceso termina cuando se llega a un modelo con un número prejado p ∗ de variables predictoras. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Backward Elimination (Eliminación hacia atrás) De forma equivalente cuando la prueba F parcial para todas las variables incluidas en el modelo son mayores que un número prejado F-out, por lo general este valor es 4. Tambien, si el valor absoluto del estadístico de t para cada variable es mayor que 2. Algunas veces se preja de antemano un nivel de signicación dado α∗ , por ejemplo 10 %, para la prueba de t o F parcial en cada paso y el proceso termina cuando todos los p-values son menores que α∗ . Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Forward Selection (Selección hacia adelante) Aquí se empieza con aquella variable predictora que tiene la más alta corelación con la variable respuesta. En el siguiente paso se añade al modelo la variable que reune cualquiera de estos requisitos equivalentes entre sí. Aquella variable que produce el mayor incremento en el R 2 al ser añadida al modelo. Aquí también está presente el efecto de anidamiento ya que toda variable que es añadida al modelo ya no puede salir del mismo. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Forward Selection (Selección hacia adelante) El proceso termina cuando se llega a un modelo con un número prejado p ∗ de variables predictoras. De forma equivalente cuando la prueba F parcial para todas las variables incluidas en el modelo son menores que un número prejado F-out, por lo general este valor es 4. Tambien, si el valor absoluto del estadístico de t para cada variable es menor que 2. Algunas veces se preja de antemano un nivel de signicación dado α∗ , por ejemplo 15 %, para la prueba de t o F parcial en cada paso y el proceso termina cuando todos los p-values son mayores que α∗ . Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Métodos Stepwise Backward Elimination (Eliminación hacia atrás). Forward Selection (Selección hacia adelante) Stepwise Selección (Selección Paso a Paso) Stepwise Selección (Selección Paso a Paso) Se empieza con un modelo de regresión simple y en cada paso se puede añadir una variable en forma similar al método forward, pero se coteja si alguna de las variables que ya están presentes en el modelo puede ser eliminada. Aqui se usan F-out y F-in con F-out>F-in. El proceso termina cuando ninguna de las variables fuera del modelo tiene importancia suciente como para ingresar al modelo. En R se puede usar la función regsubsets de la librería leaps. En MINITAB se sigue la secuencia STAT > Regression > Stepwise. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Ejemplo Ejemplo Michael Larner midió el peso y algunas medidas físicas para 22 sujetos masculinos entre 16 y 30 años de edad. Los sujetos fueron elegidos al azar y todos gozaban de buena salud. A los sujetos se les pidio que tensen ligeramente cada músculo para asegurar la consistencia de la medida. Aparte del peso, todas las demás medidas están en centímetros. Ms Carlos López de Castilla Vásquez Regresión Aplicada Selección de Variables en Regresión Métodos Stepwise Ejemplo Ejemplo Ejemplo: Descripción de las variables Mass: Circunferencia máxima de antebrazo. Bicep: Circunferencia máxima de bíceps. Chest: Longitud alrededor del pecho debajo de los sobacos. Neck: Longitud alrededor por la mitad del cuello. Shoulder: Longitud alrededor de los hombros. Waist: Medida de la cintura del sujeto. Height: Altura del sujeto. Calf: Circunferencia máxima de la pantorrilla Thigh: Circunferencia de muslo, medida a la mitad entre la cadera y la rodilla. Head: Circunferencia de la cabeza. Ms Carlos López de Castilla Vásquez Regresión Aplicada