Subido por Cristopher Angulo Ahumada

1.1.18 Seleccion de Variables

Anuncio
Minería de datos
MDY7101
Selección de
variables
Selección de variables
En esta clase aprenderás:
✓ ¿Qué es la selección de variables?
✓ ¿Por que es importante?
✓ Como determinar que variables son mas importantes.
Selección de variables
¿Son todas las variables son iguales?
Selección de variables
Respuesta corta...No, No lo son, pero ¿Por que?
En resumen, cuando hablamos de un modelo de machine learning estamos
hablando de un algoritmo que tomara las variables independientes y trataran de
determinar el valor de la variable dependiente.
Pero no todas las variables independientes en nuestro dataset son igual de
importantes o relevantes para esto.
Es por eso que debemos seleccionar las que mayor peso, tengan o mayor valor
agreguen.
Selección de variables
Además es costoso, computacionalmente y financieramente,
entregar todas las variables a nuestro modelo para que trate de
obtener un resultado.
Selección de variables
Métodos de selección de variables.
Al seleccionar las variables para nuestro modelo de ML tenemos un par de
alternativas.
 Métodos Wrapper
 Métodos filtro
Ambos dependen de la correcta selección de las métricas de rendimiento y
evaluación.
Selección de variables
Métodos Wrapper.
Los métodos Wrapper consisten en crear múltiples modelos utilizando distintos
subset de variables y evaluar cuales funcionan mejor y combinarlos.
Esto depende fuertemente de la evaluación del las variables de desempeño de cada
modelo.
Un ejemplo de Wrapper es Backward elimination, donde partimos con todas las
variables y vamos eliminando las que resulten menos relevantes después de su
ejecución, generalmente P-Value.
Selección de variables
Métodos Filtro.
Los métodos de filtro utilizan las métricas estadísticas de las variables para
determinar cual de ellas es mas relevante para el modelo.
La correlación es un de las más usadas, pero no es la única, la librería scikit-learn nos
proveerá de múltiples métodos para aquello.
Variable
Entrada/Salida
Continua
Categórica
Continua
Correlación de
Pearson
LDA
Categórica
Anova
Chi-Squared
La aplicación de cualquiera de estas técnicas, nos permite lograr modelos con
mejor desempeño, mayor velocidad y mas sencillos de explicar.
Selección de variables
Python – un mapa de correlación muestra claramente la
relación entre las variables.
Selección de variables
Python – Las estadísticas básicas también nos pueden ayudar a
discernir.
Selección de variables.
Que hemos aprendido.
✓ No debemos simplemente poner todas las variables en nuestros modelos.
✓ Para determinar cual de ellas es la mejor debemos analizarlas una por una
y su relación entre ellas.
✓ Al hacer esto lograremos modelos más confiables.
Descargar