Minería de datos MDY7101 Selección de variables Selección de variables En esta clase aprenderás: ✓ ¿Qué es la selección de variables? ✓ ¿Por que es importante? ✓ Como determinar que variables son mas importantes. Selección de variables ¿Son todas las variables son iguales? Selección de variables Respuesta corta...No, No lo son, pero ¿Por que? En resumen, cuando hablamos de un modelo de machine learning estamos hablando de un algoritmo que tomara las variables independientes y trataran de determinar el valor de la variable dependiente. Pero no todas las variables independientes en nuestro dataset son igual de importantes o relevantes para esto. Es por eso que debemos seleccionar las que mayor peso, tengan o mayor valor agreguen. Selección de variables Además es costoso, computacionalmente y financieramente, entregar todas las variables a nuestro modelo para que trate de obtener un resultado. Selección de variables Métodos de selección de variables. Al seleccionar las variables para nuestro modelo de ML tenemos un par de alternativas. Métodos Wrapper Métodos filtro Ambos dependen de la correcta selección de las métricas de rendimiento y evaluación. Selección de variables Métodos Wrapper. Los métodos Wrapper consisten en crear múltiples modelos utilizando distintos subset de variables y evaluar cuales funcionan mejor y combinarlos. Esto depende fuertemente de la evaluación del las variables de desempeño de cada modelo. Un ejemplo de Wrapper es Backward elimination, donde partimos con todas las variables y vamos eliminando las que resulten menos relevantes después de su ejecución, generalmente P-Value. Selección de variables Métodos Filtro. Los métodos de filtro utilizan las métricas estadísticas de las variables para determinar cual de ellas es mas relevante para el modelo. La correlación es un de las más usadas, pero no es la única, la librería scikit-learn nos proveerá de múltiples métodos para aquello. Variable Entrada/Salida Continua Categórica Continua Correlación de Pearson LDA Categórica Anova Chi-Squared La aplicación de cualquiera de estas técnicas, nos permite lograr modelos con mejor desempeño, mayor velocidad y mas sencillos de explicar. Selección de variables Python – un mapa de correlación muestra claramente la relación entre las variables. Selección de variables Python – Las estadísticas básicas también nos pueden ayudar a discernir. Selección de variables. Que hemos aprendido. ✓ No debemos simplemente poner todas las variables en nuestros modelos. ✓ Para determinar cual de ellas es la mejor debemos analizarlas una por una y su relación entre ellas. ✓ Al hacer esto lograremos modelos más confiables.