Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores Subconjuntos Ranking Métodos de Búsqueda Referencias 2 Introducción (I) Los algoritmos de selección de características tienen dos objetivos principales: Reducir el coste computacional asociado tanto al aprendizaje como al propio modelo de conocimiento generado (eliminando atributos irrelevantes o redundantes) Aumentar la precisión de dicho modelo (eliminando atributos perjudiciales para el aprendizaje). 3 Introducción (II) Para llevar a cabo su objetivo, los métodos de selección realizan una búsqueda supervisada sobre el espacio de características, aplicando una función criterio que evalúa la calidad del subconjunto seleccionado. Dicha búsqueda suele ser heurística, ya que una búsqueda exhaustiva supone un problema combinatorio, resultando ésta enormemente costosa. Para su mejor funcionamiento precisa de una limpieza previa de los datos (outliers, valores ausentes, ruido, …) 4 Clasificación de las Técnicas Según la función criterio o Evaluador: Wrappers: la función criterio utilizada es el propio conjunto de reglas generadas por el algoritmo de aprendizaje que posteriormente se usará en la clasificación. Filtros: la función de criterio es independiente del algoritmo de aprendizaje, usando medidas de distancia, información o dependencia. Según el resultado: Individual: genera un ranking de atributos con todos Subconjunto: genera un subconjunto de atributos 5 Esquema General EVALUADOR: Individual (Ranking) Subconjunto MÉTODO DE BÚSQUEDA: En función del Evaluador 6 Esquema General (Weka [1]) Subconjuntos (-SubsetEval) Ranking (-AttributeEval) 7 Evaluadores - Subconjuntos (I) CFS [2]: Filtro Evaluador basado en correlaciones: Maximiza la correlación con la clase y minimiza la intercorrelación del subconjunto WEKA: AttributeSelection CfsSubsetEval ClassifierSubsetEval: Wrapper Usa un clasificador para evaluar los diferentes conjuntos que se obtienen con el método de búsqueda sin hacer validación cruzada WEKA: AttributeSelection ClassifierSubsetEval WrapperSubsetEval: Wrapper Igual que el anterior pero con validación cruzada de n folds (n es un parámetro que por defecto es 5) WEKA: AttributeSelection WrapperSubsetEval 8 Evaluadores - Subconjuntos (II) ConsistencySubsetEval: Filtro TODOS ATRIBUTOS DISCRETOS O DISCRETIZADOS Elige el subconjunto más consistente respecto a la clase: Inconsistencia: Quita un atributo y si hay ejemplos iguales con distinta clase, hay inconsistencia, luego el atributo es “importante”. Inconveniente: Atributos como el DNI son seleccionados por ser de consistencia máxima WEKA: AttributeSelection ConsistencySubsetEval 9 Evaluadores – Ranking RELIEF: Mira el k-vecino más cercano y el k-enemigo más cercano (10 vecinos por defecto) y pondera los atributos mediante una fórmula (depende de la versión) WEKA: AttributeSelection ReliefFAtributeEval Ganancia de Información (atributos discretos): Ganancia(Class, Atrib) = H(Class) - H(Class | Attribute) WEKA: AttributeSelection InfogainAttributeEval Razón de Ganancia (atributos discretos): GainR(Class, Attribute) = (H(Class) - H(Class | Attribute)) / H(Attribute) WEKA: AttributeSelection GainRatioAttributeEval Chi2 (atributos discretos): Usa estadístico Chi-cuadrado WEKA: AttributeSelection ChiSquaredAttributeEval 10 Métodos de Búsqueda El método de búsqueda va a depender del evaluador seleccionado previamente. Si es un Evaluador Individual (Ranking), el único método de búsqueda es Ranker Si es un Evaluador de Subconjuntos: Greedy (GreedyStepwise): Coge el mejor de todos, luego la mejor pareja que lo incluye, luego el mejor trío que incluye a los anteriores. Así hasta que no hay mejora. Primero el mejor (BestFirst): Lo mismo que Greedy pero aplicando Backtracking con un número máximo de regresos (5 por defecto) Exhaustiva (ExhaustiveSearch): Todos los posibles subconjuntos Aleatoria (RandomSearch) Algoritmo Genético (GeneticSearch) Y muchos más…. 11 Aplicación a Precios de la energía eléctrica Selección atributos-Precios 1 10 2 3 9 4 5 8 6 7 7 24 horas del dia d-1 8 9 10 6 11 12 5 13 14 4 15 16 17 18 3 19 2 20 21 1 22 23 24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 24 horas del día d 15 16 17 18 19 20 21 22 23 24 0 12 24 horas del día d-2 Aplicación a Precios de la energía eléctrica 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 Selección de Atributos-Precios 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 24 horas del día d 0 13 Ejercicio 1: Glass2 Eliminar valores perdidos Ejecute los 4 evaluadores de subconjuntos con el método de búsqueda BestFirst sin validación cruzada (“Use full training set) CfsSubsetEval ClassifierSubsetEval (clasificador IB1 y UseTraining = true) WapperSubsetEval (clasificador IB1) ConsistencySubsetEval Anotar en la tabla los atributos seleccionados Clasificar con 1 vecino más cercano anotando en la tabla el error obtenido con las 5 bases de datos (la original y las cuatro nuevas). 14 Ejercicio 1: Glass2 Evaluador Atributos seleccionados IB1 (10-CV) CfsSubsetEval ClassifierSubsetEval WapperSubsetEval ConsistencySubsetEval Ninguno Todos 15 Ejercicio 2: Repetir el ejercicio 1 con las bases de datos de la UCI autos colic iris wine 16 Ejercicio 3: Demanda de energía eléctrica Descripción 24 atributos correspondientes a la demanda de energía de las 24 horas antes (h1,…,h24) a la que se quiere predecir que corresponde con el atributo clase (h25) 1) Establecer una comparación entre los atributos seleccionados usando distintos Evaluadores de subconjuntos y distintos métodos de búsqueda. 2) Obtener modelos de regresión lineal CON y SIN selección de atributos (WEKA:Classifier Functions LinearRegression) 3) Usar esos modelos para predecir, comparando los errores de predicción 17 Referencias [1] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques Morgan Kaufmann, June 2005. [2] Mark A. Hall. Correlation-based Feature Selection for Machine Learning. PhD thesis, Waikato University, Hamilton, NZ, 1998. [3] Kira, Kenji and Rendell, L.A.: A Practical Approach to Feature Selection. ICML International Conference on Machine Learning, pages 249-256, 1992 [4] A. Blum, P. Langley. Selection of relevant features and examples in machine learning. In: R. Greiner, D. Subramanian (Eds) Artificial Intelligence on Relevance: pp. 245-271, 1997. [5] H. Liu, L. Yu. Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering, Vol. 17, pp. 1-12, 2005. [6] R. Ruiz, J. C. Riquelme, J. S. Aguilar-Ruiz. Incremental wrapper-based gene selection from microarray expression data for cancer classification. Pattern Recognition, Vol. 39, pp. 2383-2392, 2006 18