Técnicas de Preprocesado Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Por q qué p preprocesar p los datos? Técnicas de filtro Depuración p Tratamiento de valores ausentes (Missing) Detección de Outliers Trasformación Normalización Estandarización Atributos Calculados Discretización No Supervisada (Igual anchura/frecuencia) Supervisada: Fayyad e Irani, 1Rule, USD 2 Por qué preprocesar los datos? Los datos reales están “sucios” Datos incompletos: valores de atributos inexistentes Datos D t con ruido: id errores de d precisión, i ió errores de d medición, errores de almacenamiento Datos inconsistentes: outliers Para obtener conclusiones válidas y útiles al aplicar minería de datos, es necesario una adecuada preparación ió de d los l datos d t previa i all proceso de d minería i í 3 Técnicas de filtro: Depuración Tratamiento de Missings: Eliminar ejemplos con atributos missings Pérdida de información Filt d Asignar A i una constante t t Mala M l interpretación i t WEKA t -ióFiltro: dell algoritmo l it d de UnsupervisedAttributeReplaceMissingValue aprendizaje s Sustituir por valores con influencia mínima: Continuos: Media Discretos Moda Predecir el valor (clasificación, regresión) Muy costoso 4 Técnicas de filtro: Depuración Detección de Outliers Para la detección y eliminación outliers se suelen aplicar técnicas de agrupamiento (clustering): WEKA ClusterersSimplekMeans WEKA ClusterersEM K-Means EM (Expectation Maximization) Procedimiento: Agrupar en clusters y eliminar clusters poco densos y/o lejanos 5 Técnicas de filtro: Transformación Normalización Trasforma el rango de valores a un intervalo determinado (normalmente [0,1]) Valor Min ValorNorm Max Min Es necesario si se van an a aplicar algoritmos de aprendi aprendizaje aje basados en distancias para que todos los atributos estén en el mismo rango. WEKA: FiltersUnsupervisedAttributeNormalize 6 Técnicas de filtro: Transformación Estandarización Transforma los valores de los atributos para que tengan media 0 y desviación 1 Sólo si la distribución es normal Valor Media ValorEst Desviación WEKA: FiltersUnsupervisedAttributeStandardize 7 Técnicas de filtro: Nuevos atributos Se trata de añadir nuevos atributos aplicando una expresión matemática a atributos ya existentes en el conjunto de datos. Ej Ejemplo: l sepalArea = sepallength x sepalwidth WEKA: FiltersUnsupervised p AttributeAddExpresion p 8 Técnicas de filtro: Discretización Hay algoritmos de aprendizaje que sólo operan con atributos discretos Transformación de atributos continuos a discretos (rango finito de valores). Consiste en dividir el rango de valores continuos en un conjunto co ju o finito o de intervalos e a os (o co cortes). es) Ejemplo: je p o Notas [0,10]{Suspenso, Aprobado, Notable, Sobresaliente} No Supervisado: Igual Anchura: k intervalos de igual anchura Igual Frecuencia: k intervalos de N/k valores cada uno WEKA: UnsupervisedAttributeDiscretize Supervisado: Fayyad e Irani, Kononenko, 1Rule, USD 9 Técnicas de filtro: Discretización Fayyad e Irani: Basados en criterios de entropía mínima y longitud de decripción mínima (MDL) “La mejor j descripción p del conjunto j de datos es la q que minimiza la longitud de la descripción de todo el conjunto de datos” U.M. Fayyad, yy , K.B. Irani. “Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning”. XIII International Joint Conference on Artificial Intelligence, pp. 1022-1029, France, 1993 Los puntos L t de d corte t serán á aquellos ll que fformen b barreras entre t clases l después de ordenar los valores de las características continuas WEKA: Filters: SupervisedAttributeDiscretize (Use Kohonenko = false) 10 Técnicas de filtro: Discretización 1Rule: Clasificación como discretización R.C. Holte, “Very simple classification rules perform well on most commonly l used dd datasets”, t t ” M Machine hi L Learning, i V Vol. l 11 11, pp. 63 63-91, 91 1993 1993. Idea Algoritmo: Para cada atributo: Ordena los valores Recorre el conjunto de datos estableciendo cortes que cumplan: Hay al menos una clase óptima para más de un número mínimo (SMALL) de valores en el intervalo. (Esta restricción no se aplica al último intervalo). Un intervalo no puede tener la misma clase óptima que el intervalo o valor inmediatamente anterior o posterior. WEKA: Classify: RulesOneR 11 Técnicas de filtro: Discretización USD (Unparametrized Supervised Discretization) : Raúl Giráldez et al. Discretization Oriented to Decision Rule Generation (KES). IOS Press, P pp.275-279, 275 279 2002 Intervalos g generados: Debe obtener un conjunto j finito de intervalos disjuntos para cada atributo continuo que cubra todo el rango de valores. Precisión: El error introducido por la discretización debe ser mínimo Discretización Supervisada. Número de intervalos: A menor número de intervalos, menor será el espacio de búsqueda. búsqueda Eficiencia: El método debe ser de un coste computacional reducido . 12 Técnicas é de ffiltro: Discretización ó Inicialización: Cortes básicos maximizando el nivel de p pureza. Refinamiento: Une intervalos adyacentes si la bondad de la unión es mayor que la bondad media de los intervalos participantes. IInicialización i i li ió Inicialización Refinamiento 1ª Iteración Refinamiento Ejemplo 13 Ejercicio Discretización del ozono en 3 etiquetas que correspondan con ozono bajo, ozono medio y ozono alto Discretización del ozono en 4 etiquetas que correspondan con ozono bajo, bajo ozono medio, medio ozono alto y ozono muy alto Analizar las dependencias entre el ozono y las otras variables ¿Cuáles son las variables más influyentes en el ozono? De dichas variables, ¿ ¿cuáles son los rangos g de valores que más afectan? 14