Extracción de conocimiento en bases de datos astronómicas Memoria del periodo de investigación presentada por D. Miguel Ángel Montero Navarro monteronavarro@gmail.com para optar al Diploma de Estudios Avanzados Director: Dr. D. José C. Riquelme Santos Tutores: Dr. D. Roberto Ruiz Sánchez Dr. D. Miguel García Torres Sevilla, Junio de 2009 Índice general Índice de figuras iii Índice de tablas iv 1. Introducción 1.1. Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Objetivos generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Estructura de la memoria de investigación . . . . . . . . . . . . . . . . . . . . 2 2 3 3 2. Hipótesis y objetivos 2.1. Introducción . . . . . . . . . . . . . . . . . . 2.2. La extracción de conocimiento . . . . . . . . 2.3. Fase de Minería de Datos . . . . . . . . . . . 2.4. Representación de los datos . . . . . . . . . . 2.5. Clasificación . . . . . . . . . . . . . . . . . 2.5.1. Naïve Bayes . . . . . . . . . . . . . 2.5.2. Vecinos más cercanos . . . . . . . . 2.5.3. Árboles de decisión . . . . . . . . . . 2.6. Evaluación del rendimiento de un clasificador 2.6.1. Precisión . . . . . . . . . . . . . . . 2.6.2. Validación de datos . . . . . . . . . . 2.6.3. Comparación del rendimiento . . . . 2.7. Preparación de los datos . . . . . . . . . . . 2.7.1. Recopilación . . . . . . . . . . . . . 2.7.2. Limpieza . . . . . . . . . . . . . . . 2.7.3. Transformación . . . . . . . . . . . . 2.7.4. Reducción . . . . . . . . . . . . . . 2.8. Selección atributos . . . . . . . . . . . . . . 2.8.1. Proceso general . . . . . . . . . . . . iiÍNDICE GENERAL iii 2.8.2. Medidas de evaluación de atributos . . . . . . . . . . . . . . . . . . . 2.8.3. Conclusiones y tendencias . . . . . . . . . . . . . . . . . . . . . . . . 2.9. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Trabajos relacionados 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Análisis espectral . . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Corrimiento al rojo . . . . . . . . . . . . . . . . . . . . . . 3.2. Instrumentación del SDSS . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Cámara . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Espectrógrafos . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Cobertura del cielo . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Cobertura fotométrica . . . . . . . . . . . . . . . . . . . . 3.3.2. Cobertura espectroscópica . . . . . . . . . . . . . . . . . . 3.4. Extracción de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. Repositorio de datos científicos . . . . . . . . . . . . . . . 3.4.2. Tipos de objetos celestes . . . . . . . . . . . . . . . . . . . 3.5. Estado del arte de la minería de datos aplicada a datos astronómicos 3.6. Experimentación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . 3.6.2. Descripción de los experimentos . . . . . . . . . . . . . . . 3.6.3. Análisis de los resultados . . . . . . . . . . . . . . . . . . . 3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 31 31 33 33 34 37 39 40 40 42 45 45 45 46 47 51 53 53 57 58 60 62 4. Conclusiones 64 Bibliografía 67 Índice de figuras 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. Esquema General de KDD (Knowledge Discovery in Databases). . . . . . . . División de los datos en carpetas. . . . . . . . . . . . . . . . . . . . . . . . . . Proceso para validar los resultados al aplicar algoritmos de selección de atributos. Fase de preparación de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . Reducción de un conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . . Reducción de los datos en ambos sentidos: ejemplos y atributos. . . . . . . . . 3.1. Respuesta en frecuencia de los diferentes tipos de filtros. . . . . . 3.2. Filtro óptico paso banda . . . . . . . . . . . . . . . . . . . . . . . 3.3. Dispersión de la luz en un prisma. . . . . . . . . . . . . . . . . . 3.4. Espectros de emisión (a) y de absorcion (b) del hidrógeno. . . . . 3.5. Efecto de la velocidad relativa sobre los espectros. . . . . . . . . . 3.6. Disposición de los sensores CCD en la cámara principal del SDSS 3.7. Imagen de los filtros colocados sobre la cámara del SDSS. . . . . 3.8. Curva de respuesta de los filtros ópticos utilizados en el SDSS. . . 3.9. Detalle espectrógrafo SDSS . . . . . . . . . . . . . . . . . . . . 3.10. Imágenes tomadas por la cámara del SDSS y espectros asociados. 3.11. Cobertura del cielo del SDSS en coordenadas galácticas. . . . . . 3.12. Esquema de una franja de observación (stripe). . . . . . . . . . . 3.13. Entorno de trabajo CasJob. . . . . . . . . . . . . . . . . . . . . . 3.14. Esquema de la base de datos DR7 del SDSS. . . . . . . . . . . . . iv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 19 20 22 25 26 35 36 38 38 40 41 42 43 43 44 45 46 48 50 Índice de tablas 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. 3.12. 3.13. 3.14. Máximo de transmisión y ancho banda de filtros u, g, r, i, z. . . . . . . . . . . . Versiones del catálogo de datos del SDSS. . . . . . . . . . . . . . . . . . . . . Clasificación morfológica según atributo type. . . . . . . . . . . . . . . . . . . Clasificación espectral según el atributo specClass. . . . . . . . . . . . . . . . Clasificación de los objetos celestes según el atributo objType. . . . . . . . . . Consulta SQL para obtener datos de experimentación. . . . . . . . . . . . . . . Atributos que intervienen en la consulta SQL de la tabla 3.6. . . . . . . . . . . Consulta SQL para obtener URL de ficheros FITS. . . . . . . . . . . . . . . . Líneas espectrales utilizadas en el SDSS para clasificación espectral. . . . . . . Datos base de datos objeto de estudio. . . . . . . . . . . . . . . . . . . . . . . Equivalencia etiquetado SDSS y base de datos objeto de estudio. . . . . . . . . Resultados experimentación. . . . . . . . . . . . . . . . . . . . . . . . . . . . Atributos seleccionados por los evaluadores CFS, CNS y CLS. . . . . . . . . . Atributos seleccionados por ClassifierSubsetEval con evaluador NB sobre FiltrosEspectros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 42 47 51 52 52 54 54 55 56 57 58 60 62 63 Capítulo 1 Introducción 1.1. Planteamiento Conforme la implantación y potencia de los sistemas informáticos ha ido aumentando, lo ha hecho también la cantidad de datos almacenados. Así la gestión y mantenimiento de grandes bancos de datos supone una actividad cotidiana en muchas empresas y organismos públicos. Ingentes cantidades de datos se encuentran almacenados en bases de datos procedentes de actividades del ámbito empresarial y público que se desarrollan en el día a día. La necesidad de análisis de estos datos y extracción de conocimiento no implícito en los mismos de forma automática derivó en el nacimiento de una nueva disciplina denominada KDD (Knowledge Discovery in Data bases). Con el nacimiento de esta disciplina los datos pasan de ser el producto generado por los diferentes procesos inherentes a la actividad desarrollada a ser la materia prima, de forma que a partir de estas ingentes cantidades de datos se extrae conocimiento útil que ayuda a tomar decisiones en los ámbitos de donde fueron extraídos los datos. El proceso de KDD comprende diversas etapas, que van desde la obtención de los datos hasta la aplicación del conocimiento adquirido en la toma de decisiones. Entre esas etapas, se encuentra la que puede considerarse como el núcleo del proceso KDD y que se denomina Minería de Datos o Data Mining (DM). La astronomía ha estado ligada al ser humano desde la antigüedad y todas las civilizaciones han tenido contacto con esta ciencia. En las últimas décadas, gracias a los avances tecnológicos, se han desarrollado y planificado una serie de proyectos astronómicos con el fin de profundizar en el conocimiento de los cuerpos celestes. Estos estudios han generado importantes cantidades de 2 1.2. Objetivos generales 3 datos que los astrónomos han tenido o tendrán que analizar. En astronomía la informática supone una herramienta primordial para el desarrollo de las tareas inherentes a los estudios desarrollados, utilizándose desde tres perspectivas: Como herramienta tecnológica que agiliza los procedimientos de adquisición de datos. Como soporte para la gestión y organización de la información. Como metodología para el diseño de aplicaciones capaces de gestionar los datos, solucionar problemas complejos y extraer conocimiento útil a partir de la información. En el primer caso podríamos hablar de tecnología informática; en el segundo caso, de sistemas de gestión de bases de datos; y, en el tercero, de ingeniería del software y minería de datos. 1.2. Objetivos generales El objetivo de la presente memoria de investigación es plantear una serie de resultados que pueden mejorar y aligerar el proceso de análisis que realizan los astrónomos sobre los grandes bancos de datos de origen astronómico. Para tal fin se realizará un estudio de las técnicas de clasificación, cuya aplicación a datos de origen astronómico ha sido bastante escasa hasta la fecha. Como objetivo secundario se realizará un estudio de los métodos de selección de atributos y su aplicación a datos de origen astronómico. La finalidad de este trabajo de investigación, por tanto, consistirá en clasificar objetos celestes y en identificar las características más relevantes para su clasificación. 1.3. Estructura de la memoria de investigación El contenido de esta memoria de investigación se encuentra dividido en los siguientes capítulos: Capítulo 2: Hipótesis y objetivos. En este capítulo describimos nuestra hipótesis de partida para el desarrollo del proyecto de tesis y también presentamos, de forma resumida, los objetivos que queremos cumplir a lo largo del proyecto. 4 1. Introducción Capítulo 3: Trabajos relacionados. Se describe el proyecto SDSS, los conceptos relativos a astronomía necesarios para la investigación sobre clasificación de objetos celestes y la experimentación desarrollada en el presente trabajo de investigación. Se describe además los trabajos desarrollados hasta la fecha en minería de datos aplicada a datos de origen astronómico. Capítulo 4: Conclusiones. En este último capítulo se exponen cuales son los resultados y conclusiones obtenidos en el presente estudio de investigación. Capítulo 2 Hipótesis y objetivos 2.1. Introducción En muchas ocasiones, el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual por especialistas en la materia estudiada. Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, la enorme cantidad de datos desborda la capacidad humana de comprenderlos y el análisis manual hace que las decisiones se tomen según la intuición de los especialistas. A finales de la década de los 80, la creciente necesidad de automatizar todo este proceso inductivo abre una línea de investigación para el análisis inteligente de datos. Al conjunto de métodos matemáticos y técnicas software para análisis inteligente de datos y búsqueda de regularidades y tendencias en los mismos, aplicados de forma iterativa e interactiva, se denominaron técnicas de Minería de Datos o Data Mining (DM). Su nombre proviene de las similitudes encontradas entre buscar valiosa información de negocio en grandes bases de datos y minar una montaña para encontrar una veta de metales valiosos. La minería de datos ha sido usada como sinónimo de descubrimiento de conocimiento en bases de datos (del inglés Knowledge Discovery in Databases, KDD), sin embargo, corresponde a una de las fases de todo el proceso de descubrimiento, encargada de hacer uso de técnicas de aprendizaje automático para desarrollar algoritmos capaces de aprender y extraer conocimiento de los datos. En la siguiente sección describiremos con mayor detalle el proceso de descubrimiento (o ex5 6 2. Hipótesis y objetivos tracción) de conocimiento, detallando las etapas de las que consta. 2.2. La extracción de conocimiento El proceso completo de extraer conocimiento a partir de bases de datos se conoce como KDD (Knowledge Discovery in Databases). Este proceso comprende diversas etapas, que van desde la obtención de los datos hasta la aplicación del conocimiento adquirido en la toma de decisiones. Algunas definiciones de KDD son: Definición 1. El Descubrimiento de Conocimiento en Bases de Datos es el proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente comprensibles en los datos [37]. Definición 2. Es el proceso de descubrimiento de conocimiento sobre repositorios de datos complejos mediante la extracción oculta y potencialmente útil en forma de patrones globales y relaciones estructurales implícitas entre datos [60]. Definición 3. El proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [98]. De la definición anterior se deducen una serie de propiedades que debería cumplir el conocimiento extraído: Válido. Los patrones encontrados deben describir datos nuevos. Novedoso. Debe aportar conocimiento nuevo. Potencialmente útil. La información debe ayudar en la toma de decisiones futuras. Comprensible. Los patrones encontrados deben ser suficientemente comprensibles para que proporcione conocimiento. Independientemente de la técnica que se use en el proceso de extracción de datos, los pasos que deben ser seguidos son siempre los mismos (figura 2.1): 2.2. La extracción de conocimiento 7 Figura 2.1: Esquema General de KDD (Knowledge Discovery in Databases). 1. Definición del problema. En el proceso de minería de datos el primer paso consiste en definir claramente el problema que se intenta abordar. En esta etapa se analiza el dominio de aplicación y la información relevante que exista a priori. 2. Integración, recopilación de datos y filtrado. Se deben localizar las fuentes de información y transformar los datos obtenidos a un formato común que permita trabajar de forma operativa con toda la información recogida sin que haya inconsistencias. Lo más frecuente es que los datos necesarios para llevar a cabo un proceso de KDD pertenezcan a distintos departamentos, a diferentes organizaciones o incluso nunca hayan sido recopilados por no considerarlos interesantes. Resulta conveniente utilizar algún método de automatización para la exploración de esos datos y encontrar posibles incoherencias. Una vez homogeneizados los datos, se filtran y se rechazan los no válidos o los incorrectos, según las necesidades, o bien se corrigen o se reduce el número de variables posibles mediante clustering, redondeo, etc. Este proceso previo es necesario porque se tardaría mucho tiempo en llegar a conclusiones si se trabajara con todos los datos. Al subconjunto de datos que se va a minar se denomina vista minable. 3. Fase de minería de datos. Esta fase es la más característica y por ese motivo se suele 8 2. Hipótesis y objetivos denominar minería de datos a todo el proceso en KDD. En esta fase la vista minable es sometida a una serie de algoritmos de extracción de conocimiento. Se verá con más detalle en el siguiente apartado. 4. Análisis. Se interpretan y evalúan los patrones obtenidos. Una vez interpretados puede ser necesario volver a una etapa anterior. 5. Aplicación. Se aplica el conocimiento extraído al dominio del problema, pudiendo ayudar en futuras tomas de decisiones. El desarrollo de esta investigación abarca principalmente la tercera etapa del proceso del KDD, es decir la minería de datos. Además, ha sido necesario realizar una extracción de datos a partir de la base de datos original y su posterior preprocesado. 2.3. Fase de Minería de Datos La minería de datos (en inglés data mining) es una de las técnicas más utilizadas actualmente para analizar la información de las bases de datos. Se fundamenta en varias disciplinas [70], como la estadística, la visualización de datos, sistemas para tomas de decisión, el aprendizaje automático o la computación paralela y distribuida, beneficiándose de los avances en estas tecnologías pero difiriendo de ellas en la finalidad que persigue: extraer patrones, describir tendencias y predecir comportamientos. El Aprendizaje Automático es el área de la Inteligencia Artificial que se ocupa de desarrollar técnicas capaces de aprender, es decir, extraer de forma automática conocimiento subyacente en la información. Constituye junto con la estadística el corazón del análisis inteligente de los datos. Los principios seguidos en el aprendizaje automático y en la minería de datos son los mismos: la máquina genera un modelo a partir de ejemplos y lo usa para resolver el problema. Algunos autores distinguen dos tipos de minería de datos [37]: Aprendizaje supervisado. Utiliza básicamente técnicas predictivas. Estas técnicas describen el conjunto de datos de una manera resumida y concisa, presentando propiedades generales e interesantes de los datos. Las tareas de datos que producen modelos predictivos son la clasificación y la regresión. 2.4. Representación de los datos 9 Clasificación. Cada registro de la base de datos pertenece a una determinada clase (etiqueta discreta) que se indica mediante el valor de un atributo o clase de la instancia. El objetivo es predecir una clase dados los valores de los atributos. Se usan, por ejemplo, árboles de decisión y sistemas de reglas o análisis de discriminantes. Regresión o estimación. Es el aprendizaje de una función real que asigna a cada instancia un valor real de tipo numérico. El objetivo es inducir un modelo para poder predecir el valor de la clase dados los valores de los atributos. Se usan, por ejemplo, árboles de regresión, redes neuronales artificiales, regresión lineal, etc. Aprendizaje no supervisado. Utiliza técnicas descriptivas de ingeniería artificial. Estas técnicas construyen uno o varios modelos que realizan inferencia sobre el conjunto de entrenamiento para intentar predecir el comportamiento de nuevos datos. Utiliza básicamente técnicas de ingeniería artificial. Las tareas que producen modelos descriptivos son el agrupamiento (clustering), las reglas de asociación secuenciales y el análisis correlacional. Clustering o agrupamiento. Las técnicas de Clustering comprenden una serie de metodologías para la clasificación automática de datos en un determinado número de grupos o clusters, utilizando para ello una medida de asociación. Cada cluster está formado por objetos que son similares entre ellos y distintos a los que forman el resto de grupos. Estas técnicas son utilizadas en una gran variedad de ámbitos para la descripción y clasificación de información: marketing, planificación urbanística, estudios atmosféricos, etc.. Reglas de asociación. Su objetivo es identificar relaciones no explícitas entre atributos categóricos. Análisis correlacional. Utilizado para comprobar el grado de similitud de los valores de dos variables numéricas. En esta memoria, el aprendizaje siempre será entendido como supervisado, donde los casos pertenecientes al conjunto de datos tienen a priori asignada una clase o categoría, siendo el objetivo encontrar patrones o tendencias de los casos pertenecientes a una misma clase. 2.4. Representación de los datos A continuación se establecerán algunas definiciones que describen formalmente los conceptos que se manejarán a lo largo de este documento. 10 2. Hipótesis y objetivos Definición 2.1 Un dominio es un conjunto de valores del mismo tipo. Aunque existen distintas clasificaciones de los dominios, para los propósitos de esta investigación se distinguen dos tipos: continuo (conjunto infinito de valores reales) y nominal (conjunto finito de valores discretos). Se representa Dom(). Definición 2.2 Se denomina Universo de discurso al entorno donde se define un determinado problema y viene representado como el producto cartesiano de un conjunto finito de dominios. Definición 2.3 Un atributo, o también denominado característica, es la descripción de alguna medida existente en el universo de discurso que toma valores en un determinado dominio. El atributo i–ésimo se representa Xi , su valor xi y su dominio como Dom(Xi ), que según la clasificación descrita previamente puede ser de dos tipos, continuo o discreto. Si es continuo existe un rango [a, b] ⊆ R de valores posibles, y si es discreto existe un conjunto finito de valores posibles. Se denomina vector de atributos x = x1 , . . . , xn al conjunto de valores correspondiente a cada uno de los atributos, y X al espacio formado por el conjunto de los atributos, X = Dom(X1 ) × . . . × Dom(Xn ), siendo n el total de atributos. Definición 2.4 En el marco del aprendizaje supervisado, se dispone de un atributo especial de salida denominado clase, que indica la pertenencia a un determinado grupo de casos. Se denomina etiquetas de clase al conjunto o dominio de valores que la clase puede tomar (nominal en el caso de la clasificación). La clase es el atributo sobre el cual se realiza la predicción, por lo que es también denominada atributo de decisión, para diferenciarla del resto de atributos denominados de condición. El atributo clase se representa Y y su dominio Dom(Y), teniendo k valores posibles y1 , . . . , yk . Definición 2.5 Un ejemplo, muestra, instancia o caso es una tupla del universo de discurso representada por un conjunto de valores de atributos, cada uno de un dominio respectivamente, y una etiqueta de clase que lo clasifica. Se representa e. Definición 2.6 Se define un conjunto de datos como un subconjunto finito de ejemplos e j , donde j = 1, . . . , m. Un conjunto de datos, o base de datos, se caracteriza por el número de ejemplos m que contiene y por el número n de atributos y su tipo. La entrada a un algoritmo de aprendizaje supervisado es un conjunto E de m instancias (x j , y j ), donde j = 1, . . . , m, cada una compuesta por n valores de entrada x j,i con (i = 1, . . . , n) y uno de salida y j , a E se le llama conjunto de datos etiquetado. 2.5. Clasificación 2.5. 11 Clasificación Clasificar objetos es un proceso de la inteligencia de máximo interés para investigadores tanto de psicología como de informática, dado que la habilidad de realizar una clasificación y de aprender a clasificar otorga el poder de tomar decisiones. A continuación se define formalmente el concepto de clasificación y clasificador: Definición 2.7 Sea E un conjunto de datos, el objetivo de la clasificación es aprender una función L : X → Y, denominada clasificador, que represente la correspondencia existente en los ejemplos entre los vectores de entrada y el valor de salida correspondiente, es decir, para cada valor de x tenemos un único valor de Y. Además, Y es nominal, es decir, puede tomar un conjunto de valores y1 , y2 , . . . , yk denominados clases o etiquetas. La función aprendida será capaz de determinar la clase para cada nuevo ejemplo sin etiquetar. La aplicación de un algoritmo de aprendizaje tiene como objetivo extraer conocimiento de un conjunto de datos y modelar dicho conocimiento para su posterior aplicación en la toma de decisiones. Existen distintas formas de representar el modelo generado, representación proposicional, árboles de decisión, reglas de decisión, listas de decisión, reglas con excepciones, reglas jerárquicas de decisión, reglas difusas y probabilidades, redes neuronales, están entre las estructuras más utilizadas. En este trabajo, se utilizarán tres algoritmos de aprendizaje clasificadores para clasificar objetos celestes a partir de los datos extraídos de observaciones astronómicas, uno probabilístico (Naïve Bayes), otro basado en las técnicas de vecinos más cercanos (IB1) y un tercero basado en árboles de decisión (C4.5). Los algoritmos de aprendizaje empleados se han elegido por ser representativos de diferentes tipos de clasificadores, usándose con frecuencia en los estudios comparativos y en bastantes aplicaciones de minería [70, 64]. 2.5.1. Naïve Bayes Naïve Bayes es una técnica de clasificación descriptiva y predictiva basada en la teoría de la probabilidad del análisis de T. Bayes [13], que data de 1763. Esta teoría supone un tamaño de la muestra asintóticamente infinito e independencia estadística entre variables independientes, 12 2. Hipótesis y objetivos refiriéndose en nuestro caso a los atributos, no a la clase. Con estas condiciones, se puede calcular las distribuciones de probabilidad de cada clase para establecer la relación entre los atributos (variables independientes) y la clase (variable dependiente). Concretamente, dado el ejemplo e = (x1 , . . . , xn ), donde xi es el valor observado para el i-ésimo atributo, la probabilidad a posteriori de que ocurra la clase yl teniendo k valores posibles {y1 , . . . , yk }, viene dada por la regla de Bayes, Q P(yl ) ni=1 P(xi |yl ) P(yl |x1 , . . . , xn ) = (2.1) P(x1 , . . . , xn ) donde P(yl ) es la proporción de la clase yl en el conjunto de datos; e igualmente, P(xi |yl ) se estima a partir de la proporción de ejemplos con valor xi cuya clase es yl . Como podemos deducir, el cálculo de P(xi |yl ) obliga a que los valores xi sean discretos, por lo que si existe algún atributo continuo, éste debe ser discretizado previamente. Aplicando la ecuación 2.1, la clasificación de un nuevo ejemplo e se lleva a cabo calculando las probabilidades condicionadas de cada clase y escogiendo aquella con mayor probabilidad. Formalmente, si Dom(Y) = {y1 , . . . , yk } es el conjunto de clases existentes, el ejemplo e será clasificado con aquella clase yl que satisface la expresión 2.2. ∀ j , i / P(yi |x1 , . . . , xn ) > P(y j |x1 , . . . , xn ) (2.2) Como se puede observar, el clasificador bayesiano es un método sencillo y rápido. Además, puede demostrarse teóricamente que maximiza la exactitud de la predicción de manera óptima. Sin embargo, la suposición de independencia estadística de las variables es una limitación importante, ya que este hecho es relativamente infrecuente. 2.5.2. Vecinos más cercanos Las técnicas de vecinos más cercanos (NN, Nearest Neighbours) basan su criterio de aprendizaje en la hipótesis de que los miembros de una población suelen compartir propiedades y características con los individuos que los rodean, de modo que es posible obtener información descriptiva de un individuo mediante la observación de sus vecinos más cercanos. Los fundamentos de la clasificación por vecindad fueron establecidos por E. Fix y J. L. Hodges [38, 39] a principio de los años 50. Sin embargo, no fue hasta 1967 cuando T. M. Cover y P. E. Hart [22] enuncian formalmente la regla del vecino más cercano y la desarrollan como herramienta de clasificación de patrones. Desde entonces, este algoritmo se ha convertido en uno de los métodos de clasificación más usados [20, 21, 23, 31, 6]. La regla de clasificación NN se resume básicamente en el siguiente enunciado: Sea E = {e1 , . . . , em } un conjunto de datos con m ejemplos etiquetados, donde cada ejemplo 13 2.5. Clasificación e j contiene n atributos (x j1 , . . . , x jn ), pertenecientes al espacio métrico X, y una clase yl ∈ {y1 , . . . , yk }. La clasificación de un nuevo ejemplo e0 cumple que e0 a yl ⇔ ∀ j , i / d(e0 , ei ) < d(e0 , e j ) (2.3) donde e0 a yl indica la asignación de la etiqueta de clase yl correspondiente a ei al ejemplo e0 y d expresa una distancia definida en el espacio n-dimensional X. Así, un ejemplo es etiquetado con la clase de su vecino más cercano según la métrica definida por la distancia d. La elección de esta métrica es primordial, ya que determina qué significa más cercano. La aplicación de métricas distintas sobre un mismo conjunto de entrenamiento puede producir resultados diferentes. Sin embargo, no existe una definición previa que indique si una métrica es buena o no. Esto implica que es el experto quien debe seleccionar la medida de distancia más adecuada. La regla NN puede generalizarse calculando los k vecinos más cercanos y asignando la clase mayoritaria entre esos vecinos. Tal generalización se denomina k–NN. Este algoritmo necesita la especificación a priori de k, que determina el número de vecinos que se tendrán en cuenta para la predicción. Al igual que la métrica, la selección de un k adecuado es un aspecto determinante. El problema de la elección del k ha sido ampliamente estudiado en la bibliografía. Existen diversos métodos para la estimación de k [26]. Otros autores [32] han abordado el problema incorporando pesos a los distintos vecinos para mitigar los efectos de la elección de un k inadecuado. Otras alternativas [81] intentan determinar el comportamiento de k en el espacio de características para obtener un patrón que determine a priori cuál es el número de vecinos más adecuado para clasificar un ejemplo concreto dependiendo de los valores de sus atributos. El algoritmo k–NN se engloba dentro de las denominadas técnicas de aprendizaje perezoso (lazy learning), ya que no genera una estructura de conocimiento que modele la información inherente del conjunto de entrenamiento, sino que el propio conjunto de datos representa el modelo. Cada vez que se necesita clasificar un nuevo ejemplo, el algoritmo recorre el conjunto de entrenamiento para obtener los k vecinos y predecir su clase. Esto hace que el algoritmo sea computacionalmente costoso tanto en tiempo, ya que necesita recorrer los ejemplos en cada predicción, como en espacio, por la necesidad de mantener almacenado todo el conjunto de entrenamiento. Pese a los numerosos inconvenientes respecto a la eficiencia (coste computacional) y la eficacia (elección de la métrica y el k adecuados), k–NN tiene en general un buen comportamiento. Cover y Hart [22] demostraron que, cuando el número de ejemplos tiende a infinito, el error asintótico de NN está acotado superiormente por el doble del error de Bayes (óptimo). 14 2. Hipótesis y objetivos 2.5.3. Árboles de decisión Los árboles de decisión, son una de las formas más sencillas de representación del conocimiento adquirido. Dentro de los sistemas basados en árboles de decisión, habitualmente denominados TDIDT (Top Down Induction of Decision Trees), se pueden destacar dos familias o grupos: La familia ID3, cuyos máximos representantes son el propio algoritmo ID3 propuesto por Quinlan [78] y el sistema CLS de Hunt et al. [48]. La familia de árboles de regresión, cuyo exponente más significativo es Cart,desarrollado por Breiman et al. [16]. Los TDIDT se caracterizan por utilizar una estrategia de divide y vencerás descendente, es decir, partiendo de los descriptores hacia los ejemplos, dividen el conjunto de datos en subconjuntos siguiendo un determinado criterio de división. A medida que el algoritmo avanza, el árbol crece y los subconjuntos de ejemplos son menos numerosos. De los sistemas TDIDT, los pertenecientes a la familia ID3 son los más referenciados en el campo del aprendizaje, por lo que serán expuestos con más detalle a continuación. ID3 El método de clasificación experimental ID3 (Induction Decision Trees), desarrollado por J. R. Quinlan [76, 77, 78], genera un árbol de decisión paralelo de forma recursiva, aplicando un criterio de división basado en el concepto de medida de la información de Shannon. Cada nodo interno de dicho árbol contiene un test sobre uno de los atributos, de cuyo valor dependerá el camino a seguir para clasificar un ejemplo, y cada hoja contiene una etiqueta de clase. Así, la clasificación de un ejemplo se lleva a cabo recorriendo el árbol desde la raíz hasta una de las hojas que determinará la clase del mismo. Inicialmente, el algoritmo toma todo el conjunto de datos E. Si todos los ejemplos pertenecen a una misma clase, el proceso finaliza, insertando un nodo hoja con dicha clase. En caso contrario, se selecciona aquel atributo Xi que mejor divide el conjunto de datos y se inserta un nodo con dicho atributo para establecer un test. Una vez creado el nodo, para cada valor distinto xiv del atributo Xi , se traza un arco y se invoca recursivamente al algoritmo para generar el subárbol que clasifica los ejemplos de E que cumplen que Xi = xiv . Dicha invocación es realizada sin tener en cuenta el atributo Xi y substrayendo del conjunto de datos E todos aquellos ejemplos donde Xi , xiv . El proceso se detiene cuando todas las instancias de un conjunto pertenecen a la misma clase. 15 2.5. Clasificación ID3 utiliza una propiedad estadística denominada ganancia de información como heurística de selección de atributos para fijar un test. Esta propiedad no es más que la reducción esperada de la entropía (desorden) de los datos al conocer el valor de un atributo. Así, el atributo Xi seleccionado para determinar la división será aquel que mayor ganancia obtenga respecto al conjunto E, según la ecuación 2.4, Ganancia(E, Xi ) = Ent(E) − |Xi | X |E(xiv )| v=1 |E| × Ent(E(xiv )) (2.4) donde |Xi | es el número de valores distintos de del atributo Xi ; E(xiv ) es el subconjunto de E para el cual Xi = xiv , siendo |E(xiv )| su cardinal; |E| es el número total de ejemplos; y Ent(·) es la entropía, definida a continuación. Definición 2.8 (Entropía) La entropía es la medida del desorden de un sistema mediante la incertidumbre existente ante un conjunto de casos, del cual se espera uno sólo. Sea E un conjunto de datos etiquetados con clases del conjunto Dom(Y) = {y1 , . . . , yk } y f rec(yl , E) el número de ejemplos de E con clase yl . Entonces se define la entropía del conjunto E como ! k X f rec(yl , E) f rec(yl , E) Ent(E) = − × log2 |E| |E| l=1 (2.5) f rec(yl ,E) l ,E) donde f rec(y es la probabilidad de que se dé un ejemplo con clase y , y log es la l 2 |E| |E| información que transmite un ejemplo de clase yl . La entropía es máxima cuando todas las clases presentan la misma proporción. C4.5 El algoritmo C4.5 fue propuesto por Quinlan [79] a finales de los años 80 para mejorar las carencias de su predecesor ID3. Desde entonces, ha sido uno de los sistemas clasificadores más referenciados en la bibliografía, principalmente debido a su extremada robustez en un gran número de dominios y su bajo coste computacional. C4.5 introduce principalmente las siguientes mejoras: 1. Trata eficazmente los valores desconocidos o ausentes calculando la ganancia de información para los valores presentes. 2. Maneja los atributos continuos, aplicando una discretización previa. 16 2. Hipótesis y objetivos 3. Corrige la tendencia de ID3 a seleccionar los atributos con muchos valores distintos para establecer los test cambiando el criterio de división. Sin embargo, presenta una serie de problemas que afectan directamente a la precisión del árbol generado. En primer lugar, la heurística usada para establecer los test es propensa a seleccionar aquellos atributos con mayor número de valores distintos, ya que a mayor número de particiones, la entropía de cada subconjunto tiende a ser menor. En segundo lugar, ID3 resulta muy vulnerable a la presencia de ruido e inconsistencia en los datos, lo cual ocasiona la generación de hojas muertas que clasifican ejemplos de más de una clase. C4.5 produce un árbol de decisión similar al de ID3, con la salvedad de que puede incluir condiciones sobre atributos continuos. Así, los nodos internos pueden contener dos tipos de test según el dominio del atributo seleccionado para la partición. Si el atributo Xi es discreto, la representación es similar a la de ID3, presentando un test con una condición de salida (rama Xi = xiv ) por cada valor xiv diferente del atributo. Por contra, si el atributo Xi es continuo, el test presenta dos únicas salidas, Xi ≤ Z y Xi > Z, que comparan el valor de Xi con el umbral Z. Para calcular Z, se aplica un método similar al usado en [16], el cual ordena el conjunto de t valores distintos del atributo Xi presentes en el conjunto de entrenamiento, obteniendo el conjunto de x +x valores {xi1 , xi2 , . . . , xit }. Cada par de valores consecutivos aporta un posible umbral Z = iv 2i(v+1) , teniendo en total t − 1 umbrales, donde t es como mucho igual al número de ejemplos. Una vez calculados los umbrales, C4.5 selecciona aquel que maximiza el criterio de separación. Como se mencionó anteriormente, el criterio de maximización de la ganancia de información usado en ID3 produce un sesgo hacia los atributos que presentan muchos valores distintos. C4.5 resuelve este problema usando la razón de ganancia (gain ratio) como criterio de separación a la hora de establecer un test. Esta medida tiene en cuenta tanto la ganancia de información como las probabilidades de los distintos valores del atributo. Dichas probabilidades son recogidas mediante la denominada información de separación (split information), que no es más que la entropía del conjunto de datos E respecto a los valores del atributo Xi en consideración, siendo calculada como In f ormacionDeS eparacion(E, Xi ) = − |Xi | X |E(xiv )| v=1 |E| × log2 |E(xiv )| |E| ! (2.6) donde |Xi | es el número de valores distintos del atributo Xi ; E(xiv ) es el subconjunto de E para el cual Xi = xiv , siendo |E(xiv )| su cardinal; y |E| es el número total de ejemplos. La información de separación simboliza la información potencial que representa dividir el conjunto de datos, y es usada para compensar la menor ganancia de aquellos test con pocas salidas. Con ello, tal y como muestra la ecuación 2.7, la razón de ganancia es calculada como el cociente entre la ganancia de 2.6. Evaluación del rendimiento de un clasificador 17 información (ecuación 2.4) y la información de separación (ecuación 2.6). Tal cociente expresa la proporción de información útil generada por la división. RazonDeGanancia(E, Xi ) = Ganancia(E, Xi ) In f ormacionDeS eparacion(E, Xi ) (2.7) C4.5 maximiza este criterio de separación, premiando así a aquellos atributos que, aun teniendo una ganancia de información menor, disponen también de menor número de valores para llevar a cabo la clasificación. Sin embargo, si el test incluye pocos valores, la información de separación puede ser cercana a cero, y por tanto el cociente sería inestable. Para evitar tal situación, el criterio selecciona un test que maximice la razón de ganancia pero obligando a que la ganancia del mismo sea al menos igual a la ganancia media de todos los test examinados [70]. C4.5 ha resultado ser un sistema muy efectivo en la práctica, capaz de ofrecer una representación relativamente simple de los resultados con un bajo coste computacional. En concreto, para un conjunto de datos con m ejemplos y n atributos, el coste medio de construcción del árbol es de Θ(mnlog2 m), mientras que la complejidad del proceso de poda es de Θ(m(log2 m)2 ). 2.6. Evaluación del rendimiento de un clasificador 2.6.1. Precisión Evaluar el comportamiento de los algoritmos de aprendizaje es un aspecto fundamental del aprendizaje automático, no sólo es importante para comparar algoritmos entre sí, sino que en muchos casos forma parte del propio algoritmo de aprendizaje. La forma más habitual de medir la eficiencia de un clasificador es la precisión predictiva. Un clasificador, cada vez que se le presenta un nuevo caso, debe tomar una decisión sobre la etiqueta que se le va a asignar. Considerando un error como una clasificación incorrecta de un ejemplo, se puede calcular fácilmente la tasa de error, o su complementaria, la tasa de acierto. Definición 2.9 Se denomina precisión (Γ) de un clasificador al resultado de dividir el número de clasificaciones correctas por el número total de muestras examinadas. Dado un conjunto etiquetado E de m instancias (x j , y j ), donde j = 1, . . . , m, cada una compuesta por n valores de entrada x j,i con (i = 1, . . . , n) y uno de salida y j , y dado el clasificador L visto en la definición 2.7, en la expresión siguiente, si L(x j ) = y j entonces se cuenta 1, y 0 en cualquier 18 2. Hipótesis y objetivos otro caso. m 1 X Γ(E, L) = L(x j ) = y j m j=1 Teniendo en cuenta la aplicación a la tarea de clasificación que se le da a los algoritmos de selección en esta memoria de tesis, la definición de precisión dada sobre el conjunto total de datos, aplicada a un subconjunto de atributos S queda de la siguiente manera: m Γ(E/S, L) = 1 X L(S(x j )) = y j m j=1 Por tanto, se tiene que Γ(E/S, L) es la precisión aplicando el clasificador L a la base de datos con los atributos que pertenecen al subconjunto S. La precisión es una buena estimación de cómo se va a comportar el modelo para datos desconocidos similares a los de prueba. Sin embargo, si se calcula la precisión sobre el propio conjunto de datos utilizado para generar el modelo, se obtiene con frecuencia una precisión mayor a la real, es decir, serán estimaciones muy optimistas por utilizar los mismos ejemplos en la inducción del algoritmo y en su comprobación [40]. La idea básica es estimar el modelo con una porción de los datos y luego comprobar su validez con el resto de los datos. Esta separación es necesaria para garantizar la independencia de la medida de precisión resultante, de no ser así, la precisión del modelo será sobreestimada [25]. Por tanto, para tener seguridad de que las predicciones sean robustas y precisas, se consideran dos etapas en el proceso de construcción de un modelo, entrenamiento y prueba, partiendo los datos en dos conjuntos, uno de entrenamiento y otro de test. 2.6.2. Validación de datos Estimar la precisión de un clasificador inducido por algoritmos de aprendizaje supervisado es importante tanto para evaluar su futura precisión de clasificación como para elegir un clasificador óptimo de un conjunto dado. Para probar un modelo se parten los datos en dos conjuntos. Por un lado, se tiene el conjunto de entrenamiento o training set. Este grupo de instancias serviría para enseñar al modelo cuál es el comportamiento tipo del sistema, haciéndose una clasificación por el analista de dichas instancias. Por otro, se tiene el conjunto de prueba o test set, que será el conjunto sobre el que 2.6. Evaluación del rendimiento de un clasificador 19 se aplicarán los métodos una vez adquirido el conocimiento previo a través del training set. Si no se usa esta metodología la precisión del modelo será sobrestimada, es decir, tendremos estimaciones muy optimistas. Se pueden establecer tres tipos fundamentales de métodos de validación: Validación simple. Utiliza un conjunto de muestras para construir el modelo del clasificador, y otro diferente para estimar el error, con el fin de eliminar el efecto de la sobreestimación. De entre la variedad de porcentajes utilizados, uno de los más frecuentes es tomar 2/3 de las muestras para el proceso de aprendizaje y el 1/3 restante para comprobar el error del clasificador. El hecho de que sólo se utiliza una parte de las muestras disponibles para llevar a cabo el aprendizaje es el inconveniente principal de esta técnica, al considerar que se pierde información útil en el proceso de inducción del clasificador. Esta situación se deteriora si el número de muestras para construir el modelo es muy reducido. Validación cruzada (cross-validation). También conocida como validación cruzada de n particiones. Se plantea para evitar la ocultación de parte de las muestras al algoritmo de inducción y la consiguiente perdida de información. En ella se divide los datos disponibles en tantas particiones como indique el parámetro n y se entrena n veces promediando el error de cada prueba. El esquema del proceso seguido para una validación 10-fold puede observarse en las figuras 2.2 y 2.3. En general éste es el número de particiones más utilizado. Figura 2.2: División de los datos en carpetas. Una posible mejora en la utilización de la validación cruzada es la estratificación que consiste en mantener en cada una de las particiones una distribución de las etiquetas similar a la existente en el conjunto de aprendizaje, para evitar una alta varianza en la estimación [16]. Además, es una práctica común, repetir la validación cruzada con k particiones un número determinado de veces para hacer más estable la estimación de la precisión. Un caso particular de este método de evaluación es la validación cruzada dejando uno fuera (leaving-one-out cross validation), donde k es igual al número de ejemplos del conjunto de datos. En este caso, el clasificador entrena con todas las muestras menos una que deja fuera para realizar la prueba [61]. Además de la elevada varianza de la tasa de aciertos obtenida, el mayor inconveniente de este método es el alto coste computacional 20 2. Hipótesis y objetivos Figura 2.3: Proceso para validar los resultados al aplicar algoritmos de selección de atributos. que supone el aprendizaje del clasificador k veces, por lo que no se suele utilizar cuando el número de muestras es elevado o el proceso de inducción del clasificador es computacionalmente costoso. La ventaja de esta técnica es que todos los casos son utilizados en el proceso de aprendizaje y en el de prueba, dando lugar a un estimador con sesgo muy pequeño. Muestreo con reemplazamiento o bootstrapping. Esta técnica se utiliza para estimar el error de un modelo cuando se dispone de pocos datos. Las técnicas de estimación basadas en este concepto fueron introducidas por Efron [33], encontrándose desarrolladas en más detalle en [34, 35]. Estas técnicas se proponen para reducir la alta variabilidad que exhibe la validación cruzada en muestras pequeñas, consiguiendo un aumento de eficiencia comparable a un aumento en el tamaño de la muestra de un 60 %. La idea central es que muchas veces puede ser mejor extraer conclusiones sobre las características de la población estrictamente a partir de la muestra que se maneja, que haciendo asunciones quizás poco realistas sobre la población. El bootstrapping implica remuestreo (resampling) con reemplazamiento de los datos obtenidos en una muestra muchas veces para generar una estimación empírica de la distribución muestral completa de un estadístico. Lunneborg [68] fija la utilidad del método bootstrap a tres niveles: 2.6. Evaluación del rendimiento de un clasificador 21 Valorar el sesgo y el error muestral de un estadístico calculado a partir de una muestra. Establecer un intervalo de confianza para un parámetro estimado. Realizar una prueba de hipótesis respecto a uno o más parámetros poblacionales. 2.6.3. Comparación del rendimiento En el apartado anterior se expuso como evaluar un algoritmo de aprendizaje obteniendo un valor de precisión. En el caso de que estemos interesado en comparar dos técnicas de aprendizaje, se hará utilizando test de hipótesis. Una de las pruebas estadísticas más populares para este propósito es el llamado t-test (Student’s t-test). Si suponemos que los valores de precisión se calculan bajo las mismas condiciones, es decir utilizando las mismas muestras, se denomina test pareado. Para determinar si la diferencia es significativa, se debe fijar un nivel de confianza y comparar con el valor límite de la variable t-Student en la tabla correspondiente para esos grados de libertad e intervalo de confianza. El método tradicional de realizar un contraste consiste en dividir el rango de discrepancias que puede observarse cuando la hipótesis nula, H0 , es cierta en dos regiones: una región de aceptación de H0 y otra de rechazo. Se consideran diferencias «demasiado grandes» las que tienen una probabilidad pequeña α (normalmente 0,1, 0,05 o 0,01) de ocurrir si H0 es cierta. Si rechazamos H0 cuando ocurre una discrepancia de probabilidad α, este número puede interpretarse como la probabilidad que estamos dispuestos a asumir de rechazar H0 cuando es cierta y se denomina error tipo I. Sin embargo, existe otro posible error, aceptar H0 cuando es falsa, denominándose error tipo II. Dependiendo del conjunto de datos y de la técnica de evaluación practicada, estos tipos de errores pueden verse aumentados o disminuidos. Dietterich [27] compara varios métodos de evaluación mediante experimentos con datos reales y simulados. Antes de la recomendación final de su trabajo, avisa de que los test estadísticos descritos deben ser vistos como aproximados, tests heurísticos, más que métodos estadísticos rigurosamente correctos a causa de los inconvenientes propios de cada test (entrenamiento con muestras de menor tamaño que el original, asunción de independencia, solapamiento de subconjunto de entrenamiento, etc.). Además, los experimentos se realizaron sólo con dos algoritmos de aprendizaje sobre tres bases de datos, por lo que informa que sus conclusiones se consideren como tentativas. Recomienda utilizar validación cruzada 5 × 2 (Alpaydin [8] propone una modificación) cuando las técnicas de aprendizaje son lo suficientemente eficientes para ejecutarse diez veces, o utilizar el test de McNemar´s en el caso de una única ejecución. No se debe utilizar 22 2. Hipótesis y objetivos el t-test sobre una serie de pruebas donde el conjunto de datos se divide aleatoriamente en dos. Recomienda precaución al interpretar los resultados de t-test pareado de la validación cruzada con diez particiones. Este test tiene una elevada probabilidad de error tipo I, sin embargo, se recomienda en los casos donde se le dé más importancia al error tipo II. 2.7. Preparación de los datos El éxito de un algoritmo de aprendizaje para clasificación depende en gran medida de la calidad de los datos que se le proporciona. Como se pudo comprobar en la figura 2.1, existe una fase de preparación de los datos previa a su análisis, donde se realiza una serie de tareas que describiremos a continuación. Pyle [74] indica que el propósito fundamental de esta fase es el de manipular y transformar los datos en bruto, de manera que la información contenida en el conjunto de datos pueda ser descubierta o más fácilmente accesible. Dado que en muchas ocasiones los datos provienen de diferentes fuentes, pueden contener valores impuros (incompletos, con ruido e inconsistentes), pudiendo conducir a la extracción de patrones poco útiles. Además, se puede reducir el conjunto de datos (selección de características y de instancias), mejorando la eficiencia del proceso de minería de datos posterior. También existe la posibilidad de recuperar información incompleta, eliminar outliers, resolver conflictos, etc., generando un conjunto de datos de calidad, que conduciría a mejores patrones. La preparación o preprocesamiento de datos engloba a todas aquellas técnicas de análisis de datos que permiten mejorar la calidad de un conjunto de datos, de modo que los métodos de extracción de conocimiento (minería de datos) puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.) [104]. La lista de tareas que se incluyen en esta fase se pueden resumir en cuatro: recopilación de datos, limpieza, transformación y reducción, no teniéndose que aplicar siempre en un mismo orden (ver figura 2.4). Figura 2.4: Fase de preparación de los datos. 2.7. Preparación de los datos 2.7.1. 23 Recopilación Para poder comenzar a analizar y extraer algo útil en los datos es preciso, en primer lugar, disponer de ellos. Esto en algunos casos puede parecer trivial, partiendo de un simple archivo de datos, sin embargo en otros es una tarea muy compleja donde se debe resolver problemas de representación, de codificación e integración de diferentes fuentes para crear información homogénea. 2.7.2. Limpieza En esta fase se resuelven conflictos entre datos, comprobando problemas de ruido, valores ausentes y outliers [56]. Valores ausentes La ausencia de valores en los atributos de algunos ejemplos de las bases de datos es relativamente frecuente, debido principalmente a fallos cometidos durante el proceso de adquisición de los datos, sea manual o automático. Aunque algunos métodos solventan este problema durante el proceso de aprendizaje, es común aplicar alguna técnica que trate estos ejemplos antes de ofrecerlos al algoritmo de minería de datos. La técnica de tratamiento de valores ausentes más simple, aunque también la menos recomendable, consiste en eliminar aquellos ejemplos que presenten algún atributo sin valor. El mayor inconveniente de esta técnica es que se podría eliminar información útil para el aprendizaje contenida en los atributos correctos. Para poder mantener los ejemplos en el conjunto de datos, habría que rellenar los valores ausentes con algún valor válido. Una solución sencilla es asignar una constante, por ejemplo «desconocido», si el atributo es discreto, o infinito, si es continuo. Aunque esta solución es también muy simple y no elimina información, el algoritmo de aprendizaje podría interpretar erróneamente esas constantes y entender que son valores interesantes. Por esta razón, es recomendable sustituir las ausencias por valores cuya influencia en el aprendizaje sea mínima. En este sentido, la media o la moda, dependiendo si el atributo es continuo o discreto respectivamente, pueden ser valores más apropiados que una constante. Para que el valor de sustitución no sea único para todos los ejemplos con ausencias en un mismo atributo, la media o la moda no se calcula a partir de todos los datos, sino considerando sólo aquellos ejemplos que tienen la misma clase que el que se pretende completar. Aunque este método no es muy exacto es uno de los más populares. Finalmente, una técnica más precisa, aunque también más costosa computacionalmente, con- 24 2. Hipótesis y objetivos siste en sustituir las ausencias por el valor más probable aplicando algún clasificador (regresión, clasificador Bayesiano o inducción de árboles de decisión) para predecir dicho valor. Ruido Ruido es un error aleatorio o variación en el valor de un atributo, debido normalmente a errores en la medida del mismo. A diferencia de la ausencia de valores, el ruido es más difícil de detectar a simple vista, ya que son valores presentes en el conjunto de datos que pueden provocar que el algoritmo de minería de datos obtenga soluciones erróneas. Para mitigar los efectos del ruido en el aprendizaje se aplican las denominadas técnicas de suavizado (smoothing). El método de suavizado más sencillo, conocido como binning, consiste en ordenar los valores de un atributo y distribuir tales valores en grupos o recipientes (bins) de igual número de valores o de igual rango, independientemente de los valores que contenga. Tras esta partición, se realiza un tratamiento local, sustituyendo los valores de cada grupo por la media, mediana o moda de dicho grupo. Aunque la aplicación de esta técnica suaviza los efectos del ruido, no garantiza la eliminación del mismo, ya que un atributo puede tomar valores que no correspondan a las características del ejemplo al que pertenece. Además, este método no corrige sólo los posibles outliers, sino que realiza cambios en todos los valores, por lo que no es muy recomendable. Una estrategia más apropiada es aplicar algún método de clustering para detectar los outliers y poder tratarlos posteriormente. Una vez detectados los outliers, se elimina el ejemplo o bien se aplica algún método de sustitución similar a los descritos para el tratamiento de valores ausentes que introduzca al ejemplo en uno de los clusters de su misma clase. 2.7.3. Transformación En ocasiones, la forma en que viene dada la información originalmente no es la más adecuada para adquirir conocimiento a partir de ella. En esas situaciones se hace necesario la aplicación de algún tipo de trasformación para adecuar los datos al posterior proceso de aprendizaje, como, por ejemplo, normalización o cambio de escala, discretización, generalización o extracción de atributos. Se considera técnica de transformación aquella destinada a modificar los datos para mejorar el proceso de aprendizaje y no a corregir errores en los mismos. Como ejemplo de necesidad de transformación en los datos, se puede observar la situación que se plantea a continuación. Un gran número de algoritmos de aprendizaje operan exclusivamente con espacios discretos, sin embargo, muchas bases de datos contienen atributos de dominio 2.7. Preparación de los datos 25 continuo, lo que hace imprescindible la aplicación previa de algún método que reduzca la cardinalidad del conjunto de valores que estos atributos pueden tomar, dividiendo su rango en un conjunto finito de intervalos. Esta trasformación de atributos continuos en discretos se denomina discretización. Menos frecuente es la transformación inversa denominada numerización. 2.7.4. Reducción Los investigadores dedicados al Aprendizaje Automático Supervisado, y concretamente, al estudio de algoritmos que produzcan conocimiento en alguna de las representaciones usuales (listas de decisión, árboles de decisión, reglas de asociación, etc.) suelen realizar las pruebas con bases de datos estándares y accesibles a toda la comunidad científica (la gran mayoría de ellas de reducido tamaño), con objeto de verificar los resultados y validarlos con independencia. No obstante, y una vez asentadas estas propuestas, algunos de estos algoritmos sufren modificaciones orientadas a problemas específicos, los cuales, contienen una cantidad de información muy superior (decenas de atributos y decenas de miles de ejemplos) a la de las bases de datos de prueba. La aplicación de tales técnicas de minería de datos es por tanto una tarea que consume una enorme cantidad de tiempo y memoria, aun con la potencia de los ordenadores actuales, que hace imposible la adaptación del algoritmo para solucionar el particular problema. Es conveniente, pues, aplicar técnicas de reducción a la base de datos (figura 2.5), estando orientadas fundamentalmente hacia dos objetivos: técnicas de editado (reducción del número de ejemplos) y técnicas selección de atributos (eliminación de aquellos atributos que no sean relevantes para la información inherente a la base de datos). En la figura 2.6 se muestra un ejemplo donde se puede observar los dos tipos de reducción. Figura 2.5: Reducción de un conjunto de datos. Editado Las técnicas de editado tienen como objetivo reducir el número de ejemplos de un conjunto de datos E, obteniendo un subconjunto S que contenga el mismo conocimiento que E. Para ello se pueden seguir dos estrategias: formar S a partir de la selección o rechazo de ejemplos contenidos en E, siendo estrictamente S ⊆ E; o bien construir S en base a prototipos [19] o reglas [30, 84], que representen grupos de ejemplos de E, aunque dichos prototipos no coincidan 26 2. Hipótesis y objetivos Figura 2.6: Reducción de los datos en ambos sentidos: ejemplos y atributos. con ejemplos de E. Evidentemente, la búsqueda del subconjunto S se lleva a cabo aplicando algún tipo de heurística, ya que una búsqueda exhaustiva es impracticable por su elevado coste computacional. Dependiendo del sentido de esta búsqueda, la técnicas de reducción de ejemplos se clasifican en: incrementales, donde el conjunto S es inicialmente vacío y se le van añadiendo ejemplos de E seleccionados según un determinado criterio; y decrementales, donde inicialmente S = E y se van eliminando ejemplos o generalizando éstos en reglas o prototipos. Aunque los métodos decrementales suelen ser más costosos computacionalmente se prefieren frente a los incrementales, debido a que estos últimos son más sensibles al orden de los ejemplos en el conjunto E. Existen numerosas técnicas de editado ligadas a la técnica de los vecinos más cercanos [22]. Podemos citar los trabajos de Hall [47], donde se incluye en el conjunto de prototipos aquellos ejemplos cuya clasificación es incorrecta utilizando la técnica del vecino más cercano (1–NN); o [97], donde elimina aquellos ejemplos cuya clasificación es incorrecta utilizando la técnica del vecino más cercano; o [82]; o [92]; las variantes basadas en vecinos de Voronoi [58], vecinos de Gabriel (dos ejemplos son vecinos de Gabriel si la esfera con diámetro el segmento que une los dos ejemplos no contiene a otro ejemplo) o vecinos relativos [93] (dos ejemplos son vecinos relativos si para todo ejemplo de la base de datos la distancia entre los dos ejemplos es menor que la mayor de las distancias que unen a cualquier ejemplo con los dos ejemplos investigados). Todas ellas necesitan de una distancia y en algunos casos el coste computacional es elevado. Si consideramos m ejemplos y n atributos, las primeras citadas tienen un orden Θ(mn2 ), la técnica de los vecinos de Voronoi tiene Θ(nm2 ), y las técnicas de los vecinos de Gabriel y vecinos 2.8. Selección atributos 27 relativos tienen Θ(mn3 ). Un acercamiento muy distinto se realiza mediante el algoritmo denominado EPO [4] (Editado mediante Proyección Ordenada), obteniendo una reducción importante de registros con un coste computacional inferior a los algoritmos convencionales Θ(mnlogn), sin necesidad de cálculo de distancias. Trabaja indistintamente con atributos continuos [5] y discretos [80]. Otra aproximación diferente se presenta en [17], donde se realiza una reducción de datos basada en la selección evolutiva de instancias. Selección atributos Tal como veremos en el siguiente apartado, en la selección de características se intenta escoger el subconjunto mínimo de atributos de acuerdo con dos criterios: que la tasa de aciertos no descienda significativamente; y que la distribución de clase resultante, sea lo más semejante posible a la distribución de clase original, dados todos los atributos. En general, la aplicación de la selección de características ayuda en todas las fases del proceso de minería de datos para el descubrimiento de conocimiento. 2.8. Selección atributos En este apartado se hace revisión al estado del arte actual de selección de atributos, teniendo en cuenta los estudios previos realizados por J.J. Lorenzo [67], Molina et al. [71], Larrañaga et al. [49] y los diversos trabajos donde está presente Liu [24, 64, 65, 66]. Es un hecho que el comportamiento de los clasificadores mejora cuando se eliminan los atributos no relevantes y redundantes. La selección de los atributos relevantes se debe a la preferencia por los modelos más sencillos frente a los más complejos. Esta preferencia ha sido utilizada con bastante frecuencia en la ciencia moderna y tiene sus orígenes en el denominado Principio de la Cuchilla de Occam (Occam’s Razor) [42]. La selección de atributos es un campo de investigación y desarrollo productivo desde los años setenta, donde confluyen distintas áreas como el reconocimiento de patrones [25, 14, 87, 51], el aprendizaje automático [15, 54, 57, 59] y la minería de datos [24, 64, 104]. Las técnicas de selección de características se aplican en muchos entornos diferentes, como por ejemplo en la clasificación de textos [101, 104, 41], en la recuperación de imagenes [83], en la dirección de 28 2. Hipótesis y objetivos relaciones con clientes [72], en la detección de intrusos [63] y en Bioinformática [50, 100, 103]. Se hace constar, que el proceso de selección de atributos, además de preceder a la clasificación, suele estar presente en las etapas previas de las principales tareas de la minería de datos, ya sean supervisadas o no, como regresión, agrupamiento y reglas de asociación [66]. Partiendo de la premisa de que en el proceso de selección de atributos se escoge un subconjunto de atributos del conjunto original, este proceso pretende elegir atributos que sean relevantes para una aplicación y lograr el máximo rendimiento con el mínimo esfuerzo. El resultado obtenido al aplicar técnicas de selección de atributos sería: Menos datos → los clasificadores pueden aprender más rápidos. Mayor exactitud → el clasificador generaliza mejor. Resultados más simples → más fácil de entender. Menos atributos → evita obtenerlos posteriormente. Podemos concluir que la selección es efectiva en eliminar atributos irrelevantes y redundantes, incrementando la eficiencia en las tareas de minería, mejorando el rendimiento y la comprensión de los resultados. Definición 2.10 (Selección de atributos) Si X es el conjunto de atributos, hacer selección de atributos es escoger un subconjunto S ∈ P(X). P(X) es el conjunto de las partes de X, es decir, el conjunto formado por todos los subconjuntos de elementos de X. Existen dos aproximaciones para realizar una reducción de dimensionalidad: selección y transformación de características; ambas son técnicas de pre-procesado que se usan frecuentemente. Aclaramos que, transformación de parámetros es el proceso a través del cual se crea un nuevo conjunto de parámetros. Existiendo dos variantes: Construcción de parámetros: es el proceso de descubrir información oculta sobre relaciones entre parámetros, aumentando el espacio formado por el conjunto de los atributos. Después de la construcción de parámetros, se obtienen p atributos adicionales: Xn+1 , Xn+2 , . . . , Xn+p . Extracción de parámetros: es el proceso de extraer un conjunto de nuevos atributos a partir de los originales aplicando funciones. Tendremos: B1 , B2 , . . . , Bs (s < n), siendo Bi = Fi (X1 , X2 , . . . , Xn ), donde Fi es una función. 2.8. Selección atributos 2.8.1. 29 Proceso general La selección de atributos se puede considerar como un problema de búsqueda [87, 62] en un espacio de estados, donde cada estado corresponde con un subconjunto de atributos, y el espacio engloba todos los posibles subconjuntos que se pueden generar. El proceso de selección de atributos puede entenderse como el recorrido de dicho espacio hasta encontrar un estado (combinación de atributos) que optimice alguna función definida sobre un conjunto de atributos. En general, un algoritmo de selección de atributos se basa en dos pasos básicos: generación y evaluación de subconjuntos. En la generación de nuevos subconjuntos se define un punto de partida y una estrategia para recorrer el espacio de búsqueda hasta que se cumpla un criterio de parada. Existen bastantes referencias de trabajos relacionados con la selección de atributos, pero además, se han realizado estudios sobre diversos aspectos de la selección de atributos (técnicas de búsqueda, medidas de bondad de los atributos, etc.) donde se agrupan los distintos algoritmos existente en la bibliografía general: Langley [62], Blum y Langley [15], Doak [28, 29] y Liu et al. [24, 64, 66]. Generación de subconjuntos Todo proceso de selección de atributos tiene un punto de partida, que puede ser el conjunto completo de atributos, el conjunto vacío o cualquier estado intermedio. Tras evaluar el primer subconjunto, se examinarán otros subconjuntos generados según una dirección de búsqueda (hacia adelante, hacia atrás, aleatoria o cualquier variación o mezcla de las anteriores). El proceso terminará cuando recorra todo el espacio o cuando se cumpla una condición de parada, según la estrategia de búsqueda seguida. Se entiende por dirección de búsqueda, la relación entre los atributos de un subconjunto con el siguiente, al realizar el recorrido a través del espacio de búsqueda. 30 2. Hipótesis y objetivos Estrategia de búsqueda Para una base de datos con n atributos, existen 2n subconjuntos candidatos. Una búsqueda exhaustiva en este espacio es totalmente ineficiente, incluso para bases de datos pequeñas, siendo necesario el uso de diferentes estrategias para atajar este problema. Existen tres tipos de estrategias de búsqueda según Liu et al. [66]: completa, secuencial y aleatoria. 2.8.2. Medidas de evaluación de atributos El conjunto óptimo es siempre relativo a un criterio de evaluación, es decir, un subconjunto óptimo elegido según una medida de evaluación no tiene porque ser el mismo al usar otra distinta. Sin embargo, en la práctica, se comprueba con cierta frecuencia que si un atributo es relevante aparece en subconjuntos escogidos según distintas funciones de evaluación. Medidas de distancia Estas medidas estiman la capacidad de un subconjunto de atributos en separar las clases. Utilizando este tipo de medida se intenta seleccionar aquellos atributos que hacen que los ejemplos de la misma clase estén más juntos y los de diferente clase más separado. Ejemplos de medidas de distancia son: Euclidea, Manhattan, Mahalanobis, Bhattaacharya, Kullback-Liebler, Kolmogorov, Chernoff, etc. Medidas de información Se basan en la ganancia de información de un atributo. Entre las medidas de información más frecuentes se encuentran: la entropía de Shannon, de Renyi, de grado α, cuadrática, estrictamente cóncava y de Daroczy, MDLC e información mutua. Medidas de dependencia El coeficiente de correlación es una medida de dependencia clásica que se utiliza para calcular la correlación entre un atributo y la clase, prefiriéndose aquellos atributos con mayor correlación. Otro enfoque consiste en determinar la dependencia de un atributo de otros, donde el valor resultante indica el grado de redundancia del atributo [14]. Medidas de consistencia Se caracterizan por su fuerte dependencia del conjunto de entrenamiento [7]. Estas medidas intentan extraer el subconjunto mínimo que satisfaga una tasa de inconsistencia aceptable, establecida normalmente por el usuario. Existe un problema al usar este criterio en bases de datos con un atributo que identifique individualmente cada instancia (DNI, número seguridad social,...) al no existir inconsistencia en los datos. Obviamente, este atributo sería irrelevante para los algoritmos de inducción. El problema 2.9. Objetivos 31 se puede solucionar dejando dicho atributo fuera del proceso de selección si está identificado, o ejecutando una vez el algoritmo para identificarlo y posteriormente para elegir el subconjunto. Medidas de exactitud En aprendizaje supervisado, el principal objetivo de un clasificador es maximizar la exactitud en la predicción de nuevos ejemplos, esto hace que la exactitud sea aceptada y muy utilizada como medida de evaluación.A los método que utilizan este tipo de medida se les denomina envoltorios (wrappers), y filtros a los demás. 2.8.3. Conclusiones y tendencias Además de definir el concepto de selección y de analizar su proceso, se ha clasificado y descrito los clasificadores más representativos. La forma de evaluar y comparar los algoritmos indicada en este capítulo se tendrá en cuenta a lo largo del presente documento. Recientemente los datos se han incrementado más y más en ambos sentidos (número de instancias y de atributos) en todas las áreas del conocimiento humano. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de datos con respecto a la escalabilidad y al rendimiento. Por ejemplo, bases de datos con cientos o miles de atributos, pueden contener un alto grado de información irrelevante y/o redundante con lo que se degradaría el rendimiento de un algoritmo de minería. Se puede concluir que la selección de atributos permite mejorar la precisión e interpretabilidad de los métodos de aprendizaje automático, además de reducir el tamaño de la base de datos y el tiempo de los algoritmos de aprendizaje. Además, para diferentes aplicaciones puede convenir distintos algoritmos de selección de características. Es importante no olvidar que la selección de atributos es un campo dinámico, estrechamente conectado a la minería de datos y a otras técnicas de preprocesamiento. 2.9. Objetivos El presente trabajo de investigación tiene como objetivo el estudio de las diferentes técnicas de minería de datos existentes que se pueden utilizar para extraer conocimiento útil de datos relativos a objetos celestes provenientes de observaciones astronómicas. Nos centraremos, fundamentalmente, en las técnicas de clasificación, cuya aplicación a datos de origen astronómico 32 2. Hipótesis y objetivos ha sido bastante escasa hasta la fecha. Como objetivo secundario este trabajo incluye el estudio de métodos de selección de atributos y su aplicación a datos de origen astronómico. La finalidad de este trabajo de investigación, por tanto, consiste en clasificar objetos celestes y en identificar las características más relevantes para su clasificación. Capítulo 3 Trabajos relacionados 3.1. Introducción El Sloan Digital Sky Survey (SDSS) [102, 36, 1, 3] es una ambicioso estudio del espacio que comenzó en el año 2000 con el objetivo de crear el mapa cósmico tridimensional más grande obtenido hasta el momento. Para tal fin se utiliza el telescopio de 2.5 metros de diámetro denominado SDSS [53], situado a 2788 metros sobre el nivel del mar en el Apache Point Observatory de Sunspot de Nuevo México, Estados Unidos. Este telescopio observará una cuarta parte del cielo en detalle y medirá las posiciones y brillos absolutos de cientos de millones de objetos celestes así como las distancias de más de un millón de galaxias, estrellas y cuásares. La cantidad de información que generará este proyecto está etimada en 15 terabytes. En 2005 se completó la primera fase del proyecto, que consistió en observar regiones de alta latitud galáctica del hemisferio Norte y tres franjas del hemisferio Sur. Tras el éxito de la primera fase, se inicó una segunda, que finalizó en 2008, en la que aparte de continuar con la labor original (The Sloan Legacy Survey) se ampliaron a dos inspecciones adicionales: SEGUE (the Sloan Extension for galactic Understanding and Exploration): inspeccionó una región del cielo de 3500 grados cuadrados. Tenía el objetivo de posibilitar el estudio de la estructura y evolución de la vía láctea. The Sloan Supernova Survey: campaña de 3 meses en la que se observó, en repetidas ocasiones, una región de 300 grados cuadrados de la región Sur con objeto de descubrir supernovas. 33 34 3. Trabajos relacionados En la actualidad se está en una tercera fase del proyecto que abarcará hasta el 2014. Esta tercera fase tiene como objetivo profundizar en el conocimiento de los siguientes temas: Energía oscura y parámetros cosmológicos. Estructura, dinámica y evolución química de la vía láctea. Arquitectura de sistemas planetarios. 3.1.1. Definiciones A continuación pasamos a definir los conceptos básicos y relevantes para este trabajo: Definición 3.1 Sensor CCD: “Charge Coupled Device” o Dispositivo de Carga Acoplada. Dispositivo electrónico que registra fotones (luz) generando una imagen a partir de éstos. El sensor CCD es un circuito integrado compuesto por células fotosensibles dispuestas en forma matricial. Cada una de estas células transforman la cantidad de energía incidida (número de fotones registrados) en corriente eléctrica. Esta corriente eléctrica será procesada por la electrónica del dispositivo, generando el valor asociado a un píxel. De esta forma, la composición del valor de todas las células fotosensibles conformarán una imagen. Definición 3.2 Cámara CCD: Equipo electrónico empleado para capturar imágenes mediante uno o más sensores CCD. Definición 3.3 TDI (Time Delay and Integration): Modo de integración y lectura de sensores CCD que permite la adquisición de imágenes de objetos en movimiento. Definición 3.4 Filtro óptico: Medio que sólo permite el paso a través de él de luz con ciertas propiedades, suprimiendo o atenuando la luz restante. Según el rango de frecuencias que dejen sin filtrar, los filtros ópticos se clasifican en: Paso alto: permite el paso de radiación por encima de una determinada frecuencia de corte. Paso bajo: permite el paso de radiación por debajo de una determinada frecuencia de corte. 35 3.1. Introducción Paso banda: permite el paso de radiación en una región de frecuencias determinada por dos frecuencias de corte. Rechazo banda: realiza el efecto contrario al anterior, es decir, no deja pasar la radiación en una región de frecuencias determinada por dos frecuencias de corte. La respuesta de un filtro se caracteriza por su curva de respuesta en frecuencia (ver figura 3.1), que indica la forma en que las diferentes frecuencias son atenuadas o amplificadas al atravesar el filtro. Figura 3.1: Respuesta en frecuencia de los diferentes tipos de filtros. Definición 3.5 FWHM (Full Width at Half Maximum): Parámetro característico de los filtros paso banda que representa el rango de longitudes de onda que no son filtradas (figura 3.2). Este parámetro se obtiene como resultado de la diferencia de las longitudes de onda a media altura del máximo de la curva de respuesta del filtro. Para el caso de la figura 3.2 tendríamos FWHM = x2 − x1 (expresadas en unidades de longitud de onda). Definición 3.6 Fotometría: Rama de la astronomía encargada de medir el brillo de los astros. Dicho brillo se mide en magnitudes, cuya escala es inversamente porporcional al brillo del astro. Es decir, a mayor magnitud, menor brillo. 36 3. Trabajos relacionados Figura 3.2: Filtro óptico paso banda Definición 3.7 Astrometría: Rama de la astronomía dedicada al estudio de la posición, paralajes y movimientos propios de los astros. Definición 3.8 Espectrometría: Estudio del espectro de la radiación electromagnética asociada a un astro. Permite medir ciertas propiedades como la composición química y el movimiento. Definición 3.9 Espectro: Distribución energética en un rango de longitudes de onda asociada a un astro. Definición 3.10 Espectrógrafo: Instrumento óptico usado, generalmente, para medir la intensidad de la luz emitida por una fuente a diferentes longitudes de onda. El espectrograma resultante suele denominarse espectro, y suele registrarse en un sensor CCD o placa fotográfica. Definición 3.11 Coordenadas galácticas: Es un sistema de coordenadas celestes centrada en el sol y alineada con el centro aparente de la Vía Láctea. El “ecuador” está alineado con el plano de la galaxia. El sistema de referencia gira con el Sol alrededor de la galaxia. Las coordenadas son la longitud galáctica (l) y la latitud galáctica (b). La longitud galáctica se mide sobre el plano de la misma, en sentido antihorario a partir de la línea que une al Sol con el centro de la galaxia (0◦ ≤ l ≤ 360◦ ). La latitud galáctica es el ángulo que forma el objeto con el plano de la galaxia. Se mide en grados positivos al norte y negativos al sur (-90◦ ≤ b ≤ 90◦ ). 3.1. Introducción 37 Definición 3.12 Formato de ficheros FITS [43]: FITS o Flexible Image Transport System es el formato de archivo más utilizado en el mundo de la astronomía para almacenamiento de imágenes, aunque a menudo es utilizado para almacenar también datos que no son imágenes, tales como, espectros electromagnéticos. Un fichero FITS puede contener varias extensiones, y cada una de ellas puede contener datos de un objeto. Por ejemplo, es posible almacenar imágenes de rayos X y también imágenes pertenecientes al infrarrojo en el mismo archivo FITS. Más información y utilidades para el procesamiento de los ficheros FITS puede ser obtenida en http://fits.gsfc.nasa.gov/ Definición 3.13 WEKA (The Waikato Environment for Knowledge Analysis): Es una colección de algoritmos de aprendizaje automático escritos en java para tareas de minería de datos [99]. Weka fue desarrollado y está siendo mantenido por la Universidad de Waikato bajo licencia GNU-GPL. 3.1.2. Análisis espectral Si se hace pasar la luz del Sol a través de un prisma (fig. 3.3) ésta se descompone en una gama de colores similares a los que pueden observarse en un arco iris (rojo, anaranjado, amarillo, verde, azul, añil y violeta). A esta gama de colores se le da el nombre de espectro de la luz visible. El arco iris es un espectro natural producido por fenómenos meteorológicos. Pero, en términos generales, el espectro es toda la gama de radiaciones electromagnéticas, que va desde los rayos gamma a las ondas radio. La primera explicación correcta de este fenómeno la dio en 1666 el matemático y físico británico Isaac Newton. La luz blanca produce al descomponerla lo que llamamos un espectro continuo, que contiene el conjunto de colores que corresponde a la gama de longitudes de onda que la integran. Sin embargo, los elementos químicos en estado gaseoso y sometidos a temperaturas elevadas producen espectros discontinuos en los que se aprecia un conjunto de líneas que corresponden a emisiones de sólo algunas longitudes de onda. El conjunto de líneas espectrales que se obtiene para un elemento concreto es siempre el mismo, incluso si el elemento forma parte de un compuesto complejo, debido a que cada elemento produce un espectro diferente al de cualquier otro elemento. Esto significa que cada elemento tiene su propia firma espectral. Existen dos tipos de espectros: 38 3. Trabajos relacionados Figura 3.3: Dispersión de la luz en un prisma. Espectro de emisión. Son las radiaciones emitidas por un elemento, en estado gaseoso, cuando se le comunica energía. Así, por ejemplo, si colocamos un tubo con hidrógeno al calentarlo a altas temperaturas emitirá radiación. Si esta radiación se hace pasar a través de un prisma de cuarzo obtendremos a su salida una imagen compuesta por la gama de colores que componía la radiación original (fig. 3.4(a)). Espectro de absorción. Al atravesar la radiación un gas se produce la absorción de una parte del espectro. El resultado es su espectro característico de absorción, donde faltan las bandas absorbidas (fig. 3.4(b)). (a) (b) Figura 3.4: Espectros de emisión (a) y de absorcion (b) del hidrógeno. El análisis espectral permite detectar la absorción (espectros de absorción) o emisión (espectros de emisión) de radiación electromagnética a ciertas longitudes de onda, y relacionar éstas con los niveles de energía implicados en una transición cuántica de un átomo. 3.1. Introducción 39 Los astros emiten ondas electromagnéticas. A partir de estas ondas electromagnéticas se realiza un análisis espectral con la ayuda de un espectroscopio. Por otra parte, como se conocen los espectros asociados a los diferentes elementos químicos e isótopos, éstos sirven de patrones que permiten analizar los espectros de los cuerpos celestes y extraer toda la información que contienen, denominándose a este estudio análisis espectral. Entre la emisión de ese espectro por los átomos excitados por el calor de la estrella y su recepción en la Tierra interviene otro fenómeno. Cada vez que una radiación emitida encuentra, durante su propagación en la misma atmósfera de la estrella, un vapor que contiene átomos del mismo elemento, es absorbida por uno de éstos. Por consiguiente, en el espectro de aquella estrella que se obtendrá en la Tierra cada una de las posiciones correspondientes a las longitudes de onda interceptadas quedará falto de luz y en él aparecerá una raya oscura. Así, en lugar del espectro de emisión se obtendrá un espectro de absorción que contendrá en forma de rayas las huellas de todos los elementos químicos existentes en la atmósfera del astro. En muchos casos, el interior de una fuente está a mayor temperatura que el exterior. El interior produce un espectro de emisión de líneas anchas, y en el exterior se genera un espectro de absorción, con líneas más estrechas al estar más frío. El resultado global para cada línea es una zona brillante con un centro oscuro. Fraunhofer y Angelo Secchi estuvieron entre los pioneros de la espectroscopia del Sol y otras estrellas. Se recuerda especialmente a Secchi por clasificar las estrellas en tipos espectrales, basándose en el número y fuerza de las líneas de absorción de su espectro. 3.1.3. Corrimiento al rojo Un espectro de un cuerpo celeste, además de indicar la composición química de la fuente luminosa y el estado físico de su materia, da información sobre si el cuerpo luminoso y la Tierra se acercan o se alejan entre sí, y con la velocidad relativa a la que lo hacen (efecto Doppler-Fizeau). Cuando la fuente de radiación se acerca al observador o se aleja de él, se produce un desplazamiento de la posición de las líneas espectrales. Este desplazamiento de las longitudes de onda, conocido como efecto Doppler, permite medir con bastante precisión la velocidad relativa de cualquier fuente de radiación. En general, si todas las líneas del espectro de una estrella se desplazan hacia el rojo, la estrella se está alejando de la Tierra, y la velocidad de alejamiento puede calcularse a partir de la magnitud del desplazamiento de las líneas. Por el contrario, si la estrella se está acercando a la Tierra, su espectro se desplaza hacia el violeta. El desplazamiento hacia 40 3. Trabajos relacionados el rojo observado en los espectros de las galaxias indica que el Universo se está expandiendo. La gráfica 3.5 muestra un ejemplo del espectro de absorción de la luz de una estrella. Las dos líneas negras corresponden a luz que fue absorbida por átomos en la atmósfera de la estrella. El primer espectro corresponde a una estrella en reposo relativo a nosotros que observamos desde la Tierra. El segundo espectro corresponde a una estrella que se aleja de nosotros. Note como las líneas del espectro se corren hacia el rojo. Figura 3.5: Efecto de la velocidad relativa sobre los espectros. 3.2. Instrumentación del SDSS El SDSS usa un telescopio de 2.5 metros equipado con una cámara de 120 megapíxeles capaz de capturar imágenes ópticas que cubren un área de cielo de 1.5 grados cuadrados y dos espectrógrafos alimentados mediante fibra óptica para medir espectros. 3.2.1. Cámara La cámara [52] del SDSS consta de 54 sensores CCD; 30 destinados a fotometría, 22 a astrometría y 2 a labores de enfoque. En la figura 3.6 puede verse la disposición de estos sensores en la cámara. Los sensores CCD de fotometría son de tipo SITe/Tektronix con una resolución de 2048 × 2048 píxeles de 24ηm cada uno. La imágen digital que el CCD almacena consiste en un array de píxeles. Cada registro del array incluye la coordenada x e y del píxel, y el número de fotones que incidieron en el pixel durante el tiempo de exposición de la cámara. Un software de procesado de imágenes lee los datos y asignan a cada píxel un tono de gris (o de color) dependiendo del número de fotones registrado. 3.2. Instrumentación del SDSS 41 Figura 3.6: Disposición de los sensores CCD en la cámara principal del SDSS. Los 30 sensores destinados a fotometría están situados en la zona central; los 22 de astrometría están distribuidos en dos hileras de 12 situados en la zona superior e inferior (representados en color gris claro) y los 2 de enfoque están centrados, uno en cada zona (representados en color gris claro). Filtros Cada fila de CCDs de la cámara del SDSS observa el cielo a través de un filtro diferente de color, denominados r, i u, z, g [52]. En la figura 3.7 se muestra la disposición de los filtros superpuestos sobre las filas de CCDs de la cámara del SDSS. Los filtros utilizados en el SDSS se corresponden con los colores ultravioleta (u; ultraviolet), verde (g; green), rojo (r; red), cerca del infrarrojo (i; near-infrared) e infrarrojo (z; infrared) [52]. Estos filtros están diseñados para permitir pasar un rango específico de longitudes de onda (filtros paso banda). Sin embargo la sensibilidad del filtro no es homogénea; con lo que se suele hacer uso de una curva de respuesta que muestra la transmitancia de la radiación a lo largo de las distintas longitudes de onda. La figura 3.8 muestra la curva de respuesta de estos cinco filtros y la tabla 3.1 la información relativa al pico de máxima transmisión de la curva de respuesta, el ancho de banda del espectro y la longitud de onda promedio de cada filtro [94]. 42 3. Trabajos relacionados Figura 3.7: Imagen de los filtros colocados sobre la cámara del SDSS. pico (Å) FWHM (Å) <λ>(Å) u 3500 600 3551 g 4800 1400 4686 r 6250 1400 6165 i 7700 1500 7481 z 9100 1200 8931 Tabla 3.1: Máximo de transmisión y ancho banda de filtros u, g, r, i, z. La disposición matricial de los filtros en seis columnas de cinco filas (una por cada filtro óptico), permite que al operar en modo TDI se tomen imágenes de una fuente en los cinco filtros casi simultaneamente (transcurren 5 minutos entre la captura en el primer filtro (r) y el último (g)). De esta forma, para cada fuente se tendrán cinco imágenes (una por cada filtro). En astrofísica, dependiendo del tipo de fuente, emitirá en mayor medida en un rango u otro de energía. De esta forma, las cinco imágenes anteriores podrán ser utilizadas para realizar una primera discriminación sobre tipo de objeto celeste observado. 3.2.2. Espectrógrafos El SDSS consta de dos espectrógrafos conectados a 320 fibras (fiber) ópticas; lo que permite que se tomen 640 espectros a la vez. Dos láminas (plate) de Aluminio con 320 perforaciones cada una fija las localizaciones de donde se medirán los espectros. Para las observaciones, se sitúan las láminas sobre una montura que se coloca sobre el telescopio. Las fibras, conectadas a las láminas, transportan la luz proveniente de la fuente hasta los espectrógrafos. Cada espectrógrado registra el espectro en dos sensores CCD de tipo SITe/Tektronix con una resolución de 2048 × 2048 píxeles; uno para cubrir el rango de longitudes de onda azules (de 3800Å a 6150Å) y otro 3.2. Instrumentación del SDSS 43 Figura 3.8: Curva de respuesta de los filtros ópticos utilizados en el SDSS. para cubrir el rango de longitudes de onda rojas (de 5800Å a 9200Å). El uso de dos canales por espectro permite incrementar la resolución de las medidas. En la figura 3.9 puede verse parte de la isntrumentación dedicada a la toma de espectros. Figura 3.9: Las fibras (fibers), conectadas a la lámina (plate) de Aluminio, transportan la luz de la fuente a una rendija donde hace incidir el espectro sobre el espectrógrafo. La primera observación espectrográfica fue presentada por Castander et al. [18]. Mediante estos espectrógrafos el SDSS estudiará todos los cuerpos celestes de magnitud 17,8 o más brillante captados por la cámara. En la figura 3.10 se observan las imagenes captada por la cámara y el espectro asociado a la misma de tres tipos de cuerpos celestes diferentes. 44 3. Trabajos relacionados (a) (b) (c) Figura 3.10: Imágenes tomadas por la cámara del SDSS y espectros asociados: (a) Galaxia espiral NGC 5750 (MJD=51662, Plate=308 y Fiber=191) (b) Quásar (MJD=51630, Plate=266 y Fiber=190) (c) Estrella (MJD=51900, Plate=390 y Fiber=115). 3.3. Cobertura del cielo 3.3. Cobertura del cielo 3.3.1. Cobertura fotométrica 45 Como puede verse en la figura 3.11, el SDSS se mueve describiendo círculos grandes de latitud constante delimitados a cierta longitud. La región de cielo a cubrir por el SDSS está dividida en franjas denominadas stripe de ancho 2.53◦ . Para cubrir el ancho de una franja se requieren dos observaciones, de modo que cubran los huecos que hay entre los CCDs. Figura 3.11: Cobertura del cielo del SDSS en coordenadas galácticas. La región a observar está estructurada en franjas (stripe) de 2◦ .53 de ancho que se solapan. Cada franja describe un movimiento circular a una latitud contante. Un escaneo de una franja de cielo es denominado run. El stripe surge de unir dos runs, los cuales consisten en 6 camcols (camera columns); una por cada columna de sensores CCD. Las columnas a su vez se dividen en fields, los cuales constan de 2048 píxeles de ancho por 1489 píxeles de largo. Por tanto, habrá regiones de cielo que se solapen y por tanto sean observadas dos o más veces. Entre dos fields hay un solape de 128 píxeles en la dirección de escaneo. En la figura 3.12 puede verse un esquema de una franja de observación (stripe). 3.3.2. Cobertura espectroscópica Cada espectrógrafo tiene 320 fibras; de modo que se pueden tomar medidas de 640 espectros a la vez. Debido a la limitación del diámetro de estas fibras, los espectrógrafos no pueden tomar, al mismo tiempo, espectros de dos objetos situados a una distancia inferior a 55 segundos de 46 3. Trabajos relacionados Figura 3.12: Esquema de una franja de observación (stripe). Cada stripe consiste en un par de runs. Cada run está compuesto de 6 camcols (una por columna de la cámara fotométrica), los cuales se dividen en varios fields que se solapan entre sí. arco. Para evitar conflictos de selección de fuentes se aplica una regla de selección que puede verse en Stoughton et al. [36]. 3.4. Extracción de datos La cámara del SDSS obtiene imágenes en alta resolución del cielo. A partir de estas imágenes, un avanzado software de procesamiento de imágenes mide la forma, brillo y color de los objetos celestes. Posteriormente, de los objetos celestes detectados se obtienen los espectros de radiación asociados y se realiza una rápida clasificación de los mismos. Como resultado del estudio astronómico realizado por el SDSS se van a generar dos tipos de datos: Datos fotométricos: son medidas que se toman a partir de la imagen de una fuente. La principal medida es la magnitud, cuyo valor varía en función de la distancia y viene afectado de la absorción interestelar, con lo que suele denominarse magnitud aparente. Otra magnitud fotométrica es el tamaño de la fuente. Datos espectroscópicos: son el conjunto de medidas que se toman a partir del espectro de una fuente. A partir de estos datos puede extraerse el tipo espectral y el desplazamiento al rojo. 47 3.4. Extracción de datos De cada imagen procesada se almacenan dos versiones diferentes debido a que el software de procesamiento de datos ha sufrido cambios sustanciales desde el inicio del estudio. Primeramente, se almacena la versión de los datos tal como fueron obtenidos por la cámara CCD y por los espectrógrafos. Esta base de datos es denominada TARGDR1, donde DR1 designa el número de versión: Data Release 1 (la versión más reciente de la base de datos es la 7, DR7 [55]). Una vez los datos han sido procesados con la mejor versión disponible de software, estos objetos son almacenados en la base de datos BESTDR1. El esquema de las dos bases de datos es idéntico. En la tabla 3.2 puede verse las diferentes versiones de la base de datos del SDSS, se indican su fecha de creación, tamaño y el número de imágenes y de espectros almacenados [55, 91]. Versión Fecha DR1 DR2 DR3 DR4 DR5 DR6 DR7 Junio 2003 Marzo 2004 Septiembre 2004 Junio 2005 Junio 2006 Junio 2007 Marzo 2009 Tamaño (catálogo) 1 Tbyte 2 Tbyte 3 Tbyte 4 Tbyte 5 Tbyte 6 Tbyte 8 Tbyte No imágenes (millones) 53 88 141 180 215 287 357 No espectros (miles) 186 330 478 608 738 1270 1630 Tabla 3.2: Versiones del catálogo de datos del SDSS. Los datos obtenidos por el SDSS pueden ser accedidos de dos formas diferentes: Mediante el acceso al Servidor de Archivos de Catálogo de datos (CAS, Catalog Archive Server). El entorno de trabajo que provee el SDSS para trabajar con CAS se denomina CasJobs (Catalog Archive Server Jobs System) y es accesible a través de la URL (http://casjobs.sdss.org/CasJobs/). En este entorno de trabajo se podrán realizar cuantas consultas SQL se deseen sobre el repositorio (figura 3.13). Mediante la descarga de ficheros de imágenes y datos en formato FITS. Los ficheros de imágenes y datos en formato FITS están disponibles en el Servidor de Datos de Archivos (DAS, Data Archive Server ) cuya URL es (http://das.sdss.org/). 3.4.1. Repositorio de datos científicos El repositorio de datos científico del SDSS está almacenado en el CAS mediante el sistema gestor de bases de datos SQL Server de Microsoft [9]. El acceso a este repositorio se realiza a través de la web mediante CasJob. 48 3. Trabajos relacionados Figura 3.13: Entorno de trabajo CasJob. El esquema de la base de datos se puede subdividir en cuatro grupos interrelacionados entre sí (figura 3.14): Photo: Estas tablas contienen datos fotométricos. En las observaciones fotométricas se obtienen un conjunto de tablas que describen los millones de objetos celestes detectados por la cámara del SDSS. La tabla más importante de este grupo es la PhotoObjAll, la cual contiene objetos astonómicos identificados por el procesado software de las imágenes captadas por el telescopio SDSS. Para aquellos objetos que han sido varias veces observados y procesados, la mejor observación es marcada como primary, el resto de observaciones se marcan como secundary, si poseen la suficiente calidad como para ser tratadas científicamente, o como family, en cualquier otro caso. Esta tabla es la más grande del catálogo del SDSS, conteniendo el 80 % del volumen de datos de la base de datos. Los objetos primarios y secundarios pueden ser accedidos también a través de la vista PhotoObj creada a partir de PhotoObjAll. Spectro: Estas tablas contienen datos espectroscópicos. Los datos obtenidos de las observaciones fotométricas son usados para seleccionar objetivos para el estudio espectroscopio, de forma que para cada uno de los objetos celestes seleccionados se obtiene el espectro asociado. La tabla principal de este grupo es SpecObjAll, la cual es análoga a la tabla PhotoObjAll pero con datos relativos a espectros en lugar de relativos a imágenes. Análogamente a la vista PhotoObj existe la vista SpecObj, la cual contiene el mejor espectro asociado a cada objeto celeste almacenado en PhotoObj. 3.4. Extracción de datos 49 Region: Estas tablas contienen información acerca de la geometría espacial del estudio astronómico llevado a cabo por el SDSS. Meta: Existen también un conjunto de datos denominados metadatos que se generan al documentar los atributos, tablas, el histórico del proceso de almacenamiento de los datos y el mantenimiento de la interfaz web. 50 3. Trabajos relacionados Figura 3.14: Esquema de la base de datos DR7 del SDSS. 51 3.4. Extracción de datos 3.4.2. Tipos de objetos celestes El SDSS realiza tres clasificaciones diferentes de los objetos celestes: Una primera clasificación morfológica de los objetos celestes captados por la cámara del telescopio SDSS. Los resultados son guardados en el atributo type (tabla 3.3) de la tabla PhotoObjAll. Mediante un procesado software de los espectros obtenidos de la observación astronómica se realiza una primera clasificación espectral de los diferentes objetos celestes. El resultado de la clasificación es almacenado en el atributo specClass (tabla 3.4) de la tabla SpecObjAll. A partir de los espectros se realiza una segunda clasificación que determina subgrupos de objetos celestes observados. Los valores obtenidos son almacenados en el atributo objType (tabla 3.5) de la tabla SpecObjAll. La clasificación realizada por el SDSS de los objetos celestes a partir de los espectros obtenidos (atributo specClass) implica una mayor rigurosidad que la realizada a partir de las imágenes (atributo type) y la realizada a partir de los espectros para obtener los subgrupos de objetos (atributo objType). Por tanto, para el presente estudio de investigación vamos a utilizar el atributo specClass como etiqueta de los diferentes registros. Nombre UNKNOWN COSMIC_RAY DEFECT Valor 0 1 2 GALAXY GHOST 3 4 KNOWNOBJ 5 STAR TRAIL SKY NOTATYPE 6 7 8 9 Descripción Tipo de objeto no conocido Traza de rayo cósmico (no utilizado) El objeto es causado por un defecto en el telescopio o procesado software (no utilizado) Galaxia Objeto creado por un reflejo o luz refractada (no utilizado) Objeto proveniente de otro catálogo diferente del catálogo SDSS (no utilizado) Estrella Rastro de un satélite o meteorito Ningún objeto en el área No definido Tabla 3.3: Clasificación morfológica realizada por el SDSS de los objetos celestes según el atributo type. 52 Nombre UNKNOWN STAR GALAXY QSO HIZ_QSO SKY STAR_LATE GAL_EM 3. Trabajos relacionados Valor 0 1 2 3 4 5 6 7 Descripción Espectro no clasificable Espectro de una estrella Espectro de una galaxia Espectro de un quásar Espectro de un quásar con elevado desplazamiento al rojo (z>2.3) Espectro de cielo en blanco Tipo de estrella dominada por bandas moleculares M o tardía. Tipo de galaxia cuyo espectro presenta líneas de emisión muy estrechas e intensas. Tabla 3.4: Clasificación espectral según el atributo specClass. Nombre GALAXY QSO SPECTROPHOTO_STD HOT_STD ROSAT_A ROSAT_B ROSAT_C ROSAT_D SERENDIPITY_BLUE SERENDIPITY_FIRST SERENDIPITY_RED SERENDIPITY_DISTANT STAR_BHB SERENDIPITY_MANUAL QA SKY NA STAR_PN STAR_CARBON STAR_BROWN_DWARF STAR_SUB_DWARF STAR_CATY_VAR STAR_RED_DWARF STAR_WHITE_DWARF REDDEN_STD Valor 0 1 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24 3 4 5 6 7 8 9 Tabla 3.5: Clasificación de los objetos celestes según el atributo objType. 3.5. Estado del arte de la minería de datos aplicada a datos astronómicos 3.5. 53 Estado del arte de la minería de datos aplicada a datos astronómicos El presente trabajo de investigación se ha centrado en el estudio astronómico desarrollado por el SDSS. Sin embargo existen una variedad de estudios astronómicos del mismo tipo, tales como 2MASS (the Two Micron All Sky Survey), DENIS (the Deep Near Infrared Survey), DIVA (Double Interferometer for Visual Astrometry) y GAIA. Todos ellos generan cantidades de datos del orden de terabytes o petabytes. Por tanto, analizar de forma automatizada esta cantidad de datos es una tarea importante para los astrónomos. Para afrontar esta necesidad se han desarrollado diferentes métodos, por ejemplo: Redes Neuronales (NN). Se han empleado para clasificación espectral de estrellas [89], para medidas físicas de espectros estelares [11], para clasificación espectral de galaxias [88], para clasificación morfológica de galaxias [2, 90], para discriminación de estrellas y galaxias en imágenes digitalizadas [73], para estimación rápida de parámetros cosmológicos [10] y para diferenciar quásares de estrellas [106]. Máquinas de Vectores Soporte (SVMs). Han sido aplicados a clasificación automática [105, 104], detección de objetos [75], identificación de variables rojas [96] y estimación del corrimiento al rojo [95]. Árboles de decisión. Fueron aplicados para construir un sistema en línea para clasificación automatizada de fuentes de rayos X [69] y para clasificación de estrellas-galaxias [12]. 3.6. Experimentación Los datos de identificación, los valores de los filtros u, g, r, i, z y el tipo (valor del atributo specClass) de los diferentes cuerpos celestes se han obtenido mediante el entorno de trabajo CasJob, realizando una consulta que incluye una unión entre la tabla de imágenes (PhotoObj) y la de espectros (SpecObj) (ver tabla 3.6). El significado de los diferentes atributos se recoge en la tabla 3.7. Cada registro queda identificado de forma única mediante el atributo objID. 54 3. Trabajos relacionados SELECT p.objID,s.specObjID, p.b, p.l, p.u, p.g, p.r, p.i, p.z, p.run, p.rerun, p.camcol, p.field, s.plate, s.mjd, s.fiberID, s.z, s.specClass FROM PhotoObj AS p, SpecObj AS s WHERE s.bestobjid = p.objID AND p.b BETWEEN 20 AND 30 AND p.l BETWEEN 200 AND 210 AND s.z<=1.5 Tabla 3.6: Consulta SQL para obtener datos de experimentación. Tabla PhotoObj Atributo objID PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj PhotoObj specObjID b l u g r i z run rerun PhotoObj PhotoObj SpecObj SpecObj SpecObj SpecObj SpecObj camcol field plate mjd fiberID z specClass Descripción Valor único utilizado en el SDSS para identificar los objetos celestes. Está compuesto por los campos: skyVersion, rerun, run, camcol, field, obj. Identificador del espectro asociado al objeto celeste. Latitud galáctica. Longitud galáctica. Energía captada en la banda u. Energía captada en la banda g. Energía captada en la banda r. Energía captada en la banda i. Energía captada en la banda z. Identificador de pasada. Identificador de reprocesado de pasada. La imagen de la zona del espacio es la misma, pudiendo ser diferente la versión del software de procesado o la calibración. Identificador de columna de CCDs de la cámara. Identificador de campo. Identificador de plato. MJD (Modified Julian Date) de la identificación. Identificador de fibra óptica. Desplazamiento al rojo estimado. Clasificación espectral (ver tabla 3.4). Tabla 3.7: Atributos que intervienen en la consulta SQL de la tabla 3.6. 55 3.6. Experimentación Un vez obtenidos los datos de identificación, se obtienen las URL de los ficheros FITS asociados a los diferentes objetos celestes mediante la función fGetUrlFitsSpectrum que provee la plataforma CasJob. Esta función recibe como parámetro el SpecObjID de un objeto celeste y devuelve la URL del fichero FITS asociado a dicho objeto. En la tabla 3.8 se puede ver la consulta generada para obtener la URL asociada al objeto con SpecObjID= 75094092974915584. select dbo.fGetUrlFitsSpectrum(75094092974915584); Tabla 3.8: Consulta SQL para obtener URL de ficheros FITS. A partir de los ficheros FITS se extraen para cada objeto celeste los datos de las 44 líneas espectrales utilizadas por el SDSS para la clasificación de los objetos celestes (tabla 3.9) [85]. Las 44 líneas espectrales obtenidas a partir de los ficheros FITS de cada objeto celeste, junto a los 5 valores de los filtros u, g, r, i, z (ver tabla 3.1) obtenidos mediante la consulta 3.7, los 9 valores derivados de estos (u-g, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta de clasificación (specClass) y los datos de identificación (objID, specObjID) conforman los atributos de cada uno de los registros de la base de datos que va a ser objeto de estudio del presente trabajo de investigación. Por simplicidad se ha realizado un etiquetado de las 44 líneas espectrales, este etiquetado aparece en la tercera columna de la tabla 3.9. En adelante utilizaremos este etiquetado para referirnos a las diferentes líneas espectrales. 56 3. Trabajos relacionados λvac (Å) Nombre Etiquetado Líneas de emisión 1033,82 OVI w0 1215,24 Lyα w1 1240,81 NV w2 1305,53 OI w3 1335,31 CII w4 1397,61 SiIV w5 1399,8 SiIV + OIV w6 1549,48 CIV w7 1640,4 HeII w8 1665,85 OIII w9 1857,4 AlIII w10 1908,734 CIII w11 2326,0 CII w12 2439,5 NeIV w13 2799,117 MgII w14 3346,79 NeV w15 3426,85 NeVI w16 3727,092 OII w17 3729,875 OII w18 3889,0 HeI w19 4072,3 SII w20 4102,89 Hδ w21 4341,68 Hγ w22 4364,436 OIII w23 4862,68 Hβ w24 4932,603 OIII w25 4960,295 OIII w26 5008,240 OIII w27 6302,046 OI w28 6365,536 OI w29 6529,03 NI w30 6549,86 NII w31 6564,61 Hα w32 6585,27 NII w33 6718,29 SII w34 6732,67 SII w35 Líneas de absorción 3934,777 K w36 3969,588 H w37 4305,61 G w38 5176,7 Mg w39 5895,6 Na w40 8500,36 CaII w41 8544,44 CaII w42 8664,52 CaII w43 Tabla 3.9: Líneas espectrales utilizadas en el SDSS para clasificación espectral. 57 3.6. Experimentación 3.6.1. Preprocesamiento En aprendizaje automático existen algunos aspectos sobre la calidad de las bases de datos que se deben tener en cuenta durante el proceso de la construcción del modelo de aprendizaje, y que se vulnera con facilidad en este tipo de aplicaciones. En primer lugar, la ausencia de valores, por lo que se debe plantear el uso de métodos de preprocesado para estimar esta falta de información. En segundo lugar, la posibilidad de sesgo de los datos debido a diversas razones, tales como las tecnológicas, o factores humanos. Finalmente, es de esperar la presencia de ruido en este tipo de datos. Para la generación de las bases de datos objeto de estudio se han seleccionado los objetos celestes pertenecientes a una región del espacio con un ancho de longitud y latitud galáctica de 10◦ y se han eliminado aquellos registros que no tuvieran un valor válido para cada una de las 44 líneas espectrales mostradas en la tabla 3.9. En la tabla 3.10 se muestran el número de registros que constituye la base de datos objeto de estudio, así como el número de registros de cada tipo (estrellas, galaxias, quásares y desconocidos). Coordenadas galácticas b ∈ [20◦ ,30◦ ], l ∈ [190◦ ,200◦ ] N◦ registros 11181 Tipos de objetos Galaxias: 7836 Estrellas: 2341 Quásares: 626 Desconocidos: 1078 Tabla 3.10: Datos base de datos objeto de estudio. En el apartado anterior se definió la base de datos considerada original (en adelante se denominará base de datos FiltrosEspectros para el presente estudio). Según se especifico, los atributos que contendrá son: los valores de las 44 líneas espectrales obtenidas a partir de los ficheros FITS de cada objeto celeste, los 5 valores de los filtros u, g, r, i, z, los 9 valores derivados de estos (ug, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta de clasificación y los datos de identificación (objID, specObjID). A partir de esta base de datos se crean dos bases de datos nuevas: Base de datos Filtros: los atributos que contendrá serán los 5 valores de los filtros u, g, r, i, z, los 9 valores derivados de estos (u-g, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta de clasificación y los datos de identificación (objID, specObjID). Base de datos Espectros: los atributos que contendrá serán los valores de las 44 líneas espectrales obtenidas a partir de los ficheros FITS de cada objeto celeste, la etiqueta de clasificación y los datos de identificación (objID, specObjID). 58 3. Trabajos relacionados Por simplicidad nos hemos centrado en la clasificación de los objetos celestes del tipo estrella, galaxia y quásar, considerando al resto de objetos celestes del tipo desconocido. La equivalencia del etiquetado realizado por el SDSS y la realizada en la generación de la base de datos objeto del presente estudio se recoge en la tabla 3.11. Por tanto, en la base de datos objeto del presente estudio sólo tendremos cuatro tipos de registros: STAR, GALAXY, QSO y UNKNOWN. Clasificación SDSS (specClass) STAR GALAXY QSO UNKNOWN SKY STAR_LATE GAL_EM Etiquetado realizado STAR GALAXY QSO UNKNOWN UNKNOWN UNKNOWN UNKNOWN Tabla 3.11: Equivalencia etiquetado SDSS y base de datos objeto de estudio. Registros del tipo HIZ_QSO no se han tenido en cuenta puesto que al extraer los datos del CAS mediante la consulta SQL recogida en la tabla 3.6 se consideró sólo los registros con un desplazamiento al rojo menor o igual a 1.5 (s.z<=1.5), de esta forma seleccionamos de entre los posibles objetos celestes aquellos más próximos a la Tierra y, por tanto, con menor posibilidad de sufrir su espectro distorsiones debido a la materia interestelar. 3.6.2. Descripción de los experimentos Los algoritmos de clasificación, así como los de selección de atributos, se han implementado utilizando el entorno WEKA, versión 3.6, ejecutándose en un cluster que el CICA (Centro Informático Científico de Andalucía) provee para tareas de investigación. Actualmente este cluster dispone aproximadamente de 110 nodos, con un total de 250 microprocesadores del tipo Intel Xeon a 3.20GHz y Quad-Core AMD Opteron Processor 8356 a 2.2GHz. Todos los nodos son de memoria distribuida, aunque también dispone de varias unidades de Sun x4600 con 16 y 24 procesadores y 64 GB de RAM que funcionan como servidores de memoria compartida. El hecho de que en los datos de origen astronómico se de un elevado número de atributos ligado a un elevado tamaño de muestra hace interesante seleccionar un número pequeño de atributos discriminativos de entre decenas de ellos para lograr el éxito en la clasificación de las muestras con el menor coste computacional. Para tal fin, a las bases de datos objeto de estudio se le aplicarán los algoritmos de selección de atributos siguientes: CfsSubSetEval (CFS) Evalúa un subconjunto de atributos considerando la habilidad predicti- 3.6. Experimentación 59 va individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación [46]. ConsistencySubsetEval (CNS) Evalúa un subconjunto de atributos por el nivel de consistencia en los valores de la clase al proyectar las instancias de entrenamiento sobre el subconjunto de atributos [44]. ClassifierSubsetEval (CLS) Evalúa los subconjuntos de atributos en los datos de entrenamiento o en un conjunto de prueba independiente, utilizando un clasificador. Estos tres algoritmos de selección de atributos son evaluadores de subconjuntos de atributos, los dos primeros pertenecen a la categoría de Filtros, dado que se basan en características de los datos independientes del clasificador, y el tercero pertenece a la categoría de Wrappers por utilizar el clasificador como medida de evaluación de subconjuntos. Se ejecutaron en combinación con el método de búsqueda Best First, el cual busca en el espacio de los subconjuntos de atributos utilizando la estrategia greedy hillclimbing con backtracking. La dirección de búsqueda realizada por Best First fue hacia adelante partiendo del conjunto vacío de atributos. Para comparar los diferentes algoritmos de selección se aplicaron los clasificadores Naïve Bayes, C4.5 (J48 en Weka) e IB1 (ver sección 2.5 en la página 11), sobre la base de datos original. En principio, no existe un algoritmo que sea mejor que el resto para este tipo de datos. Fueron elegidos estos algoritmos por ser relativamente rápidos y representar los algoritmos de aprendizaje más comúnmente usados en aplicaciones de minería de datos [45]. Posteriormente, se redujeron el número de atributos de las diferentes bases de datos mediante la aplicación de los selectores CFS, CNS y CLS. A las bases de datos generadas con los atributos seleccionados por los algoritmos selectores se le volvieron a aplicar los mismos clasificadores empleados con las bases de datos originales, esto es NB, C4.5 e IB1 con el objetivo de verificar la efectividad de la selección de atributos y se comprobó la mejoría o empeoramiento del porcentaje de registros bien clasificados. Los datos que se almacenaron en todos los casos fueron el porcentaje de aciertos y el número de atributos seleccionados. En cada caso, los resultados se obtuvieron calculando la media de una ejecución de validación cruzada diez (1×10CV), y para que no se produjera un sobreajuste del algoritmo de selección a los datos utilizados, se realizaron diez reducciones, una por cada conjunto de entrenamiento. Los test de hipótesis mostraron si la diferencia en el comportamiento de un clasificador con los datos originales y los reducidos es estadísticamente significativa. 60 3.6.3. 3. Trabajos relacionados Análisis de los resultados En esta sección se pretende analizar el comportamiento de los algoritmos de clasificación NB, IB1 y C4.5, así como los algoritmos evaluadores de atributos CFS, CNS y CLS ante conjuntos de gran tamaño provenientes de observaciones astronómicas. La finalidad es evaluar las técnicas en términos de exactitud en la clasificación y grado de reducción. La tabla 3.12 muestra las tasas de aciertos y el número de atributos seleccionados obtenidos al aplicar los selectores descritos anteriormente a las tres bases de datos definidas en el apartado 3.6.1. Se muestran en horizontal, por grupos, los resultados obtenidos con los clasificadores NB, J48 e IB1. Dentro de cada grupo horizontal se muestra en horizontal los valores obtenidos para las bases de datos originales (primera fila de cada grupo) y los obtenidos una vez se han aplicado los diferentes selectores objeto de estudio (las tres filas siguientes de cada grupo). Orig. CFS CNS CLS Orig. CFS CNS CLS Orig. CFS CNS CLS Filtros Ac #at 34,6015 15,0 62,1917◦ 7,9 34,6015 15,0 85,9355◦ 3,0 92,2565 15,0 91,9704 7,9 92,2565 15,0 91,9199 12,2 90,8594 15,0 91,0782 7,9 90,8594 15,0 74,0342• 2,0 Espectros Ac #at 85,2874 45,00 85,5147 7,20 84,0586 23,90 87,8966◦ 3,30 89,7063 45,00 89,4285 7,20 89,3275 23,90 89,6726 14,60 89,2097 45,00 86,9455 7,20 89,1171 23,90 84,5468• 2,00 FiltrosEspectros Ac #at 86,2049 60,00 87,5684 11,30 79,1937 14,30 90,59◦ 3,80 97,1130 60,00 96,9279 11,30 97,0710 14,30 96,9110 12,20 96,5323 60,00 96,1283 11,30 96,1535• 14,30 77,6618• 2,00 NB J48 IB1 Tabla 3.12: Resultados experimentación. Ac–tasa de aciertos; #at–número medio de atributos obtenidos en la validación cruzada 1x10; ◦ y •, mejora o empeora significativamente con respecto al original. Como se puede observar en la tabla 3.12 el número de atributos seleccionados con los evaluadores CFS y CNS es idéntico, dado que estos algoritmos son independientes del clasificador. En el caso del CLS, debido a que utiliza como evaluador el propio clasificador, los atributos seleccionados en cada caso son diferentes. Comparando los resultados obtenidos por los diferentes clasificadores, destacamos el mejor comportamiento que se alcanza con árboles de decisión J48, mejorando en todos los valores obtenidos a NB e IB1. En todos los casos recogidos en la tabla 3.12, excepto con NB y C4.5 al ser evaluados con CNS y CLS respectivamente, se observa al trabajar con la base de datos FiltrosEspectros como 3.6. Experimentación 61 el porcentaje de aciertos se incrementa en gran medida mientras que el número de atributos utilizado para la clasificación se reduce notablemente (resaltar que esta base de datos es una combinación de valores procedentes de los filtros u, g, r, i, z y de los valores de las líneas espectrales utilizados por el SDSS para realizar su clasificación espectral). En consecuencia, se cumple que los mejores resultados de clasificación se obtienen con las distintas aproximaciones realizadas con J48 sobre la base de datos FiltrosEspectros, siendo en los cuatro casos contemplados el porcentaje de aciertos superior al 96,9 % y el de reducción de atributos entorno al 80 %. El algoritmo CFS ha presentado el comportamiento más estable en los porcentajes de aciertos, por contra el algoritmo CLS ha presentado el comportamiento más irregular. Para cada uno de los algoritmos de clasificación empleados (NB, J48 e IB1) vamos a analizar los resultados obtenidos (tabla 3.12): NB Destacar que los resultados obtenidos tras aplicar el clasificador NB como evaluador de subconjuntos (CLS) son mejores en los tres casos significativamente. Estos resultados se han conseguido con una importante reducción de atributos respecto a los otros selectores. J48 Al aplicar el clasificador J48 los test de significatividad no muestran diferencias significativas en los resultados. No obstante, cabe destacar la reducción de atributos realizada por el evaluador ClassifierSubsetEval sobre la base de datos FiltrosEspectros cuando se aplica J48. Dicha reducción fue de un 85 %, pasando de 60 atributos a tan sólo 9 atributos. Esta reducción se realizó obteniendo un porcentaje de aciertos del 96,911 frente al porcentaje de aciertos del 97,113 obtenido al aplicar directamente el clasificador J48 a la base de datos FiltrosEspectos. IB1 Con el clasificador IB1 los mejores resultados de clasificación se obtienen con las base de datos originales, empeorando significativamente con CLS en todos los casos. Este empeoramiento puede venir inducido por el reducido número de atributos seleccionados (dos atributos en los tres casos). Además de lo anteriormente expuesto para cada clasificador hay que resaltar que de los diferentes atributos recogidos en la tabla 3.13, la línea de emisión espectral HeI resulta de especial interés, puesto que si bien el algoritmo evaluador la ha escogido como atributo diferenciador de los diferentes tipos de objetos celestes, el SDSS no considera esta línea como característica diferenciadora entre los objetos celestes del tipo galaxias y quásares [86]. 62 3. Trabajos relacionados Un aspecto a tener en cuenta es la inclusión que se ha realizado en el presente estudio de investigación del tipo STAR_LATE y del tipo GAL_EM como tipo UNKNOWN (tabla 3.4) cuando realmente son un subtipo de estrella (tipo STAR) y un subtipo de galaxia (tipo GALAXY) respectivamente. Esto genera un aumento del error de clasificación del tipo UNKNOWN, asignando un alto porcentaje de registros de este tipo a las clases STAR y GALAXY según se observa en las diferentes matrices de confusión generadas tras la aplicación de los diferentes algoritmos. La tabla 3.13 muestra los atributos seleccionados por los algoritmos de selección CFS, CNS y CLS aplicados a cada base de datos completa (Filtros, Espectros y FiltrosEspectros), a diferencia de la tabla 3.12 que mostraba el promedio de la validación cruzada 1x10. Evaluador CFS CNS CLS-NB CLS-J48 CLS-IB1 BD F E FE F E #at 8 6 10 15 24 FE F E FE F E FE F E 14 3 4 5 2 2 2 14 19 FE 9 Atributos seleccionados r, i, ug, ui, gz, ri, rz, iz w24, w26, w27, w31, w39, w43 ug, ri, iz, w24, w26, w27, w31, w39, w42, w43 u, g, r, i, z, ug, ur, ui, uz, gr, gi, gz, ri, rz, iz w20, w21, w22, w23, w24, 25, w26, w27, w28, w29, w30, w31, w32, w33, w34, w35, w36, w37, w38, w39, w40, w41, w42, w43 g, r, ug, uz, gr, gi, gz, iz, w20, w25, w26, w30, w37, w41 ug, ri, rz w5, w9, w10, w16 ri, iz, w19, w24, w31 u, ui w19, w37 ui, w18 u, g, r, i, z, ug, ur, uz, gr, gi, gz, ri, rz, iz w3,w4,w5,w7,w8,w10,w11,w12,w14,w15,w18,w19,w20,w21, w23,w24,w26,w27,w28 g, uz, gr, gi, gz, w23, w24, w26, w36 Tabla 3.13: Atributos seleccionados por los evaluadores CFS, CNS y CLS. #at– número de atributos obtenidos;BD–Base de datos; F–Base de datos Filtros; E–Base datos Espectros; FE–Base de datos FiltrosEspectros De la tabla 3.13 cabe destacar la reducción de atributos realizada por el algoritmo evaluador ClassifierSubsetEval sobre la base de datos FiltrosEspectros sometida al clasificador NB. Se ha pasado de 60 atributos a tan sólo 5 atributos, mejorando significativamente la clasificación realizada. Estos atributos se recogen en la tabla 3.14. 3.7. Conclusiones En el presente trabajo se ha realizado un proceso completo de KDD, teniendo como punto de partida el estudio de las características intrínsecas del proyecto SDSS. Una vez se conoció 63 3.7. Conclusiones atributo seleccionado r-i i-z HeI Hβ NII Descripción Diferencia de magnitud de brillo medida en los filtros r, i Diferencia de magnitud de brillo medida en los filtros i, z Línea de emisión del Helio a 3889,0Å Línea de emisión del Hidrógeno a 4862,68Å Línea de emisión del Nitrógeno a 6549,86Å Tabla 3.14: Atributos seleccionados por ClassifierSubsetEval con evaluador NB sobre FiltrosEspectros. la región galáctica objeto de estudio, así como las características de los registros de interés se procedió a la obtención de los datos objeto de estudio a partir del entorno de desarrollo CasJobs. Posteriormente fueron sometidos estos datos a un preprocesado en el que se rechazaron aquellos registros que no cumplían una serie de condiciones. Cabe destacar en estas primeras fases de estudio la complejidad tecnológica encontrada en la instrumentación empleada por el telescopio SDSS para la captura de las imágenes y espectros de los cuerpos celestes. Además hay que señalar el nivel de prestaciones y facilidad de uso del entorno web denominado CasJobs provisto por el SDSS para el acceso a los datos. A partir de los datos preprocesados se generaron tres bases de datos denominadas Filtros, Espectros y FiltrosEspectros (esta base de datos engloba los atributos de las otras dos). Estas tres bases de datos se sometieron a los clasificadores NB, J48 e IB1, así como a CFS, CNS y CLS. Teniendo en cuenta los resultados obtenidos (tabla 3.12) se observa que los mejores resultados de clasificación fueron obtenidos por el clasificador J48, al aplicarlo directamente o mediante los evaluadores CFS, CNS y CLS sobre la base de datos FiltrosEspectros. Además, cabe destacar la reducción de atributos realizada por el algoritmo evaluador ClassifierSubsetEval sobre la base de datos FiltrosEspectros sometida al clasificador NB (tabla 3.13). Se han planteado una serie de resultados que pueden mejorar y aligerar el proceso de análisis que realizan los astrónomos sobre los grandes bancos de datos de origen astronómico. A partir de estos planteamientos se puede deducir que la minería de datos es una herramienta útil para la extracción de conocimiento novedoso y de provecho sobre bases de datos de origen astronómico. Capítulo 4 Conclusiones El éxito de muchos esquemas de aprendizaje, en sus intentos para construir modelos de datos, pasa por la habilidad para identificar un subconjunto pequeño de atributos altamente predictivos. La inclusión de atributos irrelevantes, redundantes o con ruido en la fase del proceso de construcción del modelo puede provocar un comportamiento predictivo pobre y un incremento computacional. La selección de atributos en campos como el Aprendizaje Automático sigue siendo un tema de interés, lo que cambia es el dominio de los datos donde se aplica. Para comprobarlo es suficiente con revisar los trabajos publicados en los últimos años sobre el tema. En estos trabajos se intenta encontrar métodos que permitan detectar aquellos atributos que aporten la mayor información posible al proceso de aprendizaje y cuya obtención posea un coste computacional abordable. De esta manera, se pueden aplicar a las bases de datos de dimensiones muy elevada, como es la tendencia actual. El propósito inicial de esta trabajo de investigación fue encontrar formas de clasificar registros de datos en entornos altamente dimensionales como son las bases de datos de origen astronómico. La búsqueda de este objetivo general nos ha llevado a desarrollar diferentes propuestas, cuyas conclusiones se resumen en esta sección. Además, en la siguiente sección se enumeran los temas sobre los que seguimos trabajando y a los que se les dedicará nuestra atención en el futuro. En este trabajo de investigación, la selección de atributos se ha enmarcado dentro del aprendizaje supervisado, más concretamente, la clasificación. Por ello, para evaluar el rendimiento de un algoritmo de selección se ha obtenido el porcentaje de registros bien clasificados del algoritmo de aprendizaje antes y después de la reducción y el número de atributos seleccionados (tabla 3.12). Estas medidas se utilizarán para comparar diferentes algoritmos de selección. 64 65 Los test de hipótesis nos han indicado si el cambio producido en el comportamiento de un clasificador, con los datos originales y los reducidos, han sido estadísticamente significativo. Tal extremo ha sido también reflejado en la tabla 3.12. El presente trabajo de investigación se ha centrado en comparar los resultados obtenidos mediante los algoritmos de clasificación Naïve Bayes, IB1 y J48, así como los algoritmos de selección de atributos CfsSubsetEval, ConsistencySubsetEval y ClassifierSubsetEval. Los resultados de clasificación obtenidos (tabla 3.12) muestran que los mejores resultados fueron obtenidos por el clasificador J48, al aplicarlo directamente o mediante los evaluadores CFS, CNS y CLS sobre la base de datos FiltrosEspectros, mientras que la base de datos con menos atributos fue obtenida por el algoritmo evaluador ClassifierSubsetEval sobre la base de datos FiltrosEspectros sometida al clasificador NB (tabla 3.13). Bibliografía [1] K. Abazajian, J. Adelman-McCarthy, M. A. Agüeros, et al. The third data release of the sloan digital sky survey. AJ, 129:1755–1759, 2005. [2] W. A. Adams, A. Hubble classification of galaxies using neural networks. Vistas in Astronomy, 38:273–280, 1994. [3] J. Adelman-McCarthy et al. The fourth data release of the sloan digital sky survey. ApJS, 162(1):38–48, 2006. [4] J. Aguilar-Ruiz, J. Riquelme, and M. Toro. Data set editing by ordered projection. In Proceedings of the 14th European Conf. on Artificial Intelligence, pages 251–55, Berlin, Germany, August 2000. [5] J. Aguilar-Ruiz, J. Riquelme, and M. Toro. Evolutionary learning of hierarchical decision rules. IEEE Systems, Man and Cibernetics Part B, 33(2):324–331, 2003. [6] D. Aha, D. Kibler, and M. Albert. Instance-based learning algorithms. Machine Learning, 6:37–66, 1991. [7] H. Almuallim and T. Dietterich. Learning boolean concepts in the presence of many irrelevant features. Artificial Intelligence, 69(1–2):279–305, 1994. [8] E. Alpaydin. Combined 5x2 cv f test for comparing supervised classification learning algorithms. Neural Computation, 11:1885–92, 1999. [9] A. S. Ani R. Thakar and G. e Fekete. The catalog archive server database management system. Computing in Science and Engineering, 10(1):30–37, 2008. [10] B. M. H. M. Auld, T. Fast cosmological parameter estimation using neural networks. MNRAS, 376:L11–L15, 2007. [11] I. M. v. H. T. Bailer-Jones, C.A.L. Physical parametrization of stellar spectra: the neural network approach. MNRAS, 292:157–166, 1997. 67 68 BIBLIOGRAFÍA [12] B. R. e. a. Ball, N.M. Robust machine learning applied to astronomical data sets. i. star-galaxy classification of the sloan digital sky survey dr3 using decision trees. ApJ, 650:497–509, 2006. [13] T. Bayes. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions, 53:370–418, 1763. [14] M. Ben-Bassat. Handbook of statistics-II, chapter Pattern recognition and reduction of dimensionality, pages 773–791. Prentice Hall, London, GB, 1982. [15] A. Blum and P. Langley. Selection of relevant features and examples in machine learning. Artificial Intelligence, 97(1-2):245–271, 1997. [16] L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and regresion trees. Wadsworth Int. Group, Belmont, CA, 1984. [17] J. R. Cano, F. Herrera, and M. Lozano. Using evolutonary algorithms as instance selection for data reduction in kdd: an experimental study. IEEE Trans. Evolutionary Computation, 7(6):561–575, 2003. [18] F. J. Castander. The first hour of extragalactic data of the sloan digital sky survey spectroscopic commissioning: The coma cluster. AJ, 121(5):2331–2357, 2001. [19] C. Chang. Finding prototypes for nearest neighbor classifier. IEEE Transactions on Computers, 23(11):1179–1184, 1974. [20] S. Cost and S. Salzberg. A weighted nearest neighbor algorithm for learning with symbolic features. Machine Learning, 10:57–78, 1993. [21] T. M. Cover. Estimation by nearest neighbor rule. IEEE Transactions on Information Theory, IT-14:50–55, 1968. [22] T. M. Cover and P. E. Hart. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, IT-13(1):21–27, 1967. [23] B. Dasarathy. Nearest neighbor (nn) norms: Nn pattern classification techniques. IEEE Computer Society Press, 1995. [24] M. Dash and H. Liu. Feature selection for classification. Intelligent Data Analisys, 1(3):131–56, 1997. [25] P. Devijver and J. Kittler. Statistical Pattern Recognition. Prentice Hall, London, GB, 1982. BIBLIOGRAFÍA 69 [26] T. Dietterich. An experimental comparison of nearest neighbor and nearest hyperrectangle algorithms. Machine Learning, 19(1):5–28, 1995. [27] T. Dietterich. Approximate statistical test for comparing supervised classification learning alforithms. Neural Computation, 10(7):1895–1924, 1998. [28] J. Doak. An evaluation of feature selection methods and their application to computer security. Technical Report CSE-92-18, University of California, Department of Computer Science, Davis, CA, 1992. [29] J. Doak. An evaluation of search algorithms for feature selection. Technical report, Los Alamos National Laboratory, 1994. [30] P. Domingos. Rule induction and instance-based learning: A unified approach. In Int. Conf. on Artificial Intelligence, 1995. [31] R. Duda and P.Hart. Pattern classification and scene analysis. John Willey and Sons, 1973. [32] S. Dudani. The distance-weighted k-nearest-neighbor rule. IEEE Transactions on Systems, Man and Cybernetics, SMC-6(4):325–327, 1975. [33] B. Efron. Bootstrap methods: another look at the jacknife. Anals of Statistics, 7(1):1–26, 1979. [34] B. Efron. Estimating the error rate of a prediction rule: some improvements on crossvalidation. Journal of the American Statistical Association, 78:316–331, 1983. [35] B. Efron and R. Tibshirani. An intoduction to the Bootstrap. Chapman and Hall, London, UK, 1993. [36] C. S. et al. Sloan digital sky survey: Early data release. The Astronomical Journal, 123:485–548, 2002. [37] U. M. Fayyad, G. Piatetski-Shapiro, and P. Smith. From data mining to knowledge discovery in databases. AAAI-MIT Press, 1996. [38] E. Fix and J. Hodges. Discriminatory analysis, nonparametric discrimination consistency properties. Technical Report 4, US Air Force, School of Aviation Medicine, Randolph Field, TX, 1951. 70 BIBLIOGRAFÍA [39] E. Fix and J. Hodges. Discriminatory analysis, nonparametric discrimination: small sample performance. Technical Report 11, US Air Force, School of Aviation Medicine, Randolph Field, TX, 1952. [40] D. Foley. Consideration of sample and feature size. IEEE Trans. Information Theory, 18:618–626, 1972. [41] G. Forman. An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research, 3:1289–1305, 2003. [42] D. Gamberger and N. Lavrac. Conditions for ocam’s razor applicability and noise elimination. In 9th European Conf. on Machine Learning, 1997. [43] F. W. Group. Definition of the flexible image transport system (fits). International Astronomical Union, 2008. [44] R. S. H. Liu. A probabilistic approach to feature selection - a filter solution. In 13th International Conference on Machine Learning, pages 319–327, 1996. [45] M. Hall and G. Holmes. Benchmarking attribute selection techniques for discrete class data mining. IEEE Transactions on Knowledge and Data Eng., 15(3), 2003. [46] M. A. Hall. Correlation-based Feature Subset Selection for Machine Learning. PhD thesis, University of Waikato, Hamilton, New Zealand, 1998. [47] P. Hart. The condensed nearest neighbor rule. IEEE Transactions on Information Theory, 14(3):515–516, May 1968. [48] E. Hunt, J. Marin, and P. Stone. Experiments in induction. Academis Press, New York, 1966. [49] I. Inza, P. Larrañaga, R. Etxeberria, and B. Sierra. Feature subset selection by bayesian networks based optimization. Artificial Intelligence, 123(1-2):157–184, 2002. [50] I. Inza, P. L. naga, R. Blanco, and A. Cerrolaza. Filter versus wrapper gene selection approaches in dna microarray domains. Artificial Intelligence in Medicine, 31:91–103, 2004. [51] A. Jain and D. Zongker. Feature selection: evaluation, application, and small sample performance. IEEE Transactions on Pattern Analisys and Machine Intelligence, 19(2):153– 158, 1997. [52] G. J.E. et al. The sloan digital sky survey photometric camera. AJ, 116:3040–3081, 1998. BIBLIOGRAFÍA 71 [53] G. J.E. et al. The 2.5 m telescope of the sloan digital sky survey. AJ, 131(4):2332–2359, 2006. [54] G. John, R. Kohavi, and K. Pfleger. Irrelevant features and the subset selection problem. In 11th Int. Conf. on Machine Learning, pages 121–129, 1994. [55] e. a. Kevork N. Abazajian, Jennifer K. Adelman-McCarthy. The seventh data release of the sloan digital sky survey. ApJ, 182:543–558, 2009. [56] W. Kim, B. Choi, E.-K. Hong, and S.-K. Kim. A taxonomy of dirty data. Data Mining and Knowledge Discovery, 7:81–99, 2003. [57] K. Kira and L. Rendell. A practical approach to feature selection. In 9th Int. Conf. on Machine Learning, pages 249–256, 1992. [58] V. Klee. On the complexity of d-dimensional voronoi diagrams. Arch. Math., 34:75–80, 1980. [59] R. Kohavi and G. John. Wrappers for feature subset selection. Artificial Intelligence, 1-2:273–324, 1997. [60] I. Kopanakis and B. Theodoulidis. Visual data mining modeling techniques for the visualization of mining outcomes. Journal of Visual Languages and Computing, 14(6):543– 589, 2003. [61] P. Lachenbruch. An almost unbiased method of obtaining confidence intervals for the probability of misclassification in discriminant analysis. Biometrics, pages 639–645, 1967. [62] P. Langley. Selection of relevant features in machine learning. In Procs. Of the AAAI Fall Symposium on Relevance, pages 140–144, 1994. [63] W. Lee, S. Stolfo, and K. Mok. Adaptive intrusion detection: A data mining approach. AI review, 14(6):533–567, 2000. [64] H. Liu and H. Motoda. Feature Selection for Knowlegde Discovery and Data Mining. Kluwer Academic Publishers, London, UK, 1998. [65] H. Liu and L. Yu. Feature selection for data mining. Technical report, Department of Computer Science and Eng., Arizona State University, Temp, Arizona, 2002. [66] H. Liu and L. Yu. Toward integrating feature selection algorithms for classification and clustering. IEEE Trans. on Knowledge and Data Eng., 17(3):1–12, 2005. 72 BIBLIOGRAFÍA [67] J. Lorenzo. Selección de atributos en aprendizaje automático basada en teoría de la información. PhD thesis, U. de Las Palmas de Gran Canaria, Dpto. de Informática y Sistemas, 2001. [68] C. E. Lunneborg. Efron’s bootstrap with some applications in psychology. In Annual Meeting of the American Psychological Association, pages 21–30, 1993. [69] S. A. W. E.-e. a. McGlynn, T.A. Automated classification of rosat sources using heterogeneous multiwavelength source catalogs. ApJ, pages 616–1284, 2004. [70] T. M. Mitchell. Machine Learning. Series in Computer Science. McGraw-Hill, 1997. [71] L. Molina, L. Belanche, and A. Nebot. Feature selection algorithms: A survey and experimental evaluation. In Int. Conf. on Data Mining, ICDM-02. IEEE Computer Society, 2002. [72] K. Ng and H. Liu. Customer retention via data mining. AI review, 14(3):569–590, 2000. [73] N. M. L. Odewahn, S.C. Star-galaxy separation using neural networks. Vistas in Astronomy, 38:281–285, 1994. [74] D. Pyle. Data preparation for data mining. Morgan Kaufmann Publishers, 1999. [75] S. F. Y. J.-J. e. a. Qu, M. Automatic solar flare detection using mlp, rbf, and svm. Solar Physics, 217(1):157–172, 2003. [76] J. Quinlan. Discovering rules by induction from collections of examples. In Expert System in the Micro-Electronic Age, pages 168–201, Edinburgh, 1979. [77] J. Quinlan. Learning efficient classification procedures and their application to chess end games. In Machine Learning: An Artificial Intelligence Approach, Palo Alto, Tioga, 1983. [78] J. Quinlan. Induction of decision trees. Machine Learning, 1:81–106, 1986. [79] J. R. Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann, San Mateo, California, 1993. [80] J. Riquelme, J. Aguilar-Ruiz, and M. Toro. Finding representative patterns with ordered projections. Pattern Recognition, 36(4):1009–18, 2003. [81] J. Riquelme, F. Ferrer, and J. Aguilar-Ruiz. Búsqueda de un patrón para el valor de k en k-nn. In IX Conferencia de la Asociación Española para la Inteligencia Artificial (CAEPIA’01), pages 63–72, Gijon, Noviembre 2001. BIBLIOGRAFÍA 73 [82] G. Ritter, H. Woodruff, S. Lowry, and T. Isenhour. An algorithm for a selective nearest neighbor decision rule. IEEE Transactions on Information Theory, 21(6):665–669, 1975. [83] Y. Rui, T. Huang, and S. Chang. Image retrieval: Current techniques, promising directions and open issues. Visual Communication and Image Representation, 10(4):39–62, 1999. [84] S. Salzberg. A nearest hyperrectangle learning method. Machine Learning, 6:277–309, 1991. [85] SDSS. 1d spectro image. http://www.sdss.org/dr5/dm/flatFiles/spSpec.html. [86] SDSS. Table of spectral http://www.sdss.org/dr5/algorithms/linestable.html. lines used in sdss. [87] W. Siedlecki and J. Sklansky. On automatic feature selection. Int. Journal of Pattern Recognition and Artificial Intelligence, 2:197–220, 1988. [88] C. H. Sodré, L.Jr. Spectral classification of galaxies. Vistas in Astronomy, 38:286–291, 1994. [89] I. M. v. H. T. e. a. Storrie-Lombardi, M.C. Spectral classification with principal component analysis and artificial neural networks. Vistas in Astronomy, 38(3):331–340, 1994. [90] L. O. S. L. e. a. Storrie-Lombardi, M.C. Morphological classification of galaxies by artificial neural networks. MNRAS, 259:8–12, 1992. [91] A. R. Thakar. The sloan digital sky survey drinking from the fire hose. Computing in Science and Engineering, 10(1):9–12, 2008. [92] I. Tomek. An experiment with the edited nearest-neighbor rule. IEEE Transactions on Systems, Man and Cybernetics, 6(6):448–452, June 1976. [93] G. T. Toussaint. The relative neighborhood graph of a finite planar set. Pattern Recognition, 12(4):261–68, 1980. [94] T. T.X. and G. J.E. Publ. Astron. Soc. Pacific, 88:543–, 1976. [95] Y. Wadadekar. Estimating photometric redshifts using support vector machines. PASP, 117(827):79–85, 2005. [96] W. P. R. V. W. T. e. a. Williams, S.J. Identifying red variables in the northern sky variability survey. AJ, 128:2965–2976, 2004. 74 BIBLIOGRAFÍA [97] D. Wilson. Asymtotic properties of nearest neighbor rules using edited data. IEEE Transactions on Systems, Man and Cybernetics, 2(3):408–21, July 1972. [98] H. Witten and E. Frank. Data mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers, 2005. [99] I. Witten and E. Frank. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, San Francisco, 2005. [100] M. Xiong, X. Fang, and J. Zhao. Biomarker identification by feature wrappers. Genome Res, 11:1878–87, 2001. [101] Y. Yang and J. Pederson. A comparative study on feature selection in text cateforization. In 14th Int. Conf. on Machine Learning, pages 412–420. Morgan Kaufmann, 1997. [102] York, D.G., et al. The sloan digital sky survey technical summary. AJ, 120:1579–1587, 2000. [103] L. Yu and H. Liu. Redundancy based feature selection for microarry data. In 10th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, 2004. [104] S. Zhang, C. Zhang, and Q. Yang. Data preparation for data mining. Applied Artificial Intelligence, 17(5–6):375–381, 2003. [105] Z. Y. Zhang, Y. Automated clustering algorithms for classification of astronomical objects. A&A, 422:1113–1121, 2004. [106] Z. Y. Zhang, Y. A comparison of bbn, adtree and mlp in separating quasars from large survey catalogues. ChJAA, 7:289–296, 2007.