Extracción de Conocimiento en Bases de Datos Astronómicas

Anuncio
Extracción de conocimiento en bases de
datos astronómicas
Memoria del periodo de investigación
presentada por
D. Miguel Ángel Montero Navarro
monteronavarro@gmail.com
para optar al
Diploma de Estudios Avanzados
Director:
Dr. D. José C. Riquelme Santos
Tutores:
Dr. D. Roberto Ruiz Sánchez
Dr. D. Miguel García Torres
Sevilla, Junio de 2009
Índice general
Índice de figuras
iii
Índice de tablas
iv
1. Introducción
1.1. Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Estructura de la memoria de investigación . . . . . . . . . . . . . . . . . . . .
2
2
3
3
2. Hipótesis y objetivos
2.1. Introducción . . . . . . . . . . . . . . . . . .
2.2. La extracción de conocimiento . . . . . . . .
2.3. Fase de Minería de Datos . . . . . . . . . . .
2.4. Representación de los datos . . . . . . . . . .
2.5. Clasificación . . . . . . . . . . . . . . . . .
2.5.1. Naïve Bayes . . . . . . . . . . . . .
2.5.2. Vecinos más cercanos . . . . . . . .
2.5.3. Árboles de decisión . . . . . . . . . .
2.6. Evaluación del rendimiento de un clasificador
2.6.1. Precisión . . . . . . . . . . . . . . .
2.6.2. Validación de datos . . . . . . . . . .
2.6.3. Comparación del rendimiento . . . .
2.7. Preparación de los datos . . . . . . . . . . .
2.7.1. Recopilación . . . . . . . . . . . . .
2.7.2. Limpieza . . . . . . . . . . . . . . .
2.7.3. Transformación . . . . . . . . . . . .
2.7.4. Reducción . . . . . . . . . . . . . .
2.8. Selección atributos . . . . . . . . . . . . . .
2.8.1. Proceso general . . . . . . . . . . . .
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
8
9
11
11
12
14
17
17
18
21
22
23
23
24
25
27
29
ÍNDICE GENERAL
iii
2.8.2. Medidas de evaluación de atributos . . . . . . . . . . . . . . . . . . .
2.8.3. Conclusiones y tendencias . . . . . . . . . . . . . . . . . . . . . . . .
2.9. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Trabajos relacionados
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. Análisis espectral . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Corrimiento al rojo . . . . . . . . . . . . . . . . . . . . . .
3.2. Instrumentación del SDSS . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Cámara . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Espectrógrafos . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Cobertura del cielo . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Cobertura fotométrica . . . . . . . . . . . . . . . . . . . .
3.3.2. Cobertura espectroscópica . . . . . . . . . . . . . . . . . .
3.4. Extracción de datos . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Repositorio de datos científicos . . . . . . . . . . . . . . .
3.4.2. Tipos de objetos celestes . . . . . . . . . . . . . . . . . . .
3.5. Estado del arte de la minería de datos aplicada a datos astronómicos
3.6. Experimentación . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Descripción de los experimentos . . . . . . . . . . . . . . .
3.6.3. Análisis de los resultados . . . . . . . . . . . . . . . . . . .
3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
31
33
33
34
37
39
40
40
42
45
45
45
46
47
51
53
53
57
58
60
62
4. Conclusiones
64
Bibliografía
67
Índice de figuras
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
Esquema General de KDD (Knowledge Discovery in Databases). . . . . . . .
División de los datos en carpetas. . . . . . . . . . . . . . . . . . . . . . . . . .
Proceso para validar los resultados al aplicar algoritmos de selección de atributos.
Fase de preparación de los datos. . . . . . . . . . . . . . . . . . . . . . . . . .
Reducción de un conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . .
Reducción de los datos en ambos sentidos: ejemplos y atributos. . . . . . . . .
3.1. Respuesta en frecuencia de los diferentes tipos de filtros. . . . . .
3.2. Filtro óptico paso banda . . . . . . . . . . . . . . . . . . . . . . .
3.3. Dispersión de la luz en un prisma. . . . . . . . . . . . . . . . . .
3.4. Espectros de emisión (a) y de absorcion (b) del hidrógeno. . . . .
3.5. Efecto de la velocidad relativa sobre los espectros. . . . . . . . . .
3.6. Disposición de los sensores CCD en la cámara principal del SDSS
3.7. Imagen de los filtros colocados sobre la cámara del SDSS. . . . .
3.8. Curva de respuesta de los filtros ópticos utilizados en el SDSS. . .
3.9. Detalle espectrógrafo SDSS . . . . . . . . . . . . . . . . . . . .
3.10. Imágenes tomadas por la cámara del SDSS y espectros asociados.
3.11. Cobertura del cielo del SDSS en coordenadas galácticas. . . . . .
3.12. Esquema de una franja de observación (stripe). . . . . . . . . . .
3.13. Entorno de trabajo CasJob. . . . . . . . . . . . . . . . . . . . . .
3.14. Esquema de la base de datos DR7 del SDSS. . . . . . . . . . . . .
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
19
20
22
25
26
35
36
38
38
40
41
42
43
43
44
45
46
48
50
Índice de tablas
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
3.10.
3.11.
3.12.
3.13.
3.14.
Máximo de transmisión y ancho banda de filtros u, g, r, i, z. . . . . . . . . . . .
Versiones del catálogo de datos del SDSS. . . . . . . . . . . . . . . . . . . . .
Clasificación morfológica según atributo type. . . . . . . . . . . . . . . . . . .
Clasificación espectral según el atributo specClass. . . . . . . . . . . . . . . .
Clasificación de los objetos celestes según el atributo objType. . . . . . . . . .
Consulta SQL para obtener datos de experimentación. . . . . . . . . . . . . . .
Atributos que intervienen en la consulta SQL de la tabla 3.6. . . . . . . . . . .
Consulta SQL para obtener URL de ficheros FITS. . . . . . . . . . . . . . . .
Líneas espectrales utilizadas en el SDSS para clasificación espectral. . . . . . .
Datos base de datos objeto de estudio. . . . . . . . . . . . . . . . . . . . . . .
Equivalencia etiquetado SDSS y base de datos objeto de estudio. . . . . . . . .
Resultados experimentación. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Atributos seleccionados por los evaluadores CFS, CNS y CLS. . . . . . . . . .
Atributos seleccionados por ClassifierSubsetEval con evaluador NB sobre FiltrosEspectros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
42
47
51
52
52
54
54
55
56
57
58
60
62
63
Capítulo 1
Introducción
1.1.
Planteamiento
Conforme la implantación y potencia de los sistemas informáticos ha ido aumentando, lo ha
hecho también la cantidad de datos almacenados. Así la gestión y mantenimiento de grandes
bancos de datos supone una actividad cotidiana en muchas empresas y organismos públicos.
Ingentes cantidades de datos se encuentran almacenados en bases de datos procedentes de actividades del ámbito empresarial y público que se desarrollan en el día a día. La necesidad
de análisis de estos datos y extracción de conocimiento no implícito en los mismos de forma
automática derivó en el nacimiento de una nueva disciplina denominada KDD (Knowledge
Discovery in Data bases). Con el nacimiento de esta disciplina los datos pasan de ser el producto generado por los diferentes procesos inherentes a la actividad desarrollada a ser la materia
prima, de forma que a partir de estas ingentes cantidades de datos se extrae conocimiento útil
que ayuda a tomar decisiones en los ámbitos de donde fueron extraídos los datos.
El proceso de KDD comprende diversas etapas, que van desde la obtención de los datos hasta la
aplicación del conocimiento adquirido en la toma de decisiones. Entre esas etapas, se encuentra
la que puede considerarse como el núcleo del proceso KDD y que se denomina Minería de
Datos o Data Mining (DM).
La astronomía ha estado ligada al ser humano desde la antigüedad y todas las civilizaciones han
tenido contacto con esta ciencia. En las últimas décadas, gracias a los avances tecnológicos, se
han desarrollado y planificado una serie de proyectos astronómicos con el fin de profundizar en
el conocimiento de los cuerpos celestes. Estos estudios han generado importantes cantidades de
2
1.2. Objetivos generales
3
datos que los astrónomos han tenido o tendrán que analizar.
En astronomía la informática supone una herramienta primordial para el desarrollo de las tareas
inherentes a los estudios desarrollados, utilizándose desde tres perspectivas:
Como herramienta tecnológica que agiliza los procedimientos de adquisición de datos.
Como soporte para la gestión y organización de la información.
Como metodología para el diseño de aplicaciones capaces de gestionar los datos, solucionar problemas complejos y extraer conocimiento útil a partir de la información.
En el primer caso podríamos hablar de tecnología informática; en el segundo caso, de sistemas
de gestión de bases de datos; y, en el tercero, de ingeniería del software y minería de datos.
1.2.
Objetivos generales
El objetivo de la presente memoria de investigación es plantear una serie de resultados que
pueden mejorar y aligerar el proceso de análisis que realizan los astrónomos sobre los grandes
bancos de datos de origen astronómico. Para tal fin se realizará un estudio de las técnicas de
clasificación, cuya aplicación a datos de origen astronómico ha sido bastante escasa hasta la
fecha. Como objetivo secundario se realizará un estudio de los métodos de selección de atributos
y su aplicación a datos de origen astronómico. La finalidad de este trabajo de investigación, por
tanto, consistirá en clasificar objetos celestes y en identificar las características más relevantes
para su clasificación.
1.3.
Estructura de la memoria de investigación
El contenido de esta memoria de investigación se encuentra dividido en los siguientes capítulos:
Capítulo 2: Hipótesis y objetivos. En este capítulo describimos nuestra hipótesis de partida
para el desarrollo del proyecto de tesis y también presentamos, de forma resumida, los
objetivos que queremos cumplir a lo largo del proyecto.
4
1. Introducción
Capítulo 3: Trabajos relacionados. Se describe el proyecto SDSS, los conceptos relativos a
astronomía necesarios para la investigación sobre clasificación de objetos celestes y la
experimentación desarrollada en el presente trabajo de investigación. Se describe además
los trabajos desarrollados hasta la fecha en minería de datos aplicada a datos de origen
astronómico.
Capítulo 4: Conclusiones. En este último capítulo se exponen cuales son los resultados y conclusiones obtenidos en el presente estudio de investigación.
Capítulo 2
Hipótesis y objetivos
2.1.
Introducción
En muchas ocasiones, el método tradicional de convertir los datos en conocimiento consiste en
un análisis e interpretación realizada de forma manual por especialistas en la materia estudiada.
Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, la enorme cantidad de datos
desborda la capacidad humana de comprenderlos y el análisis manual hace que las decisiones
se tomen según la intuición de los especialistas.
A finales de la década de los 80, la creciente necesidad de automatizar todo este proceso inductivo abre una línea de investigación para el análisis inteligente de datos. Al conjunto de métodos
matemáticos y técnicas software para análisis inteligente de datos y búsqueda de regularidades
y tendencias en los mismos, aplicados de forma iterativa e interactiva, se denominaron técnicas
de Minería de Datos o Data Mining (DM). Su nombre proviene de las similitudes encontradas
entre buscar valiosa información de negocio en grandes bases de datos y minar una montaña
para encontrar una veta de metales valiosos.
La minería de datos ha sido usada como sinónimo de descubrimiento de conocimiento en bases
de datos (del inglés Knowledge Discovery in Databases, KDD), sin embargo, corresponde a
una de las fases de todo el proceso de descubrimiento, encargada de hacer uso de técnicas de
aprendizaje automático para desarrollar algoritmos capaces de aprender y extraer conocimiento
de los datos.
En la siguiente sección describiremos con mayor detalle el proceso de descubrimiento (o ex5
6
2. Hipótesis y objetivos
tracción) de conocimiento, detallando las etapas de las que consta.
2.2.
La extracción de conocimiento
El proceso completo de extraer conocimiento a partir de bases de datos se conoce como KDD
(Knowledge Discovery in Databases). Este proceso comprende diversas etapas, que van desde la
obtención de los datos hasta la aplicación del conocimiento adquirido en la toma de decisiones.
Algunas definiciones de KDD son:
Definición 1. El Descubrimiento de Conocimiento en Bases de Datos es el proceso no trivial de
identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente
comprensibles en los datos [37].
Definición 2. Es el proceso de descubrimiento de conocimiento sobre repositorios de datos
complejos mediante la extracción oculta y potencialmente útil en forma de patrones globales y relaciones estructurales implícitas entre datos [60].
Definición 3. El proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [98].
De la definición anterior se deducen una serie de propiedades que debería cumplir el conocimiento extraído:
Válido. Los patrones encontrados deben describir datos nuevos.
Novedoso. Debe aportar conocimiento nuevo.
Potencialmente útil. La información debe ayudar en la toma de decisiones futuras.
Comprensible. Los patrones encontrados deben ser suficientemente comprensibles para
que proporcione conocimiento.
Independientemente de la técnica que se use en el proceso de extracción de datos, los pasos que
deben ser seguidos son siempre los mismos (figura 2.1):
2.2. La extracción de conocimiento
7
Figura 2.1: Esquema General de KDD (Knowledge Discovery in Databases).
1. Definición del problema. En el proceso de minería de datos el primer paso consiste en
definir claramente el problema que se intenta abordar. En esta etapa se analiza el dominio
de aplicación y la información relevante que exista a priori.
2. Integración, recopilación de datos y filtrado. Se deben localizar las fuentes de información y transformar los datos obtenidos a un formato común que permita trabajar de
forma operativa con toda la información recogida sin que haya inconsistencias. Lo más
frecuente es que los datos necesarios para llevar a cabo un proceso de KDD pertenezcan
a distintos departamentos, a diferentes organizaciones o incluso nunca hayan sido recopilados por no considerarlos interesantes. Resulta conveniente utilizar algún método de
automatización para la exploración de esos datos y encontrar posibles incoherencias. Una
vez homogeneizados los datos, se filtran y se rechazan los no válidos o los incorrectos,
según las necesidades, o bien se corrigen o se reduce el número de variables posibles
mediante clustering, redondeo, etc. Este proceso previo es necesario porque se tardaría
mucho tiempo en llegar a conclusiones si se trabajara con todos los datos. Al subconjunto
de datos que se va a minar se denomina vista minable.
3. Fase de minería de datos. Esta fase es la más característica y por ese motivo se suele
8
2. Hipótesis y objetivos
denominar minería de datos a todo el proceso en KDD. En esta fase la vista minable
es sometida a una serie de algoritmos de extracción de conocimiento. Se verá con más
detalle en el siguiente apartado.
4. Análisis. Se interpretan y evalúan los patrones obtenidos. Una vez interpretados puede
ser necesario volver a una etapa anterior.
5. Aplicación. Se aplica el conocimiento extraído al dominio del problema, pudiendo ayudar
en futuras tomas de decisiones.
El desarrollo de esta investigación abarca principalmente la tercera etapa del proceso del KDD,
es decir la minería de datos. Además, ha sido necesario realizar una extracción de datos a partir
de la base de datos original y su posterior preprocesado.
2.3.
Fase de Minería de Datos
La minería de datos (en inglés data mining) es una de las técnicas más utilizadas actualmente
para analizar la información de las bases de datos. Se fundamenta en varias disciplinas [70],
como la estadística, la visualización de datos, sistemas para tomas de decisión, el aprendizaje automático o la computación paralela y distribuida, beneficiándose de los avances en estas
tecnologías pero difiriendo de ellas en la finalidad que persigue: extraer patrones, describir tendencias y predecir comportamientos.
El Aprendizaje Automático es el área de la Inteligencia Artificial que se ocupa de desarrollar
técnicas capaces de aprender, es decir, extraer de forma automática conocimiento subyacente
en la información. Constituye junto con la estadística el corazón del análisis inteligente de los
datos. Los principios seguidos en el aprendizaje automático y en la minería de datos son los
mismos: la máquina genera un modelo a partir de ejemplos y lo usa para resolver el problema.
Algunos autores distinguen dos tipos de minería de datos [37]:
Aprendizaje supervisado. Utiliza básicamente técnicas predictivas. Estas técnicas describen
el conjunto de datos de una manera resumida y concisa, presentando propiedades generales e interesantes de los datos. Las tareas de datos que producen modelos predictivos son
la clasificación y la regresión.
2.4. Representación de los datos
9
Clasificación. Cada registro de la base de datos pertenece a una determinada clase
(etiqueta discreta) que se indica mediante el valor de un atributo o clase de la instancia. El objetivo es predecir una clase dados los valores de los atributos. Se usan,
por ejemplo, árboles de decisión y sistemas de reglas o análisis de discriminantes.
Regresión o estimación. Es el aprendizaje de una función real que asigna a cada
instancia un valor real de tipo numérico. El objetivo es inducir un modelo para poder
predecir el valor de la clase dados los valores de los atributos. Se usan, por ejemplo,
árboles de regresión, redes neuronales artificiales, regresión lineal, etc.
Aprendizaje no supervisado. Utiliza técnicas descriptivas de ingeniería artificial. Estas técnicas construyen uno o varios modelos que realizan inferencia sobre el conjunto de entrenamiento para intentar predecir el comportamiento de nuevos datos. Utiliza básicamente
técnicas de ingeniería artificial. Las tareas que producen modelos descriptivos son el agrupamiento (clustering), las reglas de asociación secuenciales y el análisis correlacional.
Clustering o agrupamiento. Las técnicas de Clustering comprenden una serie de
metodologías para la clasificación automática de datos en un determinado número
de grupos o clusters, utilizando para ello una medida de asociación. Cada cluster
está formado por objetos que son similares entre ellos y distintos a los que forman
el resto de grupos. Estas técnicas son utilizadas en una gran variedad de ámbitos para
la descripción y clasificación de información: marketing, planificación urbanística,
estudios atmosféricos, etc..
Reglas de asociación. Su objetivo es identificar relaciones no explícitas entre atributos categóricos.
Análisis correlacional. Utilizado para comprobar el grado de similitud de los valores de dos variables numéricas.
En esta memoria, el aprendizaje siempre será entendido como supervisado, donde los casos
pertenecientes al conjunto de datos tienen a priori asignada una clase o categoría, siendo el
objetivo encontrar patrones o tendencias de los casos pertenecientes a una misma clase.
2.4.
Representación de los datos
A continuación se establecerán algunas definiciones que describen formalmente los conceptos
que se manejarán a lo largo de este documento.
10
2. Hipótesis y objetivos
Definición 2.1 Un dominio es un conjunto de valores del mismo tipo. Aunque existen distintas clasificaciones de los dominios, para los propósitos de esta investigación se distinguen dos
tipos: continuo (conjunto infinito de valores reales) y nominal (conjunto finito de valores discretos). Se representa Dom().
Definición 2.2 Se denomina Universo de discurso al entorno donde se define un determinado
problema y viene representado como el producto cartesiano de un conjunto finito de dominios.
Definición 2.3 Un atributo, o también denominado característica, es la descripción de alguna
medida existente en el universo de discurso que toma valores en un determinado dominio. El
atributo i–ésimo se representa Xi , su valor xi y su dominio como Dom(Xi ), que según la clasificación descrita previamente puede ser de dos tipos, continuo o discreto. Si es continuo existe
un rango [a, b] ⊆ R de valores posibles, y si es discreto existe un conjunto finito de valores
posibles. Se denomina vector de atributos x = x1 , . . . , xn al conjunto de valores correspondiente a cada uno de los atributos, y X al espacio formado por el conjunto de los atributos,
X = Dom(X1 ) × . . . × Dom(Xn ), siendo n el total de atributos.
Definición 2.4 En el marco del aprendizaje supervisado, se dispone de un atributo especial de
salida denominado clase, que indica la pertenencia a un determinado grupo de casos. Se denomina etiquetas de clase al conjunto o dominio de valores que la clase puede tomar (nominal
en el caso de la clasificación). La clase es el atributo sobre el cual se realiza la predicción, por
lo que es también denominada atributo de decisión, para diferenciarla del resto de atributos
denominados de condición. El atributo clase se representa Y y su dominio Dom(Y), teniendo k
valores posibles y1 , . . . , yk .
Definición 2.5 Un ejemplo, muestra, instancia o caso es una tupla del universo de discurso
representada por un conjunto de valores de atributos, cada uno de un dominio respectivamente,
y una etiqueta de clase que lo clasifica. Se representa e.
Definición 2.6 Se define un conjunto de datos como un subconjunto finito de ejemplos e j , donde j = 1, . . . , m. Un conjunto de datos, o base de datos, se caracteriza por el número de ejemplos
m que contiene y por el número n de atributos y su tipo.
La entrada a un algoritmo de aprendizaje supervisado es un conjunto E de m instancias (x j , y j ),
donde j = 1, . . . , m, cada una compuesta por n valores de entrada x j,i con (i = 1, . . . , n) y uno
de salida y j , a E se le llama conjunto de datos etiquetado.
2.5. Clasificación
2.5.
11
Clasificación
Clasificar objetos es un proceso de la inteligencia de máximo interés para investigadores tanto
de psicología como de informática, dado que la habilidad de realizar una clasificación y de
aprender a clasificar otorga el poder de tomar decisiones.
A continuación se define formalmente el concepto de clasificación y clasificador:
Definición 2.7 Sea E un conjunto de datos, el objetivo de la clasificación es aprender una
función L : X → Y, denominada clasificador, que represente la correspondencia existente en
los ejemplos entre los vectores de entrada y el valor de salida correspondiente, es decir, para
cada valor de x tenemos un único valor de Y.
Además, Y es nominal, es decir, puede tomar un conjunto de valores y1 , y2 , . . . , yk denominados
clases o etiquetas. La función aprendida será capaz de determinar la clase para cada nuevo
ejemplo sin etiquetar.
La aplicación de un algoritmo de aprendizaje tiene como objetivo extraer conocimiento de un
conjunto de datos y modelar dicho conocimiento para su posterior aplicación en la toma de
decisiones. Existen distintas formas de representar el modelo generado, representación proposicional, árboles de decisión, reglas de decisión, listas de decisión, reglas con excepciones,
reglas jerárquicas de decisión, reglas difusas y probabilidades, redes neuronales, están entre las
estructuras más utilizadas.
En este trabajo, se utilizarán tres algoritmos de aprendizaje clasificadores para clasificar objetos
celestes a partir de los datos extraídos de observaciones astronómicas, uno probabilístico (Naïve
Bayes), otro basado en las técnicas de vecinos más cercanos (IB1) y un tercero basado en
árboles de decisión (C4.5). Los algoritmos de aprendizaje empleados se han elegido por ser
representativos de diferentes tipos de clasificadores, usándose con frecuencia en los estudios
comparativos y en bastantes aplicaciones de minería [70, 64].
2.5.1.
Naïve Bayes
Naïve Bayes es una técnica de clasificación descriptiva y predictiva basada en la teoría de la
probabilidad del análisis de T. Bayes [13], que data de 1763. Esta teoría supone un tamaño de
la muestra asintóticamente infinito e independencia estadística entre variables independientes,
12
2. Hipótesis y objetivos
refiriéndose en nuestro caso a los atributos, no a la clase. Con estas condiciones, se puede
calcular las distribuciones de probabilidad de cada clase para establecer la relación entre los
atributos (variables independientes) y la clase (variable dependiente). Concretamente, dado el
ejemplo e = (x1 , . . . , xn ), donde xi es el valor observado para el i-ésimo atributo, la probabilidad
a posteriori de que ocurra la clase yl teniendo k valores posibles {y1 , . . . , yk }, viene dada por la
regla de Bayes,
Q
P(yl ) ni=1 P(xi |yl )
P(yl |x1 , . . . , xn ) =
(2.1)
P(x1 , . . . , xn )
donde P(yl ) es la proporción de la clase yl en el conjunto de datos; e igualmente, P(xi |yl ) se estima a partir de la proporción de ejemplos con valor xi cuya clase es yl . Como podemos deducir,
el cálculo de P(xi |yl ) obliga a que los valores xi sean discretos, por lo que si existe algún atributo
continuo, éste debe ser discretizado previamente. Aplicando la ecuación 2.1, la clasificación de
un nuevo ejemplo e se lleva a cabo calculando las probabilidades condicionadas de cada clase y escogiendo aquella con mayor probabilidad. Formalmente, si Dom(Y) = {y1 , . . . , yk } es el
conjunto de clases existentes, el ejemplo e será clasificado con aquella clase yl que satisface la
expresión 2.2.
∀ j , i / P(yi |x1 , . . . , xn ) > P(y j |x1 , . . . , xn )
(2.2)
Como se puede observar, el clasificador bayesiano es un método sencillo y rápido. Además,
puede demostrarse teóricamente que maximiza la exactitud de la predicción de manera óptima. Sin embargo, la suposición de independencia estadística de las variables es una limitación
importante, ya que este hecho es relativamente infrecuente.
2.5.2.
Vecinos más cercanos
Las técnicas de vecinos más cercanos (NN, Nearest Neighbours) basan su criterio de aprendizaje en la hipótesis de que los miembros de una población suelen compartir propiedades y
características con los individuos que los rodean, de modo que es posible obtener información
descriptiva de un individuo mediante la observación de sus vecinos más cercanos. Los fundamentos de la clasificación por vecindad fueron establecidos por E. Fix y J. L. Hodges [38, 39] a
principio de los años 50. Sin embargo, no fue hasta 1967 cuando T. M. Cover y P. E. Hart [22]
enuncian formalmente la regla del vecino más cercano y la desarrollan como herramienta de
clasificación de patrones. Desde entonces, este algoritmo se ha convertido en uno de los métodos de clasificación más usados [20, 21, 23, 31, 6]. La regla de clasificación NN se resume
básicamente en el siguiente enunciado:
Sea E = {e1 , . . . , em } un conjunto de datos con m ejemplos etiquetados, donde cada ejemplo
13
2.5. Clasificación
e j contiene n atributos (x j1 , . . . , x jn ), pertenecientes al espacio métrico X, y una clase yl ∈
{y1 , . . . , yk }. La clasificación de un nuevo ejemplo e0 cumple que
e0 a yl ⇔ ∀ j , i / d(e0 , ei ) < d(e0 , e j )
(2.3)
donde e0 a yl indica la asignación de la etiqueta de clase yl correspondiente a ei al ejemplo e0 y
d expresa una distancia definida en el espacio n-dimensional X.
Así, un ejemplo es etiquetado con la clase de su vecino más cercano según la métrica definida
por la distancia d. La elección de esta métrica es primordial, ya que determina qué significa
más cercano. La aplicación de métricas distintas sobre un mismo conjunto de entrenamiento
puede producir resultados diferentes. Sin embargo, no existe una definición previa que indique
si una métrica es buena o no. Esto implica que es el experto quien debe seleccionar la medida de
distancia más adecuada. La regla NN puede generalizarse calculando los k vecinos más cercanos
y asignando la clase mayoritaria entre esos vecinos. Tal generalización se denomina k–NN. Este
algoritmo necesita la especificación a priori de k, que determina el número de vecinos que se
tendrán en cuenta para la predicción. Al igual que la métrica, la selección de un k adecuado es
un aspecto determinante. El problema de la elección del k ha sido ampliamente estudiado en
la bibliografía. Existen diversos métodos para la estimación de k [26]. Otros autores [32] han
abordado el problema incorporando pesos a los distintos vecinos para mitigar los efectos de
la elección de un k inadecuado. Otras alternativas [81] intentan determinar el comportamiento
de k en el espacio de características para obtener un patrón que determine a priori cuál es
el número de vecinos más adecuado para clasificar un ejemplo concreto dependiendo de los
valores de sus atributos. El algoritmo k–NN se engloba dentro de las denominadas técnicas
de aprendizaje perezoso (lazy learning), ya que no genera una estructura de conocimiento que
modele la información inherente del conjunto de entrenamiento, sino que el propio conjunto de
datos representa el modelo. Cada vez que se necesita clasificar un nuevo ejemplo, el algoritmo
recorre el conjunto de entrenamiento para obtener los k vecinos y predecir su clase. Esto hace
que el algoritmo sea computacionalmente costoso tanto en tiempo, ya que necesita recorrer
los ejemplos en cada predicción, como en espacio, por la necesidad de mantener almacenado
todo el conjunto de entrenamiento. Pese a los numerosos inconvenientes respecto a la eficiencia
(coste computacional) y la eficacia (elección de la métrica y el k adecuados), k–NN tiene en
general un buen comportamiento. Cover y Hart [22] demostraron que, cuando el número de
ejemplos tiende a infinito, el error asintótico de NN está acotado superiormente por el doble del
error de Bayes (óptimo).
14
2. Hipótesis y objetivos
2.5.3.
Árboles de decisión
Los árboles de decisión, son una de las formas más sencillas de representación del conocimiento
adquirido. Dentro de los sistemas basados en árboles de decisión, habitualmente denominados
TDIDT (Top Down Induction of Decision Trees), se pueden destacar dos familias o grupos:
La familia ID3, cuyos máximos representantes son el propio algoritmo ID3 propuesto por
Quinlan [78] y el sistema CLS de Hunt et al. [48].
La familia de árboles de regresión, cuyo exponente más significativo es Cart,desarrollado
por Breiman et al. [16]. Los TDIDT se caracterizan por utilizar una estrategia de divide y
vencerás descendente, es decir, partiendo de los descriptores hacia los ejemplos, dividen
el conjunto de datos en subconjuntos siguiendo un determinado criterio de división. A
medida que el algoritmo avanza, el árbol crece y los subconjuntos de ejemplos son menos
numerosos.
De los sistemas TDIDT, los pertenecientes a la familia ID3 son los más referenciados en el
campo del aprendizaje, por lo que serán expuestos con más detalle a continuación.
ID3
El método de clasificación experimental ID3 (Induction Decision Trees), desarrollado por J. R.
Quinlan [76, 77, 78], genera un árbol de decisión paralelo de forma recursiva, aplicando un
criterio de división basado en el concepto de medida de la información de Shannon. Cada nodo
interno de dicho árbol contiene un test sobre uno de los atributos, de cuyo valor dependerá el
camino a seguir para clasificar un ejemplo, y cada hoja contiene una etiqueta de clase. Así, la
clasificación de un ejemplo se lleva a cabo recorriendo el árbol desde la raíz hasta una de las
hojas que determinará la clase del mismo. Inicialmente, el algoritmo toma todo el conjunto de
datos E. Si todos los ejemplos pertenecen a una misma clase, el proceso finaliza, insertando un
nodo hoja con dicha clase. En caso contrario, se selecciona aquel atributo Xi que mejor divide el
conjunto de datos y se inserta un nodo con dicho atributo para establecer un test. Una vez creado
el nodo, para cada valor distinto xiv del atributo Xi , se traza un arco y se invoca recursivamente
al algoritmo para generar el subárbol que clasifica los ejemplos de E que cumplen que Xi = xiv .
Dicha invocación es realizada sin tener en cuenta el atributo Xi y substrayendo del conjunto
de datos E todos aquellos ejemplos donde Xi , xiv . El proceso se detiene cuando todas las
instancias de un conjunto pertenecen a la misma clase.
15
2.5. Clasificación
ID3 utiliza una propiedad estadística denominada ganancia de información como heurística de
selección de atributos para fijar un test. Esta propiedad no es más que la reducción esperada
de la entropía (desorden) de los datos al conocer el valor de un atributo. Así, el atributo Xi
seleccionado para determinar la división será aquel que mayor ganancia obtenga respecto al
conjunto E, según la ecuación 2.4,
Ganancia(E, Xi ) = Ent(E) −
|Xi |
X
|E(xiv )|
v=1
|E|
× Ent(E(xiv ))
(2.4)
donde |Xi | es el número de valores distintos de del atributo Xi ; E(xiv ) es el subconjunto de E para
el cual Xi = xiv , siendo |E(xiv )| su cardinal; |E| es el número total de ejemplos; y Ent(·) es la
entropía, definida a continuación.
Definición 2.8 (Entropía) La entropía es la medida del desorden de un sistema mediante la incertidumbre existente ante un conjunto de casos, del cual se espera uno sólo. Sea E un conjunto
de datos etiquetados con clases del conjunto Dom(Y) = {y1 , . . . , yk } y f rec(yl , E) el número de
ejemplos de E con clase yl . Entonces se define la entropía del conjunto E como
!
k
X
f rec(yl , E)
f rec(yl , E)
Ent(E) = −
× log2
|E|
|E|
l=1
(2.5)
f rec(yl ,E)
l ,E)
donde f rec(y
es
la
probabilidad
de
que
se
dé
un
ejemplo
con
clase
y
,
y
log
es la
l
2
|E|
|E|
información que transmite un ejemplo de clase yl . La entropía es máxima cuando todas las
clases presentan la misma proporción.
C4.5
El algoritmo C4.5 fue propuesto por Quinlan [79] a finales de los años 80 para mejorar las carencias de su predecesor ID3. Desde entonces, ha sido uno de los sistemas clasificadores más
referenciados en la bibliografía, principalmente debido a su extremada robustez en un gran número de dominios y su bajo coste computacional. C4.5 introduce principalmente las siguientes
mejoras:
1. Trata eficazmente los valores desconocidos o ausentes calculando la ganancia de información para los valores presentes.
2. Maneja los atributos continuos, aplicando una discretización previa.
16
2. Hipótesis y objetivos
3. Corrige la tendencia de ID3 a seleccionar los atributos con muchos valores distintos para
establecer los test cambiando el criterio de división.
Sin embargo, presenta una serie de problemas que afectan directamente a la precisión del árbol
generado. En primer lugar, la heurística usada para establecer los test es propensa a seleccionar
aquellos atributos con mayor número de valores distintos, ya que a mayor número de particiones, la entropía de cada subconjunto tiende a ser menor. En segundo lugar, ID3 resulta muy
vulnerable a la presencia de ruido e inconsistencia en los datos, lo cual ocasiona la generación
de hojas muertas que clasifican ejemplos de más de una clase.
C4.5 produce un árbol de decisión similar al de ID3, con la salvedad de que puede incluir
condiciones sobre atributos continuos. Así, los nodos internos pueden contener dos tipos de test
según el dominio del atributo seleccionado para la partición. Si el atributo Xi es discreto, la
representación es similar a la de ID3, presentando un test con una condición de salida (rama
Xi = xiv ) por cada valor xiv diferente del atributo. Por contra, si el atributo Xi es continuo, el test
presenta dos únicas salidas, Xi ≤ Z y Xi > Z, que comparan el valor de Xi con el umbral Z. Para
calcular Z, se aplica un método similar al usado en [16], el cual ordena el conjunto de t valores
distintos del atributo Xi presentes en el conjunto de entrenamiento, obteniendo el conjunto de
x +x
valores {xi1 , xi2 , . . . , xit }. Cada par de valores consecutivos aporta un posible umbral Z = iv 2i(v+1) ,
teniendo en total t − 1 umbrales, donde t es como mucho igual al número de ejemplos. Una
vez calculados los umbrales, C4.5 selecciona aquel que maximiza el criterio de separación.
Como se mencionó anteriormente, el criterio de maximización de la ganancia de información
usado en ID3 produce un sesgo hacia los atributos que presentan muchos valores distintos. C4.5
resuelve este problema usando la razón de ganancia (gain ratio) como criterio de separación a la
hora de establecer un test. Esta medida tiene en cuenta tanto la ganancia de información como
las probabilidades de los distintos valores del atributo. Dichas probabilidades son recogidas
mediante la denominada información de separación (split information), que no es más que la
entropía del conjunto de datos E respecto a los valores del atributo Xi en consideración, siendo
calculada como
In f ormacionDeS eparacion(E, Xi ) = −
|Xi |
X
|E(xiv )|
v=1
|E|
× log2
|E(xiv )|
|E|
!
(2.6)
donde |Xi | es el número de valores distintos del atributo Xi ; E(xiv ) es el subconjunto de E para el
cual Xi = xiv , siendo |E(xiv )| su cardinal; y |E| es el número total de ejemplos. La información de
separación simboliza la información potencial que representa dividir el conjunto de datos, y es
usada para compensar la menor ganancia de aquellos test con pocas salidas. Con ello, tal y como
muestra la ecuación 2.7, la razón de ganancia es calculada como el cociente entre la ganancia de
2.6. Evaluación del rendimiento de un clasificador
17
información (ecuación 2.4) y la información de separación (ecuación 2.6). Tal cociente expresa
la proporción de información útil generada por la división.
RazonDeGanancia(E, Xi ) =
Ganancia(E, Xi )
In f ormacionDeS eparacion(E, Xi )
(2.7)
C4.5 maximiza este criterio de separación, premiando así a aquellos atributos que, aun teniendo
una ganancia de información menor, disponen también de menor número de valores para llevar a
cabo la clasificación. Sin embargo, si el test incluye pocos valores, la información de separación
puede ser cercana a cero, y por tanto el cociente sería inestable. Para evitar tal situación, el
criterio selecciona un test que maximice la razón de ganancia pero obligando a que la ganancia
del mismo sea al menos igual a la ganancia media de todos los test examinados [70].
C4.5 ha resultado ser un sistema muy efectivo en la práctica, capaz de ofrecer una representación
relativamente simple de los resultados con un bajo coste computacional. En concreto, para un
conjunto de datos con m ejemplos y n atributos, el coste medio de construcción del árbol es de
Θ(mnlog2 m), mientras que la complejidad del proceso de poda es de Θ(m(log2 m)2 ).
2.6.
Evaluación del rendimiento de un clasificador
2.6.1.
Precisión
Evaluar el comportamiento de los algoritmos de aprendizaje es un aspecto fundamental del
aprendizaje automático, no sólo es importante para comparar algoritmos entre sí, sino que en
muchos casos forma parte del propio algoritmo de aprendizaje. La forma más habitual de medir
la eficiencia de un clasificador es la precisión predictiva. Un clasificador, cada vez que se le
presenta un nuevo caso, debe tomar una decisión sobre la etiqueta que se le va a asignar. Considerando un error como una clasificación incorrecta de un ejemplo, se puede calcular fácilmente
la tasa de error, o su complementaria, la tasa de acierto.
Definición 2.9 Se denomina precisión (Γ) de un clasificador al resultado de dividir el número
de clasificaciones correctas por el número total de muestras examinadas.
Dado un conjunto etiquetado E de m instancias (x j , y j ), donde j = 1, . . . , m, cada una compuesta
por n valores de entrada x j,i con (i = 1, . . . , n) y uno de salida y j , y dado el clasificador L visto en
la definición 2.7, en la expresión siguiente, si L(x j ) = y j entonces se cuenta 1, y 0 en cualquier
18
2. Hipótesis y objetivos
otro caso.
m
1 X
Γ(E, L) =
L(x j ) = y j
m j=1
Teniendo en cuenta la aplicación a la tarea de clasificación que se le da a los algoritmos de
selección en esta memoria de tesis, la definición de precisión dada sobre el conjunto total de
datos, aplicada a un subconjunto de atributos S queda de la siguiente manera:
m
Γ(E/S, L) =
1 X
L(S(x j )) = y j
m j=1
Por tanto, se tiene que Γ(E/S, L) es la precisión aplicando el clasificador L a la base de datos
con los atributos que pertenecen al subconjunto S.
La precisión es una buena estimación de cómo se va a comportar el modelo para datos desconocidos similares a los de prueba. Sin embargo, si se calcula la precisión sobre el propio conjunto
de datos utilizado para generar el modelo, se obtiene con frecuencia una precisión mayor a la
real, es decir, serán estimaciones muy optimistas por utilizar los mismos ejemplos en la inducción del algoritmo y en su comprobación [40]. La idea básica es estimar el modelo con una
porción de los datos y luego comprobar su validez con el resto de los datos. Esta separación es
necesaria para garantizar la independencia de la medida de precisión resultante, de no ser así, la
precisión del modelo será sobreestimada [25]. Por tanto, para tener seguridad de que las predicciones sean robustas y precisas, se consideran dos etapas en el proceso de construcción de un
modelo, entrenamiento y prueba, partiendo los datos en dos conjuntos, uno de entrenamiento y
otro de test.
2.6.2.
Validación de datos
Estimar la precisión de un clasificador inducido por algoritmos de aprendizaje supervisado es
importante tanto para evaluar su futura precisión de clasificación como para elegir un clasificador óptimo de un conjunto dado.
Para probar un modelo se parten los datos en dos conjuntos. Por un lado, se tiene el conjunto
de entrenamiento o training set. Este grupo de instancias serviría para enseñar al modelo cuál
es el comportamiento tipo del sistema, haciéndose una clasificación por el analista de dichas
instancias. Por otro, se tiene el conjunto de prueba o test set, que será el conjunto sobre el que
2.6. Evaluación del rendimiento de un clasificador
19
se aplicarán los métodos una vez adquirido el conocimiento previo a través del training set.
Si no se usa esta metodología la precisión del modelo será sobrestimada, es decir, tendremos
estimaciones muy optimistas.
Se pueden establecer tres tipos fundamentales de métodos de validación:
Validación simple. Utiliza un conjunto de muestras para construir el modelo del clasificador, y
otro diferente para estimar el error, con el fin de eliminar el efecto de la sobreestimación.
De entre la variedad de porcentajes utilizados, uno de los más frecuentes es tomar 2/3 de
las muestras para el proceso de aprendizaje y el 1/3 restante para comprobar el error del
clasificador. El hecho de que sólo se utiliza una parte de las muestras disponibles para
llevar a cabo el aprendizaje es el inconveniente principal de esta técnica, al considerar
que se pierde información útil en el proceso de inducción del clasificador. Esta situación
se deteriora si el número de muestras para construir el modelo es muy reducido.
Validación cruzada (cross-validation). También conocida como validación cruzada de n particiones. Se plantea para evitar la ocultación de parte de las muestras al algoritmo de
inducción y la consiguiente perdida de información. En ella se divide los datos disponibles en tantas particiones como indique el parámetro n y se entrena n veces promediando
el error de cada prueba. El esquema del proceso seguido para una validación 10-fold puede observarse en las figuras 2.2 y 2.3. En general éste es el número de particiones más
utilizado.
Figura 2.2: División de los datos en carpetas.
Una posible mejora en la utilización de la validación cruzada es la estratificación que
consiste en mantener en cada una de las particiones una distribución de las etiquetas similar a la existente en el conjunto de aprendizaje, para evitar una alta varianza en la
estimación [16]. Además, es una práctica común, repetir la validación cruzada con k particiones un número determinado de veces para hacer más estable la estimación de la precisión. Un caso particular de este método de evaluación es la validación cruzada dejando
uno fuera (leaving-one-out cross validation), donde k es igual al número de ejemplos del
conjunto de datos. En este caso, el clasificador entrena con todas las muestras menos una
que deja fuera para realizar la prueba [61]. Además de la elevada varianza de la tasa de
aciertos obtenida, el mayor inconveniente de este método es el alto coste computacional
20
2. Hipótesis y objetivos
Figura 2.3: Proceso para validar los resultados al aplicar algoritmos de selección de
atributos.
que supone el aprendizaje del clasificador k veces, por lo que no se suele utilizar cuando
el número de muestras es elevado o el proceso de inducción del clasificador es computacionalmente costoso. La ventaja de esta técnica es que todos los casos son utilizados en
el proceso de aprendizaje y en el de prueba, dando lugar a un estimador con sesgo muy
pequeño.
Muestreo con reemplazamiento o bootstrapping. Esta técnica se utiliza para estimar el error
de un modelo cuando se dispone de pocos datos. Las técnicas de estimación basadas en
este concepto fueron introducidas por Efron [33], encontrándose desarrolladas en más
detalle en [34, 35]. Estas técnicas se proponen para reducir la alta variabilidad que exhibe la validación cruzada en muestras pequeñas, consiguiendo un aumento de eficiencia
comparable a un aumento en el tamaño de la muestra de un 60 %. La idea central es que
muchas veces puede ser mejor extraer conclusiones sobre las características de la población estrictamente a partir de la muestra que se maneja, que haciendo asunciones quizás
poco realistas sobre la población. El bootstrapping implica remuestreo (resampling) con
reemplazamiento de los datos obtenidos en una muestra muchas veces para generar una
estimación empírica de la distribución muestral completa de un estadístico. Lunneborg
[68] fija la utilidad del método bootstrap a tres niveles:
2.6. Evaluación del rendimiento de un clasificador
21
Valorar el sesgo y el error muestral de un estadístico calculado a partir de una muestra.
Establecer un intervalo de confianza para un parámetro estimado.
Realizar una prueba de hipótesis respecto a uno o más parámetros poblacionales.
2.6.3.
Comparación del rendimiento
En el apartado anterior se expuso como evaluar un algoritmo de aprendizaje obteniendo un valor
de precisión. En el caso de que estemos interesado en comparar dos técnicas de aprendizaje,
se hará utilizando test de hipótesis. Una de las pruebas estadísticas más populares para este
propósito es el llamado t-test (Student’s t-test). Si suponemos que los valores de precisión se
calculan bajo las mismas condiciones, es decir utilizando las mismas muestras, se denomina
test pareado. Para determinar si la diferencia es significativa, se debe fijar un nivel de confianza
y comparar con el valor límite de la variable t-Student en la tabla correspondiente para esos
grados de libertad e intervalo de confianza.
El método tradicional de realizar un contraste consiste en dividir el rango de discrepancias que
puede observarse cuando la hipótesis nula, H0 , es cierta en dos regiones: una región de aceptación de H0 y otra de rechazo. Se consideran diferencias «demasiado grandes» las que tienen una
probabilidad pequeña α (normalmente 0,1, 0,05 o 0,01) de ocurrir si H0 es cierta. Si rechazamos
H0 cuando ocurre una discrepancia de probabilidad α, este número puede interpretarse como la
probabilidad que estamos dispuestos a asumir de rechazar H0 cuando es cierta y se denomina
error tipo I. Sin embargo, existe otro posible error, aceptar H0 cuando es falsa, denominándose
error tipo II. Dependiendo del conjunto de datos y de la técnica de evaluación practicada, estos
tipos de errores pueden verse aumentados o disminuidos.
Dietterich [27] compara varios métodos de evaluación mediante experimentos con datos reales
y simulados. Antes de la recomendación final de su trabajo, avisa de que los test estadísticos
descritos deben ser vistos como aproximados, tests heurísticos, más que métodos estadísticos
rigurosamente correctos a causa de los inconvenientes propios de cada test (entrenamiento con
muestras de menor tamaño que el original, asunción de independencia, solapamiento de subconjunto de entrenamiento, etc.). Además, los experimentos se realizaron sólo con dos algoritmos
de aprendizaje sobre tres bases de datos, por lo que informa que sus conclusiones se consideren
como tentativas. Recomienda utilizar validación cruzada 5 × 2 (Alpaydin [8] propone una modificación) cuando las técnicas de aprendizaje son lo suficientemente eficientes para ejecutarse
diez veces, o utilizar el test de McNemar´s en el caso de una única ejecución. No se debe utilizar
22
2. Hipótesis y objetivos
el t-test sobre una serie de pruebas donde el conjunto de datos se divide aleatoriamente en dos.
Recomienda precaución al interpretar los resultados de t-test pareado de la validación cruzada
con diez particiones. Este test tiene una elevada probabilidad de error tipo I, sin embargo, se
recomienda en los casos donde se le dé más importancia al error tipo II.
2.7.
Preparación de los datos
El éxito de un algoritmo de aprendizaje para clasificación depende en gran medida de la calidad de los datos que se le proporciona. Como se pudo comprobar en la figura 2.1, existe una
fase de preparación de los datos previa a su análisis, donde se realiza una serie de tareas que
describiremos a continuación. Pyle [74] indica que el propósito fundamental de esta fase es el
de manipular y transformar los datos en bruto, de manera que la información contenida en el
conjunto de datos pueda ser descubierta o más fácilmente accesible.
Dado que en muchas ocasiones los datos provienen de diferentes fuentes, pueden contener valores impuros (incompletos, con ruido e inconsistentes), pudiendo conducir a la extracción de
patrones poco útiles. Además, se puede reducir el conjunto de datos (selección de características y de instancias), mejorando la eficiencia del proceso de minería de datos posterior. También
existe la posibilidad de recuperar información incompleta, eliminar outliers, resolver conflictos,
etc., generando un conjunto de datos de calidad, que conduciría a mejores patrones.
La preparación o preprocesamiento de datos engloba a todas aquellas técnicas de análisis de
datos que permiten mejorar la calidad de un conjunto de datos, de modo que los métodos de extracción de conocimiento (minería de datos) puedan obtener mayor y mejor información (mejor
porcentaje de clasificación, reglas con más completitud, etc.) [104]. La lista de tareas que se incluyen en esta fase se pueden resumir en cuatro: recopilación de datos, limpieza, transformación
y reducción, no teniéndose que aplicar siempre en un mismo orden (ver figura 2.4).
Figura 2.4: Fase de preparación de los datos.
2.7. Preparación de los datos
2.7.1.
23
Recopilación
Para poder comenzar a analizar y extraer algo útil en los datos es preciso, en primer lugar,
disponer de ellos. Esto en algunos casos puede parecer trivial, partiendo de un simple archivo
de datos, sin embargo en otros es una tarea muy compleja donde se debe resolver problemas
de representación, de codificación e integración de diferentes fuentes para crear información
homogénea.
2.7.2.
Limpieza
En esta fase se resuelven conflictos entre datos, comprobando problemas de ruido, valores ausentes y outliers [56].
Valores ausentes
La ausencia de valores en los atributos de algunos ejemplos de las bases de datos es relativamente frecuente, debido principalmente a fallos cometidos durante el proceso de adquisición
de los datos, sea manual o automático. Aunque algunos métodos solventan este problema durante el proceso de aprendizaje, es común aplicar alguna técnica que trate estos ejemplos antes
de ofrecerlos al algoritmo de minería de datos. La técnica de tratamiento de valores ausentes
más simple, aunque también la menos recomendable, consiste en eliminar aquellos ejemplos
que presenten algún atributo sin valor. El mayor inconveniente de esta técnica es que se podría
eliminar información útil para el aprendizaje contenida en los atributos correctos. Para poder
mantener los ejemplos en el conjunto de datos, habría que rellenar los valores ausentes con algún valor válido. Una solución sencilla es asignar una constante, por ejemplo «desconocido»,
si el atributo es discreto, o infinito, si es continuo. Aunque esta solución es también muy simple y no elimina información, el algoritmo de aprendizaje podría interpretar erróneamente esas
constantes y entender que son valores interesantes. Por esta razón, es recomendable sustituir las
ausencias por valores cuya influencia en el aprendizaje sea mínima. En este sentido, la media o
la moda, dependiendo si el atributo es continuo o discreto respectivamente, pueden ser valores
más apropiados que una constante. Para que el valor de sustitución no sea único para todos
los ejemplos con ausencias en un mismo atributo, la media o la moda no se calcula a partir
de todos los datos, sino considerando sólo aquellos ejemplos que tienen la misma clase que el
que se pretende completar. Aunque este método no es muy exacto es uno de los más populares.
Finalmente, una técnica más precisa, aunque también más costosa computacionalmente, con-
24
2. Hipótesis y objetivos
siste en sustituir las ausencias por el valor más probable aplicando algún clasificador (regresión,
clasificador Bayesiano o inducción de árboles de decisión) para predecir dicho valor.
Ruido
Ruido es un error aleatorio o variación en el valor de un atributo, debido normalmente a errores
en la medida del mismo. A diferencia de la ausencia de valores, el ruido es más difícil de
detectar a simple vista, ya que son valores presentes en el conjunto de datos que pueden provocar
que el algoritmo de minería de datos obtenga soluciones erróneas. Para mitigar los efectos
del ruido en el aprendizaje se aplican las denominadas técnicas de suavizado (smoothing). El
método de suavizado más sencillo, conocido como binning, consiste en ordenar los valores de
un atributo y distribuir tales valores en grupos o recipientes (bins) de igual número de valores o
de igual rango, independientemente de los valores que contenga. Tras esta partición, se realiza
un tratamiento local, sustituyendo los valores de cada grupo por la media, mediana o moda de
dicho grupo. Aunque la aplicación de esta técnica suaviza los efectos del ruido, no garantiza
la eliminación del mismo, ya que un atributo puede tomar valores que no correspondan a las
características del ejemplo al que pertenece. Además, este método no corrige sólo los posibles
outliers, sino que realiza cambios en todos los valores, por lo que no es muy recomendable. Una
estrategia más apropiada es aplicar algún método de clustering para detectar los outliers y poder
tratarlos posteriormente. Una vez detectados los outliers, se elimina el ejemplo o bien se aplica
algún método de sustitución similar a los descritos para el tratamiento de valores ausentes que
introduzca al ejemplo en uno de los clusters de su misma clase.
2.7.3.
Transformación
En ocasiones, la forma en que viene dada la información originalmente no es la más adecuada
para adquirir conocimiento a partir de ella. En esas situaciones se hace necesario la aplicación
de algún tipo de trasformación para adecuar los datos al posterior proceso de aprendizaje, como,
por ejemplo, normalización o cambio de escala, discretización, generalización o extracción de
atributos. Se considera técnica de transformación aquella destinada a modificar los datos para
mejorar el proceso de aprendizaje y no a corregir errores en los mismos.
Como ejemplo de necesidad de transformación en los datos, se puede observar la situación que
se plantea a continuación. Un gran número de algoritmos de aprendizaje operan exclusivamente con espacios discretos, sin embargo, muchas bases de datos contienen atributos de dominio
2.7. Preparación de los datos
25
continuo, lo que hace imprescindible la aplicación previa de algún método que reduzca la cardinalidad del conjunto de valores que estos atributos pueden tomar, dividiendo su rango en un
conjunto finito de intervalos. Esta trasformación de atributos continuos en discretos se denomina
discretización. Menos frecuente es la transformación inversa denominada numerización.
2.7.4.
Reducción
Los investigadores dedicados al Aprendizaje Automático Supervisado, y concretamente, al estudio de algoritmos que produzcan conocimiento en alguna de las representaciones usuales
(listas de decisión, árboles de decisión, reglas de asociación, etc.) suelen realizar las pruebas
con bases de datos estándares y accesibles a toda la comunidad científica (la gran mayoría de
ellas de reducido tamaño), con objeto de verificar los resultados y validarlos con independencia.
No obstante, y una vez asentadas estas propuestas, algunos de estos algoritmos sufren modificaciones orientadas a problemas específicos, los cuales, contienen una cantidad de información
muy superior (decenas de atributos y decenas de miles de ejemplos) a la de las bases de datos de
prueba. La aplicación de tales técnicas de minería de datos es por tanto una tarea que consume
una enorme cantidad de tiempo y memoria, aun con la potencia de los ordenadores actuales,
que hace imposible la adaptación del algoritmo para solucionar el particular problema. Es conveniente, pues, aplicar técnicas de reducción a la base de datos (figura 2.5), estando orientadas
fundamentalmente hacia dos objetivos: técnicas de editado (reducción del número de ejemplos)
y técnicas selección de atributos (eliminación de aquellos atributos que no sean relevantes para
la información inherente a la base de datos). En la figura 2.6 se muestra un ejemplo donde se
puede observar los dos tipos de reducción.
Figura 2.5: Reducción de un conjunto de datos.
Editado
Las técnicas de editado tienen como objetivo reducir el número de ejemplos de un conjunto
de datos E, obteniendo un subconjunto S que contenga el mismo conocimiento que E. Para
ello se pueden seguir dos estrategias: formar S a partir de la selección o rechazo de ejemplos
contenidos en E, siendo estrictamente S ⊆ E; o bien construir S en base a prototipos [19] o reglas [30, 84], que representen grupos de ejemplos de E, aunque dichos prototipos no coincidan
26
2. Hipótesis y objetivos
Figura 2.6: Reducción de los datos en ambos sentidos: ejemplos y atributos.
con ejemplos de E. Evidentemente, la búsqueda del subconjunto S se lleva a cabo aplicando
algún tipo de heurística, ya que una búsqueda exhaustiva es impracticable por su elevado coste
computacional. Dependiendo del sentido de esta búsqueda, la técnicas de reducción de ejemplos
se clasifican en: incrementales, donde el conjunto S es inicialmente vacío y se le van añadiendo
ejemplos de E seleccionados según un determinado criterio; y decrementales, donde inicialmente S = E y se van eliminando ejemplos o generalizando éstos en reglas o prototipos. Aunque
los métodos decrementales suelen ser más costosos computacionalmente se prefieren frente a
los incrementales, debido a que estos últimos son más sensibles al orden de los ejemplos en el
conjunto E.
Existen numerosas técnicas de editado ligadas a la técnica de los vecinos más cercanos [22].
Podemos citar los trabajos de Hall [47], donde se incluye en el conjunto de prototipos aquellos
ejemplos cuya clasificación es incorrecta utilizando la técnica del vecino más cercano (1–NN);
o [97], donde elimina aquellos ejemplos cuya clasificación es incorrecta utilizando la técnica
del vecino más cercano; o [82]; o [92]; las variantes basadas en vecinos de Voronoi [58], vecinos
de Gabriel (dos ejemplos son vecinos de Gabriel si la esfera con diámetro el segmento que une
los dos ejemplos no contiene a otro ejemplo) o vecinos relativos [93] (dos ejemplos son vecinos
relativos si para todo ejemplo de la base de datos la distancia entre los dos ejemplos es menor
que la mayor de las distancias que unen a cualquier ejemplo con los dos ejemplos investigados).
Todas ellas necesitan de una distancia y en algunos casos el coste computacional es elevado. Si
consideramos m ejemplos y n atributos, las primeras citadas tienen un orden Θ(mn2 ), la técnica
de los vecinos de Voronoi tiene Θ(nm2 ), y las técnicas de los vecinos de Gabriel y vecinos
2.8. Selección atributos
27
relativos tienen Θ(mn3 ).
Un acercamiento muy distinto se realiza mediante el algoritmo denominado EPO [4] (Editado
mediante Proyección Ordenada), obteniendo una reducción importante de registros con un coste computacional inferior a los algoritmos convencionales Θ(mnlogn), sin necesidad de cálculo
de distancias. Trabaja indistintamente con atributos continuos [5] y discretos [80]. Otra aproximación diferente se presenta en [17], donde se realiza una reducción de datos basada en la
selección evolutiva de instancias.
Selección atributos
Tal como veremos en el siguiente apartado, en la selección de características se intenta escoger
el subconjunto mínimo de atributos de acuerdo con dos criterios: que la tasa de aciertos no
descienda significativamente; y que la distribución de clase resultante, sea lo más semejante
posible a la distribución de clase original, dados todos los atributos. En general, la aplicación
de la selección de características ayuda en todas las fases del proceso de minería de datos para
el descubrimiento de conocimiento.
2.8.
Selección atributos
En este apartado se hace revisión al estado del arte actual de selección de atributos, teniendo
en cuenta los estudios previos realizados por J.J. Lorenzo [67], Molina et al. [71], Larrañaga et
al. [49] y los diversos trabajos donde está presente Liu [24, 64, 65, 66].
Es un hecho que el comportamiento de los clasificadores mejora cuando se eliminan los atributos no relevantes y redundantes. La selección de los atributos relevantes se debe a la preferencia
por los modelos más sencillos frente a los más complejos. Esta preferencia ha sido utilizada con
bastante frecuencia en la ciencia moderna y tiene sus orígenes en el denominado Principio de
la Cuchilla de Occam (Occam’s Razor) [42].
La selección de atributos es un campo de investigación y desarrollo productivo desde los años
setenta, donde confluyen distintas áreas como el reconocimiento de patrones [25, 14, 87, 51],
el aprendizaje automático [15, 54, 57, 59] y la minería de datos [24, 64, 104]. Las técnicas de
selección de características se aplican en muchos entornos diferentes, como por ejemplo en la
clasificación de textos [101, 104, 41], en la recuperación de imagenes [83], en la dirección de
28
2. Hipótesis y objetivos
relaciones con clientes [72], en la detección de intrusos [63] y en Bioinformática [50, 100, 103].
Se hace constar, que el proceso de selección de atributos, además de preceder a la clasificación,
suele estar presente en las etapas previas de las principales tareas de la minería de datos, ya sean
supervisadas o no, como regresión, agrupamiento y reglas de asociación [66].
Partiendo de la premisa de que en el proceso de selección de atributos se escoge un subconjunto
de atributos del conjunto original, este proceso pretende elegir atributos que sean relevantes
para una aplicación y lograr el máximo rendimiento con el mínimo esfuerzo.
El resultado obtenido al aplicar técnicas de selección de atributos sería:
Menos datos → los clasificadores pueden aprender más rápidos.
Mayor exactitud → el clasificador generaliza mejor.
Resultados más simples → más fácil de entender.
Menos atributos → evita obtenerlos posteriormente.
Podemos concluir que la selección es efectiva en eliminar atributos irrelevantes y redundantes,
incrementando la eficiencia en las tareas de minería, mejorando el rendimiento y la comprensión
de los resultados.
Definición 2.10 (Selección de atributos) Si X es el conjunto de atributos, hacer selección de
atributos es escoger un subconjunto S ∈ P(X). P(X) es el conjunto de las partes de X, es decir,
el conjunto formado por todos los subconjuntos de elementos de X.
Existen dos aproximaciones para realizar una reducción de dimensionalidad: selección y transformación de características; ambas son técnicas de pre-procesado que se usan frecuentemente.
Aclaramos que, transformación de parámetros es el proceso a través del cual se crea un nuevo
conjunto de parámetros. Existiendo dos variantes:
Construcción de parámetros: es el proceso de descubrir información oculta sobre relaciones entre parámetros, aumentando el espacio formado por el conjunto de los atributos. Después de la construcción de parámetros, se obtienen p atributos adicionales:
Xn+1 , Xn+2 , . . . , Xn+p .
Extracción de parámetros: es el proceso de extraer un conjunto de nuevos atributos a
partir de los originales aplicando funciones. Tendremos: B1 , B2 , . . . , Bs (s < n), siendo
Bi = Fi (X1 , X2 , . . . , Xn ), donde Fi es una función.
2.8. Selección atributos
2.8.1.
29
Proceso general
La selección de atributos se puede considerar como un problema de búsqueda [87, 62] en un
espacio de estados, donde cada estado corresponde con un subconjunto de atributos, y el espacio
engloba todos los posibles subconjuntos que se pueden generar.
El proceso de selección de atributos puede entenderse como el recorrido de dicho espacio hasta
encontrar un estado (combinación de atributos) que optimice alguna función definida sobre un
conjunto de atributos.
En general, un algoritmo de selección de atributos se basa en dos pasos básicos: generación y
evaluación de subconjuntos. En la generación de nuevos subconjuntos se define un punto de
partida y una estrategia para recorrer el espacio de búsqueda hasta que se cumpla un criterio de
parada.
Existen bastantes referencias de trabajos relacionados con la selección de atributos, pero además, se han realizado estudios sobre diversos aspectos de la selección de atributos (técnicas de
búsqueda, medidas de bondad de los atributos, etc.) donde se agrupan los distintos algoritmos
existente en la bibliografía general: Langley [62], Blum y Langley [15], Doak [28, 29] y Liu et
al. [24, 64, 66].
Generación de subconjuntos
Todo proceso de selección de atributos tiene un punto de partida, que puede ser el conjunto
completo de atributos, el conjunto vacío o cualquier estado intermedio. Tras evaluar el primer
subconjunto, se examinarán otros subconjuntos generados según una dirección de búsqueda
(hacia adelante, hacia atrás, aleatoria o cualquier variación o mezcla de las anteriores). El proceso terminará cuando recorra todo el espacio o cuando se cumpla una condición de parada,
según la estrategia de búsqueda seguida.
Se entiende por dirección de búsqueda, la relación entre los atributos de un subconjunto con el
siguiente, al realizar el recorrido a través del espacio de búsqueda.
30
2. Hipótesis y objetivos
Estrategia de búsqueda
Para una base de datos con n atributos, existen 2n subconjuntos candidatos. Una búsqueda exhaustiva en este espacio es totalmente ineficiente, incluso para bases de datos pequeñas, siendo
necesario el uso de diferentes estrategias para atajar este problema. Existen tres tipos de estrategias de búsqueda según Liu et al. [66]: completa, secuencial y aleatoria.
2.8.2.
Medidas de evaluación de atributos
El conjunto óptimo es siempre relativo a un criterio de evaluación, es decir, un subconjunto
óptimo elegido según una medida de evaluación no tiene porque ser el mismo al usar otra
distinta. Sin embargo, en la práctica, se comprueba con cierta frecuencia que si un atributo es
relevante aparece en subconjuntos escogidos según distintas funciones de evaluación.
Medidas de distancia Estas medidas estiman la capacidad de un subconjunto de atributos en
separar las clases. Utilizando este tipo de medida se intenta seleccionar aquellos atributos
que hacen que los ejemplos de la misma clase estén más juntos y los de diferente clase
más separado. Ejemplos de medidas de distancia son: Euclidea, Manhattan, Mahalanobis,
Bhattaacharya, Kullback-Liebler, Kolmogorov, Chernoff, etc.
Medidas de información Se basan en la ganancia de información de un atributo. Entre las
medidas de información más frecuentes se encuentran: la entropía de Shannon, de Renyi,
de grado α, cuadrática, estrictamente cóncava y de Daroczy, MDLC e información mutua.
Medidas de dependencia El coeficiente de correlación es una medida de dependencia clásica que se utiliza para calcular la correlación entre un atributo y la clase, prefiriéndose
aquellos atributos con mayor correlación. Otro enfoque consiste en determinar la dependencia de un atributo de otros, donde el valor resultante indica el grado de redundancia
del atributo [14].
Medidas de consistencia Se caracterizan por su fuerte dependencia del conjunto de entrenamiento [7]. Estas medidas intentan extraer el subconjunto mínimo que satisfaga una tasa
de inconsistencia aceptable, establecida normalmente por el usuario. Existe un problema
al usar este criterio en bases de datos con un atributo que identifique individualmente cada instancia (DNI, número seguridad social,...) al no existir inconsistencia en los datos.
Obviamente, este atributo sería irrelevante para los algoritmos de inducción. El problema
2.9. Objetivos
31
se puede solucionar dejando dicho atributo fuera del proceso de selección si está identificado, o ejecutando una vez el algoritmo para identificarlo y posteriormente para elegir el
subconjunto.
Medidas de exactitud En aprendizaje supervisado, el principal objetivo de un clasificador es
maximizar la exactitud en la predicción de nuevos ejemplos, esto hace que la exactitud
sea aceptada y muy utilizada como medida de evaluación.A los método que utilizan este
tipo de medida se les denomina envoltorios (wrappers), y filtros a los demás.
2.8.3.
Conclusiones y tendencias
Además de definir el concepto de selección y de analizar su proceso, se ha clasificado y descrito
los clasificadores más representativos. La forma de evaluar y comparar los algoritmos indicada
en este capítulo se tendrá en cuenta a lo largo del presente documento.
Recientemente los datos se han incrementado más y más en ambos sentidos (número de instancias y de atributos) en todas las áreas del conocimiento humano. Esta gran cantidad de datos
causa serios problemas a muchos algoritmos de minería de datos con respecto a la escalabilidad
y al rendimiento. Por ejemplo, bases de datos con cientos o miles de atributos, pueden contener
un alto grado de información irrelevante y/o redundante con lo que se degradaría el rendimiento
de un algoritmo de minería.
Se puede concluir que la selección de atributos permite mejorar la precisión e interpretabilidad
de los métodos de aprendizaje automático, además de reducir el tamaño de la base de datos y el
tiempo de los algoritmos de aprendizaje. Además, para diferentes aplicaciones puede convenir
distintos algoritmos de selección de características. Es importante no olvidar que la selección
de atributos es un campo dinámico, estrechamente conectado a la minería de datos y a otras
técnicas de preprocesamiento.
2.9.
Objetivos
El presente trabajo de investigación tiene como objetivo el estudio de las diferentes técnicas
de minería de datos existentes que se pueden utilizar para extraer conocimiento útil de datos
relativos a objetos celestes provenientes de observaciones astronómicas. Nos centraremos, fundamentalmente, en las técnicas de clasificación, cuya aplicación a datos de origen astronómico
32
2. Hipótesis y objetivos
ha sido bastante escasa hasta la fecha. Como objetivo secundario este trabajo incluye el estudio
de métodos de selección de atributos y su aplicación a datos de origen astronómico. La finalidad
de este trabajo de investigación, por tanto, consiste en clasificar objetos celestes y en identificar
las características más relevantes para su clasificación.
Capítulo 3
Trabajos relacionados
3.1.
Introducción
El Sloan Digital Sky Survey (SDSS) [102, 36, 1, 3] es una ambicioso estudio del espacio que
comenzó en el año 2000 con el objetivo de crear el mapa cósmico tridimensional más grande obtenido hasta el momento. Para tal fin se utiliza el telescopio de 2.5 metros de diámetro
denominado SDSS [53], situado a 2788 metros sobre el nivel del mar en el Apache Point Observatory de Sunspot de Nuevo México, Estados Unidos. Este telescopio observará una cuarta
parte del cielo en detalle y medirá las posiciones y brillos absolutos de cientos de millones de
objetos celestes así como las distancias de más de un millón de galaxias, estrellas y cuásares.
La cantidad de información que generará este proyecto está etimada en 15 terabytes.
En 2005 se completó la primera fase del proyecto, que consistió en observar regiones de alta
latitud galáctica del hemisferio Norte y tres franjas del hemisferio Sur. Tras el éxito de la primera
fase, se inicó una segunda, que finalizó en 2008, en la que aparte de continuar con la labor
original (The Sloan Legacy Survey) se ampliaron a dos inspecciones adicionales:
SEGUE (the Sloan Extension for galactic Understanding and Exploration): inspeccionó
una región del cielo de 3500 grados cuadrados. Tenía el objetivo de posibilitar el estudio
de la estructura y evolución de la vía láctea.
The Sloan Supernova Survey: campaña de 3 meses en la que se observó, en repetidas
ocasiones, una región de 300 grados cuadrados de la región Sur con objeto de descubrir
supernovas.
33
34
3. Trabajos relacionados
En la actualidad se está en una tercera fase del proyecto que abarcará hasta el 2014. Esta tercera
fase tiene como objetivo profundizar en el conocimiento de los siguientes temas:
Energía oscura y parámetros cosmológicos.
Estructura, dinámica y evolución química de la vía láctea.
Arquitectura de sistemas planetarios.
3.1.1.
Definiciones
A continuación pasamos a definir los conceptos básicos y relevantes para este trabajo:
Definición 3.1 Sensor CCD: “Charge Coupled Device” o Dispositivo de Carga Acoplada. Dispositivo electrónico que registra fotones (luz) generando una imagen a partir de éstos. El sensor
CCD es un circuito integrado compuesto por células fotosensibles dispuestas en forma matricial. Cada una de estas células transforman la cantidad de energía incidida (número de fotones
registrados) en corriente eléctrica. Esta corriente eléctrica será procesada por la electrónica
del dispositivo, generando el valor asociado a un píxel. De esta forma, la composición del valor
de todas las células fotosensibles conformarán una imagen.
Definición 3.2 Cámara CCD: Equipo electrónico empleado para capturar imágenes mediante
uno o más sensores CCD.
Definición 3.3 TDI (Time Delay and Integration): Modo de integración y lectura de sensores
CCD que permite la adquisición de imágenes de objetos en movimiento.
Definición 3.4 Filtro óptico: Medio que sólo permite el paso a través de él de luz con ciertas
propiedades, suprimiendo o atenuando la luz restante. Según el rango de frecuencias que dejen
sin filtrar, los filtros ópticos se clasifican en:
Paso alto: permite el paso de radiación por encima de una determinada frecuencia de
corte.
Paso bajo: permite el paso de radiación por debajo de una determinada frecuencia de
corte.
35
3.1. Introducción
Paso banda: permite el paso de radiación en una región de frecuencias determinada por
dos frecuencias de corte.
Rechazo banda: realiza el efecto contrario al anterior, es decir, no deja pasar la radiación
en una región de frecuencias determinada por dos frecuencias de corte.
La respuesta de un filtro se caracteriza por su curva de respuesta en frecuencia (ver figura 3.1),
que indica la forma en que las diferentes frecuencias son atenuadas o amplificadas al atravesar
el filtro.
Figura 3.1: Respuesta en frecuencia de los diferentes tipos de filtros.
Definición 3.5 FWHM (Full Width at Half Maximum): Parámetro característico de los filtros paso banda que representa el rango de longitudes de onda que no son filtradas (figura
3.2).
Este parámetro se obtiene como resultado de la diferencia de las longitudes de onda a media
altura del máximo de la curva de respuesta del filtro. Para el caso de la figura 3.2 tendríamos
FWHM = x2 − x1 (expresadas en unidades de longitud de onda).
Definición 3.6 Fotometría: Rama de la astronomía encargada de medir el brillo de los astros.
Dicho brillo se mide en magnitudes, cuya escala es inversamente porporcional al brillo del
astro. Es decir, a mayor magnitud, menor brillo.
36
3. Trabajos relacionados
Figura 3.2: Filtro óptico paso banda
Definición 3.7 Astrometría: Rama de la astronomía dedicada al estudio de la posición, paralajes y movimientos propios de los astros.
Definición 3.8 Espectrometría: Estudio del espectro de la radiación electromagnética asociada a un astro. Permite medir ciertas propiedades como la composición química y el movimiento.
Definición 3.9 Espectro: Distribución energética en un rango de longitudes de onda asociada
a un astro.
Definición 3.10 Espectrógrafo: Instrumento óptico usado, generalmente, para medir la intensidad de la luz emitida por una fuente a diferentes longitudes de onda. El espectrograma resultante suele denominarse espectro, y suele registrarse en un sensor CCD o placa fotográfica.
Definición 3.11 Coordenadas galácticas: Es un sistema de coordenadas celestes centrada en
el sol y alineada con el centro aparente de la Vía Láctea. El “ecuador” está alineado con el
plano de la galaxia. El sistema de referencia gira con el Sol alrededor de la galaxia.
Las coordenadas son la longitud galáctica (l) y la latitud galáctica (b).
La longitud galáctica se mide sobre el plano de la misma, en sentido antihorario a partir
de la línea que une al Sol con el centro de la galaxia (0◦ ≤ l ≤ 360◦ ).
La latitud galáctica es el ángulo que forma el objeto con el plano de la galaxia. Se mide
en grados positivos al norte y negativos al sur (-90◦ ≤ b ≤ 90◦ ).
3.1. Introducción
37
Definición 3.12 Formato de ficheros FITS [43]: FITS o Flexible Image Transport System es
el formato de archivo más utilizado en el mundo de la astronomía para almacenamiento de
imágenes, aunque a menudo es utilizado para almacenar también datos que no son imágenes,
tales como, espectros electromagnéticos.
Un fichero FITS puede contener varias extensiones, y cada una de ellas puede contener datos
de un objeto. Por ejemplo, es posible almacenar imágenes de rayos X y también imágenes
pertenecientes al infrarrojo en el mismo archivo FITS.
Más información y utilidades para el procesamiento de los ficheros FITS puede ser obtenida en
http://fits.gsfc.nasa.gov/
Definición 3.13 WEKA (The Waikato Environment for Knowledge Analysis): Es una colección de algoritmos de aprendizaje automático escritos en java para tareas de minería de
datos [99]. Weka fue desarrollado y está siendo mantenido por la Universidad de Waikato bajo
licencia GNU-GPL.
3.1.2.
Análisis espectral
Si se hace pasar la luz del Sol a través de un prisma (fig. 3.3) ésta se descompone en una gama
de colores similares a los que pueden observarse en un arco iris (rojo, anaranjado, amarillo,
verde, azul, añil y violeta). A esta gama de colores se le da el nombre de espectro de la luz
visible. El arco iris es un espectro natural producido por fenómenos meteorológicos. Pero, en
términos generales, el espectro es toda la gama de radiaciones electromagnéticas, que va desde
los rayos gamma a las ondas radio. La primera explicación correcta de este fenómeno la dio en
1666 el matemático y físico británico Isaac Newton.
La luz blanca produce al descomponerla lo que llamamos un espectro continuo, que contiene
el conjunto de colores que corresponde a la gama de longitudes de onda que la integran. Sin
embargo, los elementos químicos en estado gaseoso y sometidos a temperaturas elevadas producen espectros discontinuos en los que se aprecia un conjunto de líneas que corresponden a
emisiones de sólo algunas longitudes de onda. El conjunto de líneas espectrales que se obtiene
para un elemento concreto es siempre el mismo, incluso si el elemento forma parte de un compuesto complejo, debido a que cada elemento produce un espectro diferente al de cualquier otro
elemento. Esto significa que cada elemento tiene su propia firma espectral.
Existen dos tipos de espectros:
38
3. Trabajos relacionados
Figura 3.3: Dispersión de la luz en un prisma.
Espectro de emisión. Son las radiaciones emitidas por un elemento, en estado gaseoso, cuando
se le comunica energía. Así, por ejemplo, si colocamos un tubo con hidrógeno al calentarlo a altas temperaturas emitirá radiación. Si esta radiación se hace pasar a través de un
prisma de cuarzo obtendremos a su salida una imagen compuesta por la gama de colores
que componía la radiación original (fig. 3.4(a)).
Espectro de absorción. Al atravesar la radiación un gas se produce la absorción de una parte del espectro. El resultado es su espectro característico de absorción, donde faltan las
bandas absorbidas (fig. 3.4(b)).
(a)
(b)
Figura 3.4: Espectros de emisión (a) y de absorcion (b) del hidrógeno.
El análisis espectral permite detectar la absorción (espectros de absorción) o emisión (espectros
de emisión) de radiación electromagnética a ciertas longitudes de onda, y relacionar éstas con
los niveles de energía implicados en una transición cuántica de un átomo.
3.1. Introducción
39
Los astros emiten ondas electromagnéticas. A partir de estas ondas electromagnéticas se realiza
un análisis espectral con la ayuda de un espectroscopio. Por otra parte, como se conocen los
espectros asociados a los diferentes elementos químicos e isótopos, éstos sirven de patrones
que permiten analizar los espectros de los cuerpos celestes y extraer toda la información que
contienen, denominándose a este estudio análisis espectral.
Entre la emisión de ese espectro por los átomos excitados por el calor de la estrella y su recepción en la Tierra interviene otro fenómeno. Cada vez que una radiación emitida encuentra,
durante su propagación en la misma atmósfera de la estrella, un vapor que contiene átomos del
mismo elemento, es absorbida por uno de éstos. Por consiguiente, en el espectro de aquella estrella que se obtendrá en la Tierra cada una de las posiciones correspondientes a las longitudes
de onda interceptadas quedará falto de luz y en él aparecerá una raya oscura. Así, en lugar del
espectro de emisión se obtendrá un espectro de absorción que contendrá en forma de rayas las
huellas de todos los elementos químicos existentes en la atmósfera del astro.
En muchos casos, el interior de una fuente está a mayor temperatura que el exterior. El interior
produce un espectro de emisión de líneas anchas, y en el exterior se genera un espectro de
absorción, con líneas más estrechas al estar más frío. El resultado global para cada línea es una
zona brillante con un centro oscuro.
Fraunhofer y Angelo Secchi estuvieron entre los pioneros de la espectroscopia del Sol y otras
estrellas. Se recuerda especialmente a Secchi por clasificar las estrellas en tipos espectrales,
basándose en el número y fuerza de las líneas de absorción de su espectro.
3.1.3.
Corrimiento al rojo
Un espectro de un cuerpo celeste, además de indicar la composición química de la fuente luminosa y el estado físico de su materia, da información sobre si el cuerpo luminoso y la Tierra se
acercan o se alejan entre sí, y con la velocidad relativa a la que lo hacen (efecto Doppler-Fizeau).
Cuando la fuente de radiación se acerca al observador o se aleja de él, se produce un desplazamiento de la posición de las líneas espectrales. Este desplazamiento de las longitudes de onda,
conocido como efecto Doppler, permite medir con bastante precisión la velocidad relativa de
cualquier fuente de radiación. En general, si todas las líneas del espectro de una estrella se desplazan hacia el rojo, la estrella se está alejando de la Tierra, y la velocidad de alejamiento puede
calcularse a partir de la magnitud del desplazamiento de las líneas. Por el contrario, si la estrella
se está acercando a la Tierra, su espectro se desplaza hacia el violeta. El desplazamiento hacia
40
3. Trabajos relacionados
el rojo observado en los espectros de las galaxias indica que el Universo se está expandiendo.
La gráfica 3.5 muestra un ejemplo del espectro de absorción de la luz de una estrella. Las dos
líneas negras corresponden a luz que fue absorbida por átomos en la atmósfera de la estrella. El
primer espectro corresponde a una estrella en reposo relativo a nosotros que observamos desde
la Tierra. El segundo espectro corresponde a una estrella que se aleja de nosotros. Note como
las líneas del espectro se corren hacia el rojo.
Figura 3.5: Efecto de la velocidad relativa sobre los espectros.
3.2.
Instrumentación del SDSS
El SDSS usa un telescopio de 2.5 metros equipado con una cámara de 120 megapíxeles capaz de capturar imágenes ópticas que cubren un área de cielo de 1.5 grados cuadrados y dos
espectrógrafos alimentados mediante fibra óptica para medir espectros.
3.2.1.
Cámara
La cámara [52] del SDSS consta de 54 sensores CCD; 30 destinados a fotometría, 22 a astrometría y 2 a labores de enfoque. En la figura 3.6 puede verse la disposición de estos sensores en
la cámara.
Los sensores CCD de fotometría son de tipo SITe/Tektronix con una resolución de 2048 × 2048
píxeles de 24ηm cada uno.
La imágen digital que el CCD almacena consiste en un array de píxeles. Cada registro del array
incluye la coordenada x e y del píxel, y el número de fotones que incidieron en el pixel durante
el tiempo de exposición de la cámara. Un software de procesado de imágenes lee los datos y
asignan a cada píxel un tono de gris (o de color) dependiendo del número de fotones registrado.
3.2. Instrumentación del SDSS
41
Figura 3.6: Disposición de los sensores CCD en la cámara principal del SDSS. Los
30 sensores destinados a fotometría están situados en la zona central; los 22 de astrometría están distribuidos en dos hileras de 12 situados en la zona superior e inferior
(representados en color gris claro) y los 2 de enfoque están centrados, uno en cada
zona (representados en color gris claro).
Filtros
Cada fila de CCDs de la cámara del SDSS observa el cielo a través de un filtro diferente de
color, denominados r, i u, z, g [52]. En la figura 3.7 se muestra la disposición de los filtros
superpuestos sobre las filas de CCDs de la cámara del SDSS.
Los filtros utilizados en el SDSS se corresponden con los colores ultravioleta (u; ultraviolet),
verde (g; green), rojo (r; red), cerca del infrarrojo (i; near-infrared) e infrarrojo (z; infrared) [52]. Estos filtros están diseñados para permitir pasar un rango específico de longitudes
de onda (filtros paso banda). Sin embargo la sensibilidad del filtro no es homogénea; con lo que
se suele hacer uso de una curva de respuesta que muestra la transmitancia de la radiación a lo
largo de las distintas longitudes de onda.
La figura 3.8 muestra la curva de respuesta de estos cinco filtros y la tabla 3.1 la información
relativa al pico de máxima transmisión de la curva de respuesta, el ancho de banda del espectro
y la longitud de onda promedio de cada filtro [94].
42
3. Trabajos relacionados
Figura 3.7: Imagen de los filtros colocados sobre la cámara del SDSS.
pico (Å)
FWHM (Å)
<λ>(Å)
u
3500
600
3551
g
4800
1400
4686
r
6250
1400
6165
i
7700
1500
7481
z
9100
1200
8931
Tabla 3.1: Máximo de transmisión y ancho banda de filtros u, g, r, i, z.
La disposición matricial de los filtros en seis columnas de cinco filas (una por cada filtro óptico),
permite que al operar en modo TDI se tomen imágenes de una fuente en los cinco filtros casi
simultaneamente (transcurren 5 minutos entre la captura en el primer filtro (r) y el último (g)).
De esta forma, para cada fuente se tendrán cinco imágenes (una por cada filtro).
En astrofísica, dependiendo del tipo de fuente, emitirá en mayor medida en un rango u otro de
energía. De esta forma, las cinco imágenes anteriores podrán ser utilizadas para realizar una
primera discriminación sobre tipo de objeto celeste observado.
3.2.2.
Espectrógrafos
El SDSS consta de dos espectrógrafos conectados a 320 fibras (fiber) ópticas; lo que permite que
se tomen 640 espectros a la vez. Dos láminas (plate) de Aluminio con 320 perforaciones cada
una fija las localizaciones de donde se medirán los espectros. Para las observaciones, se sitúan
las láminas sobre una montura que se coloca sobre el telescopio. Las fibras, conectadas a las
láminas, transportan la luz proveniente de la fuente hasta los espectrógrafos. Cada espectrógrado
registra el espectro en dos sensores CCD de tipo SITe/Tektronix con una resolución de 2048 ×
2048 píxeles; uno para cubrir el rango de longitudes de onda azules (de 3800Å a 6150Å) y otro
3.2. Instrumentación del SDSS
43
Figura 3.8: Curva de respuesta de los filtros ópticos utilizados en el SDSS.
para cubrir el rango de longitudes de onda rojas (de 5800Å a 9200Å). El uso de dos canales por
espectro permite incrementar la resolución de las medidas. En la figura 3.9 puede verse parte de
la isntrumentación dedicada a la toma de espectros.
Figura 3.9: Las fibras (fibers), conectadas a la lámina (plate) de Aluminio, transportan
la luz de la fuente a una rendija donde hace incidir el espectro sobre el espectrógrafo.
La primera observación espectrográfica fue presentada por Castander et al. [18]. Mediante estos
espectrógrafos el SDSS estudiará todos los cuerpos celestes de magnitud 17,8 o más brillante
captados por la cámara. En la figura 3.10 se observan las imagenes captada por la cámara y el
espectro asociado a la misma de tres tipos de cuerpos celestes diferentes.
44
3. Trabajos relacionados
(a)
(b)
(c)
Figura 3.10: Imágenes tomadas por la cámara del SDSS y espectros asociados:
(a) Galaxia espiral NGC 5750 (MJD=51662, Plate=308 y Fiber=191) (b) Quásar
(MJD=51630, Plate=266 y Fiber=190) (c) Estrella (MJD=51900, Plate=390 y Fiber=115).
3.3. Cobertura del cielo
3.3.
Cobertura del cielo
3.3.1.
Cobertura fotométrica
45
Como puede verse en la figura 3.11, el SDSS se mueve describiendo círculos grandes de latitud
constante delimitados a cierta longitud. La región de cielo a cubrir por el SDSS está dividida en
franjas denominadas stripe de ancho 2.53◦ . Para cubrir el ancho de una franja se requieren dos
observaciones, de modo que cubran los huecos que hay entre los CCDs.
Figura 3.11: Cobertura del cielo del SDSS en coordenadas galácticas. La región a
observar está estructurada en franjas (stripe) de 2◦ .53 de ancho que se solapan. Cada
franja describe un movimiento circular a una latitud contante.
Un escaneo de una franja de cielo es denominado run. El stripe surge de unir dos runs, los
cuales consisten en 6 camcols (camera columns); una por cada columna de sensores CCD. Las
columnas a su vez se dividen en fields, los cuales constan de 2048 píxeles de ancho por 1489
píxeles de largo. Por tanto, habrá regiones de cielo que se solapen y por tanto sean observadas
dos o más veces. Entre dos fields hay un solape de 128 píxeles en la dirección de escaneo. En la
figura 3.12 puede verse un esquema de una franja de observación (stripe).
3.3.2.
Cobertura espectroscópica
Cada espectrógrafo tiene 320 fibras; de modo que se pueden tomar medidas de 640 espectros a
la vez. Debido a la limitación del diámetro de estas fibras, los espectrógrafos no pueden tomar,
al mismo tiempo, espectros de dos objetos situados a una distancia inferior a 55 segundos de
46
3. Trabajos relacionados
Figura 3.12: Esquema de una franja de observación (stripe). Cada stripe consiste en
un par de runs. Cada run está compuesto de 6 camcols (una por columna de la cámara
fotométrica), los cuales se dividen en varios fields que se solapan entre sí.
arco. Para evitar conflictos de selección de fuentes se aplica una regla de selección que puede
verse en Stoughton et al. [36].
3.4.
Extracción de datos
La cámara del SDSS obtiene imágenes en alta resolución del cielo. A partir de estas imágenes,
un avanzado software de procesamiento de imágenes mide la forma, brillo y color de los objetos celestes. Posteriormente, de los objetos celestes detectados se obtienen los espectros de
radiación asociados y se realiza una rápida clasificación de los mismos.
Como resultado del estudio astronómico realizado por el SDSS se van a generar dos tipos de
datos:
Datos fotométricos: son medidas que se toman a partir de la imagen de una fuente. La principal medida es la magnitud, cuyo valor varía en función de la distancia y viene afectado de
la absorción interestelar, con lo que suele denominarse magnitud aparente. Otra magnitud
fotométrica es el tamaño de la fuente.
Datos espectroscópicos: son el conjunto de medidas que se toman a partir del espectro de una
fuente. A partir de estos datos puede extraerse el tipo espectral y el desplazamiento al
rojo.
47
3.4. Extracción de datos
De cada imagen procesada se almacenan dos versiones diferentes debido a que el software de
procesamiento de datos ha sufrido cambios sustanciales desde el inicio del estudio. Primeramente, se almacena la versión de los datos tal como fueron obtenidos por la cámara CCD y
por los espectrógrafos. Esta base de datos es denominada TARGDR1, donde DR1 designa el
número de versión: Data Release 1 (la versión más reciente de la base de datos es la 7, DR7
[55]). Una vez los datos han sido procesados con la mejor versión disponible de software, estos
objetos son almacenados en la base de datos BESTDR1. El esquema de las dos bases de datos
es idéntico.
En la tabla 3.2 puede verse las diferentes versiones de la base de datos del SDSS, se indican su
fecha de creación, tamaño y el número de imágenes y de espectros almacenados [55, 91].
Versión
Fecha
DR1
DR2
DR3
DR4
DR5
DR6
DR7
Junio 2003
Marzo 2004
Septiembre 2004
Junio 2005
Junio 2006
Junio 2007
Marzo 2009
Tamaño
(catálogo)
1 Tbyte
2 Tbyte
3 Tbyte
4 Tbyte
5 Tbyte
6 Tbyte
8 Tbyte
No imágenes
(millones)
53
88
141
180
215
287
357
No espectros
(miles)
186
330
478
608
738
1270
1630
Tabla 3.2: Versiones del catálogo de datos del SDSS.
Los datos obtenidos por el SDSS pueden ser accedidos de dos formas diferentes:
Mediante el acceso al Servidor de Archivos de Catálogo de datos (CAS, Catalog Archive
Server). El entorno de trabajo que provee el SDSS para trabajar con CAS se denomina CasJobs (Catalog Archive Server Jobs System) y es accesible a través de la URL
(http://casjobs.sdss.org/CasJobs/). En este entorno de trabajo se podrán realizar cuantas
consultas SQL se deseen sobre el repositorio (figura 3.13).
Mediante la descarga de ficheros de imágenes y datos en formato FITS. Los ficheros de
imágenes y datos en formato FITS están disponibles en el Servidor de Datos de Archivos
(DAS, Data Archive Server ) cuya URL es (http://das.sdss.org/).
3.4.1.
Repositorio de datos científicos
El repositorio de datos científico del SDSS está almacenado en el CAS mediante el sistema
gestor de bases de datos SQL Server de Microsoft [9]. El acceso a este repositorio se realiza a
través de la web mediante CasJob.
48
3. Trabajos relacionados
Figura 3.13: Entorno de trabajo CasJob.
El esquema de la base de datos se puede subdividir en cuatro grupos interrelacionados entre sí
(figura 3.14):
Photo: Estas tablas contienen datos fotométricos. En las observaciones fotométricas se obtienen un conjunto de tablas que describen los millones de objetos celestes detectados por la
cámara del SDSS. La tabla más importante de este grupo es la PhotoObjAll, la cual contiene objetos astonómicos identificados por el procesado software de las imágenes captadas por el telescopio SDSS. Para aquellos objetos que han sido varias veces observados y
procesados, la mejor observación es marcada como primary, el resto de observaciones se
marcan como secundary, si poseen la suficiente calidad como para ser tratadas científicamente, o como family, en cualquier otro caso. Esta tabla es la más grande del catálogo del
SDSS, conteniendo el 80 % del volumen de datos de la base de datos. Los objetos primarios y secundarios pueden ser accedidos también a través de la vista PhotoObj creada a
partir de PhotoObjAll.
Spectro: Estas tablas contienen datos espectroscópicos. Los datos obtenidos de las observaciones fotométricas son usados para seleccionar objetivos para el estudio espectroscopio,
de forma que para cada uno de los objetos celestes seleccionados se obtiene el espectro
asociado. La tabla principal de este grupo es SpecObjAll, la cual es análoga a la tabla
PhotoObjAll pero con datos relativos a espectros en lugar de relativos a imágenes. Análogamente a la vista PhotoObj existe la vista SpecObj, la cual contiene el mejor espectro
asociado a cada objeto celeste almacenado en PhotoObj.
3.4. Extracción de datos
49
Region: Estas tablas contienen información acerca de la geometría espacial del estudio astronómico llevado a cabo por el SDSS.
Meta: Existen también un conjunto de datos denominados metadatos que se generan al documentar los atributos, tablas, el histórico del proceso de almacenamiento de los datos y el
mantenimiento de la interfaz web.
50
3. Trabajos relacionados
Figura 3.14: Esquema de la base de datos DR7 del SDSS.
51
3.4. Extracción de datos
3.4.2.
Tipos de objetos celestes
El SDSS realiza tres clasificaciones diferentes de los objetos celestes:
Una primera clasificación morfológica de los objetos celestes captados por la cámara del
telescopio SDSS. Los resultados son guardados en el atributo type (tabla 3.3) de la tabla
PhotoObjAll.
Mediante un procesado software de los espectros obtenidos de la observación astronómica se realiza una primera clasificación espectral de los diferentes objetos celestes. El
resultado de la clasificación es almacenado en el atributo specClass (tabla 3.4) de la tabla
SpecObjAll.
A partir de los espectros se realiza una segunda clasificación que determina subgrupos
de objetos celestes observados. Los valores obtenidos son almacenados en el atributo
objType (tabla 3.5) de la tabla SpecObjAll.
La clasificación realizada por el SDSS de los objetos celestes a partir de los espectros obtenidos (atributo specClass) implica una mayor rigurosidad que la realizada a partir de las imágenes
(atributo type) y la realizada a partir de los espectros para obtener los subgrupos de objetos (atributo objType). Por tanto, para el presente estudio de investigación vamos a utilizar el atributo
specClass como etiqueta de los diferentes registros.
Nombre
UNKNOWN
COSMIC_RAY
DEFECT
Valor
0
1
2
GALAXY
GHOST
3
4
KNOWNOBJ
5
STAR
TRAIL
SKY
NOTATYPE
6
7
8
9
Descripción
Tipo de objeto no conocido
Traza de rayo cósmico (no utilizado)
El objeto es causado por un defecto en el telescopio o
procesado software (no utilizado)
Galaxia
Objeto creado por un reflejo o luz refractada (no utilizado)
Objeto proveniente de otro catálogo diferente del catálogo SDSS (no utilizado)
Estrella
Rastro de un satélite o meteorito
Ningún objeto en el área
No definido
Tabla 3.3: Clasificación morfológica realizada por el SDSS de los objetos celestes
según el atributo type.
52
Nombre
UNKNOWN
STAR
GALAXY
QSO
HIZ_QSO
SKY
STAR_LATE
GAL_EM
3. Trabajos relacionados
Valor
0
1
2
3
4
5
6
7
Descripción
Espectro no clasificable
Espectro de una estrella
Espectro de una galaxia
Espectro de un quásar
Espectro de un quásar con elevado desplazamiento al rojo (z>2.3)
Espectro de cielo en blanco
Tipo de estrella dominada por bandas moleculares M o tardía.
Tipo de galaxia cuyo espectro presenta líneas de emisión muy estrechas e intensas.
Tabla 3.4: Clasificación espectral según el atributo specClass.
Nombre
GALAXY
QSO
SPECTROPHOTO_STD
HOT_STD
ROSAT_A
ROSAT_B
ROSAT_C
ROSAT_D
SERENDIPITY_BLUE
SERENDIPITY_FIRST
SERENDIPITY_RED
SERENDIPITY_DISTANT
STAR_BHB
SERENDIPITY_MANUAL
QA
SKY
NA
STAR_PN
STAR_CARBON
STAR_BROWN_DWARF
STAR_SUB_DWARF
STAR_CATY_VAR
STAR_RED_DWARF
STAR_WHITE_DWARF
REDDEN_STD
Valor
0
1
10
11
12
13
14
15
16
17
18
19
2
20
21
22
23
24
3
4
5
6
7
8
9
Tabla 3.5: Clasificación de los objetos celestes según el atributo objType.
3.5. Estado del arte de la minería de datos aplicada a datos astronómicos
3.5.
53
Estado del arte de la minería de datos aplicada a datos
astronómicos
El presente trabajo de investigación se ha centrado en el estudio astronómico desarrollado por
el SDSS. Sin embargo existen una variedad de estudios astronómicos del mismo tipo, tales
como 2MASS (the Two Micron All Sky Survey), DENIS (the Deep Near Infrared Survey),
DIVA (Double Interferometer for Visual Astrometry) y GAIA. Todos ellos generan cantidades
de datos del orden de terabytes o petabytes. Por tanto, analizar de forma automatizada esta
cantidad de datos es una tarea importante para los astrónomos. Para afrontar esta necesidad se
han desarrollado diferentes métodos, por ejemplo:
Redes Neuronales (NN). Se han empleado para clasificación espectral de estrellas [89], para
medidas físicas de espectros estelares [11], para clasificación espectral de galaxias [88],
para clasificación morfológica de galaxias [2, 90], para discriminación de estrellas y galaxias en imágenes digitalizadas [73], para estimación rápida de parámetros cosmológicos
[10] y para diferenciar quásares de estrellas [106].
Máquinas de Vectores Soporte (SVMs). Han sido aplicados a clasificación automática [105,
104], detección de objetos [75], identificación de variables rojas [96] y estimación del
corrimiento al rojo [95].
Árboles de decisión. Fueron aplicados para construir un sistema en línea para clasificación
automatizada de fuentes de rayos X [69] y para clasificación de estrellas-galaxias [12].
3.6.
Experimentación
Los datos de identificación, los valores de los filtros u, g, r, i, z y el tipo (valor del atributo
specClass) de los diferentes cuerpos celestes se han obtenido mediante el entorno de trabajo
CasJob, realizando una consulta que incluye una unión entre la tabla de imágenes (PhotoObj) y
la de espectros (SpecObj) (ver tabla 3.6). El significado de los diferentes atributos se recoge en
la tabla 3.7. Cada registro queda identificado de forma única mediante el atributo objID.
54
3. Trabajos relacionados
SELECT p.objID,s.specObjID,
p.b, p.l,
p.u, p.g, p.r, p.i, p.z,
p.run, p.rerun, p.camcol, p.field,
s.plate, s.mjd, s.fiberID,
s.z,
s.specClass
FROM
PhotoObj AS p, SpecObj AS s
WHERE
s.bestobjid = p.objID
AND p.b BETWEEN 20 AND 30
AND p.l BETWEEN 200 AND 210
AND s.z<=1.5
Tabla 3.6: Consulta SQL para obtener datos de experimentación.
Tabla
PhotoObj
Atributo
objID
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
PhotoObj
specObjID
b
l
u
g
r
i
z
run
rerun
PhotoObj
PhotoObj
SpecObj
SpecObj
SpecObj
SpecObj
SpecObj
camcol
field
plate
mjd
fiberID
z
specClass
Descripción
Valor único utilizado en el SDSS para identificar los objetos celestes. Está compuesto por los campos: skyVersion,
rerun, run, camcol, field, obj.
Identificador del espectro asociado al objeto celeste.
Latitud galáctica.
Longitud galáctica.
Energía captada en la banda u.
Energía captada en la banda g.
Energía captada en la banda r.
Energía captada en la banda i.
Energía captada en la banda z.
Identificador de pasada.
Identificador de reprocesado de pasada. La imagen de la
zona del espacio es la misma, pudiendo ser diferente la
versión del software de procesado o la calibración.
Identificador de columna de CCDs de la cámara.
Identificador de campo.
Identificador de plato.
MJD (Modified Julian Date) de la identificación.
Identificador de fibra óptica.
Desplazamiento al rojo estimado.
Clasificación espectral (ver tabla 3.4).
Tabla 3.7: Atributos que intervienen en la consulta SQL de la tabla 3.6.
55
3.6. Experimentación
Un vez obtenidos los datos de identificación, se obtienen las URL de los ficheros FITS asociados a los diferentes objetos celestes mediante la función fGetUrlFitsSpectrum que provee la
plataforma CasJob. Esta función recibe como parámetro el SpecObjID de un objeto celeste y devuelve la URL del fichero FITS asociado a dicho objeto. En la tabla 3.8 se puede ver la consulta
generada para obtener la URL asociada al objeto con SpecObjID= 75094092974915584.
select dbo.fGetUrlFitsSpectrum(75094092974915584);
Tabla 3.8: Consulta SQL para obtener URL de ficheros FITS.
A partir de los ficheros FITS se extraen para cada objeto celeste los datos de las 44 líneas
espectrales utilizadas por el SDSS para la clasificación de los objetos celestes (tabla 3.9) [85].
Las 44 líneas espectrales obtenidas a partir de los ficheros FITS de cada objeto celeste, junto a
los 5 valores de los filtros u, g, r, i, z (ver tabla 3.1) obtenidos mediante la consulta 3.7, los 9
valores derivados de estos (u-g, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta de clasificación
(specClass) y los datos de identificación (objID, specObjID) conforman los atributos de cada
uno de los registros de la base de datos que va a ser objeto de estudio del presente trabajo de
investigación. Por simplicidad se ha realizado un etiquetado de las 44 líneas espectrales, este
etiquetado aparece en la tercera columna de la tabla 3.9. En adelante utilizaremos este etiquetado
para referirnos a las diferentes líneas espectrales.
56
3. Trabajos relacionados
λvac (Å)
Nombre
Etiquetado
Líneas de emisión
1033,82
OVI
w0
1215,24
Lyα
w1
1240,81
NV
w2
1305,53
OI
w3
1335,31
CII
w4
1397,61
SiIV
w5
1399,8
SiIV + OIV
w6
1549,48
CIV
w7
1640,4
HeII
w8
1665,85
OIII
w9
1857,4
AlIII
w10
1908,734
CIII
w11
2326,0
CII
w12
2439,5
NeIV
w13
2799,117
MgII
w14
3346,79
NeV
w15
3426,85
NeVI
w16
3727,092
OII
w17
3729,875
OII
w18
3889,0
HeI
w19
4072,3
SII
w20
4102,89
Hδ
w21
4341,68
Hγ
w22
4364,436
OIII
w23
4862,68
Hβ
w24
4932,603
OIII
w25
4960,295
OIII
w26
5008,240
OIII
w27
6302,046
OI
w28
6365,536
OI
w29
6529,03
NI
w30
6549,86
NII
w31
6564,61
Hα
w32
6585,27
NII
w33
6718,29
SII
w34
6732,67
SII
w35
Líneas de absorción
3934,777
K
w36
3969,588
H
w37
4305,61
G
w38
5176,7
Mg
w39
5895,6
Na
w40
8500,36
CaII
w41
8544,44
CaII
w42
8664,52
CaII
w43
Tabla 3.9: Líneas espectrales utilizadas en el SDSS para clasificación espectral.
57
3.6. Experimentación
3.6.1.
Preprocesamiento
En aprendizaje automático existen algunos aspectos sobre la calidad de las bases de datos que se
deben tener en cuenta durante el proceso de la construcción del modelo de aprendizaje, y que se
vulnera con facilidad en este tipo de aplicaciones. En primer lugar, la ausencia de valores, por lo
que se debe plantear el uso de métodos de preprocesado para estimar esta falta de información.
En segundo lugar, la posibilidad de sesgo de los datos debido a diversas razones, tales como las
tecnológicas, o factores humanos. Finalmente, es de esperar la presencia de ruido en este tipo
de datos.
Para la generación de las bases de datos objeto de estudio se han seleccionado los objetos
celestes pertenecientes a una región del espacio con un ancho de longitud y latitud galáctica
de 10◦ y se han eliminado aquellos registros que no tuvieran un valor válido para cada una de
las 44 líneas espectrales mostradas en la tabla 3.9. En la tabla 3.10 se muestran el número de
registros que constituye la base de datos objeto de estudio, así como el número de registros de
cada tipo (estrellas, galaxias, quásares y desconocidos).
Coordenadas galácticas
b ∈ [20◦ ,30◦ ], l ∈ [190◦ ,200◦ ]
N◦ registros
11181
Tipos de objetos
Galaxias: 7836
Estrellas: 2341
Quásares: 626
Desconocidos: 1078
Tabla 3.10: Datos base de datos objeto de estudio.
En el apartado anterior se definió la base de datos considerada original (en adelante se denominará base de datos FiltrosEspectros para el presente estudio). Según se especifico, los atributos
que contendrá son: los valores de las 44 líneas espectrales obtenidas a partir de los ficheros FITS
de cada objeto celeste, los 5 valores de los filtros u, g, r, i, z, los 9 valores derivados de estos (ug, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta de clasificación y los datos de identificación
(objID, specObjID).
A partir de esta base de datos se crean dos bases de datos nuevas:
Base de datos Filtros: los atributos que contendrá serán los 5 valores de los filtros u, g, r,
i, z, los 9 valores derivados de estos (u-g, u-r, u-i, u-z, g-r, g-i, g-z, r-i, r-z, i-z), la etiqueta
de clasificación y los datos de identificación (objID, specObjID).
Base de datos Espectros: los atributos que contendrá serán los valores de las 44 líneas
espectrales obtenidas a partir de los ficheros FITS de cada objeto celeste, la etiqueta de
clasificación y los datos de identificación (objID, specObjID).
58
3. Trabajos relacionados
Por simplicidad nos hemos centrado en la clasificación de los objetos celestes del tipo estrella,
galaxia y quásar, considerando al resto de objetos celestes del tipo desconocido. La equivalencia
del etiquetado realizado por el SDSS y la realizada en la generación de la base de datos objeto
del presente estudio se recoge en la tabla 3.11. Por tanto, en la base de datos objeto del presente
estudio sólo tendremos cuatro tipos de registros: STAR, GALAXY, QSO y UNKNOWN.
Clasificación SDSS (specClass)
STAR
GALAXY
QSO
UNKNOWN
SKY
STAR_LATE
GAL_EM
Etiquetado realizado
STAR
GALAXY
QSO
UNKNOWN
UNKNOWN
UNKNOWN
UNKNOWN
Tabla 3.11: Equivalencia etiquetado SDSS y base de datos objeto de estudio.
Registros del tipo HIZ_QSO no se han tenido en cuenta puesto que al extraer los datos del
CAS mediante la consulta SQL recogida en la tabla 3.6 se consideró sólo los registros con un
desplazamiento al rojo menor o igual a 1.5 (s.z<=1.5), de esta forma seleccionamos de entre los
posibles objetos celestes aquellos más próximos a la Tierra y, por tanto, con menor posibilidad
de sufrir su espectro distorsiones debido a la materia interestelar.
3.6.2.
Descripción de los experimentos
Los algoritmos de clasificación, así como los de selección de atributos, se han implementado
utilizando el entorno WEKA, versión 3.6, ejecutándose en un cluster que el CICA (Centro Informático Científico de Andalucía) provee para tareas de investigación. Actualmente este cluster
dispone aproximadamente de 110 nodos, con un total de 250 microprocesadores del tipo Intel
Xeon a 3.20GHz y Quad-Core AMD Opteron Processor 8356 a 2.2GHz. Todos los nodos son
de memoria distribuida, aunque también dispone de varias unidades de Sun x4600 con 16 y 24
procesadores y 64 GB de RAM que funcionan como servidores de memoria compartida.
El hecho de que en los datos de origen astronómico se de un elevado número de atributos ligado
a un elevado tamaño de muestra hace interesante seleccionar un número pequeño de atributos
discriminativos de entre decenas de ellos para lograr el éxito en la clasificación de las muestras
con el menor coste computacional. Para tal fin, a las bases de datos objeto de estudio se le
aplicarán los algoritmos de selección de atributos siguientes:
CfsSubSetEval (CFS) Evalúa un subconjunto de atributos considerando la habilidad predicti-
3.6. Experimentación
59
va individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren
los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan
baja intercorrelación [46].
ConsistencySubsetEval (CNS) Evalúa un subconjunto de atributos por el nivel de consistencia
en los valores de la clase al proyectar las instancias de entrenamiento sobre el subconjunto
de atributos [44].
ClassifierSubsetEval (CLS) Evalúa los subconjuntos de atributos en los datos de entrenamiento o en un conjunto de prueba independiente, utilizando un clasificador.
Estos tres algoritmos de selección de atributos son evaluadores de subconjuntos de atributos,
los dos primeros pertenecen a la categoría de Filtros, dado que se basan en características de los
datos independientes del clasificador, y el tercero pertenece a la categoría de Wrappers por utilizar el clasificador como medida de evaluación de subconjuntos. Se ejecutaron en combinación
con el método de búsqueda Best First, el cual busca en el espacio de los subconjuntos de atributos utilizando la estrategia greedy hillclimbing con backtracking. La dirección de búsqueda
realizada por Best First fue hacia adelante partiendo del conjunto vacío de atributos.
Para comparar los diferentes algoritmos de selección se aplicaron los clasificadores Naïve Bayes, C4.5 (J48 en Weka) e IB1 (ver sección 2.5 en la página 11), sobre la base de datos original.
En principio, no existe un algoritmo que sea mejor que el resto para este tipo de datos. Fueron
elegidos estos algoritmos por ser relativamente rápidos y representar los algoritmos de aprendizaje más comúnmente usados en aplicaciones de minería de datos [45]. Posteriormente, se
redujeron el número de atributos de las diferentes bases de datos mediante la aplicación de los
selectores CFS, CNS y CLS. A las bases de datos generadas con los atributos seleccionados por
los algoritmos selectores se le volvieron a aplicar los mismos clasificadores empleados con las
bases de datos originales, esto es NB, C4.5 e IB1 con el objetivo de verificar la efectividad de
la selección de atributos y se comprobó la mejoría o empeoramiento del porcentaje de registros
bien clasificados.
Los datos que se almacenaron en todos los casos fueron el porcentaje de aciertos y el número
de atributos seleccionados. En cada caso, los resultados se obtuvieron calculando la media de
una ejecución de validación cruzada diez (1×10CV), y para que no se produjera un sobreajuste
del algoritmo de selección a los datos utilizados, se realizaron diez reducciones, una por cada
conjunto de entrenamiento.
Los test de hipótesis mostraron si la diferencia en el comportamiento de un clasificador con los
datos originales y los reducidos es estadísticamente significativa.
60
3.6.3.
3. Trabajos relacionados
Análisis de los resultados
En esta sección se pretende analizar el comportamiento de los algoritmos de clasificación NB,
IB1 y C4.5, así como los algoritmos evaluadores de atributos CFS, CNS y CLS ante conjuntos
de gran tamaño provenientes de observaciones astronómicas. La finalidad es evaluar las técnicas
en términos de exactitud en la clasificación y grado de reducción.
La tabla 3.12 muestra las tasas de aciertos y el número de atributos seleccionados obtenidos al
aplicar los selectores descritos anteriormente a las tres bases de datos definidas en el apartado
3.6.1. Se muestran en horizontal, por grupos, los resultados obtenidos con los clasificadores
NB, J48 e IB1. Dentro de cada grupo horizontal se muestra en horizontal los valores obtenidos
para las bases de datos originales (primera fila de cada grupo) y los obtenidos una vez se han
aplicado los diferentes selectores objeto de estudio (las tres filas siguientes de cada grupo).
Orig.
CFS
CNS
CLS
Orig.
CFS
CNS
CLS
Orig.
CFS
CNS
CLS
Filtros
Ac
#at
34,6015 15,0
62,1917◦
7,9
34,6015 15,0
85,9355◦
3,0
92,2565 15,0
91,9704
7,9
92,2565 15,0
91,9199 12,2
90,8594 15,0
91,0782
7,9
90,8594 15,0
74,0342•
2,0
Espectros
Ac
#at
85,2874 45,00
85,5147
7,20
84,0586 23,90
87,8966◦
3,30
89,7063 45,00
89,4285
7,20
89,3275 23,90
89,6726 14,60
89,2097 45,00
86,9455
7,20
89,1171 23,90
84,5468•
2,00
FiltrosEspectros
Ac
#at
86,2049 60,00
87,5684 11,30
79,1937 14,30
90,59◦
3,80
97,1130 60,00
96,9279 11,30
97,0710 14,30
96,9110 12,20
96,5323 60,00
96,1283 11,30
96,1535• 14,30
77,6618•
2,00
NB
J48
IB1
Tabla 3.12: Resultados experimentación. Ac–tasa de aciertos; #at–número medio de
atributos obtenidos en la validación cruzada 1x10; ◦ y •, mejora o empeora significativamente con respecto al original.
Como se puede observar en la tabla 3.12 el número de atributos seleccionados con los evaluadores CFS y CNS es idéntico, dado que estos algoritmos son independientes del clasificador.
En el caso del CLS, debido a que utiliza como evaluador el propio clasificador, los atributos
seleccionados en cada caso son diferentes.
Comparando los resultados obtenidos por los diferentes clasificadores, destacamos el mejor
comportamiento que se alcanza con árboles de decisión J48, mejorando en todos los valores
obtenidos a NB e IB1.
En todos los casos recogidos en la tabla 3.12, excepto con NB y C4.5 al ser evaluados con
CNS y CLS respectivamente, se observa al trabajar con la base de datos FiltrosEspectros como
3.6. Experimentación
61
el porcentaje de aciertos se incrementa en gran medida mientras que el número de atributos
utilizado para la clasificación se reduce notablemente (resaltar que esta base de datos es una
combinación de valores procedentes de los filtros u, g, r, i, z y de los valores de las líneas
espectrales utilizados por el SDSS para realizar su clasificación espectral).
En consecuencia, se cumple que los mejores resultados de clasificación se obtienen con las
distintas aproximaciones realizadas con J48 sobre la base de datos FiltrosEspectros, siendo en
los cuatro casos contemplados el porcentaje de aciertos superior al 96,9 % y el de reducción de
atributos entorno al 80 %.
El algoritmo CFS ha presentado el comportamiento más estable en los porcentajes de aciertos,
por contra el algoritmo CLS ha presentado el comportamiento más irregular.
Para cada uno de los algoritmos de clasificación empleados (NB, J48 e IB1) vamos a analizar
los resultados obtenidos (tabla 3.12):
NB Destacar que los resultados obtenidos tras aplicar el clasificador NB como evaluador de
subconjuntos (CLS) son mejores en los tres casos significativamente. Estos resultados se
han conseguido con una importante reducción de atributos respecto a los otros selectores.
J48 Al aplicar el clasificador J48 los test de significatividad no muestran diferencias significativas en los resultados. No obstante, cabe destacar la reducción de atributos realizada por el
evaluador ClassifierSubsetEval sobre la base de datos FiltrosEspectros cuando se aplica
J48. Dicha reducción fue de un 85 %, pasando de 60 atributos a tan sólo 9 atributos. Esta
reducción se realizó obteniendo un porcentaje de aciertos del 96,911 frente al porcentaje
de aciertos del 97,113 obtenido al aplicar directamente el clasificador J48 a la base de
datos FiltrosEspectos.
IB1 Con el clasificador IB1 los mejores resultados de clasificación se obtienen con las base
de datos originales, empeorando significativamente con CLS en todos los casos. Este
empeoramiento puede venir inducido por el reducido número de atributos seleccionados
(dos atributos en los tres casos).
Además de lo anteriormente expuesto para cada clasificador hay que resaltar que de los diferentes atributos recogidos en la tabla 3.13, la línea de emisión espectral HeI resulta de especial
interés, puesto que si bien el algoritmo evaluador la ha escogido como atributo diferenciador
de los diferentes tipos de objetos celestes, el SDSS no considera esta línea como característica
diferenciadora entre los objetos celestes del tipo galaxias y quásares [86].
62
3. Trabajos relacionados
Un aspecto a tener en cuenta es la inclusión que se ha realizado en el presente estudio de investigación del tipo STAR_LATE y del tipo GAL_EM como tipo UNKNOWN (tabla 3.4) cuando
realmente son un subtipo de estrella (tipo STAR) y un subtipo de galaxia (tipo GALAXY) respectivamente. Esto genera un aumento del error de clasificación del tipo UNKNOWN, asignando un alto porcentaje de registros de este tipo a las clases STAR y GALAXY según se observa
en las diferentes matrices de confusión generadas tras la aplicación de los diferentes algoritmos.
La tabla 3.13 muestra los atributos seleccionados por los algoritmos de selección CFS, CNS y
CLS aplicados a cada base de datos completa (Filtros, Espectros y FiltrosEspectros), a diferencia de la tabla 3.12 que mostraba el promedio de la validación cruzada 1x10.
Evaluador
CFS
CNS
CLS-NB
CLS-J48
CLS-IB1
BD
F
E
FE
F
E
#at
8
6
10
15
24
FE
F
E
FE
F
E
FE
F
E
14
3
4
5
2
2
2
14
19
FE
9
Atributos seleccionados
r, i, ug, ui, gz, ri, rz, iz
w24, w26, w27, w31, w39, w43
ug, ri, iz, w24, w26, w27, w31, w39, w42, w43
u, g, r, i, z, ug, ur, ui, uz, gr, gi, gz, ri, rz, iz
w20, w21, w22, w23, w24, 25, w26, w27, w28, w29, w30, w31,
w32, w33, w34, w35, w36, w37, w38, w39, w40, w41, w42, w43
g, r, ug, uz, gr, gi, gz, iz, w20, w25, w26, w30, w37, w41
ug, ri, rz
w5, w9, w10, w16
ri, iz, w19, w24, w31
u, ui
w19, w37
ui, w18
u, g, r, i, z, ug, ur, uz, gr, gi, gz, ri, rz, iz
w3,w4,w5,w7,w8,w10,w11,w12,w14,w15,w18,w19,w20,w21,
w23,w24,w26,w27,w28
g, uz, gr, gi, gz, w23, w24, w26, w36
Tabla 3.13: Atributos seleccionados por los evaluadores CFS, CNS y CLS. #at–
número de atributos obtenidos;BD–Base de datos; F–Base de datos Filtros; E–Base
datos Espectros; FE–Base de datos FiltrosEspectros
De la tabla 3.13 cabe destacar la reducción de atributos realizada por el algoritmo evaluador
ClassifierSubsetEval sobre la base de datos FiltrosEspectros sometida al clasificador NB. Se
ha pasado de 60 atributos a tan sólo 5 atributos, mejorando significativamente la clasificación
realizada. Estos atributos se recogen en la tabla 3.14.
3.7.
Conclusiones
En el presente trabajo se ha realizado un proceso completo de KDD, teniendo como punto
de partida el estudio de las características intrínsecas del proyecto SDSS. Una vez se conoció
63
3.7. Conclusiones
atributo seleccionado
r-i
i-z
HeI
Hβ
NII
Descripción
Diferencia de magnitud de brillo medida en los filtros r, i
Diferencia de magnitud de brillo medida en los filtros i, z
Línea de emisión del Helio a 3889,0Å
Línea de emisión del Hidrógeno a 4862,68Å
Línea de emisión del Nitrógeno a 6549,86Å
Tabla 3.14: Atributos seleccionados por ClassifierSubsetEval con evaluador NB sobre
FiltrosEspectros.
la región galáctica objeto de estudio, así como las características de los registros de interés se
procedió a la obtención de los datos objeto de estudio a partir del entorno de desarrollo CasJobs.
Posteriormente fueron sometidos estos datos a un preprocesado en el que se rechazaron aquellos
registros que no cumplían una serie de condiciones.
Cabe destacar en estas primeras fases de estudio la complejidad tecnológica encontrada en la
instrumentación empleada por el telescopio SDSS para la captura de las imágenes y espectros
de los cuerpos celestes. Además hay que señalar el nivel de prestaciones y facilidad de uso del
entorno web denominado CasJobs provisto por el SDSS para el acceso a los datos.
A partir de los datos preprocesados se generaron tres bases de datos denominadas Filtros, Espectros y FiltrosEspectros (esta base de datos engloba los atributos de las otras dos). Estas tres
bases de datos se sometieron a los clasificadores NB, J48 e IB1, así como a CFS, CNS y CLS.
Teniendo en cuenta los resultados obtenidos (tabla 3.12) se observa que los mejores resultados
de clasificación fueron obtenidos por el clasificador J48, al aplicarlo directamente o mediante los
evaluadores CFS, CNS y CLS sobre la base de datos FiltrosEspectros. Además, cabe destacar la
reducción de atributos realizada por el algoritmo evaluador ClassifierSubsetEval sobre la base
de datos FiltrosEspectros sometida al clasificador NB (tabla 3.13).
Se han planteado una serie de resultados que pueden mejorar y aligerar el proceso de análisis
que realizan los astrónomos sobre los grandes bancos de datos de origen astronómico. A partir de estos planteamientos se puede deducir que la minería de datos es una herramienta útil
para la extracción de conocimiento novedoso y de provecho sobre bases de datos de origen
astronómico.
Capítulo 4
Conclusiones
El éxito de muchos esquemas de aprendizaje, en sus intentos para construir modelos de datos,
pasa por la habilidad para identificar un subconjunto pequeño de atributos altamente predictivos. La inclusión de atributos irrelevantes, redundantes o con ruido en la fase del proceso de
construcción del modelo puede provocar un comportamiento predictivo pobre y un incremento
computacional. La selección de atributos en campos como el Aprendizaje Automático sigue
siendo un tema de interés, lo que cambia es el dominio de los datos donde se aplica. Para comprobarlo es suficiente con revisar los trabajos publicados en los últimos años sobre el tema. En
estos trabajos se intenta encontrar métodos que permitan detectar aquellos atributos que aporten
la mayor información posible al proceso de aprendizaje y cuya obtención posea un coste computacional abordable. De esta manera, se pueden aplicar a las bases de datos de dimensiones muy
elevada, como es la tendencia actual.
El propósito inicial de esta trabajo de investigación fue encontrar formas de clasificar registros
de datos en entornos altamente dimensionales como son las bases de datos de origen astronómico. La búsqueda de este objetivo general nos ha llevado a desarrollar diferentes propuestas,
cuyas conclusiones se resumen en esta sección. Además, en la siguiente sección se enumeran
los temas sobre los que seguimos trabajando y a los que se les dedicará nuestra atención en el
futuro.
En este trabajo de investigación, la selección de atributos se ha enmarcado dentro del aprendizaje supervisado, más concretamente, la clasificación. Por ello, para evaluar el rendimiento de un
algoritmo de selección se ha obtenido el porcentaje de registros bien clasificados del algoritmo
de aprendizaje antes y después de la reducción y el número de atributos seleccionados (tabla
3.12). Estas medidas se utilizarán para comparar diferentes algoritmos de selección.
64
65
Los test de hipótesis nos han indicado si el cambio producido en el comportamiento de un
clasificador, con los datos originales y los reducidos, han sido estadísticamente significativo.
Tal extremo ha sido también reflejado en la tabla 3.12.
El presente trabajo de investigación se ha centrado en comparar los resultados obtenidos mediante los algoritmos de clasificación Naïve Bayes, IB1 y J48, así como los algoritmos de selección de atributos CfsSubsetEval, ConsistencySubsetEval y ClassifierSubsetEval.
Los resultados de clasificación obtenidos (tabla 3.12) muestran que los mejores resultados fueron obtenidos por el clasificador J48, al aplicarlo directamente o mediante los evaluadores CFS,
CNS y CLS sobre la base de datos FiltrosEspectros, mientras que la base de datos con menos
atributos fue obtenida por el algoritmo evaluador ClassifierSubsetEval sobre la base de datos
FiltrosEspectros sometida al clasificador NB (tabla 3.13).
Bibliografía
[1] K. Abazajian, J. Adelman-McCarthy, M. A. Agüeros, et al. The third data release of the
sloan digital sky survey. AJ, 129:1755–1759, 2005.
[2] W. A. Adams, A. Hubble classification of galaxies using neural networks. Vistas in
Astronomy, 38:273–280, 1994.
[3] J. Adelman-McCarthy et al. The fourth data release of the sloan digital sky survey. ApJS,
162(1):38–48, 2006.
[4] J. Aguilar-Ruiz, J. Riquelme, and M. Toro. Data set editing by ordered projection. In
Proceedings of the 14th European Conf. on Artificial Intelligence, pages 251–55, Berlin,
Germany, August 2000.
[5] J. Aguilar-Ruiz, J. Riquelme, and M. Toro. Evolutionary learning of hierarchical decision
rules. IEEE Systems, Man and Cibernetics Part B, 33(2):324–331, 2003.
[6] D. Aha, D. Kibler, and M. Albert. Instance-based learning algorithms. Machine Learning, 6:37–66, 1991.
[7] H. Almuallim and T. Dietterich. Learning boolean concepts in the presence of many
irrelevant features. Artificial Intelligence, 69(1–2):279–305, 1994.
[8] E. Alpaydin. Combined 5x2 cv f test for comparing supervised classification learning
algorithms. Neural Computation, 11:1885–92, 1999.
[9] A. S. Ani R. Thakar and G. e Fekete. The catalog archive server database management
system. Computing in Science and Engineering, 10(1):30–37, 2008.
[10] B. M. H. M. Auld, T. Fast cosmological parameter estimation using neural networks.
MNRAS, 376:L11–L15, 2007.
[11] I. M. v. H. T. Bailer-Jones, C.A.L. Physical parametrization of stellar spectra: the neural
network approach. MNRAS, 292:157–166, 1997.
67
68
BIBLIOGRAFÍA
[12] B. R. e. a. Ball, N.M. Robust machine learning applied to astronomical data sets. i.
star-galaxy classification of the sloan digital sky survey dr3 using decision trees. ApJ,
650:497–509, 2006.
[13] T. Bayes. An essay towards solving a problem in the doctrine of chances. Philosophical
Transactions, 53:370–418, 1763.
[14] M. Ben-Bassat. Handbook of statistics-II, chapter Pattern recognition and reduction of
dimensionality, pages 773–791. Prentice Hall, London, GB, 1982.
[15] A. Blum and P. Langley. Selection of relevant features and examples in machine learning.
Artificial Intelligence, 97(1-2):245–271, 1997.
[16] L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and regresion trees.
Wadsworth Int. Group, Belmont, CA, 1984.
[17] J. R. Cano, F. Herrera, and M. Lozano. Using evolutonary algorithms as instance selection for data reduction in kdd: an experimental study. IEEE Trans. Evolutionary Computation, 7(6):561–575, 2003.
[18] F. J. Castander. The first hour of extragalactic data of the sloan digital sky survey spectroscopic commissioning: The coma cluster. AJ, 121(5):2331–2357, 2001.
[19] C. Chang. Finding prototypes for nearest neighbor classifier. IEEE Transactions on
Computers, 23(11):1179–1184, 1974.
[20] S. Cost and S. Salzberg. A weighted nearest neighbor algorithm for learning with symbolic features. Machine Learning, 10:57–78, 1993.
[21] T. M. Cover. Estimation by nearest neighbor rule. IEEE Transactions on Information
Theory, IT-14:50–55, 1968.
[22] T. M. Cover and P. E. Hart. Nearest neighbor pattern classification. IEEE Transactions
on Information Theory, IT-13(1):21–27, 1967.
[23] B. Dasarathy. Nearest neighbor (nn) norms: Nn pattern classification techniques. IEEE
Computer Society Press, 1995.
[24] M. Dash and H. Liu. Feature selection for classification. Intelligent Data Analisys,
1(3):131–56, 1997.
[25] P. Devijver and J. Kittler. Statistical Pattern Recognition. Prentice Hall, London, GB,
1982.
BIBLIOGRAFÍA
69
[26] T. Dietterich. An experimental comparison of nearest neighbor and nearest hyperrectangle algorithms. Machine Learning, 19(1):5–28, 1995.
[27] T. Dietterich. Approximate statistical test for comparing supervised classification learning alforithms. Neural Computation, 10(7):1895–1924, 1998.
[28] J. Doak. An evaluation of feature selection methods and their application to computer security. Technical Report CSE-92-18, University of California, Department of Computer
Science, Davis, CA, 1992.
[29] J. Doak. An evaluation of search algorithms for feature selection. Technical report, Los
Alamos National Laboratory, 1994.
[30] P. Domingos. Rule induction and instance-based learning: A unified approach. In Int.
Conf. on Artificial Intelligence, 1995.
[31] R. Duda and P.Hart. Pattern classification and scene analysis. John Willey and Sons,
1973.
[32] S. Dudani. The distance-weighted k-nearest-neighbor rule. IEEE Transactions on Systems, Man and Cybernetics, SMC-6(4):325–327, 1975.
[33] B. Efron. Bootstrap methods: another look at the jacknife. Anals of Statistics, 7(1):1–26,
1979.
[34] B. Efron. Estimating the error rate of a prediction rule: some improvements on crossvalidation. Journal of the American Statistical Association, 78:316–331, 1983.
[35] B. Efron and R. Tibshirani. An intoduction to the Bootstrap. Chapman and Hall, London,
UK, 1993.
[36] C. S. et al. Sloan digital sky survey: Early data release. The Astronomical Journal,
123:485–548, 2002.
[37] U. M. Fayyad, G. Piatetski-Shapiro, and P. Smith. From data mining to knowledge discovery in databases. AAAI-MIT Press, 1996.
[38] E. Fix and J. Hodges. Discriminatory analysis, nonparametric discrimination consistency
properties. Technical Report 4, US Air Force, School of Aviation Medicine, Randolph
Field, TX, 1951.
70
BIBLIOGRAFÍA
[39] E. Fix and J. Hodges. Discriminatory analysis, nonparametric discrimination: small sample performance. Technical Report 11, US Air Force, School of Aviation Medicine, Randolph Field, TX, 1952.
[40] D. Foley. Consideration of sample and feature size. IEEE Trans. Information Theory,
18:618–626, 1972.
[41] G. Forman. An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research, 3:1289–1305, 2003.
[42] D. Gamberger and N. Lavrac. Conditions for ocam’s razor applicability and noise elimination. In 9th European Conf. on Machine Learning, 1997.
[43] F. W. Group. Definition of the flexible image transport system (fits). International Astronomical Union, 2008.
[44] R. S. H. Liu. A probabilistic approach to feature selection - a filter solution. In 13th
International Conference on Machine Learning, pages 319–327, 1996.
[45] M. Hall and G. Holmes. Benchmarking attribute selection techniques for discrete class
data mining. IEEE Transactions on Knowledge and Data Eng., 15(3), 2003.
[46] M. A. Hall. Correlation-based Feature Subset Selection for Machine Learning. PhD
thesis, University of Waikato, Hamilton, New Zealand, 1998.
[47] P. Hart. The condensed nearest neighbor rule. IEEE Transactions on Information Theory,
14(3):515–516, May 1968.
[48] E. Hunt, J. Marin, and P. Stone. Experiments in induction. Academis Press, New York,
1966.
[49] I. Inza, P. Larrañaga, R. Etxeberria, and B. Sierra. Feature subset selection by bayesian
networks based optimization. Artificial Intelligence, 123(1-2):157–184, 2002.
[50] I. Inza, P. L. naga, R. Blanco, and A. Cerrolaza. Filter versus wrapper gene selection
approaches in dna microarray domains. Artificial Intelligence in Medicine, 31:91–103,
2004.
[51] A. Jain and D. Zongker. Feature selection: evaluation, application, and small sample performance. IEEE Transactions on Pattern Analisys and Machine Intelligence, 19(2):153–
158, 1997.
[52] G. J.E. et al. The sloan digital sky survey photometric camera. AJ, 116:3040–3081, 1998.
BIBLIOGRAFÍA
71
[53] G. J.E. et al. The 2.5 m telescope of the sloan digital sky survey. AJ, 131(4):2332–2359,
2006.
[54] G. John, R. Kohavi, and K. Pfleger. Irrelevant features and the subset selection problem.
In 11th Int. Conf. on Machine Learning, pages 121–129, 1994.
[55] e. a. Kevork N. Abazajian, Jennifer K. Adelman-McCarthy. The seventh data release of
the sloan digital sky survey. ApJ, 182:543–558, 2009.
[56] W. Kim, B. Choi, E.-K. Hong, and S.-K. Kim. A taxonomy of dirty data. Data Mining
and Knowledge Discovery, 7:81–99, 2003.
[57] K. Kira and L. Rendell. A practical approach to feature selection. In 9th Int. Conf. on
Machine Learning, pages 249–256, 1992.
[58] V. Klee. On the complexity of d-dimensional voronoi diagrams. Arch. Math., 34:75–80,
1980.
[59] R. Kohavi and G. John. Wrappers for feature subset selection. Artificial Intelligence,
1-2:273–324, 1997.
[60] I. Kopanakis and B. Theodoulidis. Visual data mining modeling techniques for the visualization of mining outcomes. Journal of Visual Languages and Computing, 14(6):543–
589, 2003.
[61] P. Lachenbruch. An almost unbiased method of obtaining confidence intervals for the
probability of misclassification in discriminant analysis. Biometrics, pages 639–645,
1967.
[62] P. Langley. Selection of relevant features in machine learning. In Procs. Of the AAAI
Fall Symposium on Relevance, pages 140–144, 1994.
[63] W. Lee, S. Stolfo, and K. Mok. Adaptive intrusion detection: A data mining approach.
AI review, 14(6):533–567, 2000.
[64] H. Liu and H. Motoda. Feature Selection for Knowlegde Discovery and Data Mining.
Kluwer Academic Publishers, London, UK, 1998.
[65] H. Liu and L. Yu. Feature selection for data mining. Technical report, Department of
Computer Science and Eng., Arizona State University, Temp, Arizona, 2002.
[66] H. Liu and L. Yu. Toward integrating feature selection algorithms for classification and
clustering. IEEE Trans. on Knowledge and Data Eng., 17(3):1–12, 2005.
72
BIBLIOGRAFÍA
[67] J. Lorenzo. Selección de atributos en aprendizaje automático basada en teoría de la
información. PhD thesis, U. de Las Palmas de Gran Canaria, Dpto. de Informática y
Sistemas, 2001.
[68] C. E. Lunneborg. Efron’s bootstrap with some applications in psychology. In Annual
Meeting of the American Psychological Association, pages 21–30, 1993.
[69] S. A. W. E.-e. a. McGlynn, T.A. Automated classification of rosat sources using heterogeneous multiwavelength source catalogs. ApJ, pages 616–1284, 2004.
[70] T. M. Mitchell. Machine Learning. Series in Computer Science. McGraw-Hill, 1997.
[71] L. Molina, L. Belanche, and A. Nebot. Feature selection algorithms: A survey and experimental evaluation. In Int. Conf. on Data Mining, ICDM-02. IEEE Computer Society,
2002.
[72] K. Ng and H. Liu. Customer retention via data mining. AI review, 14(3):569–590, 2000.
[73] N. M. L. Odewahn, S.C. Star-galaxy separation using neural networks. Vistas in Astronomy, 38:281–285, 1994.
[74] D. Pyle. Data preparation for data mining. Morgan Kaufmann Publishers, 1999.
[75] S. F. Y. J.-J. e. a. Qu, M. Automatic solar flare detection using mlp, rbf, and svm. Solar
Physics, 217(1):157–172, 2003.
[76] J. Quinlan. Discovering rules by induction from collections of examples. In Expert
System in the Micro-Electronic Age, pages 168–201, Edinburgh, 1979.
[77] J. Quinlan. Learning efficient classification procedures and their application to chess
end games. In Machine Learning: An Artificial Intelligence Approach, Palo Alto, Tioga,
1983.
[78] J. Quinlan. Induction of decision trees. Machine Learning, 1:81–106, 1986.
[79] J. R. Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann, San Mateo,
California, 1993.
[80] J. Riquelme, J. Aguilar-Ruiz, and M. Toro. Finding representative patterns with ordered
projections. Pattern Recognition, 36(4):1009–18, 2003.
[81] J. Riquelme, F. Ferrer, and J. Aguilar-Ruiz. Búsqueda de un patrón para el valor de k
en k-nn. In IX Conferencia de la Asociación Española para la Inteligencia Artificial
(CAEPIA’01), pages 63–72, Gijon, Noviembre 2001.
BIBLIOGRAFÍA
73
[82] G. Ritter, H. Woodruff, S. Lowry, and T. Isenhour. An algorithm for a selective nearest
neighbor decision rule. IEEE Transactions on Information Theory, 21(6):665–669, 1975.
[83] Y. Rui, T. Huang, and S. Chang. Image retrieval: Current techniques, promising directions and open issues. Visual Communication and Image Representation, 10(4):39–62,
1999.
[84] S. Salzberg. A nearest hyperrectangle learning method. Machine Learning, 6:277–309,
1991.
[85] SDSS. 1d spectro image. http://www.sdss.org/dr5/dm/flatFiles/spSpec.html.
[86] SDSS.
Table
of
spectral
http://www.sdss.org/dr5/algorithms/linestable.html.
lines
used
in
sdss.
[87] W. Siedlecki and J. Sklansky. On automatic feature selection. Int. Journal of Pattern
Recognition and Artificial Intelligence, 2:197–220, 1988.
[88] C. H. Sodré, L.Jr. Spectral classification of galaxies. Vistas in Astronomy, 38:286–291,
1994.
[89] I. M. v. H. T. e. a. Storrie-Lombardi, M.C. Spectral classification with principal component analysis and artificial neural networks. Vistas in Astronomy, 38(3):331–340, 1994.
[90] L. O. S. L. e. a. Storrie-Lombardi, M.C. Morphological classification of galaxies by
artificial neural networks. MNRAS, 259:8–12, 1992.
[91] A. R. Thakar. The sloan digital sky survey drinking from the fire hose. Computing in
Science and Engineering, 10(1):9–12, 2008.
[92] I. Tomek. An experiment with the edited nearest-neighbor rule. IEEE Transactions on
Systems, Man and Cybernetics, 6(6):448–452, June 1976.
[93] G. T. Toussaint. The relative neighborhood graph of a finite planar set. Pattern Recognition, 12(4):261–68, 1980.
[94] T. T.X. and G. J.E. Publ. Astron. Soc. Pacific, 88:543–, 1976.
[95] Y. Wadadekar. Estimating photometric redshifts using support vector machines. PASP,
117(827):79–85, 2005.
[96] W. P. R. V. W. T. e. a. Williams, S.J. Identifying red variables in the northern sky variability survey. AJ, 128:2965–2976, 2004.
74
BIBLIOGRAFÍA
[97] D. Wilson. Asymtotic properties of nearest neighbor rules using edited data. IEEE
Transactions on Systems, Man and Cybernetics, 2(3):408–21, July 1972.
[98] H. Witten and E. Frank. Data mining: Practical Machine Learning Tools and Techniques.
Morgan Kaufmann Publishers, 2005.
[99] I. Witten and E. Frank. Data Mining: Practical machine learning tools and techniques.
Morgan Kaufmann, San Francisco, 2005.
[100] M. Xiong, X. Fang, and J. Zhao. Biomarker identification by feature wrappers. Genome
Res, 11:1878–87, 2001.
[101] Y. Yang and J. Pederson. A comparative study on feature selection in text cateforization.
In 14th Int. Conf. on Machine Learning, pages 412–420. Morgan Kaufmann, 1997.
[102] York, D.G., et al. The sloan digital sky survey technical summary. AJ, 120:1579–1587,
2000.
[103] L. Yu and H. Liu. Redundancy based feature selection for microarry data. In 10th ACM
SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, 2004.
[104] S. Zhang, C. Zhang, and Q. Yang. Data preparation for data mining. Applied Artificial
Intelligence, 17(5–6):375–381, 2003.
[105] Z. Y. Zhang, Y. Automated clustering algorithms for classification of astronomical objects. A&A, 422:1113–1121, 2004.
[106] Z. Y. Zhang, Y. A comparison of bbn, adtree and mlp in separating quasars from large
survey catalogues. ChJAA, 7:289–296, 2007.
Descargar