Comprension y Preparacion de los datos

Anuncio
Anexo 1 . Comprensión y Preparación de los datos
Gracias al análisis y la preparación de datos ha sido posible extraer un nuevo
conocimiento valioso, ya que al identificar y observar los requerimientos de los
datos hace que el proceso de minería de datos sea efectivo y se creen modelos
cumpliendo las hipótesis planteadas. El presente documento busca identificar y
analizar los atributos de la base de datos entregada por la RMCAB para
posteriormente la creación de la vista minable.
Esta vista minable
fue creada por los
registros históricos
entregados por la
RMCAB
de
la
localidad de Puente
Aranda
Tabla de contenido
1.
Análisis de Datos ................................................................................................................... 2
1.1 Análisis de las series de tiempo........................................................................................... 2
1.1.1 Comportamiento de los Contaminantes anualmente.................................................. 2
1.1.2 Comportamiento de los Contaminantes mensualmente ............................................. 3
1.1.3 Análisis de correlación entre las concentraciones de Ozono troposférico .................. 4
1.1.4 Análisis de correlación entre las concentraciones de material particulado ............... 7
1.1.5 Análisis de correlación entre las concentraciones del contaminante de Ozono
troposférico y el de las variables climatológicas ................................................................. 10
1.1.6
Análisis entre las concentraciones del contaminante de material particulado y el
de las variables atmosféricas .............................................................................................. 11
1.2 Análisis de la Fuente de Datos .......................................................................................... 13
1.2.1 Lugar de extracción de los datos ................................................................................ 13
1.2.2 Estado inicial de la Base de datos .............................................................................. 14
1.2.3 Análisis de los Atributos de la base de datos ............................................................. 17
2
Preparación de Datos .......................................................................................................... 23
2.1
Aspectos Generales ..................................................................................................... 24
2.1.1 Integración de Datos .................................................................................................. 24
2.1.2 Partición del atributo fecha&Hora ............................................................................. 25
2.1.3
Validación y Limpieza de Datos ........................................................................... 26
2.1.4
Creación de Variables Derivadas ......................................................................... 29
2.2
Aspectos específicos.................................................................................................... 31
2.2.1 Preparación de datos para Reglas de asociación y Clasificación................................ 31
2.2.2 Preparación de datos para Agrupamiento ................................................................. 38
1. Análisis y exploración de datos
Este capítulo pretende dar a conocer al lector el contacto directo con el problema. Las
actividades que se realizan en este capítulo comprenden todas la primera fase de la
Metodología de desarrollo del presente trabajo de grado, las acciones principales que hace
referencia este documento son las siguientes: el proceso de recolección de los datos, la
identificación de la calidad de los datos, la identificación de las posibles relaciones entre los
atributos de la bases de datos aplicando rezagos horarios y el análisis de las características del
conjunto de datos.
Para hacer posible este análisis, la Red de Monitoreo de Calidad del Aire de Bogotá (RMCAB)
proporcionó la información horaria acerca de los contaminantes de Ozono troposférico (𝑂3 )) y
Material Particulado (𝑃𝑀10); Las variables atmosféricas son : velocidad de los vientos,
precipitación, radiación solar y temperatura; Los precursores del ozono troposférico son:
dióxido de carbono y óxido de nitrógeno, dando así una descripción detallada de cada uno de
los atributos pertenecientes a la base de datos. Es importante recalcar el análisis de series de
tiempo debido a las características que tiene la base de datos.
En el transcurso del documento se va a hablar de la palabra “atributos” que hace referencia a
las variables (columnas) que están en la base de datos.
1.1 Análisis de las series de tiempo
La base de datos entregada por la RMCAB tiene una característica importante y es que
contiene series temporales para cada uno de los registros tomados, esta serie temporal es un
atributo de la base de datos y recibe el nombre de Fecha & Hora, cuyo formato utilizado es:
día/mes/año hora: minutos.
Esta serie temporal contiene información desde el primer día del mes de enero del 2002 a las
12 de la madrugada hasta el último día del mes de diciembre del 2012 a las 12 de la
madrugada.
A continuación se podrá observar un análisis de tendencias, donde se observa el
comportamiento de los siguientes contaminantes: ozono troposférico (𝑂3 ) y material
particulado (𝑃𝑀10) en el transcurso del tiempo, empezando de una manera general con los
ciclos anuales y hasta llegar al detalle con los ciclos mensuales.
1.1.1 Comportamiento de los Contaminantes anualmente
Según la ilustración 1, se puede observar que hay una tendencia de tipo no estacionaria ya que
los valores de 𝑂3 son cambiantes respecto al tiempo. En la concentración de 𝑂3 para el año
1999 superaba las 21 ppb (unidad de medida del 𝑂3 ) , mientras que en el año 2003 disminuyo
significativamente llegando a las 9 ppb, así mismo se puede observar una reducción
significativa de 𝑂3 para el 2011, eso quiere decir que los esfuerzos por parte de las entidades
que cuidan la calidad del aire han surgido efecto. Entre los años 2003 y 2008 se puede
observar una continuidad en el nivel de concentración de 𝑂3 .
En el 𝑃𝑀10 la tendencia que se observa es decreciente con respecto al paso de los años,
relacionándose de esta manera al comportamiento del 𝑂3 ya que a medida que avanzan los
años la concentración 𝑃𝑀10 disminuye. Sin embargo hay picos de concentración
comprendidos en los años 1999, 2005,2007 que muestran un incremento importante en la
concentración de Material Particulado, lo cual la tendencia de variable de 𝑃𝑀10 puede ser un
riesgo para los habitantes.
Ilustración 1 Ciclo anual para los contaminantes 𝒐𝟑 y 𝑷𝑴𝟏𝟎
Fuente: Autor mediante la herramienta SPSS.
1.1.2 Comportamiento de los Contaminantes mensualmente
En la ilustración 2, se puede observar que en el primer trimestre del año y parte del segundo
según la climatología Colombiana (comprendida entre los meses de diciembre a febrero), la
concentración de 𝑂3 tiende a elevarse más que en el resto de los otros trimestres del año. Los
picos más altos detectados de 𝑂3 son entre los meses de marzo y septiembre, siendo cada uno
de estos meses la mitad de cada semestre del año.
El comportamiento del 𝑃𝑀10 , a comparación de la gráfica anterior no hay picos de
concentración tan pronunciados y eso puede llegar a significar una independencia parcial a la
climatología colombiana ya que en todos los trimestres del año la variación de la
concentración de 𝑃𝑀10 no es tan significativa como otros trimestres. Se puede observar que
hay cierta similitud en el valor de concentración entre los meses de marzo y diciembre,
también entre los meses de abril a noviembre y así sucesivamente hasta llegar al mes de julio
cuyo nivel de concentración es el menor con respecto a los demás meses.
Ilustración 2 Ciclo mensual para los contaminantes 𝒐𝟑 y 𝑷𝑴𝟏𝟎
Fuente: Autor mediante la herramienta SPSS.
1.1.3 Análisis de correlación entre las concentraciones de Ozono troposférico
En este capítulo, se encuentran correlaciones entre las concentraciones de 𝑂3 en el día, con un
rezago de una hora con el fin de entender si el valor del contaminante de 𝑂3 que se presenta a
cualquier hora del día depende del valor de contaminante de 𝑂3 que se presenta en la hora
anterior, donde el valor de concentración de la hora anterior es la variable independiente y el
valor de concentración de la hora posterior es la variable dependiente. Para encontrar este
tipo de correlaciones se utilizó el método de correlación de Pearson.
En los resultados que se presentan a continuación, se encuentra una tabla llamada
“Correlaciones del Ozono” (Ver tabla 1), dentro de las características de dicha tabla que
describe el resultado de correlación se encuentra una columna cuyo nombre es “R cuadrado”,
este recibe el nombre de coeficiente de determinación y nos indica el porcentaje de cuando
cambia variable, en el momento que cambia la otra. El tipo de grafica utilizada es de
dispersión.
Cabe recalcar que para los análisis de correlación se tomó una muestra aleatoria de
concentración de Ozono troposférico por cada hora de 1000 datos.
1.1.3.1 Auto-correlaciones de 𝑶𝟑 con Rezagos de 1 hora
A continuación se presentan los gráficos de dispersión de las auto-correlaciones de los valores
de concentración de 𝑂3 con rezagos de 1 hora.
Ilustración 3 Diagramas de Dispersión del Ozono
Fuente: Autor a través de la herramienta SPSS
En la tabla 1, se puede observar el valor porcentual de correlación entre la concentración de
𝑂3 , el valor porcentual del R cuadrado y el error típico de estimación.
Tabla 1 Correlaciones del Ozono
Fuente: Autor
En la ilustración 3 y la tabla 4 que describe los diagramas de dispersión, se puede observar que
hay una correlación altamente positiva entre los valores de las horas que presentan luz solar
comprendidos entre las 7 am hasta las 6 pm, donde se aprecia que cada hora perteneciente a
estos rangos horarios son dependientes de la hora anterior a la concentración de 𝑂3 . Es decir
que el valor de concentración 𝑂3 a las 10 am depende fuertemente del valor de las 9 am.
Pasa lo contrario entre las horas que se percibe una intensidad solar leve o nula comprendidas
entre 6 pm y las 6 am, donde estos rangos presentan una relación débil, lo que quiere decir
que los rangos horarios escritos anteriormente presentan una independencia en cuanto la
concentración de 𝑂3 , esto se debe a que el valor de radiación solar es un gran influyente en las
horas de concentración y como en estas horas el valor es muy bajo la concentración de 𝑂3
presenta una independencia horaria.
1.1.4 Análisis de correlación entre las concentraciones de material particulado
En este capítulo, se encuentran correlaciones entre las concentraciones de 𝑃𝑀10 en el día, con
un rezago de una hora, con el fin de entender si el valor del contaminante de 𝑃𝑀10 que se
presenta a cualquier hora del día depende del valor de contaminante de 𝑃𝑀10 que se presenta
en la hora anterior, donde el valor de concentración de la hora anterior es la variable
independiente y el valor de concentración de la hora posterior es la variable dependiente. Para
encontrar este tipo de correlaciones se utilizó el método de correlación de Pearson.
En los resultados que se presentan a continuación, se encuentra una tabla llamada
“Correlaciones del Material Particulado” (Ver tabla 2), dentro de las características de dicha
tabla que describe el resultado de correlación se encuentra una columna cuyo nombre es “R
cuadrado”, este recibe el nombre de coeficiente de determinación y nos indica el porcentaje
de cuando cambia variable, en el momento que cambia la otra, cuando lo hace la otra. El tipo
de grafica utilizada es de dispersión.
Cabe recalcar que para los análisis de correlación se tomó una muestra aleatoria de
concentración de Material Particulado por cada hora de 1000 datos.
1.1.4.1 Auto-correlaciones de 𝑷𝑴𝟏𝟎 con Rezagos de 1 hora
A continuación se presentan los gráficos de dispersión de las auto-correlaciones de los valores
de concentración de 𝑃𝑀10 con rezagos de 1 hora.
Ilustración 4 Diagramas de Dispersión del PM10
Fuente: Autor a través de la herramienta SPSS
En la tabla 2, se puede observar el valor porcentual de correlación entre la concentración de
𝑃𝑀10, el valor porcentual del R cuadrado y el error típico de estimación.
Tabla 2 Correlación PM10
Fuente: Autor
En la ilustración 4 se presenta el diagrama de dispersión de la concentración 𝑃𝑀10 para cada
par de horas con un rezago de una hora y en la tabla 2 se puede observar el valor porcentual
de correlación para cada uno de dichos rezagos, comenzando a las 6 am y terminando a las 5
am del otro día junto con el valor porcentual del R cuadrado y el error de estimación.
Se puede observar que la correlación en promedio de concentración de 𝑃𝑀10 con rezagos de 1
hora es media. La concentración de 𝑃𝑀10 a las 11 am presenta una dependencia fuerte con la
concentración de las 10 am, lo mismo pasa para las horas entre las 4 pm con las 5 pm con un
mayor porcentaje de correlación (del 67.9%) y las horas entre las 5 am y las 6 am. Esto quiere
decir que la concentración de 𝑃𝑀10 en la mayoría de las horas tiene una dependencia por
debajo del 60% a la concentración de la hora anterior, por lo cual se puede pensar que otras
variables climatológicas afectan a dicha concentración de forma más influyente.
1.1.5 Análisis de correlación entre las concentraciones del contaminante de Ozono
troposférico y el de las variables climatológicas
El objetivo de esta sección es encontrar correlaciones entre el valor de concentración
almacenado por hora del contaminante de Ozono troposférico con el de las variables
atmosféricas: precipitación, velocidad de los vientos, radiación solar global, temperatura y los
precursores del ozono troposférico: óxido de nitrógeno (NOX) y dióxido de nitrógeno (NO2).
En la tabla de correlaciones (Ver tabla 3), se puede observar a nivel general que el porcentaje
de relación entre las variables descritas y el contaminante de 𝑂3 es más bajo cuando se toman
rezagos de 2 horas que con rezagos de 1 hora. Para la radiación solar global se tomaron
rezagos de 1,2 y 0 horas donde se puede observar lo contrario, es decir que entre más pasa el
tiempo (concentración de radiación solar) mayor es la influencia de la radiación solar en el 𝑂3 ,
lo que quiere decir que su proceso de destrucción es más lento que las demás variables,
dejando secuelas al pasar el tiempo.
Para los rezagos de 1 hora se puede observar que el contaminante 𝑂3 es dependiente
significativamente del valor de la temperatura y el NOX superando el 40 % de correlación. Es
decir que la concentración de 𝑂3 que se presenta a las 8 am es dependiente de los valores
presentados en la temperatura y el NOX a las 7 am en un 28.7% y 16.5% respectivamente,
sucediendo así para las demás horas del día. El porcentaje de correlaciones siguientes con
rezagos de 1 hora corresponden al NO2, velocidad del viento y radiación solar global con un
porcentaje de influencia bajo en la concentración del 𝑂3 . La lluvia no presenta una correlación
fuerte para este mismo rezago.
Para los rezagos de 2 horas se observa que la temperatura es la más influyente en la
concentración de 𝑂3 , seguida por la radiación solar global y el NOX, lo que quiere decir que la
concentración de estas variables tienen un proceso de influencia más lento que las demás,
(cuyo proceso de dispersión es más demorado) a diferencia de la velocidad de los vientos cuyo
valor con rezagos de 2 horas no es influyente en la concentración de 𝑂3 . Por su parte la lluvia
tiene un comportamiento distinto a las demás variables ya que tiende a ser un poco más
influyente en la concentración de 𝑂3 a largo plazo que a corto plazo, sin embargo esta
influencia no es significativa.
Tabla 3 Correlaciones del 𝑶𝟑 con las variables climatológicas y los precursores.
Fuente: Autor
1.1.6
Análisis entre las concentraciones del contaminante de material particulado
y el de las variables atmosféricas
En esta sección muestra las correlaciones entre el valor de concentración almacenado
por hora del contaminante de 𝑃𝑀10con el de las variables atmosféricas: Precipitación,
velocidad de los vientos, radiación solar global, temperatura.
En la tabla de correlaciones (Ver tabla 4), se puede observar algo similar al comportamiento de
la tabla 3, a nivel general el porcentaje de relación entre las variables y el contaminante de
𝑃𝑀10 es más bajo cuando se toman rezagos de 2 horas que con rezagos de 1 hora. Sin
embargo se mantiene el caso de la radiación solar global donde se tomaron rezagos de 1,2 y 0
horas y se observar lo contrario, es decir que entre más pasa el tiempo (concentración de
radiación solar) mayor es la influencia de la radiación solar en el 𝑃𝑀10 , lo que quiere decir que
su proceso de dispersión es más lento que las demás variables, dejando secuelas en el
transcurso del tiempo con respecto a la concentración de 𝑃𝑀10.
Para rezagos con 1 hora el porcentaje de correlación entre las concentraciones de temperatura
y velocidad de los vientos está por arriba del 30%, lo cual se muestra que hay una dependencia
parcial de la concentración de 𝑃𝑀10 con dichas variables, la radiación solar también influye
parcialmente en la concentración de dicho contaminante. En cuanto a la lluvia se puede
observar que la correlación es muy baja casi insignificante con la concentración de 𝑃𝑀10 tanto
con 1 como 2 horas de rezagos, y se puede plantear que la lluvia no es influyente en el 𝑃𝑀10.
Para rezagos con 2 horas la temperatura y la radiación solar influyen en más del 30% en la
concentración de 𝑃𝑀10, lo cual se puede observar una dependencia parcial de dicho
contaminante con estas variables, también se observa que el porcentaje de correlación de la
radiación solar con la concentración de 𝑃𝑀10 aumenta con el paso de las horas y esto se debe
a que la radiación solar tiene un efecto prolongado e intenso con el paso del tiempo. La
velocidad de los vientos sigue teniendo una correlación significativa con la concentración de
𝑃𝑀10.
Tabla 4 Correlaciones del 𝑷𝑴𝟏𝟎 con las variables climatológicas
Fuente: Autor
1.2 Análisis de la Fuente de Datos
Esta sección describe las características de la base de datos donde se encuentran las
mediciones diarias de los contaminantes y las variables climatológicas a explorar, estas
mediciones son realizadas por equipos especializados (que se especifican más adelante) que se
encuentran ubicados en la localidad de Puente Aranda Bogotá.
1.2.1 Lugar de extracción de los datos
A continuación se presenta una descripción de la estación de Puente Aranda, cabe recalcar que
esta información es obtenida gracias a la página y los informes de la Red de Monitoreo de
Calidad del Aire [11] [12]:
Nombre de la Estación Puente Aranda (Estación fija)
Ubicación
Carrera 65 # 10-95
Coordenadas
Geográficas
Latitud: 04.38.04,8
Longitud: -74.07.15,0
Contaminantes Medidos
Nombre
Equipos de Medición
PM10
Met One Bam 1020
O3
Tapi 400E
CO
SO2
NO2
NOX
Punto toma de
muestra
Altura del Punto de
muestra
Tapi 300E
Thermo Scientific 43i
Tapi 200E
Mediante la ecuación 𝑛𝑜𝑥 = 𝑛𝑜 + 𝑛𝑜2
Azotea
24 m
Precipitación
Velocidad de los vientos
Temperatura
Variables
Climatológicas
Tabla 5 Descripción de la estación de puente Aranda
Fuente: Autor
La variable climatológica radiación solar global no se mide actualmente en esta estación, sin
embargo debido a la importancia de esta variable fue necesario extraer los valores de
medición de dicha variable de la estación del parque Simón Bolívar ubicado en el centro
geográfico de Bogotá. Según la herramienta google maps la distancia entre la estación de
medición de Puente Aranda y la de simón bolívar es de 5.3 kilómetros y gracias a la asesoría y
colaboración de la Ingeniera Blanca Oviedo con este tema, se pudo obtener la base de datos
que contenía la medición diaria de la radiación solar entre los años 1.999 y 2012.
Sin embargo fue necesario crear una vista donde solo estuvieran los datos de medición del
atributo radiación solar en la estación de simón bolívar junto a la fecha y hora de la captura de
estos datos con el fin de utilizar sentencias SQL para unir esta vista con la tabla de la estación
de Puente Aranda. La sintaxis de unión entre estas dos tablas fue: Vista INNER JOIN Tabla2
para que uniera estas dos tablas de acuerdo a la coincidencia entre fecha y hora de las mismas
ya que es importante que la fecha y hora en que se tomó el valor del atributo radiación solar
global en la estación de simón bolívar coincidiera en la misma hora y fecha de las demás
variables tomadas en la estación de Puente Aranda.
1.2.2 Estado inicial de la Base de datos
Para la obtención de la base de datos de la localidad de Puente Aranda, fue necesario
presentar una carta a la Secretaria Distrital del Ambiente dirigida a la Red de Monitoreo de
Calidad del Aire, solicitando la información detallada de lo que se necesitaba y la justificación
del por qué era necesaria esa información.
La entrega de la información se dividió en tres archivos con formato xls, en donde el primer
archivo tiene la información de los contaminantes: Dióxido de Nitrógeno, Óxido de nitrógeno y
el atributo fecha&Hora. El segundo archivo contenía la información por hora del valor de
Radiación Solar Global tomado en la estación de Simón Bolívar. El tercer archivo contenía el
resto de la información solicitada especificada en el comienzo del documento.
En cada uno de los archivos se encontró registros históricos del año 1999 hasta el año 2012,
donde habían 4 tablas cuyas agrupaciones y tamaño estaban distribuidas de la siguiente
forma:
Tabla de Base de Datos
1999- 2001
2002-2005
2006-2009
2010-2012
Total Registros Históricos
Tamaño
27.544
35.064
35.064
26.304
123.976
Tabla 6 Registro histórico desde 1999 hasta el 2012
Fuente: Autor
A continuación se describe la información que contienen los archivos de base de datos (es
decir los atributos que hacen parte de la base de datos):
Nombre del Atributo
Tipo de variable
Tipo de Medición
y/o formato
dd/mm/aaaa h:mm
Fecha & Hora
Datos Temporales
Ozono
Continua
Partes por billón
(Ppb)
PM10
Continua
Microgramos por
metro cubico
(µg/m3)
Vel Viento
Continua
Metros por segundo
(m/s)
Descripción
Este
atributo
especifica la fecha y
la hora en la que se
toma la medición de
cada uno de los
atributos descritos
posteriormente.
Muestra el valor que
presenta
el
contaminante
de
Ozono troposférico
en tiempo real, según
el índice de AQI [3]
Muestra el valor que
presenta
el
contaminante
de
Material Particulado
en tiempo real, según
el índice AQI [3]
Muestra el valor
tomado en tiempo
real de la velocidad
del viento, que es la
intensidad del viento,
que se mide de
acuerdo
a
una
cantidad vectorial, su
intensidad
es
variable ya que el
Temperatura
Continua
Grados centígrados
(C°)
Lluvia
Continua
Milímetros (mm)
NO2
Continua
Partes por billón
(Ppb)
NOX
Continua
Partes por billón
R_S Global
Continua
Watts por metro
𝑤
cuadrado ( 2)
𝑚
Tabla 7 Archivo de base de datos por atributos
Fuente: Autor
flujo del aire no es
constante.[17]
Muestra el valor
tomado en tiempo
real
de
la
temperatura, que es
la medida de calor en
un
instante
de
tiempo, sus valores
son >=0º.[17]
Muestra el valor que
se está tomando en
tiempo real de la
lluvia, que es el agua
en forma líquida o
sólida que viene de la
atmosfera a la tierra.
Esta variable incluye
valores catalogados
como:
Lluvia,
llovizna,
roció,
granizo,
escarcha,
nieve, etc...[17]
Muestra el valor que
presenta
el
contaminante
de
Dióxido de Nitrógeno
en tiempo real, según
el índice de AQI [3]
Muestra el valor del
óxido de nitrógeno y
este
valor
es
calculado mediante
la
fórmula:
NOX=NO+NO2 [33],
siendo
NO2
el
atributo
descrito
anteriormente y NO
es nobelio.
Muestra el valor de la
Radiación
global
solar, que viene
siendo el resultado
entre la suma de la
radiación
global
directa y la radiación
ultravioleta.
La base de datos contiene información únicamente continua por lo que en muchos casos
presenta campos anómalos, a continuación se muestra en detalle el tipo de errores que
presentaban algunos campos pertenecientes a los tres archivos de las bases de datos:
Valor del Campo
Vacío
Frecuencia de Campos
123.743
Sin Data
89.316
<Muestra
2.482
Apagado
860
Unknown
354
FallTech
2.312
Fechas
2
Calib
1061
Cero
99
Spam
3
Descripción
No tiene valores numéricos
ni ningún tipo de carácter.
El motivo de este valor es
porque en ese momento se
estaban
realizando
mantenimiento
a
las
maquinas.
El motivo de este valor es
porque
al
realizar
la
exportación por parte de la
RMCA a un archivo .xls, el
archivo toma algunos valores
vacíos como muestra.
Sucede cuando apagan el
equipo de medición para
realizar alguna actividad de
chequeo
en
su
funcionamiento.
Sucede cuando el equipo de
medición está en proceso de
calibración.
Sucede cuando el equipo de
medición presenta fallas
técnicas.
El motivo de este valor es
porque hay una interrupción
de la operación en la
estación.
Sucede cuando el equipo de
medición está en proceso de
calibración.
Error de almacenamiento en
la base de datos y queda
como un carácter.
Error de almacenamiento.
Tabla 8 Errores pertenecientes a las bases de datos
Fuente: Autor
1.2.3 Análisis de los Atributos de la base de datos
Esta sección pretende mostrar en detalle cada atributo perteneciente a la base de datos ,
enfocándose en la frecuencia de cada rango que contienen los atributos, la cantidad de
registros que contienen el campo del atributo vacío o con un dato anómalo y la cantidad de
registros que contiene ese atributo con un valor distinto.
Atributo: Ozono
Campos de ese atributo cuyo valor es vacío: 6.185 (14% del porcentaje total de los datos).
Valores Únicos del atributo: 1023 (1% del porcentaje total de los datos).
Ilustración 5 Frecuencia del valor de Ozono troposférico en la base de datos
Fuente: Herramienta Weka
Esta ilustración, representa la frecuencia del valor de Ozono troposférico que se encuentra en
la base de datos, es importante recalcar que hay una frecuencia alta en valores de Ozono entre
el 0.2 y el 14.85 Ppb, lo que es muy positivo para la población en especial la localidad de
Puente Aranda ya que según la AQI [3] este rango de valores se considera como un Ozono
troposférico sin peligro para la salud. Sin embargo el riesgo del Ozono troposférico va más allá
de un valor cuyo rango sea caracterizado sin peligro para la sociedad, ya que el riesgo depende
de la duración de la exposición en que la persona o la vegetación se encuentren con estos
rangos, ya que si la exposición es prolongada los efectos se pueden ver inmediatamente o a
largo plazo según el organismo y la sensibilidad que presente la persona afectada [3] [25].
Atributo: PM10
Campos de ese atributo cuyo valor es vacío: 6.605 (6% del porcentaje total de los datos)
Valores Únicos del atributo: 53 (0% del porcentaje total de los datos).
Ilustración 6 Valores de material particulado más frecuentes
Fuente: Herramienta Weka
En esta ilustración se puede observar que los valores de material particulado más frecuentes
van entre 43.9 y 139.027 µg/m3, sin embargo es importante recalcar lo que se mencionó en el
contaminante de Ozono troposférico y es que estos valores pueden llegar hacer muy
peligrosos si la exposición de la población es muy prolongada y además de esto los valores
altos que son menos frecuentes pueden afectar así sea con una hora de exposición al aire libre
de acuerdo al tipo de persona que se esté exponiendo ( en la memoria de grado se especifican
los grupos sensibles a este contaminante).
Atributo Vel vientos
Campos de ese atributo cuyo valor es vacío: 1.892 (2% del porcentaje total de los datos)
Valores Únicos del atributo: 4 (0% del porcentaje total de los datos).
La obtención del valor de este atributo es gracias a un instrumento llamado anemómetro, que
está formado por un molinete de tres brazos, el equipo en el que se realizaron las mediciones
es un Thies CLIMA®, modelo 4.3019.21.000, portátil, que toma cada segundo la velocidad del
viento y cada diez segundos promedia esos diez valores de Velocidad de los Vientos. [60].
Ilustración 7 Velocidad del viento en m/s
Fuente: Herramienta Weka
La ilustración anterior muestra la frecuencia de los valores en m/s de la velocidad del viento
extraídos de la Base de datos que contiene los registros históricos, se puede observar que la
velocidad de los vientos en la mayoría de las ocasiones es baja, sin embargo la distribución de
las frecuencias de la gráfica muestra que varía de los rangos 1.13 a los 5.25 m/s.
Atributo: Temperatura
Campos de ese atributo cuyo valor es vacío: 1.649 (1% del porcentaje total de los datos)
Valores Únicos del atributo: 8 (0% del porcentaje total de los datos).
Este atributo es producido gracias que la superficie terrestre recibe energía solar en forma de
radiación solar, la atmosfera de la tierra refleja alrededor del 55% de la radiación que está
entrando en la tierra y absorbe el 45% restante formando así este en porcentaje de calor.
Ilustración 8 Frecuencia de la temperatura en grados centígrados
Fuente: Herramienta Weka
En esta ilustración se muestra la frecuencia de la temperatura en grados centígrados, viendo
que los rangos de temperaturas que muestran mayor frecuencia a lo largo de los años entre
1999 y 2012 han sido 14.59 a 17.30ºC, lo cual nos lleva a pensar que si no se toman medidas
en cuanto el cuidado del medio ambiente en especial por el contaminante de Ozono
troposférico, la temperatura puede ser un buen influyente para la generación de un Ozono
peligroso para la sociedad.
Atributo a estudiar: Lluvia
Campos de ese atributo cuyo valor es vacío: 4.906 (4% del porcentaje total de los datos)
Valores Únicos del atributo: 40 (0% del porcentaje total de los datos).
El atributo lluvia o también llamado precipitación según la Red de Monitoreo de Calidad del
Aire se puede definir como:” cualquier forma de hidrometeoro, conformado de partículas
acuosas de forma sólida o liquida que caen de las nubes y llegan al suelo”.
Ilustración 9 frecuencia de precipitaciones por año
Fuente: Herramienta Weka
Algo interesante de esta ilustración que muestra la frecuencia de precipitación durante los
años ya mencionados, se puede observar que según la muestra tomada y los valores captados
por los equipos de medición de lluvias, estas tienen una alta frecuencia en ser escasas y la
barra siguiente a esta después de una notable diferencia presenta lluvias con un rango de
0.159 a 0.200 mm, por lo tanto el primer resultado puede ser también un factor muy
influyente para la generación de Ozono troposférico peligroso, debido a que el papel
fundamental de la lluvia es mantener las plantas vivas y estas ayudan a modificar el clima, lo
cual hace que disminuya en muchas ocasiones la radiación solar y así el nivel de concentración
de Ozono troposférico sea bajo [33][25].
Atributo a estudiar: R_S Global
Campos de ese atributo cuyo valor es vacío: 7001 (6% del porcentaje total de los datos)
Valores Únicos del atributo: 46 (0% del porcentaje total de los datos).
Gracias al instrumento denominado piranometro, se puede medir la radiación solar que llega a
la tierra. El atributo el cual estamos estudiando es llamado radiación solar global que es la
suma de las tres radiaciones, siendo un atributo interesante y completo para realizar estudios
a nivel general.
Ilustración 10 Rangos de radiación solar global en µg/m3
Fuente: Herramienta Weka
En esta ilustración se puede observar que los rangos de valores de radiación solar global más
repetitivos están comprendidos entre 1 y 85.889 µg/m3, lo cual puede ser un aspecto positivo
a la hora de hablar de calidad del aire ya que este es un influyente importante para la
concentración de Ozono troposférico, sin embargo en este proyecto se busca descartar o
reafirmar completamente las relaciones que existen entre este atributo y los contaminantes de
ozono troposférico y material particulado.
Atributo a estudiar: NO2
Campos de ese atributo cuyo valor es vacío: 6915 (6% del porcentaje total de los datos)
Valores Únicos del atributo: 1490 (1% del porcentaje total de los datos).
El óxido de nitrógeno se forma por los elementos de nitrógeno y oxígeno, es uno de los
principales contaminantes entre los varios óxidos de nitrógeno, su color tiende a ser marrón y
se forma por procesos de combustión a altas temperaturas en especial en industrias como
plantas eléctricas y vehículos con motor [11] [12].
Ilustración 11 Frecuencia de óxido de nitrógeno
Fuente: Herramienta Weka
Como se puede observar en esta ilustración la mayor frecuencia de óxido de nitrógeno esta en
valores bajos, lo cual según el índice de calidad del aire (ICA) [3], dichos rangos de mayor
frecuencia no alcanzan ninguna escala amarilla (Moderado) o más bajo.
Atributo a estudiar: NOX
Campos de ese atributo cuyo valor es vacío: 6921 (6% del porcentaje total de los datos)
Valores Únicos del atributo: 4468 (4% del porcentaje total de los datos).
Este contaminante no tiene un índice de calidad del aire como tal ya que su medición es
calculada por una formula muy sencilla que compone la suma entre el óxido de nitrógeno
(NO2) y el monóxido de nitrógeno (no), donde este tipo de contaminante hace parte de la
formación del ozono troposférico y hace referencia a un grupo de gases muy reactivos (entre
esos también el NO y NO2) [46].
Ilustración 12 frecuencia del NOX
Fuente: Herramienta Weka
En esta ilustración se puede observar que la mayor frecuencia se encuentra entre los rangos
3.01 - 43.736 Ppb, sin embargo es importante tener en cuenta que hay rangos altos (mayores
de 100 Ppb) que así su frecuencia no sea considerable pueden llegar a causar complicaciones
más adelante representándose más que todo en el ozono troposférico.
2
Preparación de Datos
En este capítulo se muestra el proceso de la selección y aplicación de métodos a la base de
datos a la que se les va a aplicar las técnicas de minería de datos, también se muestran los
procesos de limpieza de los datos, la generación de variables adicionales, la integración de
diferentes conjuntos de datos y cambios de formato.
Este capítulo lleva bastante trabajo ya que está directamente relacionado con la selección de
las técnicas de minería de datos, es decir que los datos se procesan de acuerdo a la técnica de
minería de datos escogida. Cabe recalcar que para realizar algunas secciones de este capítulo
fue necesario primero seleccionar las técnicas pertinentes al trabajo de grado, las cuales se
encuentran descritas en el documento de “descripción de las técnicas seleccionadas”.
La preparación de datos es importante en el proceso de minería de datos por las siguientes
razones:
1. Los datos entregados presentan valores inconsistentes o con ruido.
2. La preparación genera muestras de datos menores al conjunto original y esto puede
ayudar a la eficiencia del algoritmo de minería. [38].
3. La preparación va de la mano con la calidad en los datos, al recuperar instancias de las
bases de datos. [38]
4. En este proceso se pueden crear variables adicionales que ayuden al algoritmo de
minería y al encargado del proceso a entender los resultados del modelo.
La herramienta utilizada para la creación de las vista minable fue SQL server 2012 junto con el
add In de Minería de datos de Excel 2010. Para mayor facilidad en el tratamiento de los datos,
fue necesario crear una base de datos local en la herramienta y allí realizar la importación de
las 4 tablas que iban a componer la nueva base de datos. A continuación se ve la estructura de
la base de datos en la herramienta:
Ilustración 13 Estructura de la base de datos en la herramienta
Fuente: Herramienta Visual Studio Data tolos versión 2010
2.1 Aspectos Generales
Esta sección presenta el tratamiento de los datos a nivel general, es decir que aplica para los
dos atributos contaminantes a explorar (O3 y PM10).También es creada debido a que habían
tratamientos en los datos que se manejaron de forma general, es decir independientemente
de la técnica a utilizar.
2.1.1 Integración de Datos
Para mayor facilidad fue necesario unir los 4 archivos en uno solo con el fin de mejorar la
eficiencia, el tiempo de preparación y la aplicación a las técnicas de minería de datos. La unión
de estos 4 archivos (dividido en años) se realiza creando una vista de datos, donde la vista
contiene la unión de las tablas, al final las dos vistas se unen utilizando la sintaxis Join. A
continuación se puede observar una vista previa de la tabla con los datos conjuntos:
Ilustración 14 Vista de datos divididos en años
Fuente: Herramienta SQL Server Managment Studio versión 2012
Cabe recalcar que los valores de los campos que se ven vacíos en .xls en la importación en sql
se visualizan dichos campos con el valor “NULL”.
2.1.2 Partición del atributo fecha&Hora
El atributo fecha&Hora como se describió anteriormente es de tipo Date y por su formato solo
contiene valores únicos, así que no es posible obtener resultados útiles relacionado con las
series de tiempo y con los demás atributos. Por tal motivo fue importante dividir este atributo
temporal en 4 columnas que son: Hora, Mes, día y año. Adicionalmente esta división es de
gran ayuda para crear las variables derivadas relacionadas con las series temporales. A
continuación se puede observar la vista general de la base de datos con esta partición:
Ilustración 15 Participación del atributo por fecha y hora
Fuente: Herramienta SQL Server Managment Studio versión 2012
2.1.3
Validación y Limpieza de Datos
Es importante realizar una limpieza en los datos con el fin de tener una presentación de dichos
datos de una forma apropiada para las técnicas de minería de datos, ya que si hay datos
inconsistentes o nulos pueden alterar los resultados de las técnicas de una forma negativa.
En esta sección se presenta el tratamiento aplicado a los datos con valores únicos, datos
inconsistentes (mencionados en la ilustración 1 de la sección anterior), datos perdidos y
problemas de integración.
También es importante realizar una reducción de dimensional dad a la base de datos ya que el
elevado tamaño de un conjunto puede provocar inconvenientes como [3]:
1. Los aumentos de respuesta en el procesamiento de las técnicas es alto ya que entre
más casos se encuentren en la base de datos, mayor es el tiempo de inversión en la
clasificación de dichos casos y en la mayoría de las ocasiones estos casos resultan
redundantes.
2. Aumento de ruido en los datos (es decir datos inconsistentes o que estén por fuera
de los rangos o el tipo de dato regido por el atributo), esto provoca que se generen
modelos de mala calidad modificando la adecuada clasificación de aquellos casos
que entren en la región de decisión.
3. Al realizar la visualización y/o interpretación de los resultados de los modelos de
minería, cuando el tamaño del conjunto de datos es grande puede convertiré en
resultados incomprensibles para la mente humana.
Datos Perdidos:
Campos Vacíos
123.743
En el motor de base de datos SQL Server 2012 los datos perdidos se representan con el valor
“NULL”. Debido a que los datos no contienen ninguna información, se consultó a los expertos
en el conocimiento de los datos de medición que en este caso fue la Ingeniería Blanca Oviedo
quien sugirió no reemplazarlos por el promedio ni predecirlos sino borrar los registros con
dichos campos perdidos ya que no representaban una cantidad significativa en el total de
registros. En muchos casos habían registros que contenían 2 o más campos perdidos o vacíos.
Datos Inconsistentes:
Gracias a las herramientas de visualización de Weka, se permitió detectar los campos que
tenían valores inconsistentes, la herramienta weka presenta una interfaz que en la pestaña de
presentación de los datos, tiene la posibilidad de seleccionar cada atributo de forma individual
y ver estadísticas de frecuencia, valores únicos, valores nulos y los rangos de datos que
contiene dicho atributo, gracias a la documentación que publica la RMCA fue posible
determinar cuáles rangos eran posibles en cada uno de los atributos, sin embargo los únicos
datos inconsistentes encontrados eran de tipo carácter lo cual era un tipo de dato totalmente
opuesto al tipo manejado por las variables de la base de datos. A continuación se muestra una
imagen de la interfaz de Weka enfocada en el reconocimiento de las características que
presenta dicha fuente de datos:
Ilustración 16 Interfaz de Weka
Fuente: Herramienta Weka versión 6
En la anterior ilustración se puede observar como ejemplo de lo explicado anteriormente, las
características principales del atributo PM10, donde se puede observar los datos
inconsistentes seguido de la cantidad con que se presentan dichos valores. A continuación se
muestran los valores inconsistentes presentados en algunos campos y la cantidad de dichos
campos que presentan estos valores a nivel general de la base de datos:
Valor del Campo
<Muestra
Apagado
Unknown
FallTech
Fechas
Calib
Cero
Spam
Cantidad de Campos
2.482
860
354
2.312
2
1061
99
3
Ilustración 17 Valores inconsistentes
Fuente: Autor
El tratamiento pertinente para combatir con los datos inconsistentes, fue eliminar los registros
que contenían dichos campos inconsistentes ya que no se tenía certeza de cuáles podrían ser
los valores posibles para llenar esos datos, además no se puede predecir un campo cuya
clasificación es un valor inconsistente en esta base de datos, ya que se podrían alterar los
resultados de las técnicas de minería de datos y por otra parte en muchos de los registros se
encontraban más de 2 campos con valores inconsistentes.
Valores Únicos
La herramienta Weka permite observar los atributos cuyos valores son únicos en la base de
datos. En la sección de “Análisis de los Atributos”, se puede observar que todos los atributos
de la base de datos contienen valores únicos, representando así hasta el 6% de los datos. Los
valores únicos pueden desviar los resultados que provean las técnicas de minería de datos, en
especial la técnica de reglas de asociación.
Tratamiento con los valores únicos
El tratamiento más apropiado fue discretizar los atributos:







Ozono
PM10
Vel Vientos
Lluvia
NOX
NO2
Temperatura
Reducción de dimensionalidad
La limpieza de datos, consistió en detectar los datos que podían presentar problemas de
inconsistencias y rendimiento a la hora de tomarlos como muestra de entrada en los
algoritmos de minería, así que los registros que contenían los campos que se describían en esa
sección, se eliminaron con el fin de solucionar los posibles problemas tratados en la sección 1.2
Análisis de la Fuente de Datos, El total de los registros de la base de datos integrada fueron:
123.976, aplicando la reducción de dimensionalidad quedaron 52.441 registros, eliminando así
un 42.3% de registros cuyos campos tenían valores inconsistentes y nulos. Estos 52.441
registros quedaron sin campos nulos ni inconsistentes, sin embargo cabe recalcar que sigue un
porcentaje pequeño de valores únicos y que dicha reducción no altero el diagrama de
frecuencias presentado en el capítulo 1.2 Análisis de la fuente de datos, solo bajo el porcentaje
de frecuencia para los rangos presentados en las gráficas.
Suavizado de Datos
Es importante recalcar que la base de datos inicial, tiene la mayoría de sus atributos de tipo
numérico, por lo que puede suceder que en un escenario negativo cada campo pueda tomar
tanto valores como registros hay. En este caso muchas de las diferencias entre los valores de
los campos son a nivel de los decimales, así que son insignificantes para los resultados del
algoritmo de minería pero pueden degradar su desempeño.
A continuación se puede observar el formato del estado inicial de los valores en los campos de
los atributos: NOX, NO2 y Ozono:
Formato de los campos del atributo
nn.dddd (d=decimal, n=numero)
Tabla 9 Formato de los datos de tipo continuo de la base de datos
Fuente: Autor
Por este motivo fue importante realizar el suavizado de datos en dichos atributos dejando este
valor continuo con solo un decimal, para este caso con la técnica de reglas de asociación
mejora el rendimiento en los cálculos para realizar la categorización de los datos a utilizar.
2.1.4
Creación de Variables Derivadas
La importancia de crear variables derivadas es alta [43] ya que aparte de mejorar el
rendimiento en el procesamiento de las técnicas, facilita la interpretación de los resultados
que generen los modelos y sirven para explorar conocimiento por enfoques (en este trabajo de
grado uno de los enfoques es encontrar relaciones entre los contaminantes con las series de
tiempo) que no se muestra legible con los atributos de la base de datos. Las variables
derivadas son creadas [43] a partir de la combinación de los valores de dos o más campos. A
continuación se muestran las variables con la descripción:
Hora Pico
Esta variable se creó con el fin de observar la relación que hay entre el horario de congestión
en la ciudad de Bogotá con el Ozono y las demás variables climatológicas, esta es una variable
de tipo nominal y booleana. Esta variable se creó gracias a el atributo fecha&Hora, utilizando
el carácter hora para realizar el procedimiento condicional.
Los posibles valores que puede tomar la variable son: “SI” y “NO”. El valor “SI” significa que es
hora pico y el valor “NO” quiere decir lo contrario.
Los rangos que entran en la categoría “SI” se comprenden en las siguientes horas [mail]: 7
a.m., 5 p.m. y 8 p.m. y las demás horas entran a la categoría “NO”.
ClasificacionHora
Esta variable fue creada con el fin de realizar una mejor interpretación en los resultados de las
técnicas de minería de datos en especial con la técnica de regla de asociación con el algoritmo
Apriori, esta variable se creó gracias a el atributo fecha&Hora, utilizando el carácter hora para
realizar el procedimiento condicional. La ClasificacionHora se divide en las siguientes
categorías:
ClasificacionHora
Rangos
“MAÑANA”
“MEDIO DIA”
“TARDE”
“NOCHE”
“MADRUGADA”
6 a.m. a 10 a.m.
11 a.m. a 2 p.m.
3 p.m. a 6 p.m.
7 p.m. a 11 p.m.
12 a.m. a 5 a.m.
Tabla 10 Clasificación hora por rangos de tiempo
Fuente: Autor
Fin de semana
Esta variable derivada es de tipo nominal y booleana, como uno de los objetivos de este
trabajo de grado es tener en cuenta las series temporales, este fue uno de los motivos de crear
esta variable ya que se derivan del atributo fecha&Hora que es el que representa la serie
temporal de la base de datos. Para crear esta variable se utilizó una función especial de SQL
server 2012 que se encarga de tomar la fecha y como resultado en otra columna colocar el día
de la semana de tipo carácter y con esto crear el procedimiento condicional para seleccionar
solo los días “Sábados” y “Domingos”.
Trimestres del Año
Esta variable fue creada con el fin de relacionar el ozono con la climatología colombiana,
donde el año está compuesto por 4 trimestres así que esta variable contiene 4 categorías
respectivas. Para esto fue necesario utilizar la variable derivada mes y crear el procedimiento
condicional para dividir los meses en trimestres. Esta variable es de tipo nominal. A
continuación se muestran las categorías que puede tomar esta variable junto con los rangos
que le acompañan:
Categorías del Trimestre
Trimestre 1
Trimestre 2
Trimestre 3
Trimestre 4
Rango
Diciembre – Febrero
Marzo-Mayo
Junio-Agosto
Septiembre- Noviembre
Tabla 11 categorías del trimestre por año
Fuente: Autor
PromRadiacionSG
Esta variable es de tipo nominal y fue creada con el fin de ayudar a reducir la extensión del
árbol, a obtener una buena interpretación por parte del interesado y en la construcción de los
nodos internos del árbol. . Esta variable fue creada calculando el promedio del nivel de
radiación solar global con base la clasificación horaria (mañana, medio día, noche, tarde y
madrugada), para cumplir dicho propósito fue necesario utilizar el atributo RadiaciónSolarG y
la variable derivada ClasificacionHora. A continuación se presenta la tabla con la información
de los promedios de radiación solar global de acuerdo a la clasificación horaria:
Clasificación
Madrugada
Mañana
Medio día
Tarde
Noche
PromedioRS
0
228.82
529.74
221.99
1.68
Tabla 12 promedio de la radiación solar global por clasificación horaria
Fuente: Autor
La variable derivada PromRadiacionSG se basa en los valores de la tabla anterior y con base en
esta se crean 3 estados: “mayor al promedio”, “promedio” y “menor al promedio”.
2.2 Aspectos específicos
En esta sección se presentan los tratamientos que se realizaron a los datos de forma específica
de acuerdo al contaminante a analizar y la técnica de minería de datos utilizada para los
contaminantes PM10 y O3 troposférico, cabe recalcar que cuando se habla de aspectos
específicos quiere decir que se realizó un tratamiento distinto en cada una de las etapas de
esta sección.
2.2.1 Preparación de datos para Reglas de asociación y Clasificación
Por los requerimientos de las técnicas de reglas de asociación y clasificación es importante
realizar una conversión de los atributos de continuo a nominal. A continuación se muestran los
atributos a los que se les realizo la discretización, seguido de su respectivo procedimiento:
2.2.1.1 VelViento
Este atributo por ser de tipo continuo fue necesario aplicarle discretización. El atributo Vel
Viento se categoriza de acuerdo a la escala de velocidad del viento – Beaufor [11] [12]
especificado en el informe anual de calidad del aire. A continuación se presenta la escala:
Tabla 13 Escala de velocidad del viento
Fuente: Informe Anual realizado por la RMCAB
Después de realizar la categorización con la escala Beaufor, se detectó que la categoría más
alta que presenta el atributo fue “Regular” con un rango entre 7.5 y 9.8 m/s, sin embargo con
el fin de que el modelo quede útil para otro conjunto de datos la categoría regular quedo con
valores mayores e iguales que 7.5 m/s. La categoría más frecuente es suave.
2.2.1.2 Temperatura
El atributo contiene un índice definido llamado temperatura efectiva Missenard, este índice
mide el estrés térmico tanto por altas como por bajas temperaturas. A continuación se
muestra una representación de la escala de temperatura:
Ilustración 18 Escala de temperatura
Fuente: RMCAB
El índice de temperatura más alto que se detectó en la base de datos fue “Tibio” que
representa la temperatura entre los rangos mayores e iguales que 18 y menores que 24 ºC, sin
embargo con el fin de que el modelo quede útil para otro conjunto de datos la categoría tibio
quedo con valores mayores e iguales a 18 ºC. El índice que presenta mayor frecuencia en la
base de datos es “menos tibio”.
2.2.1.3 Lluvia
Este atributo también tiene una escala definida por lo cual se usa para realizar la discretización
de los valores posibles, la escala se menciona en los anexos de los informes anuales de calidad
del aire realizado por la RMCA [12]. En la ilustración siguiente se muestra la escala de
precipitación:
Tabla 14 Escala de precipitación diaria en mm
Fuente: Informe Anual realizado por la RMCAB
La mayor categoría detectada que toma la base de datos de registros históricos es de “fuerte”
con valores mayores e iguales a 21mm y la categoría que presenta mayor frecuencia es
“escasa”.
2.2.1.4 Radiación Solar Global
El atributo de radiación solar global no tiene como tal un índice de medición, así que fue
necesario utilizar las herramientas de SQL Server detección de categorías, donde se
detectaron 5 que se presentan a continuación con su respectivo rango e importancia:
Categoría
No existe
Clase 1
Clase 2
Clase 3
Clase 4
Clase 5
Columna
RadiaciónSolarG
RadiaciónSolarG
RadiaciónSolarG
RadiaciónSolarG
RadiaciónSolarG
RadiaciónSolarG
Valor
𝒘
𝒎𝟐
0
1-151
152 - 344
345 - 527
528 – 742
>=743
Importancia Relativa
100
100
100
100
100
100
Tabla 15 Radiación solar global
Fuente: Herramienta Visual Studio Data Tools versión 2010
Las categorías más frecuentes son “Clase 1” y “Clase 3”, la categoría “No existe” se presenta en
las horas comprendidas entre las 8 pm a las 4 am, esta categoría se creó con el fin de explorar
las distintas relaciones que pueden existir con el Ozono.
2.2.1.5 Ozono Troposférico (𝑶𝟑 )
En esta sección se presenta el proceso de categorización para el Ozono y los precursores NOX y
NO2 con el fin de aplicar técnicas de clasificación y reglas de asociación.
Discretización (Categorización)
Una de las desventajas de las Reglas de asociación, es que no maneja muy bien los datos de
entrada cuyos valores son continuos ya que afecta el desempeño, el cálculo de confianza y el
soporte de cada regla de asociación encontrada. Por tal motivo es necesario realizar una
conversión de los atributos de continuo a nominal.
A continuación se muestran los atributos a los que se les realizo la discretización para explorar
el atributo objetivo Ozono, seguido de su respectivo procedimiento:
Ozono
A este atributo por su característica de tipo continua fue necesario aplicar discretización según
los criterios que maneja la Enviromental Protection Agency (EPA ) , esta agencia busco la
manera de hacer que la información sobre la calidad del aire exterior sea fácil de entender,
creando así el Índice de Calidad del Aire (AQI por sus siglas en ingles), este índice no solo
presenta información de la calidad del aire diario sino que también presenta los posibles
efectos en la salud y las personas más vulnerables a sufrir dichos efectos.
La EPA calcula el AQI para cinco de los principales contaminantes regulados por la Ley del Aire
Limpio, entre estos contaminantes calculados se encuentra el Ozono troposférico.
A continuación se muestran las 6 categorías que representan el AQI, junto con el nivel de
preocupación para la salud y el color que representa el nivel de peligrosidad de cada
categoría:
Tabla 16 Categorías que representan el AQI
Fuente: EPA
Un AQI de 100 corresponde a un nivel de Ozono de 0.08 ppm (partes por millón). Como nos
podemos dar cuenta en la sección 1.2.2 Estado inicial de la base de datos, el atributo de ozono
esta medido en ppb (partes por billón) así que fue pertinente realizar la conversión de ppb a
ppm para cada uno de los valores y luego hallar el AQI.
1 ppm equivale a 1000 ppb
Para esto se creó una nueva columna con el fin de mantener la persistencia de los datos en
ppb y ppm y luego se multiplica el valor de cada campo del atributo por 100 y se divide en 0.08
ppm para así obtener el valor en AQI del valor de ozono en cada campo. Cabe recalcar que los
valores AQI del atributo Ozono también se les aplico suavizado de datos quedando así con 2
decimales. La ilustración 18 presentada a continuación, muestra cómo queda la base de datos
con el atributo de ozono con diferente unidad y con el respectivo AQI:
Tabla 17 base de datos con el atributo ozono
Fuente: Herramienta Visual Studio Data Tools versión 2010
Después de tener los valores del atributo Ozono regidos por el AQI, resta agrupar dichos
valores por rangos para luego asignarle a cada rango el nivel de preocupación de salud que se
encuentra en la segunda columna de la ilustración 18.
Luego de realizar la conversión de continuo a nominal, se pudo observar que en los registros
históricos la localidad de Puente Aranda no llega al nivel más alto de preocupación de salud
definida por la EPA. El nivel máximo detectado que puede tomar el atributo Ozono en el
registro histórico es de “desfavorable” que representa el color rojo y va en los rangos AQI de
151 a 200, sin embargo para que el modelo quede útil para posteriores conjuntos de datos
esta categoría va para valores mayores e iguales a 151.La categoría más frecuente es “Bueno”.
A continuación se presentan las categorías que puede tomar el atributo Ozono en la base de
datos:
Categorías detectadas
Bueno
Moderado
Desfavorable
Tabla 18 Categorías detectadas de la concentración de Ozono
Fuente: Autor
No2
Este atributo está incluido entre los contaminantes principales medidos por la EPA [3] y al igual
que con el atributo de ozono también es necesario realizar la conversión de ppb a AQI, y luego
categorizar por rangos de AQI de acuerdo al nivel de preocupación por la salud. A continuación
se puede observar las 6 categorías en las que se puede representar la medición de AQI en el
No2:
Tabla 19 Categorías de la medición AQI en el NO2
Fuente: EPA [3]
La categoria mas frecuente en el atributo NO2 es “bueno” y la categoria mas alta detectada es
“ Desfavorable para Grupos sensibles” y se representa en la base de datos como
“DESFAVORABLE (GS)” con valores AQI mayores e iguales a 101 IQA.
NOX
Este atributo no tiene un índice de medición como tal, así que fue necesario utilizar las
herramientas de detección de categorías que proporciona Analysis Services de SQL Server
2012, esta herramienta crea categorías de tal modo que cada una de ellas quede con una
cantidad de campos proporcionado. A continuación se presenta las categorías detectadas por
la herramienta:
Categoría
MUY BAJO
BAJO
MEDIO
ALTO
ALTO
Columna
NOX
NOX
NOX
NOX
NOX
Valor
<= 36,34
36,35 - 71,70
71,71- 122,78
122,79 - 195
>= 195,1
Importancia
Relativa
100
100
100
100
40
Tabla 20 Categorías de NOX detectadas por la herramienta
Fuente: Herramienta Visual Studio Data Tools 2010
Es importante recalcar que estas categorías creadas no definen si el NOX es bajo o alto ya que
hay estudios completos que se encargan de ello, simplemente se utiliza esta categorización por
motivos de este trabajo de grado para facilitar el proceso del algoritmo escogido por las reglas
de asociación. Como se puede observar en esta tabla, aparece el nombre de la categoría, la
columna a la que pertenece dicha categoría, los rangos por cada una de ellas y la importancia
en escala de 1 a 100 de aplicar esta categoría a la columna, sin embargo la categoría que toma
el nombre “ALTO” cuando es mayor o igual a 195 ppb no se muestra con una importancia alta
ya que hay muy pocos valores que se encuentran con este estado. La categoría más frecuente
es “MUY BAJO”.
2.2.1.6 Material Particulado (PM10)
Para el Material Particulado los atributos que van hacer explorados por los modelos y parte de
la vista minable son los siguientes:









Temperatura
PromRadiacionSG
Lluvia
Vel Viento
PM10
ClasificaciónHora
Trimestres del Año
Hora Pico
Fin de Semana
Discretización del Atributo PM10
Es necesario realizar una conversión de los atributos de continuo a nominal para aplicar estas
técnicas con el fin de obtener resultados confiables y fáciles de interpretar. A continuación se
muestra el atributo al que se le realizo la discretización para explorar el atributo objetivo
PM10, seguido de su respectivo procedimiento:
PM10
El material particulado (para partículas mayores a 10 microgramos por metro cubico (PM10)),
tiene un índice de calidad del aire definido por la EPA, el cual se utilizó para crear la vista
minable y en especial el método de discretización, en la siguiente ilustración se puede
observar con detalle las categorías por cada índice:
Tabla 21 Categorías del PM10
Fuente: EPA
Para realizar la clasificación se creó una nueva columna con el fin de mantener la persistencia
de los datos en las unidades de medida. La tabla 23 de a continuación muestra una vista
general de cómo queda la base de datos el atributo PM10 de tipo continuo y nominal:
Tabla 22 Vista general de la base de datos para el atributo PM10
Fuente: Autor
El nivel máximo que puede tomar el atributo PM10 es de “DESFAVORABLE” que representa los
rangos AQI de 301 a 500, el estado que presenta más frecuencia en el atributo es
“MODERADO”. A continuación se presentan Los estados que puede tomar el atributo Ozono
en la base de datos y su respectiva frecuencia:
Estados detectados
Bueno
Moderado
Desfavorable
Frecuencia
28312
50466
7482
Tabla 23 Diferentes estados el atributo de Ozono
Fuente: Autor
La clasificación desfavorable toma todos los valores mayores e iguales a 151 valor AQI.
2.2.2 Preparación de datos para Agrupamiento
Esta técnica por estar basada en distancias, aplica algunos procesos distintos a los de las reglas
de asociación y clasificación, en esta sección se presentan los procesos específicos que se
realizaron a la base de datos para aplicar esta técnica.
2.2.2.1 Normalización
El método de normalización que se aplicó a la base de datos fue Min-Max [41], como su misma
palabra lo dice se basa en el valor máximo y mínimo del campo de cada atributo. La fórmula
que se aplica es la siguiente:
𝑣′(𝑖) =
𝑣(𝑖) − min(𝑣(𝑖))
max(𝑣(𝑖)) − min(𝑣(𝑖))
Ecuación 1
Fuente: Presentación Alexandra Pomares
Donde 𝑣′(𝑖) va hacer el valor del campo i normalizada,𝑣(𝑖) es el valor de campo i para cada
atributo y min(𝑣(𝑖)), max(𝑣(𝑖)) son los valores del campo máximos y mínimos para cada
atributo.
Necesidad de normalización de los datos
El principal inconveniente encontrado en el cálculo de la distancia entre los datos es que los
atributos de mayor magnitud tienden a dominar al resto de atributos y por ende las
agrupaciones no son del todo óptimas (si no están normalizados).
Para este caso el conjunto de datos presentó con bastante frecuencia esta problema ya que el
atributo Radiación Solar tiene una unidad de medición que arroja valores enteros que se
encontraba entre los rangos 0 y 1178 , mientras que atributos como: 𝑃𝑀10,
𝑂3 ,NOX,NO2,Lluvia entre otros tienen una unidad de medición decimal cuyos rangos no
superan el numero 639,0 (en el caso de 𝑃𝑀10, para los demás atributos el rango es mucho
menor), lo cual hace que el atributo radiación solar este viciando la distancia y afectando así la
asignación hacia los clústeres. Para resolver este problema fue necesario normalizar los datos.
2.2.2.1.1 Ozono Troposférico (𝑶𝟑 ) y Material Particulado (𝑷𝑴𝟏𝟎 )
Los atributos del conjunto de datos del 𝑂3 y 𝑃𝑀10 a los cuales se les aplico normalización son
los siguientes:
Nombre del Atributo
Ozono
NOX
NO2
Radiación Solar Global
Temperatura
Lluvia
Vel Viento
PM10
A continuación se presenta una vista general de la base de datos normalizada:
Tabla 24 base de datos normalizada
Fuente: Herramienta Visual Studio Data Tools versión 2010
Detección Valores Extremos (Outliers)
Los outliers son los valores de los campos extremos ocasionados por registros incorrectos o
por eventos extraordinarios que dañan la caracterización de la serie como la media, la varianza
y en este caso la distancia euclidiana que es calculada por la técnica de Clustering.
Un ejemplo de ello es cuando los valores del atributo salario oscilan entre los 200.000 y
600.000 y se encuentra solo uno de 2.000.000 ese sería detectado como outliers.
Gracias a las sentencias de SQL Server fue posible encontrar los valores de los outliers de cada
atributo, los atributos que contenían estos valores son los siguientes:
Atributo
Ozono
Vel Viento
Temperatura
Lluvia
NO2
NOX
Radiación Solar G
Valor/es encontrado
119,3 - 117,23 – 0,1 ppb
8,6- 8,4 m/s
22,9 ºC
32,6 – 32,5 mm
0,17-158,72 ppb
1,82 – 402,12
1147
Tabla 25 Detección de valores extremos (outliers)
Fuente: Autor
Los atributos que contiene outliers se presentan una vez o máximo dos veces en todos los
registros históricos, por tal motivo se realizó el siguiente análisis. Se pudo observar de forma
frecuente en la detección de los outliers que los rangos comprendidos eran los valores
máximos y mínimos que tomaba cada atributo, así que el tratamiento que se le dio a los
outliers en el caso de los valores máximos únicos fue promediarlo con los últimos tres valores
anteriores a este, para así dejar el promedio de dichos valores como el máximo. Con el valor
mínimo se hizo algo similar, se promedió el outliers con los tres valores posteriores a esta,
dejando como el valor mínimo el resultado de dicho promedio.
2.2.2.1.2 Material Particulado (𝑷𝑴𝟏𝟎 )
Los atributos a los cuales se les aplicó normalización fueron los siguientes:
Nombre del Atributo
𝑃𝑀10
Radiación Solar Global
Temperatura
Lluvia
Vel Viento
Tabla 26 Atributos a los cuales se les aplico la normalización
Fuente: Autor
Los atributos NOX y NO2 tanto practica como teóricamente no se presentan correlaciones
entre cada una de estas variables con el 𝑃𝑀10, por tal motivo estas variables no hacen parte
de la exploración y la creación de los modelos de Minería de Datos para el 𝑃𝑀10 .
A continuación se presenta una vista general de la base de datos normalizada:
Tabla 27 base de datos normalizada
Fuente: Herramienta Visual Studio Data Tools versión 2010
Manejo de valores extremos (Outliers)
Los Outliers detectados para el conjunto de 𝑃𝑀10 son los siguientes:
Atributo
PM10
Vel Viento
Temperatura
Lluvia
Radiación Solar G
Valor/es encontrado
693
8,6 a 13,3 m/s
22,7 - 24 ºC
49,4 – 50,2 mm
No Aplica
Tabla 28 Outliers detectados
Fuente: Autor
Los atributos que contiene outliers se presentan una vez o máximo tres veces en todos los
registros históricos, como se puede observar en la detección de los outliers, los rangos
comprendidos son los valores máximos y mínimos que tomaba cada atributo, así que el
tratamiento que se le dio a los outliers en el caso de los valores máximos únicos fue
promediarlo con los últimos tres valores anteriores a este, para así dejar el promedio de dichos
valores como el máximo. Con el valor mínimo se hizo algo similar, se promedió el outliers con
los tres valores posteriores a esta, dejando como el valor mínimo el resultado de dicho
promedio.
ANEXO 1
TABLA 1 CORRELACIONES DEL OZONO ................................................................................................................... 7
TABLA 2 CORRELACIÓN PM10 .......................................................................................................................... 10
TABLA 3 CORRELACIONES DEL 𝑶𝟑 CON LAS VARIABLES CLIMATOLÓGICAS Y LOS PRECURSORES. ....................................... 11
TABLA 4 CORRELACIONES DEL 𝑷𝑴𝟏𝟎 CON LAS VARIABLES CLIMATOLÓGICAS.............................................................. 13
TABLA 5 DESCRIPCIÓN DE LA ESTACIÓN DE PUENTE ARANDA .................................................................................... 14
TABLA 6 REGISTRO HISTÓRICO DESDE 1999 HASTA EL 2012 .................................................................................... 15
TABLA 7 ARCHIVO DE BASE DE DATOS POR ATRIBUTOS ............................................................................................ 16
TABLA 8 ERRORES PERTENECIENTES A LAS BASES DE DATOS ...................................................................................... 17
TABLA 9 FORMATO DE LOS DATOS DE TIPO CONTINUO DE LA BASE DE DATOS ............................................................... 29
TABLA 10 CLASIFICACIÓN HORA POR RANGOS DE TIEMPO ........................................................................................ 30
TABLA 11 CATEGORÍAS DEL TRIMESTRE POR AÑO ................................................................................................... 30
TABLA 12 PROMEDIO DE LA RADIACIÓN SOLAR GLOBAL POR CLASIFICACIÓN HORARIA .................................................... 31
TABLA 14 ESCALA DE VELOCIDAD DEL VIENTO ....................................................................................................... 32
TABLA 15 ESCALA DE PRECIPITACIÓN DIARIA EN MM............................................................................................... 32
TABLA 16 RADIACIÓN SOLAR GLOBAL .................................................................................................................. 33
TABLA 17 CATEGORÍAS QUE REPRESENTAN EL AQI................................................................................................. 34
TABLA 18 BASE DE DATOS CON EL ATRIBUTO OZONO .............................................................................................. 35
TABLA 19 CATEGORÍAS DETECTADAS DE LA CONCENTRACIÓN DE OZONO .................................................................... 35
TABLA 20 CATEGORÍAS DE LA MEDICIÓN AQI EN EL NO2 ........................................................................................ 36
TABLA 21 CATEGORÍAS DE NOX DETECTADAS POR LA HERRAMIENTA ......................................................................... 36
TABLA 22 CATEGORÍAS DEL PM10 ..................................................................................................................... 37
TABLA 23 VISTA GENERAL DE LA BASE DE DATOS PARA EL ATRIBUTO PM10 ................................................................ 38
TABLA 24 DIFERENTES ESTADOS EL ATRIBUTO DE OZONO ........................................................................................ 38
TABLA 25 BASE DE DATOS NORMALIZADA ............................................................................................................. 40
TABLA 26 DETECCIÓN DE VALORES EXTREMOS (OUTLIERS) ....................................................................................... 40
TABLA 27 ATRIBUTOS A LOS CUALES SE LES APLICO LA NORMALIZACIÓN...................................................................... 41
TABLA 28 BASE DE DATOS NORMALIZADA ............................................................................................................. 41
TABLA 29 OUTLIERS DETECTADOS ....................................................................................................................... 42
Documentos relacionados
Descargar