Anexo 1 . Comprensión y Preparación de los datos Gracias al análisis y la preparación de datos ha sido posible extraer un nuevo conocimiento valioso, ya que al identificar y observar los requerimientos de los datos hace que el proceso de minería de datos sea efectivo y se creen modelos cumpliendo las hipótesis planteadas. El presente documento busca identificar y analizar los atributos de la base de datos entregada por la RMCAB para posteriormente la creación de la vista minable. Esta vista minable fue creada por los registros históricos entregados por la RMCAB de la localidad de Puente Aranda Tabla de contenido 1. Análisis de Datos ................................................................................................................... 2 1.1 Análisis de las series de tiempo........................................................................................... 2 1.1.1 Comportamiento de los Contaminantes anualmente.................................................. 2 1.1.2 Comportamiento de los Contaminantes mensualmente ............................................. 3 1.1.3 Análisis de correlación entre las concentraciones de Ozono troposférico .................. 4 1.1.4 Análisis de correlación entre las concentraciones de material particulado ............... 7 1.1.5 Análisis de correlación entre las concentraciones del contaminante de Ozono troposférico y el de las variables climatológicas ................................................................. 10 1.1.6 Análisis entre las concentraciones del contaminante de material particulado y el de las variables atmosféricas .............................................................................................. 11 1.2 Análisis de la Fuente de Datos .......................................................................................... 13 1.2.1 Lugar de extracción de los datos ................................................................................ 13 1.2.2 Estado inicial de la Base de datos .............................................................................. 14 1.2.3 Análisis de los Atributos de la base de datos ............................................................. 17 2 Preparación de Datos .......................................................................................................... 23 2.1 Aspectos Generales ..................................................................................................... 24 2.1.1 Integración de Datos .................................................................................................. 24 2.1.2 Partición del atributo fecha&Hora ............................................................................. 25 2.1.3 Validación y Limpieza de Datos ........................................................................... 26 2.1.4 Creación de Variables Derivadas ......................................................................... 29 2.2 Aspectos específicos.................................................................................................... 31 2.2.1 Preparación de datos para Reglas de asociación y Clasificación................................ 31 2.2.2 Preparación de datos para Agrupamiento ................................................................. 38 1. Análisis y exploración de datos Este capítulo pretende dar a conocer al lector el contacto directo con el problema. Las actividades que se realizan en este capítulo comprenden todas la primera fase de la Metodología de desarrollo del presente trabajo de grado, las acciones principales que hace referencia este documento son las siguientes: el proceso de recolección de los datos, la identificación de la calidad de los datos, la identificación de las posibles relaciones entre los atributos de la bases de datos aplicando rezagos horarios y el análisis de las características del conjunto de datos. Para hacer posible este análisis, la Red de Monitoreo de Calidad del Aire de Bogotá (RMCAB) proporcionó la información horaria acerca de los contaminantes de Ozono troposférico (𝑂3 )) y Material Particulado (𝑃𝑀10); Las variables atmosféricas son : velocidad de los vientos, precipitación, radiación solar y temperatura; Los precursores del ozono troposférico son: dióxido de carbono y óxido de nitrógeno, dando así una descripción detallada de cada uno de los atributos pertenecientes a la base de datos. Es importante recalcar el análisis de series de tiempo debido a las características que tiene la base de datos. En el transcurso del documento se va a hablar de la palabra “atributos” que hace referencia a las variables (columnas) que están en la base de datos. 1.1 Análisis de las series de tiempo La base de datos entregada por la RMCAB tiene una característica importante y es que contiene series temporales para cada uno de los registros tomados, esta serie temporal es un atributo de la base de datos y recibe el nombre de Fecha & Hora, cuyo formato utilizado es: día/mes/año hora: minutos. Esta serie temporal contiene información desde el primer día del mes de enero del 2002 a las 12 de la madrugada hasta el último día del mes de diciembre del 2012 a las 12 de la madrugada. A continuación se podrá observar un análisis de tendencias, donde se observa el comportamiento de los siguientes contaminantes: ozono troposférico (𝑂3 ) y material particulado (𝑃𝑀10) en el transcurso del tiempo, empezando de una manera general con los ciclos anuales y hasta llegar al detalle con los ciclos mensuales. 1.1.1 Comportamiento de los Contaminantes anualmente Según la ilustración 1, se puede observar que hay una tendencia de tipo no estacionaria ya que los valores de 𝑂3 son cambiantes respecto al tiempo. En la concentración de 𝑂3 para el año 1999 superaba las 21 ppb (unidad de medida del 𝑂3 ) , mientras que en el año 2003 disminuyo significativamente llegando a las 9 ppb, así mismo se puede observar una reducción significativa de 𝑂3 para el 2011, eso quiere decir que los esfuerzos por parte de las entidades que cuidan la calidad del aire han surgido efecto. Entre los años 2003 y 2008 se puede observar una continuidad en el nivel de concentración de 𝑂3 . En el 𝑃𝑀10 la tendencia que se observa es decreciente con respecto al paso de los años, relacionándose de esta manera al comportamiento del 𝑂3 ya que a medida que avanzan los años la concentración 𝑃𝑀10 disminuye. Sin embargo hay picos de concentración comprendidos en los años 1999, 2005,2007 que muestran un incremento importante en la concentración de Material Particulado, lo cual la tendencia de variable de 𝑃𝑀10 puede ser un riesgo para los habitantes. Ilustración 1 Ciclo anual para los contaminantes 𝒐𝟑 y 𝑷𝑴𝟏𝟎 Fuente: Autor mediante la herramienta SPSS. 1.1.2 Comportamiento de los Contaminantes mensualmente En la ilustración 2, se puede observar que en el primer trimestre del año y parte del segundo según la climatología Colombiana (comprendida entre los meses de diciembre a febrero), la concentración de 𝑂3 tiende a elevarse más que en el resto de los otros trimestres del año. Los picos más altos detectados de 𝑂3 son entre los meses de marzo y septiembre, siendo cada uno de estos meses la mitad de cada semestre del año. El comportamiento del 𝑃𝑀10 , a comparación de la gráfica anterior no hay picos de concentración tan pronunciados y eso puede llegar a significar una independencia parcial a la climatología colombiana ya que en todos los trimestres del año la variación de la concentración de 𝑃𝑀10 no es tan significativa como otros trimestres. Se puede observar que hay cierta similitud en el valor de concentración entre los meses de marzo y diciembre, también entre los meses de abril a noviembre y así sucesivamente hasta llegar al mes de julio cuyo nivel de concentración es el menor con respecto a los demás meses. Ilustración 2 Ciclo mensual para los contaminantes 𝒐𝟑 y 𝑷𝑴𝟏𝟎 Fuente: Autor mediante la herramienta SPSS. 1.1.3 Análisis de correlación entre las concentraciones de Ozono troposférico En este capítulo, se encuentran correlaciones entre las concentraciones de 𝑂3 en el día, con un rezago de una hora con el fin de entender si el valor del contaminante de 𝑂3 que se presenta a cualquier hora del día depende del valor de contaminante de 𝑂3 que se presenta en la hora anterior, donde el valor de concentración de la hora anterior es la variable independiente y el valor de concentración de la hora posterior es la variable dependiente. Para encontrar este tipo de correlaciones se utilizó el método de correlación de Pearson. En los resultados que se presentan a continuación, se encuentra una tabla llamada “Correlaciones del Ozono” (Ver tabla 1), dentro de las características de dicha tabla que describe el resultado de correlación se encuentra una columna cuyo nombre es “R cuadrado”, este recibe el nombre de coeficiente de determinación y nos indica el porcentaje de cuando cambia variable, en el momento que cambia la otra. El tipo de grafica utilizada es de dispersión. Cabe recalcar que para los análisis de correlación se tomó una muestra aleatoria de concentración de Ozono troposférico por cada hora de 1000 datos. 1.1.3.1 Auto-correlaciones de 𝑶𝟑 con Rezagos de 1 hora A continuación se presentan los gráficos de dispersión de las auto-correlaciones de los valores de concentración de 𝑂3 con rezagos de 1 hora. Ilustración 3 Diagramas de Dispersión del Ozono Fuente: Autor a través de la herramienta SPSS En la tabla 1, se puede observar el valor porcentual de correlación entre la concentración de 𝑂3 , el valor porcentual del R cuadrado y el error típico de estimación. Tabla 1 Correlaciones del Ozono Fuente: Autor En la ilustración 3 y la tabla 4 que describe los diagramas de dispersión, se puede observar que hay una correlación altamente positiva entre los valores de las horas que presentan luz solar comprendidos entre las 7 am hasta las 6 pm, donde se aprecia que cada hora perteneciente a estos rangos horarios son dependientes de la hora anterior a la concentración de 𝑂3 . Es decir que el valor de concentración 𝑂3 a las 10 am depende fuertemente del valor de las 9 am. Pasa lo contrario entre las horas que se percibe una intensidad solar leve o nula comprendidas entre 6 pm y las 6 am, donde estos rangos presentan una relación débil, lo que quiere decir que los rangos horarios escritos anteriormente presentan una independencia en cuanto la concentración de 𝑂3 , esto se debe a que el valor de radiación solar es un gran influyente en las horas de concentración y como en estas horas el valor es muy bajo la concentración de 𝑂3 presenta una independencia horaria. 1.1.4 Análisis de correlación entre las concentraciones de material particulado En este capítulo, se encuentran correlaciones entre las concentraciones de 𝑃𝑀10 en el día, con un rezago de una hora, con el fin de entender si el valor del contaminante de 𝑃𝑀10 que se presenta a cualquier hora del día depende del valor de contaminante de 𝑃𝑀10 que se presenta en la hora anterior, donde el valor de concentración de la hora anterior es la variable independiente y el valor de concentración de la hora posterior es la variable dependiente. Para encontrar este tipo de correlaciones se utilizó el método de correlación de Pearson. En los resultados que se presentan a continuación, se encuentra una tabla llamada “Correlaciones del Material Particulado” (Ver tabla 2), dentro de las características de dicha tabla que describe el resultado de correlación se encuentra una columna cuyo nombre es “R cuadrado”, este recibe el nombre de coeficiente de determinación y nos indica el porcentaje de cuando cambia variable, en el momento que cambia la otra, cuando lo hace la otra. El tipo de grafica utilizada es de dispersión. Cabe recalcar que para los análisis de correlación se tomó una muestra aleatoria de concentración de Material Particulado por cada hora de 1000 datos. 1.1.4.1 Auto-correlaciones de 𝑷𝑴𝟏𝟎 con Rezagos de 1 hora A continuación se presentan los gráficos de dispersión de las auto-correlaciones de los valores de concentración de 𝑃𝑀10 con rezagos de 1 hora. Ilustración 4 Diagramas de Dispersión del PM10 Fuente: Autor a través de la herramienta SPSS En la tabla 2, se puede observar el valor porcentual de correlación entre la concentración de 𝑃𝑀10, el valor porcentual del R cuadrado y el error típico de estimación. Tabla 2 Correlación PM10 Fuente: Autor En la ilustración 4 se presenta el diagrama de dispersión de la concentración 𝑃𝑀10 para cada par de horas con un rezago de una hora y en la tabla 2 se puede observar el valor porcentual de correlación para cada uno de dichos rezagos, comenzando a las 6 am y terminando a las 5 am del otro día junto con el valor porcentual del R cuadrado y el error de estimación. Se puede observar que la correlación en promedio de concentración de 𝑃𝑀10 con rezagos de 1 hora es media. La concentración de 𝑃𝑀10 a las 11 am presenta una dependencia fuerte con la concentración de las 10 am, lo mismo pasa para las horas entre las 4 pm con las 5 pm con un mayor porcentaje de correlación (del 67.9%) y las horas entre las 5 am y las 6 am. Esto quiere decir que la concentración de 𝑃𝑀10 en la mayoría de las horas tiene una dependencia por debajo del 60% a la concentración de la hora anterior, por lo cual se puede pensar que otras variables climatológicas afectan a dicha concentración de forma más influyente. 1.1.5 Análisis de correlación entre las concentraciones del contaminante de Ozono troposférico y el de las variables climatológicas El objetivo de esta sección es encontrar correlaciones entre el valor de concentración almacenado por hora del contaminante de Ozono troposférico con el de las variables atmosféricas: precipitación, velocidad de los vientos, radiación solar global, temperatura y los precursores del ozono troposférico: óxido de nitrógeno (NOX) y dióxido de nitrógeno (NO2). En la tabla de correlaciones (Ver tabla 3), se puede observar a nivel general que el porcentaje de relación entre las variables descritas y el contaminante de 𝑂3 es más bajo cuando se toman rezagos de 2 horas que con rezagos de 1 hora. Para la radiación solar global se tomaron rezagos de 1,2 y 0 horas donde se puede observar lo contrario, es decir que entre más pasa el tiempo (concentración de radiación solar) mayor es la influencia de la radiación solar en el 𝑂3 , lo que quiere decir que su proceso de destrucción es más lento que las demás variables, dejando secuelas al pasar el tiempo. Para los rezagos de 1 hora se puede observar que el contaminante 𝑂3 es dependiente significativamente del valor de la temperatura y el NOX superando el 40 % de correlación. Es decir que la concentración de 𝑂3 que se presenta a las 8 am es dependiente de los valores presentados en la temperatura y el NOX a las 7 am en un 28.7% y 16.5% respectivamente, sucediendo así para las demás horas del día. El porcentaje de correlaciones siguientes con rezagos de 1 hora corresponden al NO2, velocidad del viento y radiación solar global con un porcentaje de influencia bajo en la concentración del 𝑂3 . La lluvia no presenta una correlación fuerte para este mismo rezago. Para los rezagos de 2 horas se observa que la temperatura es la más influyente en la concentración de 𝑂3 , seguida por la radiación solar global y el NOX, lo que quiere decir que la concentración de estas variables tienen un proceso de influencia más lento que las demás, (cuyo proceso de dispersión es más demorado) a diferencia de la velocidad de los vientos cuyo valor con rezagos de 2 horas no es influyente en la concentración de 𝑂3 . Por su parte la lluvia tiene un comportamiento distinto a las demás variables ya que tiende a ser un poco más influyente en la concentración de 𝑂3 a largo plazo que a corto plazo, sin embargo esta influencia no es significativa. Tabla 3 Correlaciones del 𝑶𝟑 con las variables climatológicas y los precursores. Fuente: Autor 1.1.6 Análisis entre las concentraciones del contaminante de material particulado y el de las variables atmosféricas En esta sección muestra las correlaciones entre el valor de concentración almacenado por hora del contaminante de 𝑃𝑀10con el de las variables atmosféricas: Precipitación, velocidad de los vientos, radiación solar global, temperatura. En la tabla de correlaciones (Ver tabla 4), se puede observar algo similar al comportamiento de la tabla 3, a nivel general el porcentaje de relación entre las variables y el contaminante de 𝑃𝑀10 es más bajo cuando se toman rezagos de 2 horas que con rezagos de 1 hora. Sin embargo se mantiene el caso de la radiación solar global donde se tomaron rezagos de 1,2 y 0 horas y se observar lo contrario, es decir que entre más pasa el tiempo (concentración de radiación solar) mayor es la influencia de la radiación solar en el 𝑃𝑀10 , lo que quiere decir que su proceso de dispersión es más lento que las demás variables, dejando secuelas en el transcurso del tiempo con respecto a la concentración de 𝑃𝑀10. Para rezagos con 1 hora el porcentaje de correlación entre las concentraciones de temperatura y velocidad de los vientos está por arriba del 30%, lo cual se muestra que hay una dependencia parcial de la concentración de 𝑃𝑀10 con dichas variables, la radiación solar también influye parcialmente en la concentración de dicho contaminante. En cuanto a la lluvia se puede observar que la correlación es muy baja casi insignificante con la concentración de 𝑃𝑀10 tanto con 1 como 2 horas de rezagos, y se puede plantear que la lluvia no es influyente en el 𝑃𝑀10. Para rezagos con 2 horas la temperatura y la radiación solar influyen en más del 30% en la concentración de 𝑃𝑀10, lo cual se puede observar una dependencia parcial de dicho contaminante con estas variables, también se observa que el porcentaje de correlación de la radiación solar con la concentración de 𝑃𝑀10 aumenta con el paso de las horas y esto se debe a que la radiación solar tiene un efecto prolongado e intenso con el paso del tiempo. La velocidad de los vientos sigue teniendo una correlación significativa con la concentración de 𝑃𝑀10. Tabla 4 Correlaciones del 𝑷𝑴𝟏𝟎 con las variables climatológicas Fuente: Autor 1.2 Análisis de la Fuente de Datos Esta sección describe las características de la base de datos donde se encuentran las mediciones diarias de los contaminantes y las variables climatológicas a explorar, estas mediciones son realizadas por equipos especializados (que se especifican más adelante) que se encuentran ubicados en la localidad de Puente Aranda Bogotá. 1.2.1 Lugar de extracción de los datos A continuación se presenta una descripción de la estación de Puente Aranda, cabe recalcar que esta información es obtenida gracias a la página y los informes de la Red de Monitoreo de Calidad del Aire [11] [12]: Nombre de la Estación Puente Aranda (Estación fija) Ubicación Carrera 65 # 10-95 Coordenadas Geográficas Latitud: 04.38.04,8 Longitud: -74.07.15,0 Contaminantes Medidos Nombre Equipos de Medición PM10 Met One Bam 1020 O3 Tapi 400E CO SO2 NO2 NOX Punto toma de muestra Altura del Punto de muestra Tapi 300E Thermo Scientific 43i Tapi 200E Mediante la ecuación 𝑛𝑜𝑥 = 𝑛𝑜 + 𝑛𝑜2 Azotea 24 m Precipitación Velocidad de los vientos Temperatura Variables Climatológicas Tabla 5 Descripción de la estación de puente Aranda Fuente: Autor La variable climatológica radiación solar global no se mide actualmente en esta estación, sin embargo debido a la importancia de esta variable fue necesario extraer los valores de medición de dicha variable de la estación del parque Simón Bolívar ubicado en el centro geográfico de Bogotá. Según la herramienta google maps la distancia entre la estación de medición de Puente Aranda y la de simón bolívar es de 5.3 kilómetros y gracias a la asesoría y colaboración de la Ingeniera Blanca Oviedo con este tema, se pudo obtener la base de datos que contenía la medición diaria de la radiación solar entre los años 1.999 y 2012. Sin embargo fue necesario crear una vista donde solo estuvieran los datos de medición del atributo radiación solar en la estación de simón bolívar junto a la fecha y hora de la captura de estos datos con el fin de utilizar sentencias SQL para unir esta vista con la tabla de la estación de Puente Aranda. La sintaxis de unión entre estas dos tablas fue: Vista INNER JOIN Tabla2 para que uniera estas dos tablas de acuerdo a la coincidencia entre fecha y hora de las mismas ya que es importante que la fecha y hora en que se tomó el valor del atributo radiación solar global en la estación de simón bolívar coincidiera en la misma hora y fecha de las demás variables tomadas en la estación de Puente Aranda. 1.2.2 Estado inicial de la Base de datos Para la obtención de la base de datos de la localidad de Puente Aranda, fue necesario presentar una carta a la Secretaria Distrital del Ambiente dirigida a la Red de Monitoreo de Calidad del Aire, solicitando la información detallada de lo que se necesitaba y la justificación del por qué era necesaria esa información. La entrega de la información se dividió en tres archivos con formato xls, en donde el primer archivo tiene la información de los contaminantes: Dióxido de Nitrógeno, Óxido de nitrógeno y el atributo fecha&Hora. El segundo archivo contenía la información por hora del valor de Radiación Solar Global tomado en la estación de Simón Bolívar. El tercer archivo contenía el resto de la información solicitada especificada en el comienzo del documento. En cada uno de los archivos se encontró registros históricos del año 1999 hasta el año 2012, donde habían 4 tablas cuyas agrupaciones y tamaño estaban distribuidas de la siguiente forma: Tabla de Base de Datos 1999- 2001 2002-2005 2006-2009 2010-2012 Total Registros Históricos Tamaño 27.544 35.064 35.064 26.304 123.976 Tabla 6 Registro histórico desde 1999 hasta el 2012 Fuente: Autor A continuación se describe la información que contienen los archivos de base de datos (es decir los atributos que hacen parte de la base de datos): Nombre del Atributo Tipo de variable Tipo de Medición y/o formato dd/mm/aaaa h:mm Fecha & Hora Datos Temporales Ozono Continua Partes por billón (Ppb) PM10 Continua Microgramos por metro cubico (µg/m3) Vel Viento Continua Metros por segundo (m/s) Descripción Este atributo especifica la fecha y la hora en la que se toma la medición de cada uno de los atributos descritos posteriormente. Muestra el valor que presenta el contaminante de Ozono troposférico en tiempo real, según el índice de AQI [3] Muestra el valor que presenta el contaminante de Material Particulado en tiempo real, según el índice AQI [3] Muestra el valor tomado en tiempo real de la velocidad del viento, que es la intensidad del viento, que se mide de acuerdo a una cantidad vectorial, su intensidad es variable ya que el Temperatura Continua Grados centígrados (C°) Lluvia Continua Milímetros (mm) NO2 Continua Partes por billón (Ppb) NOX Continua Partes por billón R_S Global Continua Watts por metro 𝑤 cuadrado ( 2) 𝑚 Tabla 7 Archivo de base de datos por atributos Fuente: Autor flujo del aire no es constante.[17] Muestra el valor tomado en tiempo real de la temperatura, que es la medida de calor en un instante de tiempo, sus valores son >=0º.[17] Muestra el valor que se está tomando en tiempo real de la lluvia, que es el agua en forma líquida o sólida que viene de la atmosfera a la tierra. Esta variable incluye valores catalogados como: Lluvia, llovizna, roció, granizo, escarcha, nieve, etc...[17] Muestra el valor que presenta el contaminante de Dióxido de Nitrógeno en tiempo real, según el índice de AQI [3] Muestra el valor del óxido de nitrógeno y este valor es calculado mediante la fórmula: NOX=NO+NO2 [33], siendo NO2 el atributo descrito anteriormente y NO es nobelio. Muestra el valor de la Radiación global solar, que viene siendo el resultado entre la suma de la radiación global directa y la radiación ultravioleta. La base de datos contiene información únicamente continua por lo que en muchos casos presenta campos anómalos, a continuación se muestra en detalle el tipo de errores que presentaban algunos campos pertenecientes a los tres archivos de las bases de datos: Valor del Campo Vacío Frecuencia de Campos 123.743 Sin Data 89.316 <Muestra 2.482 Apagado 860 Unknown 354 FallTech 2.312 Fechas 2 Calib 1061 Cero 99 Spam 3 Descripción No tiene valores numéricos ni ningún tipo de carácter. El motivo de este valor es porque en ese momento se estaban realizando mantenimiento a las maquinas. El motivo de este valor es porque al realizar la exportación por parte de la RMCA a un archivo .xls, el archivo toma algunos valores vacíos como muestra. Sucede cuando apagan el equipo de medición para realizar alguna actividad de chequeo en su funcionamiento. Sucede cuando el equipo de medición está en proceso de calibración. Sucede cuando el equipo de medición presenta fallas técnicas. El motivo de este valor es porque hay una interrupción de la operación en la estación. Sucede cuando el equipo de medición está en proceso de calibración. Error de almacenamiento en la base de datos y queda como un carácter. Error de almacenamiento. Tabla 8 Errores pertenecientes a las bases de datos Fuente: Autor 1.2.3 Análisis de los Atributos de la base de datos Esta sección pretende mostrar en detalle cada atributo perteneciente a la base de datos , enfocándose en la frecuencia de cada rango que contienen los atributos, la cantidad de registros que contienen el campo del atributo vacío o con un dato anómalo y la cantidad de registros que contiene ese atributo con un valor distinto. Atributo: Ozono Campos de ese atributo cuyo valor es vacío: 6.185 (14% del porcentaje total de los datos). Valores Únicos del atributo: 1023 (1% del porcentaje total de los datos). Ilustración 5 Frecuencia del valor de Ozono troposférico en la base de datos Fuente: Herramienta Weka Esta ilustración, representa la frecuencia del valor de Ozono troposférico que se encuentra en la base de datos, es importante recalcar que hay una frecuencia alta en valores de Ozono entre el 0.2 y el 14.85 Ppb, lo que es muy positivo para la población en especial la localidad de Puente Aranda ya que según la AQI [3] este rango de valores se considera como un Ozono troposférico sin peligro para la salud. Sin embargo el riesgo del Ozono troposférico va más allá de un valor cuyo rango sea caracterizado sin peligro para la sociedad, ya que el riesgo depende de la duración de la exposición en que la persona o la vegetación se encuentren con estos rangos, ya que si la exposición es prolongada los efectos se pueden ver inmediatamente o a largo plazo según el organismo y la sensibilidad que presente la persona afectada [3] [25]. Atributo: PM10 Campos de ese atributo cuyo valor es vacío: 6.605 (6% del porcentaje total de los datos) Valores Únicos del atributo: 53 (0% del porcentaje total de los datos). Ilustración 6 Valores de material particulado más frecuentes Fuente: Herramienta Weka En esta ilustración se puede observar que los valores de material particulado más frecuentes van entre 43.9 y 139.027 µg/m3, sin embargo es importante recalcar lo que se mencionó en el contaminante de Ozono troposférico y es que estos valores pueden llegar hacer muy peligrosos si la exposición de la población es muy prolongada y además de esto los valores altos que son menos frecuentes pueden afectar así sea con una hora de exposición al aire libre de acuerdo al tipo de persona que se esté exponiendo ( en la memoria de grado se especifican los grupos sensibles a este contaminante). Atributo Vel vientos Campos de ese atributo cuyo valor es vacío: 1.892 (2% del porcentaje total de los datos) Valores Únicos del atributo: 4 (0% del porcentaje total de los datos). La obtención del valor de este atributo es gracias a un instrumento llamado anemómetro, que está formado por un molinete de tres brazos, el equipo en el que se realizaron las mediciones es un Thies CLIMA®, modelo 4.3019.21.000, portátil, que toma cada segundo la velocidad del viento y cada diez segundos promedia esos diez valores de Velocidad de los Vientos. [60]. Ilustración 7 Velocidad del viento en m/s Fuente: Herramienta Weka La ilustración anterior muestra la frecuencia de los valores en m/s de la velocidad del viento extraídos de la Base de datos que contiene los registros históricos, se puede observar que la velocidad de los vientos en la mayoría de las ocasiones es baja, sin embargo la distribución de las frecuencias de la gráfica muestra que varía de los rangos 1.13 a los 5.25 m/s. Atributo: Temperatura Campos de ese atributo cuyo valor es vacío: 1.649 (1% del porcentaje total de los datos) Valores Únicos del atributo: 8 (0% del porcentaje total de los datos). Este atributo es producido gracias que la superficie terrestre recibe energía solar en forma de radiación solar, la atmosfera de la tierra refleja alrededor del 55% de la radiación que está entrando en la tierra y absorbe el 45% restante formando así este en porcentaje de calor. Ilustración 8 Frecuencia de la temperatura en grados centígrados Fuente: Herramienta Weka En esta ilustración se muestra la frecuencia de la temperatura en grados centígrados, viendo que los rangos de temperaturas que muestran mayor frecuencia a lo largo de los años entre 1999 y 2012 han sido 14.59 a 17.30ºC, lo cual nos lleva a pensar que si no se toman medidas en cuanto el cuidado del medio ambiente en especial por el contaminante de Ozono troposférico, la temperatura puede ser un buen influyente para la generación de un Ozono peligroso para la sociedad. Atributo a estudiar: Lluvia Campos de ese atributo cuyo valor es vacío: 4.906 (4% del porcentaje total de los datos) Valores Únicos del atributo: 40 (0% del porcentaje total de los datos). El atributo lluvia o también llamado precipitación según la Red de Monitoreo de Calidad del Aire se puede definir como:” cualquier forma de hidrometeoro, conformado de partículas acuosas de forma sólida o liquida que caen de las nubes y llegan al suelo”. Ilustración 9 frecuencia de precipitaciones por año Fuente: Herramienta Weka Algo interesante de esta ilustración que muestra la frecuencia de precipitación durante los años ya mencionados, se puede observar que según la muestra tomada y los valores captados por los equipos de medición de lluvias, estas tienen una alta frecuencia en ser escasas y la barra siguiente a esta después de una notable diferencia presenta lluvias con un rango de 0.159 a 0.200 mm, por lo tanto el primer resultado puede ser también un factor muy influyente para la generación de Ozono troposférico peligroso, debido a que el papel fundamental de la lluvia es mantener las plantas vivas y estas ayudan a modificar el clima, lo cual hace que disminuya en muchas ocasiones la radiación solar y así el nivel de concentración de Ozono troposférico sea bajo [33][25]. Atributo a estudiar: R_S Global Campos de ese atributo cuyo valor es vacío: 7001 (6% del porcentaje total de los datos) Valores Únicos del atributo: 46 (0% del porcentaje total de los datos). Gracias al instrumento denominado piranometro, se puede medir la radiación solar que llega a la tierra. El atributo el cual estamos estudiando es llamado radiación solar global que es la suma de las tres radiaciones, siendo un atributo interesante y completo para realizar estudios a nivel general. Ilustración 10 Rangos de radiación solar global en µg/m3 Fuente: Herramienta Weka En esta ilustración se puede observar que los rangos de valores de radiación solar global más repetitivos están comprendidos entre 1 y 85.889 µg/m3, lo cual puede ser un aspecto positivo a la hora de hablar de calidad del aire ya que este es un influyente importante para la concentración de Ozono troposférico, sin embargo en este proyecto se busca descartar o reafirmar completamente las relaciones que existen entre este atributo y los contaminantes de ozono troposférico y material particulado. Atributo a estudiar: NO2 Campos de ese atributo cuyo valor es vacío: 6915 (6% del porcentaje total de los datos) Valores Únicos del atributo: 1490 (1% del porcentaje total de los datos). El óxido de nitrógeno se forma por los elementos de nitrógeno y oxígeno, es uno de los principales contaminantes entre los varios óxidos de nitrógeno, su color tiende a ser marrón y se forma por procesos de combustión a altas temperaturas en especial en industrias como plantas eléctricas y vehículos con motor [11] [12]. Ilustración 11 Frecuencia de óxido de nitrógeno Fuente: Herramienta Weka Como se puede observar en esta ilustración la mayor frecuencia de óxido de nitrógeno esta en valores bajos, lo cual según el índice de calidad del aire (ICA) [3], dichos rangos de mayor frecuencia no alcanzan ninguna escala amarilla (Moderado) o más bajo. Atributo a estudiar: NOX Campos de ese atributo cuyo valor es vacío: 6921 (6% del porcentaje total de los datos) Valores Únicos del atributo: 4468 (4% del porcentaje total de los datos). Este contaminante no tiene un índice de calidad del aire como tal ya que su medición es calculada por una formula muy sencilla que compone la suma entre el óxido de nitrógeno (NO2) y el monóxido de nitrógeno (no), donde este tipo de contaminante hace parte de la formación del ozono troposférico y hace referencia a un grupo de gases muy reactivos (entre esos también el NO y NO2) [46]. Ilustración 12 frecuencia del NOX Fuente: Herramienta Weka En esta ilustración se puede observar que la mayor frecuencia se encuentra entre los rangos 3.01 - 43.736 Ppb, sin embargo es importante tener en cuenta que hay rangos altos (mayores de 100 Ppb) que así su frecuencia no sea considerable pueden llegar a causar complicaciones más adelante representándose más que todo en el ozono troposférico. 2 Preparación de Datos En este capítulo se muestra el proceso de la selección y aplicación de métodos a la base de datos a la que se les va a aplicar las técnicas de minería de datos, también se muestran los procesos de limpieza de los datos, la generación de variables adicionales, la integración de diferentes conjuntos de datos y cambios de formato. Este capítulo lleva bastante trabajo ya que está directamente relacionado con la selección de las técnicas de minería de datos, es decir que los datos se procesan de acuerdo a la técnica de minería de datos escogida. Cabe recalcar que para realizar algunas secciones de este capítulo fue necesario primero seleccionar las técnicas pertinentes al trabajo de grado, las cuales se encuentran descritas en el documento de “descripción de las técnicas seleccionadas”. La preparación de datos es importante en el proceso de minería de datos por las siguientes razones: 1. Los datos entregados presentan valores inconsistentes o con ruido. 2. La preparación genera muestras de datos menores al conjunto original y esto puede ayudar a la eficiencia del algoritmo de minería. [38]. 3. La preparación va de la mano con la calidad en los datos, al recuperar instancias de las bases de datos. [38] 4. En este proceso se pueden crear variables adicionales que ayuden al algoritmo de minería y al encargado del proceso a entender los resultados del modelo. La herramienta utilizada para la creación de las vista minable fue SQL server 2012 junto con el add In de Minería de datos de Excel 2010. Para mayor facilidad en el tratamiento de los datos, fue necesario crear una base de datos local en la herramienta y allí realizar la importación de las 4 tablas que iban a componer la nueva base de datos. A continuación se ve la estructura de la base de datos en la herramienta: Ilustración 13 Estructura de la base de datos en la herramienta Fuente: Herramienta Visual Studio Data tolos versión 2010 2.1 Aspectos Generales Esta sección presenta el tratamiento de los datos a nivel general, es decir que aplica para los dos atributos contaminantes a explorar (O3 y PM10).También es creada debido a que habían tratamientos en los datos que se manejaron de forma general, es decir independientemente de la técnica a utilizar. 2.1.1 Integración de Datos Para mayor facilidad fue necesario unir los 4 archivos en uno solo con el fin de mejorar la eficiencia, el tiempo de preparación y la aplicación a las técnicas de minería de datos. La unión de estos 4 archivos (dividido en años) se realiza creando una vista de datos, donde la vista contiene la unión de las tablas, al final las dos vistas se unen utilizando la sintaxis Join. A continuación se puede observar una vista previa de la tabla con los datos conjuntos: Ilustración 14 Vista de datos divididos en años Fuente: Herramienta SQL Server Managment Studio versión 2012 Cabe recalcar que los valores de los campos que se ven vacíos en .xls en la importación en sql se visualizan dichos campos con el valor “NULL”. 2.1.2 Partición del atributo fecha&Hora El atributo fecha&Hora como se describió anteriormente es de tipo Date y por su formato solo contiene valores únicos, así que no es posible obtener resultados útiles relacionado con las series de tiempo y con los demás atributos. Por tal motivo fue importante dividir este atributo temporal en 4 columnas que son: Hora, Mes, día y año. Adicionalmente esta división es de gran ayuda para crear las variables derivadas relacionadas con las series temporales. A continuación se puede observar la vista general de la base de datos con esta partición: Ilustración 15 Participación del atributo por fecha y hora Fuente: Herramienta SQL Server Managment Studio versión 2012 2.1.3 Validación y Limpieza de Datos Es importante realizar una limpieza en los datos con el fin de tener una presentación de dichos datos de una forma apropiada para las técnicas de minería de datos, ya que si hay datos inconsistentes o nulos pueden alterar los resultados de las técnicas de una forma negativa. En esta sección se presenta el tratamiento aplicado a los datos con valores únicos, datos inconsistentes (mencionados en la ilustración 1 de la sección anterior), datos perdidos y problemas de integración. También es importante realizar una reducción de dimensional dad a la base de datos ya que el elevado tamaño de un conjunto puede provocar inconvenientes como [3]: 1. Los aumentos de respuesta en el procesamiento de las técnicas es alto ya que entre más casos se encuentren en la base de datos, mayor es el tiempo de inversión en la clasificación de dichos casos y en la mayoría de las ocasiones estos casos resultan redundantes. 2. Aumento de ruido en los datos (es decir datos inconsistentes o que estén por fuera de los rangos o el tipo de dato regido por el atributo), esto provoca que se generen modelos de mala calidad modificando la adecuada clasificación de aquellos casos que entren en la región de decisión. 3. Al realizar la visualización y/o interpretación de los resultados de los modelos de minería, cuando el tamaño del conjunto de datos es grande puede convertiré en resultados incomprensibles para la mente humana. Datos Perdidos: Campos Vacíos 123.743 En el motor de base de datos SQL Server 2012 los datos perdidos se representan con el valor “NULL”. Debido a que los datos no contienen ninguna información, se consultó a los expertos en el conocimiento de los datos de medición que en este caso fue la Ingeniería Blanca Oviedo quien sugirió no reemplazarlos por el promedio ni predecirlos sino borrar los registros con dichos campos perdidos ya que no representaban una cantidad significativa en el total de registros. En muchos casos habían registros que contenían 2 o más campos perdidos o vacíos. Datos Inconsistentes: Gracias a las herramientas de visualización de Weka, se permitió detectar los campos que tenían valores inconsistentes, la herramienta weka presenta una interfaz que en la pestaña de presentación de los datos, tiene la posibilidad de seleccionar cada atributo de forma individual y ver estadísticas de frecuencia, valores únicos, valores nulos y los rangos de datos que contiene dicho atributo, gracias a la documentación que publica la RMCA fue posible determinar cuáles rangos eran posibles en cada uno de los atributos, sin embargo los únicos datos inconsistentes encontrados eran de tipo carácter lo cual era un tipo de dato totalmente opuesto al tipo manejado por las variables de la base de datos. A continuación se muestra una imagen de la interfaz de Weka enfocada en el reconocimiento de las características que presenta dicha fuente de datos: Ilustración 16 Interfaz de Weka Fuente: Herramienta Weka versión 6 En la anterior ilustración se puede observar como ejemplo de lo explicado anteriormente, las características principales del atributo PM10, donde se puede observar los datos inconsistentes seguido de la cantidad con que se presentan dichos valores. A continuación se muestran los valores inconsistentes presentados en algunos campos y la cantidad de dichos campos que presentan estos valores a nivel general de la base de datos: Valor del Campo <Muestra Apagado Unknown FallTech Fechas Calib Cero Spam Cantidad de Campos 2.482 860 354 2.312 2 1061 99 3 Ilustración 17 Valores inconsistentes Fuente: Autor El tratamiento pertinente para combatir con los datos inconsistentes, fue eliminar los registros que contenían dichos campos inconsistentes ya que no se tenía certeza de cuáles podrían ser los valores posibles para llenar esos datos, además no se puede predecir un campo cuya clasificación es un valor inconsistente en esta base de datos, ya que se podrían alterar los resultados de las técnicas de minería de datos y por otra parte en muchos de los registros se encontraban más de 2 campos con valores inconsistentes. Valores Únicos La herramienta Weka permite observar los atributos cuyos valores son únicos en la base de datos. En la sección de “Análisis de los Atributos”, se puede observar que todos los atributos de la base de datos contienen valores únicos, representando así hasta el 6% de los datos. Los valores únicos pueden desviar los resultados que provean las técnicas de minería de datos, en especial la técnica de reglas de asociación. Tratamiento con los valores únicos El tratamiento más apropiado fue discretizar los atributos: Ozono PM10 Vel Vientos Lluvia NOX NO2 Temperatura Reducción de dimensionalidad La limpieza de datos, consistió en detectar los datos que podían presentar problemas de inconsistencias y rendimiento a la hora de tomarlos como muestra de entrada en los algoritmos de minería, así que los registros que contenían los campos que se describían en esa sección, se eliminaron con el fin de solucionar los posibles problemas tratados en la sección 1.2 Análisis de la Fuente de Datos, El total de los registros de la base de datos integrada fueron: 123.976, aplicando la reducción de dimensionalidad quedaron 52.441 registros, eliminando así un 42.3% de registros cuyos campos tenían valores inconsistentes y nulos. Estos 52.441 registros quedaron sin campos nulos ni inconsistentes, sin embargo cabe recalcar que sigue un porcentaje pequeño de valores únicos y que dicha reducción no altero el diagrama de frecuencias presentado en el capítulo 1.2 Análisis de la fuente de datos, solo bajo el porcentaje de frecuencia para los rangos presentados en las gráficas. Suavizado de Datos Es importante recalcar que la base de datos inicial, tiene la mayoría de sus atributos de tipo numérico, por lo que puede suceder que en un escenario negativo cada campo pueda tomar tanto valores como registros hay. En este caso muchas de las diferencias entre los valores de los campos son a nivel de los decimales, así que son insignificantes para los resultados del algoritmo de minería pero pueden degradar su desempeño. A continuación se puede observar el formato del estado inicial de los valores en los campos de los atributos: NOX, NO2 y Ozono: Formato de los campos del atributo nn.dddd (d=decimal, n=numero) Tabla 9 Formato de los datos de tipo continuo de la base de datos Fuente: Autor Por este motivo fue importante realizar el suavizado de datos en dichos atributos dejando este valor continuo con solo un decimal, para este caso con la técnica de reglas de asociación mejora el rendimiento en los cálculos para realizar la categorización de los datos a utilizar. 2.1.4 Creación de Variables Derivadas La importancia de crear variables derivadas es alta [43] ya que aparte de mejorar el rendimiento en el procesamiento de las técnicas, facilita la interpretación de los resultados que generen los modelos y sirven para explorar conocimiento por enfoques (en este trabajo de grado uno de los enfoques es encontrar relaciones entre los contaminantes con las series de tiempo) que no se muestra legible con los atributos de la base de datos. Las variables derivadas son creadas [43] a partir de la combinación de los valores de dos o más campos. A continuación se muestran las variables con la descripción: Hora Pico Esta variable se creó con el fin de observar la relación que hay entre el horario de congestión en la ciudad de Bogotá con el Ozono y las demás variables climatológicas, esta es una variable de tipo nominal y booleana. Esta variable se creó gracias a el atributo fecha&Hora, utilizando el carácter hora para realizar el procedimiento condicional. Los posibles valores que puede tomar la variable son: “SI” y “NO”. El valor “SI” significa que es hora pico y el valor “NO” quiere decir lo contrario. Los rangos que entran en la categoría “SI” se comprenden en las siguientes horas [mail]: 7 a.m., 5 p.m. y 8 p.m. y las demás horas entran a la categoría “NO”. ClasificacionHora Esta variable fue creada con el fin de realizar una mejor interpretación en los resultados de las técnicas de minería de datos en especial con la técnica de regla de asociación con el algoritmo Apriori, esta variable se creó gracias a el atributo fecha&Hora, utilizando el carácter hora para realizar el procedimiento condicional. La ClasificacionHora se divide en las siguientes categorías: ClasificacionHora Rangos “MAÑANA” “MEDIO DIA” “TARDE” “NOCHE” “MADRUGADA” 6 a.m. a 10 a.m. 11 a.m. a 2 p.m. 3 p.m. a 6 p.m. 7 p.m. a 11 p.m. 12 a.m. a 5 a.m. Tabla 10 Clasificación hora por rangos de tiempo Fuente: Autor Fin de semana Esta variable derivada es de tipo nominal y booleana, como uno de los objetivos de este trabajo de grado es tener en cuenta las series temporales, este fue uno de los motivos de crear esta variable ya que se derivan del atributo fecha&Hora que es el que representa la serie temporal de la base de datos. Para crear esta variable se utilizó una función especial de SQL server 2012 que se encarga de tomar la fecha y como resultado en otra columna colocar el día de la semana de tipo carácter y con esto crear el procedimiento condicional para seleccionar solo los días “Sábados” y “Domingos”. Trimestres del Año Esta variable fue creada con el fin de relacionar el ozono con la climatología colombiana, donde el año está compuesto por 4 trimestres así que esta variable contiene 4 categorías respectivas. Para esto fue necesario utilizar la variable derivada mes y crear el procedimiento condicional para dividir los meses en trimestres. Esta variable es de tipo nominal. A continuación se muestran las categorías que puede tomar esta variable junto con los rangos que le acompañan: Categorías del Trimestre Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4 Rango Diciembre – Febrero Marzo-Mayo Junio-Agosto Septiembre- Noviembre Tabla 11 categorías del trimestre por año Fuente: Autor PromRadiacionSG Esta variable es de tipo nominal y fue creada con el fin de ayudar a reducir la extensión del árbol, a obtener una buena interpretación por parte del interesado y en la construcción de los nodos internos del árbol. . Esta variable fue creada calculando el promedio del nivel de radiación solar global con base la clasificación horaria (mañana, medio día, noche, tarde y madrugada), para cumplir dicho propósito fue necesario utilizar el atributo RadiaciónSolarG y la variable derivada ClasificacionHora. A continuación se presenta la tabla con la información de los promedios de radiación solar global de acuerdo a la clasificación horaria: Clasificación Madrugada Mañana Medio día Tarde Noche PromedioRS 0 228.82 529.74 221.99 1.68 Tabla 12 promedio de la radiación solar global por clasificación horaria Fuente: Autor La variable derivada PromRadiacionSG se basa en los valores de la tabla anterior y con base en esta se crean 3 estados: “mayor al promedio”, “promedio” y “menor al promedio”. 2.2 Aspectos específicos En esta sección se presentan los tratamientos que se realizaron a los datos de forma específica de acuerdo al contaminante a analizar y la técnica de minería de datos utilizada para los contaminantes PM10 y O3 troposférico, cabe recalcar que cuando se habla de aspectos específicos quiere decir que se realizó un tratamiento distinto en cada una de las etapas de esta sección. 2.2.1 Preparación de datos para Reglas de asociación y Clasificación Por los requerimientos de las técnicas de reglas de asociación y clasificación es importante realizar una conversión de los atributos de continuo a nominal. A continuación se muestran los atributos a los que se les realizo la discretización, seguido de su respectivo procedimiento: 2.2.1.1 VelViento Este atributo por ser de tipo continuo fue necesario aplicarle discretización. El atributo Vel Viento se categoriza de acuerdo a la escala de velocidad del viento – Beaufor [11] [12] especificado en el informe anual de calidad del aire. A continuación se presenta la escala: Tabla 13 Escala de velocidad del viento Fuente: Informe Anual realizado por la RMCAB Después de realizar la categorización con la escala Beaufor, se detectó que la categoría más alta que presenta el atributo fue “Regular” con un rango entre 7.5 y 9.8 m/s, sin embargo con el fin de que el modelo quede útil para otro conjunto de datos la categoría regular quedo con valores mayores e iguales que 7.5 m/s. La categoría más frecuente es suave. 2.2.1.2 Temperatura El atributo contiene un índice definido llamado temperatura efectiva Missenard, este índice mide el estrés térmico tanto por altas como por bajas temperaturas. A continuación se muestra una representación de la escala de temperatura: Ilustración 18 Escala de temperatura Fuente: RMCAB El índice de temperatura más alto que se detectó en la base de datos fue “Tibio” que representa la temperatura entre los rangos mayores e iguales que 18 y menores que 24 ºC, sin embargo con el fin de que el modelo quede útil para otro conjunto de datos la categoría tibio quedo con valores mayores e iguales a 18 ºC. El índice que presenta mayor frecuencia en la base de datos es “menos tibio”. 2.2.1.3 Lluvia Este atributo también tiene una escala definida por lo cual se usa para realizar la discretización de los valores posibles, la escala se menciona en los anexos de los informes anuales de calidad del aire realizado por la RMCA [12]. En la ilustración siguiente se muestra la escala de precipitación: Tabla 14 Escala de precipitación diaria en mm Fuente: Informe Anual realizado por la RMCAB La mayor categoría detectada que toma la base de datos de registros históricos es de “fuerte” con valores mayores e iguales a 21mm y la categoría que presenta mayor frecuencia es “escasa”. 2.2.1.4 Radiación Solar Global El atributo de radiación solar global no tiene como tal un índice de medición, así que fue necesario utilizar las herramientas de SQL Server detección de categorías, donde se detectaron 5 que se presentan a continuación con su respectivo rango e importancia: Categoría No existe Clase 1 Clase 2 Clase 3 Clase 4 Clase 5 Columna RadiaciónSolarG RadiaciónSolarG RadiaciónSolarG RadiaciónSolarG RadiaciónSolarG RadiaciónSolarG Valor 𝒘 𝒎𝟐 0 1-151 152 - 344 345 - 527 528 – 742 >=743 Importancia Relativa 100 100 100 100 100 100 Tabla 15 Radiación solar global Fuente: Herramienta Visual Studio Data Tools versión 2010 Las categorías más frecuentes son “Clase 1” y “Clase 3”, la categoría “No existe” se presenta en las horas comprendidas entre las 8 pm a las 4 am, esta categoría se creó con el fin de explorar las distintas relaciones que pueden existir con el Ozono. 2.2.1.5 Ozono Troposférico (𝑶𝟑 ) En esta sección se presenta el proceso de categorización para el Ozono y los precursores NOX y NO2 con el fin de aplicar técnicas de clasificación y reglas de asociación. Discretización (Categorización) Una de las desventajas de las Reglas de asociación, es que no maneja muy bien los datos de entrada cuyos valores son continuos ya que afecta el desempeño, el cálculo de confianza y el soporte de cada regla de asociación encontrada. Por tal motivo es necesario realizar una conversión de los atributos de continuo a nominal. A continuación se muestran los atributos a los que se les realizo la discretización para explorar el atributo objetivo Ozono, seguido de su respectivo procedimiento: Ozono A este atributo por su característica de tipo continua fue necesario aplicar discretización según los criterios que maneja la Enviromental Protection Agency (EPA ) , esta agencia busco la manera de hacer que la información sobre la calidad del aire exterior sea fácil de entender, creando así el Índice de Calidad del Aire (AQI por sus siglas en ingles), este índice no solo presenta información de la calidad del aire diario sino que también presenta los posibles efectos en la salud y las personas más vulnerables a sufrir dichos efectos. La EPA calcula el AQI para cinco de los principales contaminantes regulados por la Ley del Aire Limpio, entre estos contaminantes calculados se encuentra el Ozono troposférico. A continuación se muestran las 6 categorías que representan el AQI, junto con el nivel de preocupación para la salud y el color que representa el nivel de peligrosidad de cada categoría: Tabla 16 Categorías que representan el AQI Fuente: EPA Un AQI de 100 corresponde a un nivel de Ozono de 0.08 ppm (partes por millón). Como nos podemos dar cuenta en la sección 1.2.2 Estado inicial de la base de datos, el atributo de ozono esta medido en ppb (partes por billón) así que fue pertinente realizar la conversión de ppb a ppm para cada uno de los valores y luego hallar el AQI. 1 ppm equivale a 1000 ppb Para esto se creó una nueva columna con el fin de mantener la persistencia de los datos en ppb y ppm y luego se multiplica el valor de cada campo del atributo por 100 y se divide en 0.08 ppm para así obtener el valor en AQI del valor de ozono en cada campo. Cabe recalcar que los valores AQI del atributo Ozono también se les aplico suavizado de datos quedando así con 2 decimales. La ilustración 18 presentada a continuación, muestra cómo queda la base de datos con el atributo de ozono con diferente unidad y con el respectivo AQI: Tabla 17 base de datos con el atributo ozono Fuente: Herramienta Visual Studio Data Tools versión 2010 Después de tener los valores del atributo Ozono regidos por el AQI, resta agrupar dichos valores por rangos para luego asignarle a cada rango el nivel de preocupación de salud que se encuentra en la segunda columna de la ilustración 18. Luego de realizar la conversión de continuo a nominal, se pudo observar que en los registros históricos la localidad de Puente Aranda no llega al nivel más alto de preocupación de salud definida por la EPA. El nivel máximo detectado que puede tomar el atributo Ozono en el registro histórico es de “desfavorable” que representa el color rojo y va en los rangos AQI de 151 a 200, sin embargo para que el modelo quede útil para posteriores conjuntos de datos esta categoría va para valores mayores e iguales a 151.La categoría más frecuente es “Bueno”. A continuación se presentan las categorías que puede tomar el atributo Ozono en la base de datos: Categorías detectadas Bueno Moderado Desfavorable Tabla 18 Categorías detectadas de la concentración de Ozono Fuente: Autor No2 Este atributo está incluido entre los contaminantes principales medidos por la EPA [3] y al igual que con el atributo de ozono también es necesario realizar la conversión de ppb a AQI, y luego categorizar por rangos de AQI de acuerdo al nivel de preocupación por la salud. A continuación se puede observar las 6 categorías en las que se puede representar la medición de AQI en el No2: Tabla 19 Categorías de la medición AQI en el NO2 Fuente: EPA [3] La categoria mas frecuente en el atributo NO2 es “bueno” y la categoria mas alta detectada es “ Desfavorable para Grupos sensibles” y se representa en la base de datos como “DESFAVORABLE (GS)” con valores AQI mayores e iguales a 101 IQA. NOX Este atributo no tiene un índice de medición como tal, así que fue necesario utilizar las herramientas de detección de categorías que proporciona Analysis Services de SQL Server 2012, esta herramienta crea categorías de tal modo que cada una de ellas quede con una cantidad de campos proporcionado. A continuación se presenta las categorías detectadas por la herramienta: Categoría MUY BAJO BAJO MEDIO ALTO ALTO Columna NOX NOX NOX NOX NOX Valor <= 36,34 36,35 - 71,70 71,71- 122,78 122,79 - 195 >= 195,1 Importancia Relativa 100 100 100 100 40 Tabla 20 Categorías de NOX detectadas por la herramienta Fuente: Herramienta Visual Studio Data Tools 2010 Es importante recalcar que estas categorías creadas no definen si el NOX es bajo o alto ya que hay estudios completos que se encargan de ello, simplemente se utiliza esta categorización por motivos de este trabajo de grado para facilitar el proceso del algoritmo escogido por las reglas de asociación. Como se puede observar en esta tabla, aparece el nombre de la categoría, la columna a la que pertenece dicha categoría, los rangos por cada una de ellas y la importancia en escala de 1 a 100 de aplicar esta categoría a la columna, sin embargo la categoría que toma el nombre “ALTO” cuando es mayor o igual a 195 ppb no se muestra con una importancia alta ya que hay muy pocos valores que se encuentran con este estado. La categoría más frecuente es “MUY BAJO”. 2.2.1.6 Material Particulado (PM10) Para el Material Particulado los atributos que van hacer explorados por los modelos y parte de la vista minable son los siguientes: Temperatura PromRadiacionSG Lluvia Vel Viento PM10 ClasificaciónHora Trimestres del Año Hora Pico Fin de Semana Discretización del Atributo PM10 Es necesario realizar una conversión de los atributos de continuo a nominal para aplicar estas técnicas con el fin de obtener resultados confiables y fáciles de interpretar. A continuación se muestra el atributo al que se le realizo la discretización para explorar el atributo objetivo PM10, seguido de su respectivo procedimiento: PM10 El material particulado (para partículas mayores a 10 microgramos por metro cubico (PM10)), tiene un índice de calidad del aire definido por la EPA, el cual se utilizó para crear la vista minable y en especial el método de discretización, en la siguiente ilustración se puede observar con detalle las categorías por cada índice: Tabla 21 Categorías del PM10 Fuente: EPA Para realizar la clasificación se creó una nueva columna con el fin de mantener la persistencia de los datos en las unidades de medida. La tabla 23 de a continuación muestra una vista general de cómo queda la base de datos el atributo PM10 de tipo continuo y nominal: Tabla 22 Vista general de la base de datos para el atributo PM10 Fuente: Autor El nivel máximo que puede tomar el atributo PM10 es de “DESFAVORABLE” que representa los rangos AQI de 301 a 500, el estado que presenta más frecuencia en el atributo es “MODERADO”. A continuación se presentan Los estados que puede tomar el atributo Ozono en la base de datos y su respectiva frecuencia: Estados detectados Bueno Moderado Desfavorable Frecuencia 28312 50466 7482 Tabla 23 Diferentes estados el atributo de Ozono Fuente: Autor La clasificación desfavorable toma todos los valores mayores e iguales a 151 valor AQI. 2.2.2 Preparación de datos para Agrupamiento Esta técnica por estar basada en distancias, aplica algunos procesos distintos a los de las reglas de asociación y clasificación, en esta sección se presentan los procesos específicos que se realizaron a la base de datos para aplicar esta técnica. 2.2.2.1 Normalización El método de normalización que se aplicó a la base de datos fue Min-Max [41], como su misma palabra lo dice se basa en el valor máximo y mínimo del campo de cada atributo. La fórmula que se aplica es la siguiente: 𝑣′(𝑖) = 𝑣(𝑖) − min(𝑣(𝑖)) max(𝑣(𝑖)) − min(𝑣(𝑖)) Ecuación 1 Fuente: Presentación Alexandra Pomares Donde 𝑣′(𝑖) va hacer el valor del campo i normalizada,𝑣(𝑖) es el valor de campo i para cada atributo y min(𝑣(𝑖)), max(𝑣(𝑖)) son los valores del campo máximos y mínimos para cada atributo. Necesidad de normalización de los datos El principal inconveniente encontrado en el cálculo de la distancia entre los datos es que los atributos de mayor magnitud tienden a dominar al resto de atributos y por ende las agrupaciones no son del todo óptimas (si no están normalizados). Para este caso el conjunto de datos presentó con bastante frecuencia esta problema ya que el atributo Radiación Solar tiene una unidad de medición que arroja valores enteros que se encontraba entre los rangos 0 y 1178 , mientras que atributos como: 𝑃𝑀10, 𝑂3 ,NOX,NO2,Lluvia entre otros tienen una unidad de medición decimal cuyos rangos no superan el numero 639,0 (en el caso de 𝑃𝑀10, para los demás atributos el rango es mucho menor), lo cual hace que el atributo radiación solar este viciando la distancia y afectando así la asignación hacia los clústeres. Para resolver este problema fue necesario normalizar los datos. 2.2.2.1.1 Ozono Troposférico (𝑶𝟑 ) y Material Particulado (𝑷𝑴𝟏𝟎 ) Los atributos del conjunto de datos del 𝑂3 y 𝑃𝑀10 a los cuales se les aplico normalización son los siguientes: Nombre del Atributo Ozono NOX NO2 Radiación Solar Global Temperatura Lluvia Vel Viento PM10 A continuación se presenta una vista general de la base de datos normalizada: Tabla 24 base de datos normalizada Fuente: Herramienta Visual Studio Data Tools versión 2010 Detección Valores Extremos (Outliers) Los outliers son los valores de los campos extremos ocasionados por registros incorrectos o por eventos extraordinarios que dañan la caracterización de la serie como la media, la varianza y en este caso la distancia euclidiana que es calculada por la técnica de Clustering. Un ejemplo de ello es cuando los valores del atributo salario oscilan entre los 200.000 y 600.000 y se encuentra solo uno de 2.000.000 ese sería detectado como outliers. Gracias a las sentencias de SQL Server fue posible encontrar los valores de los outliers de cada atributo, los atributos que contenían estos valores son los siguientes: Atributo Ozono Vel Viento Temperatura Lluvia NO2 NOX Radiación Solar G Valor/es encontrado 119,3 - 117,23 – 0,1 ppb 8,6- 8,4 m/s 22,9 ºC 32,6 – 32,5 mm 0,17-158,72 ppb 1,82 – 402,12 1147 Tabla 25 Detección de valores extremos (outliers) Fuente: Autor Los atributos que contiene outliers se presentan una vez o máximo dos veces en todos los registros históricos, por tal motivo se realizó el siguiente análisis. Se pudo observar de forma frecuente en la detección de los outliers que los rangos comprendidos eran los valores máximos y mínimos que tomaba cada atributo, así que el tratamiento que se le dio a los outliers en el caso de los valores máximos únicos fue promediarlo con los últimos tres valores anteriores a este, para así dejar el promedio de dichos valores como el máximo. Con el valor mínimo se hizo algo similar, se promedió el outliers con los tres valores posteriores a esta, dejando como el valor mínimo el resultado de dicho promedio. 2.2.2.1.2 Material Particulado (𝑷𝑴𝟏𝟎 ) Los atributos a los cuales se les aplicó normalización fueron los siguientes: Nombre del Atributo 𝑃𝑀10 Radiación Solar Global Temperatura Lluvia Vel Viento Tabla 26 Atributos a los cuales se les aplico la normalización Fuente: Autor Los atributos NOX y NO2 tanto practica como teóricamente no se presentan correlaciones entre cada una de estas variables con el 𝑃𝑀10, por tal motivo estas variables no hacen parte de la exploración y la creación de los modelos de Minería de Datos para el 𝑃𝑀10 . A continuación se presenta una vista general de la base de datos normalizada: Tabla 27 base de datos normalizada Fuente: Herramienta Visual Studio Data Tools versión 2010 Manejo de valores extremos (Outliers) Los Outliers detectados para el conjunto de 𝑃𝑀10 son los siguientes: Atributo PM10 Vel Viento Temperatura Lluvia Radiación Solar G Valor/es encontrado 693 8,6 a 13,3 m/s 22,7 - 24 ºC 49,4 – 50,2 mm No Aplica Tabla 28 Outliers detectados Fuente: Autor Los atributos que contiene outliers se presentan una vez o máximo tres veces en todos los registros históricos, como se puede observar en la detección de los outliers, los rangos comprendidos son los valores máximos y mínimos que tomaba cada atributo, así que el tratamiento que se le dio a los outliers en el caso de los valores máximos únicos fue promediarlo con los últimos tres valores anteriores a este, para así dejar el promedio de dichos valores como el máximo. Con el valor mínimo se hizo algo similar, se promedió el outliers con los tres valores posteriores a esta, dejando como el valor mínimo el resultado de dicho promedio. ANEXO 1 TABLA 1 CORRELACIONES DEL OZONO ................................................................................................................... 7 TABLA 2 CORRELACIÓN PM10 .......................................................................................................................... 10 TABLA 3 CORRELACIONES DEL 𝑶𝟑 CON LAS VARIABLES CLIMATOLÓGICAS Y LOS PRECURSORES. ....................................... 11 TABLA 4 CORRELACIONES DEL 𝑷𝑴𝟏𝟎 CON LAS VARIABLES CLIMATOLÓGICAS.............................................................. 13 TABLA 5 DESCRIPCIÓN DE LA ESTACIÓN DE PUENTE ARANDA .................................................................................... 14 TABLA 6 REGISTRO HISTÓRICO DESDE 1999 HASTA EL 2012 .................................................................................... 15 TABLA 7 ARCHIVO DE BASE DE DATOS POR ATRIBUTOS ............................................................................................ 16 TABLA 8 ERRORES PERTENECIENTES A LAS BASES DE DATOS ...................................................................................... 17 TABLA 9 FORMATO DE LOS DATOS DE TIPO CONTINUO DE LA BASE DE DATOS ............................................................... 29 TABLA 10 CLASIFICACIÓN HORA POR RANGOS DE TIEMPO ........................................................................................ 30 TABLA 11 CATEGORÍAS DEL TRIMESTRE POR AÑO ................................................................................................... 30 TABLA 12 PROMEDIO DE LA RADIACIÓN SOLAR GLOBAL POR CLASIFICACIÓN HORARIA .................................................... 31 TABLA 14 ESCALA DE VELOCIDAD DEL VIENTO ....................................................................................................... 32 TABLA 15 ESCALA DE PRECIPITACIÓN DIARIA EN MM............................................................................................... 32 TABLA 16 RADIACIÓN SOLAR GLOBAL .................................................................................................................. 33 TABLA 17 CATEGORÍAS QUE REPRESENTAN EL AQI................................................................................................. 34 TABLA 18 BASE DE DATOS CON EL ATRIBUTO OZONO .............................................................................................. 35 TABLA 19 CATEGORÍAS DETECTADAS DE LA CONCENTRACIÓN DE OZONO .................................................................... 35 TABLA 20 CATEGORÍAS DE LA MEDICIÓN AQI EN EL NO2 ........................................................................................ 36 TABLA 21 CATEGORÍAS DE NOX DETECTADAS POR LA HERRAMIENTA ......................................................................... 36 TABLA 22 CATEGORÍAS DEL PM10 ..................................................................................................................... 37 TABLA 23 VISTA GENERAL DE LA BASE DE DATOS PARA EL ATRIBUTO PM10 ................................................................ 38 TABLA 24 DIFERENTES ESTADOS EL ATRIBUTO DE OZONO ........................................................................................ 38 TABLA 25 BASE DE DATOS NORMALIZADA ............................................................................................................. 40 TABLA 26 DETECCIÓN DE VALORES EXTREMOS (OUTLIERS) ....................................................................................... 40 TABLA 27 ATRIBUTOS A LOS CUALES SE LES APLICO LA NORMALIZACIÓN...................................................................... 41 TABLA 28 BASE DE DATOS NORMALIZADA ............................................................................................................. 41 TABLA 29 OUTLIERS DETECTADOS ....................................................................................................................... 42