ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIVARIADA VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁLISIS DE DATOS DE CALIDAD DE AGUA JUAN CARLOS RODRÍGUEZ CAMPO PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA MAESTRIA EN HIDROSISTEMAS BOGOTÁ D.C. 2008 ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIVARIADA VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁLISIS DE DATOS DE CALIDAD DE AGUA JUAN CARLOS RODRÍGUEZ CAMPO Trabajo de grado para optar el título de MAGISTER EN HIDROSISTEMAS Director OSCAR GARCÍA-CABREJO Geólogo, M.Sc. PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA MAESTRIA EN HIDROSISTEMAS BOGOTÁ D.C. 2008 2 ACEPTACIÓN ____________________________ ____________________________ ____________________________ ____________________________ ____________________________ 3 Este trabajo lo dedico a Dios y a mi familia, por su apoyo incondicional en la realización de este sueño Gracias….. 4 AGRADECIMIENTO El autor expresa su agradecimiento a: Oscar García-Cabrejo; Geólogo, amigo y director del proyecto, por su orientación y tiempo compartido para la ejecución de proyecto Nelson Obregón Neira; Ing. Civil, director de la Maestría, por su constante motivación y amistad Compañeros de estudio y profesores; por compartir su amistad y hacer amena el tiempo que pase realizando la maestría. 5 TABLA DE CONTENIDO OBJETIVOS INTRODUCCIÓN 1 MARCO TEÓRICO 15 1.1 ESTADÍSTICA MULTIVARIADA 1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTIGACIÓN 1.1.1.1 Análisis de Componentes Principales (ACP) 1.1.1.2 Análisis Discriminante (AD) 1.2 REDES NEURONALES 1.2.1 NEURONAS BIOLÓGICAS 1.2.2 REDES NEURONALES ARTIFICIALES (RNA) 1.2.2.1 Modelo General de una Neurona Artificial 1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALES 1.2.3.1 Arquitectura o topología de las redes neuronales 1.2.3.2 Mecanismo de aprendizaje 1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFICIALES (RNA) 1.2.5 REDES NEURONALES HEBBIANAS 1.2.5.1 Componentes Principales Usando Redes Neuronales Hebbianas 1.2.6 RED NEURONAL TIPO PERCEPTRON 1.2.6.1 Estructura de la Red 2 DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE ANÁLISIS 2.1 ÁREA DE ESTUDIO 2.1.1 LOCALIZACIÓN GEOGRÁFICA 2.2 CONJUNTO DE DATOS UTILIZADOS 3 ANÁLISIS EXPLORATORIO DE DATOS (AED) 3.1 ESTADÍSTICA BÁSICA 3.1.1 TABLAS 3.1.2 GRÁFICAS 4 15 18 19 21 23 23 24 26 27 28 30 33 34 35 37 38 41 41 41 42 46 46 46 50 APLICACIÓN DE LOS MÉTODOS 61 4.1 ASOCIACIÓN ENTRE VARIABLES 4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) 4.1.1.1 Procedimiento 4.1.1.2 Resultados 4.1.2 REDES NEURONALES ARTIFICIALES (RNA) 4.1.2.1 Procedimiento 4.1.2.2 Resultados 4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN 4.2 CLASIFICACIÓN DE LAS VARIABLES 4.2.1 ANALISIS DISCRIMINANTE (AD) 4.2.1.1 Procedimiento 4.2.1.2 Resultados 6 63 63 63 68 69 69 73 74 74 76 76 77 4.2.1.3 Matriz de Confusión 4.2.2 REDES NEURONALES ARTIFICIALES (RNA) 4.2.2.1 Procedimiento 4.2.2.2 Resultados 4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN 80 82 83 87 90 5 CONCLUSIONES 91 6 RECOMENDACIONES 93 7 BIBLIOGRAFÍA 94 8 ANEXOS 96 7 LISTA DE TABLAS TABLA 1. PARÁMETROS FISICOQUÍMICOS MEDIDOS TABLA 2. MATRIZ DE DATOS DE LA ESTACIÓN NO. 1 USADOS EN EL PROYECTO TABLA 3. RESULTADOS DEL ANÁLISIS ESTADÍSTICOS BÁSICO TABLA 4. PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS MEDIDOS TABLA 5. METODOLOGÍAS EMPLEADAS EN LA INVESTIGACIÓN TABLA 6. MATRIZ DE CORRELACIÓN - ACP MÉTODO ESTADÍSTICO CONVENCIONAL TABLA 7. MATRIZ DE CORRELACIÓN OBTENIDA CON LA RED NEURONAL ARTIFICIAL TABLA 8. MATRIZ DE RESULTADO DEL AD - MÉTODO ESTADÍSTICO TABLA 9. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE 43 44 47 48 61 66 71 78 81 DATOS CALIBRADOS TABLA 10. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE 81 DATOS DE VALIDACIÓN TABLA 11. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE 85 DATOS DE CALIBRACIÓN TABLA 12. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE 86 DATOS DE VALIDACIÓN TABLA 13. RESULTADO DEL AD CON LA RNA 87 TABLA 14. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE DATOS COMPLETOS 89 8 LISTA DE FIGURAS ILUSTRACIÓN 1. ESQUEMA DE LA REPRESENTACIÓN DE UNA MATRIZ DE DATOS ILUSTRACIÓN 2. FUNCIÓN DISCRIMINANTE ILUSTRACIÓN 3. ESTRUCTURA Y PARTES DE UNA NEURONA BIOLÓGICA ILUSTRACIÓN 4. ESTRUCTURA DE UNA RED NEURONAL ARTIFICIAL ILUSTRACIÓN 5. MODELO GENÉRICO DE UNA NEURONA ARTIFICIAL ILUSTRACIÓN 6. ESTRUCTURA JERÁRQUICA DE UN SISTEMA BASADO EN RNA ILUSTRACIÓN 7. ESTRUCTURAS DE UNA RED MULTICAPA Y MONOCAPA ILUSTRACIÓN 8. ESTRUCTURA DE UNA RED NEURONAL DE TIPO HEBBIANO MODIFICADO DE MORENOSÁNCHEZ & GARCÍA-CABREJO (2003) ILUSTRACIÓN 9. ESTRUCTURA DE UNA RED PERCEPTRON ILUSTRACIÓN 10. LOCALIZACIÓN DE LOS PUNTOS DE MUESTREO ILUSTRACIÓN 11. ESQUEMA RED NEURONAL USADA EN EL ANÁLISIS DISCRIMINANTE 9 18 22 23 25 27 28 30 35 39 42 82 LISTA DE GRÁFICAS GRÁFICA 1. ANÁLISIS TEMPORAL DEL DBO5 EN LAS ESTACIONES DE MONITOREO GRÁFICA 2. ANÁLISIS TEMPORAL DEL PH EN LAS ESTACIONES DE MONITOREO GRÁFICA 3. ANÁLISIS ESPACIAL DE LOS COLIFORMES FECALES EN LAS ESTACIONES DE MONITOREO GRÁFICA 4. ANÁLISIS ESPACIAL DEL CROMO EN LAS ESTACIONES DE MONITOREO GRÁFICA 5. ANÁLISIS ESPACIAL DE DBO5 EN LAS ESTACIONES DE MONITOREO GRÁFICA 6. ANÁLISIS ESPACIAL DEL PH EN LAS ESTACIONES DE MONITOREO GRÁFICA 7. ANÁLISIS ESPACIAL DE LA TURBIDEZ EN LAS ESTACIONES DE MONITOREO GRÁFICA 8. ANÁLISIS ESPACIAL DE LOS SÓLIDOS TOTALES EN LAS ESTACIONES DE MONITOREO GRÁFICA 9. VARIANZA ACUMULADA POR COMPONENTES GRÁFICA 10. HISTOGRAMA DE PRECIPITACIÓN MENSUAL GRÁFICA 11. DISTRIBUCIÓN DE LOS DATOS ENTRE LOS PERIODOS GRÁFICA 12. NÚMERO DE ÉPOCAS 10 51 54 58 58 59 59 60 60 64 75 80 85 OBJETIVOS OBJETIVO GENERAL Realizar un estudio comparativo de las técnicas estadísticas multivariadas versus las redes neuronales artificiales en el análisis estadístico de datos de calidad de agua OBJETIVOS ESPECÍFICOS 1. Aplicar las técnicas multivariadas convencionales como: Análisis de Componentes Principales y Análisis Discriminante en el análisis exploratorio de un conjunto de datos de calidad de agua 2. Estudiar la viabilidad de aplicación de técnicas de redes neuronales artificiales de aprendizaje supervisado y no supervisado en el análisis de información relacionada con la calidad del agua 3. Realizar una comparación de los resultados obtenidos del análisis de un conjunto de datos de calidad de agua empleando las técnicas estadísticas multivariadas tradicionales y las redes neuronales artificiales 11 INTRODUCCIÓN Los programas de monitoreo de la calidad de agua son una herramienta importante para obtener un conocimiento directo de las condiciones químicas de un cuerpo de agua, y por ende su estado de calidad con respecto a diferentes usos. Una característica de dichos programas de monitoreo es que producen conjuntos de datos que se caracterizan por ser grandes (en cuanto a número de muestras), y multidimensionales (ya que miden numerosas variables al mismo tiempo); los cuales en muchas oportunidades son difíciles de analizar e interpretar. A nivel tradicional, el análisis de estos conjuntos de datos se concentra en una sola variable lo cual permite determinar las posibles tendencias, ya sea de crecimiento o decrecimiento. Sin embargo aplicar este tipo de análisis a un conjunto de datos multivariado como el que se obtiene comúnmente en los programas de monitoreo de calidad es tedioso y lo más grave es que descarta las posibles relaciones entre la variable analizada y las otras que se midieron. Es por esta razón cobra interés la utilización de las técnicas estadísticas multivariadas como herramientas para el análisis e interpretación de este tipo de información. Las técnicas estadísticas multivariadas permiten estudiar conjuntos de datos que se encuentren conformados por un número muy grande de variables explotando las correlaciones que presentan dichos parámetros. Estas técnicas multivariadas se emplean comúnmente en problemas de reducción de dimensionalidad, en donde el conjunto de datos multidimensional es proyectado en un espacio de menor dimensionalidad y los resultados de estas proyecciones pueden ser empleados para visualización y/o para determinar asociaciones significativas entre variables. Estos últimos aspectos resultan de especial importancia para el análisis de la información de calidad de agua, y es por esta razón que la utilización de los métodos estadísticos multivariados ha aumentado en los últimos años (Vega et al, 1998). 12 Los métodos estadísticos multivariados convencionales se han aplicado en el análisis de información de calidad de agua por los siguientes autores: • Vega et al (1998) aplicaron Análisis de Componentes Principales y Análisis de Agrupamientos en el Rio Pisuerga (España), el cual se encuentra afectado por vertimientos de procesos agrícolas y aguas residuales. • Wunderlin et al (2001) aplicaron Análisis de componentes principales, Análisis de Factor, Análisis de Agrupamiento y Análisis Discriminante en la Cuenca del Rio Suquia. • Ouyang (2005) aplicó el análisis de componentes principales y análisis de factor para determinar la efectividad de la red de monitoreo de calidad de agua en la cuenca LSJR en el NE de Florida, USA. Sin embargo una de las principales limitaciones de la técnica estadísticas multivariadas corresponde al hecho que la gran mayoría de ellas hacen suposiciones de normalidad y dependencia lineal entre las variables analizadas (Kottegoda y Rozzo, 1993). Esto tiene serias limitaciones en cuanto a la aplicación a los datos obtenidos en los monitoreos de calidad de agua, ya que estas variables difícilmente cumplen con esas condiciones y por lo tanto los resultados obtenidos deben interpretarse con mucha cautela. Como alternativa de solución al problema antes mencionado se tienen las denominadas Redes Neuronales Artificiales. Estos son modelos que se encuentran basados en la estructura del cerebro de los animales, y que reproducen una de las características más sorprendentes de este órgano: su capacidad de aprendizaje. Por lo tanto las Redes Neuronales Artificiales son modelos matemáticos que pueden aprender de un conjunto de datos. Esto se ha aplicado con un relativo éxito en labores de predicción y clasificación, pero un uso menos publicitado de estos modelos matemáticos es que se pueden emplear para 13 construir representaciones de la información analizada que pueden ser empleadas en el análisis exploratorio de datos. Esto es especialmente aplicable en el caso que el conjunto de datos tenga una función de densidad de probabilidad diferente a la normal y que las relaciones de dependencia entre las variables sea altamente complejas y de tipo no-lineal, características propias de las variables de calidad de agua. Las técnicas multivariadas convencionales empleadas en este trabajo fueron Análisis de Componentes principales (CP) y el Análisis discriminante (AD); mientras que las RNA utilizadas en éste ejercicios fueron, la red perceptrón multicapa, y la red hebbiana de aprendizaje no supervisado Para esta investigación, los datos usados provinieron del programa del Plan de Seguimiento y Monitoreo (PSM) realizado en el embalse del Muña, que se encuentra localizado en el municipio de Sibaté en el departamento de Cundinamarca, las aguas de este embalse es utilizado para la generación de energía eléctrica y su afluente más representativo son las aguas que se bombean desde el río Bogotá. EMGESA S.A. es la empresa propietaria y encargada de la operación del embalse. Para realizar el PSM se seleccionaron siete estaciones de monitoreo para la toma de las muestras de agua, de cada muestra se determinaron 21 parámetros fisicoquímicos, el periodo de muestreo estuvo comprendido desde abril del 2004 hasta octubre del 2006, para un total de 4557 datos. 14 1 MARCO TEÓRICO A continuación, se hace una breve descripción teórica de los métodos usados en la investigación, las RNA y los métodos multivariados. 1.1 ESTADÍSTICA MULTIVARIADA En la estadística, los métodos multivariados son un conjunto de técnicas que permiten al investigador interpretar y visualizar conjuntos grandes de datos (tanto en individuos como en variables), a partir de su simplificación o reducción. Su importancia radica en que las distintas características o variables pueden estar correlacionadas ya que se miden de un mismo individuo, por lo tanto, si se realizan análisis separados de cada una de estas características, se pierde la información dada por esta correlación. En el mundo, las técnicas multivariadas se utilizan en diferentes campos de la ciencia o del conocimiento, donde se requieren estas técnicas para el análisis o exploración de datos. Las áreas en las que se han utilizado las técnicas multivariadas se pueden mencionar la geología, que buscan determinar las características relevantes del suelo y hacer una clasificación de estos; también se aplica estos conocimientos en áreas como la antropología, donde buscan determinar de un individuo (mediciones de algunos huesos de un cadáver) un modelo con el cual se pueda predecir algunas características como la edad, el sexo entre otras. Otros campos en los que se aplican las técnicas multivariadas se pueden mencionar el mercadeo, la psicología, la biología, la medicina y la arqueología, entre otras. 15 Una primera diferencia entre los distintos métodos se basa en los objetivos que persiguen. Generalmente, se distinguen cuatro posibles objetivos1: • Simplificación estructural, se trata de describir la información original de forma sintética o resumida. Se busca la simplicidad a base de conseguir una reducción de la complejidad del problema. El método consiste en condensar las p variables originales en un número menor de nuevas variables creadas por el propio análisis, que contienen sin embargo gran parte de la información original. A este tipo de objetivo, y de método, se denomina reducción de la dimensión ya que los datos originales se expresan en un espacio de dimensión p mientras que como resultado del análisis podemos expresarles en otro espacio de menor dimensión. Las nuevas variables creadas por el análisis se denominan ejes, factores, o componentes principales. Son variables sintéticas, que estarán en función de las p variables originales. Generalmente, estos factores tienen una interpretación o significado que el investigador debe descubrir. El análisis de componentes principales (ACP), el análisis factorial (AF), y el análisis de correspondencias (AC) son métodos de reducción de la dimensión. • Clasificación o agrupación, estos métodos incluyen los de agrupamiento (análisis clúster) y los de segmentación. La agrupación de individuos consiste en formar grupos de individuos homogéneos en cuanto a las p variables, y heterogéneos respecto a los otros grupos. La agrupación de variables busca la formación de grupos de variables similares en cuanto a su comportamiento en un colectivo de objetos. • Análisis de interdependencia, se trata de buscar la interdependencia entre grupos de variables, sin que a priori se suponga relación de causalidad entre ellas. El método más conocido es el análisis de correspondencias, que es una generalización del análisis de correspondencias bivariante. 1 http://dmi.uib.es/~dmiram0/anadadesbio/ADbio0304/apuntesadades.pdf 16 • Análisis de dependencia, explica las relaciones entre grupos de variables, donde se supone que unas pueden ser causas de otras. El análisis de regresión pertenece a este grupo de métodos. Un tipo interesante de análisis de dependencia consiste en buscar un criterio que permita separar o discriminar entre objetos pertenecientes a priora a grupos diferentes. Dicho criterio es una función de las variables originales. En último término, se trata de usar los resultados en el futuro para predecir a qué grupo pertenecen nuevos objetos que no formaban parte de la información original y para los cuales se han medido las p variables. El análisis discriminante y la regresión logística son métodos que persiguen este objetivo. Generalmente, los datos son estáticos, en el sentido de que son mediciones realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis Multivariado se puede aplicar también para analizar la evolución temporal del fenómeno en estudio. En este caso, los n individuos son n momentos de tiempo. A veces, se emplean métodos multivariados para comparar una determinada situación en dos momentos de tiempo. Como se ha mencionado anteriormente la estadística o análisis multivariado utiliza diferentes muestras o características medidas de un mismo individuo y estos datos se deben presentar en forma de tablas o matriz. A continuación, en la siguiente ilustración se muestra un ejemplo de cómo se presentan normalmente los datos para su análisis. 17 VARIABLES M U E S T R A S X1i X2i …… …… Xji 1 X11 X21 …… …… Xj1 2 X12 X22 …… …… Xj2 …… …… …… …… …… …… …… …… …… …… …… …… n X1n X2n …… …… Xjn Ilustración 1. Esquema de la representación de una matriz de datos En los métodos multivariados, se supone que las variables están correlacionadas, pero las observaciones sobre los individuos son independientes. Generalmente se supone también que el conjunto de variables que intervienen en el análisis poseen una distribución normal multivariada. Esta suposición permite que el análisis multivariado se desarrolle paralelamente al correspondiente análisis univariado basado en una distribución normal. 1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTIGACIÓN Como se ha mencionado anteriormente, los métodos multivariados surgen a partir del interés de analizar la correlación que existe entre varias características medidas de un mismo individuo. Según el objetivo del análisis y el tipo de datos obtenidos se sugiere un tipo de tratamiento de la información, a partir de esto existen distintas metodologías o técnicas multivariadas, las cuales han sido clasificadas o agrupadas en dos métodos, el primero es el método de dependencia, éste se enfoca en las relaciones entre los individuos, entre ellos tenemos: Análisis Discriminante, Regresión Múltiple, Análisis de Varianza Multivariado, entre otras. Y el segundo grupo corresponde a los llamados métodos de interdependencia, este grupo contrario al anterior se enfoca a la relación entre variables, entre ellas se pueden mencionar: El Análisis de Componentes Principales, Análisis de 18 Conglomerado, Análisis de Factores, entre otras. A continuación, se hace una breve definición de los métodos multivariados que se utilizaron en este proyecto. 1.1.1.1 Análisis de Componentes Principales (ACP) El análisis de componentes principales tiene como objetivo la estructuración de un conjunto de datos multivariado mediante la reducción del número de variables. Esta es una metodología de tipo matemático para la cual no es necesario asumir distribución probabilística alguna. El análisis de componentes principales tiene como objetivos, entre otros, los siguientes2: • Generar nuevas variables que expresen la información contenida en un conjunto de datos • Reducir la dimensión del espacio donde están inscritos los datos • Eliminar las variables (si es posible) que aporten poco al estudio del problema • Facilitar la interpretación de la información contenida en los datos Entre las aplicaciones del análisis de componentes principales podemos mencionar: el uso como método para reducir la dimensión de la matriz de datos en busca de evitar redundancias y destacar relaciones; en muchos casos, seleccionando únicamente los primeros componentes, se puede explicar la mayor parte de la variación de los datos originales. También se pueden utilizar como técnicas para el análisis exploratorio que permitan revelar interrelaciones entre los datos y por último, permiten construir variables no observables a partir de variables observables. En fin, un componente principal es el producto de los datos originales y vector propio; el resultado de proyectar los datos en un nuevo eje, es una nueva variable. Hay tantos componentes principales como variables originales, no obstante los 2 Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de Colombia 19 componentes principales proporcionan la información en los parámetros más significativos, que describen nuestro conjunto de datos completos que produce la reducción de datos con la pérdida mínima de información3. En el caso de la no correlación entre las variables originales, el análisis de componentes principales no tiene mucho que hacer, pues las componentes se corresponderían con cada variable por orden de magnitud en la varianza; es decir, la primera componente coincide con la variable de mayor varianza, la segunda componente con la variable de segunda mayor varianza, y así sucesivamente4. 1.1.1.1.1 Modelo Matemático En componentes principales no tenemos a priori ninguna hipótesis acerca de la cualidad de los factores. El valor que toma una variable en un determinado caso se explica en un 100% por los K factores. El modelo matemático es el siguiente5: Xij = a1j Fi1 + a2j Fi2 +…………. + akj Fik En el modelo anterior parte de la base de que tenemos K variables inicialmente y, a partir de ellas, hemos calculado K factores linealmente independiente y ortogonales. Xij es el valor de la pésima variable que tiene el pésimo caso; este valor viene determinado por el producto de los coeficientes factoriales de la pésima variable con cada uno de los factores; el valor que tiene cada caso en cada uno de los factores, por ejemplo a2j, es el coeficiente factorial de la pésima variable con el segundo factor y Fi2 es el valor del segundo factor correspondiente al pésimo caso. 3 Pattern recognition techniques for the evaluation of spatial and temporal variations in water quality. a case study: suquia river basin (córdoba–argentina). WUNDERLIN DANIEL ALBERTO. Universidad Nacional de Córdoba, Facultad de Ciencias Químicas, Dto. Bioquímica. 4 Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de Colombia 5 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos 20 Conceptualmente, el modelo indica que el 100% de la información de la variable se explica por los K factores. 1.1.1.2 Análisis Discriminante (AD) El análisis discriminante es una técnica estadística multivariado que tiene como finalidad establecer si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los mismos, en el caso de existir, se debe explicar en qué sentido se dan y proporcionar procedimientos de clasificación sistemática de nuevas observaciones de origen desconocido en uno de los grupos analizados. Dos son los objetivos centrales del análisis discriminante: • Descriptivo, si estamos sólo interesados en poner en evidencia la capacidad discriminante de un cierto conjunto de variables • Decisional, si buscamos un criterio que nos permita decidir sobre la adscripción a uno de los grupos de un caso nuevo, no perteneciente a la muestra de entrenamiento. La diferencia que existe entre análisis discriminante y los métodos de agrupamientos como el de clúster es que, en el primero, los grupos están definidos, mientras que en el segundo se trata de definir los grupos ante un conjunto de individuos. Según cuál sea nuestro interés, se utilizarán alguno de los dos siguientes métodos6: 6 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos 21 • Análisis factorial discriminante. Su objetivo es explicar la permanencia de un individuo a un determinado grupo. Este método también permite realizar predicciones, asignando a cada individuo al grupo más cercano a su puntuación factorial. • Funciones discriminantes. Este método pretende predecir la pertenencia de un individuo a un determinado agrupo, en función a al probabilidad calculada, conocidos una serie de datos. 1.1.1.2.1 Fundamento Matemático En el análisis discriminante el interés es el de encontrar una función o funciones que maximicen el cociente entre la variabilidad entre grupos y la variabilidad dentro de grupos. De esta manara, la función debe tener el máximo poder posible de discriminación de los grupos7. Y A B Z 0 0 X Ilustración 2. Función Discriminante En el gráfico anterior podemos observar que hay valores de las variables X e Y que pueden darse tanto en elementos del grupo A como del B; por tanto, dichas variables, por sí solas, no pueden discriminar los dos grupos. Proyectando ambos grupos sobre el eje Z, podemos discriminar los elementos pertenecientes a los 7 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos 22 grupos A y B. por lo tanto, debemos calcular una función discriminante D, combinación lineal de X e Y definida sobre el eje Z. El caso anterior es un caso ideal de discriminación, en la mayoría de los casos prácticos, el poder de discriminación no es total. 1.2 REDES NEURONALES El cerebro humano continuamente recibe señales de entrada de muchas fuentes y las procesa a manera de crear una apropiada respuesta de salida. Nuestros cerebros cuentan con millones de neuronas que se interconectan para elaborar "Redes Neuronales". Estas redes ejecutan los millones de instrucciones necesarias para mantener una vida normal8. 1.2.1 NEURONAS BIOLÓGICAS Las neuronas son las células que forman la corteza cerebral de los seres vivos, cada una está formada por elementos llamados cuerpo, axón y dendritas. Fuente: Imagen tomada de internet - http://www.filosofiayliteratura.org/Revista/Articulos/biologia/neurona.gif Ilustración 3. Estructura y partes de una neurona biológica 8 http://electronica.com.mx/neural/informacion/index.html 23 Como se puede ver en la figura anterior, las dendritas son una estructura de filamentos que rodean el cuerpo de la neurona. El axón es un tubo largo y delgado que se ramifica en su extremo en pequeños bulbos que no alcanzan a tocan las dendritas de las células vecinas. La pequeña separación entre los bulbos finales y las dendritas se le denomina sinapsis. Una de las características de las neuronas es su capacidad de comunicarse. En términos generales las dendritas y el cuerpo celular reciben señales de entrada; el cuerpo celular las combina e integra y emite señales de salida. El axón transmite dichas señales a los terminales axónicos, que distribuyen información o un nuevo conjunto de neuronas, se calcula que en el cerebro humano existen del orden de 1015 conexiones. Las señales que se utilizan son de dos tipos: eléctrica y química. La señal generada por la neurona y transportada a lo largo del axón es un impulso eléctrico, mientras que la señal que se transmite entre los terminales axónicos de una neurona y las dendritas de la otra es de origen químico9. 1.2.2 REDES NEURONALES ARTIFICIALES (RNA) Las Redes Neuronales Artificiales (RNA) son sistemas o modelos computacionales que buscan la manera de imitar la forma en que el cerebro procesa la información para resolver problemas reales. La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que el ser humano resuelve mejor: Asociación, evaluación, y reconocimiento de patrones. Las redes neuronales son perfectas para problemas que son muy difíciles de calcular pero que no requieren de respuestas perfectas, sólo respuestas rápidas y buenas10. 9 www.monografias.com http://electronica.com.mx/neural/informacion/index.html 10 24 Las neuronas artificiales son modelos que tratan de simular el comportamiento de las neuronas biológicas. biológicas. Cada neurona se representa como una unidad de proceso ceso que forma parte de una entidad mayor, la red neuronal. Dicha unidad de proceso consta de una serie de entradas entradas Xi, que equivalen a las dendritas de donde reciben la estimulación, estimulación, ponderadas por unos pesos Wi, Wi que representan como los impulsos entrant entrantes es son evaluados y se combinan con la función de red que nos dará el nivel potencial de la neurona. La salida de la función de red es evaluada en la función de activación que da lugar a la salida de la unidad de proceso. Como se puede verr en la siguiente ilustración, la a neurona artificial se comporta como la neurona biológica pero de una forma muy simplificada. Ilustración 4.. Estructura de una red neuronal artificial Por las entradas Xi llegan unos valores que pueden ser ser enteros, reales o binarios. Estos valores equivalen a las señales que enviarían otras neuronas a la nuestra a través de las dendritas. 25 Los pesos que hay en las sinapsis Wi, equivaldrían en la neurona biológica a los mecanismos que existen en las sinapsis para transmitir la señal. De forma que la unión de estos valores (Xi y Wi) equivalen a las señales químicas inhibitorias y excitadoras que se dan en las sinapsis y que inducen a la neurona a cambiar su comportamiento. Estos valores son la entrada de la función de ponderación o red que convierte estos valores en uno solo llamado típicamente el potencial que en la neurona biológica equivaldría al total de las señales que le llegan a la neurona por sus dendritas. La función de ponderación suele ser una la suma ponderada de las entradas y los pesos sinápticos. La salida de función de ponderación llega a la función de activación que transforma este valor en otro en el dominio que trabajen las salidas de las neuronas. Suele ser una función no lineal como la función paso o sigmoidea aunque también se usa funciones lineales. 1.2.2.1 Modelo General de una Neurona Artificial Bonitacio Martín del Brio y Alfredo Sanz Molina, en su libro Redes Neuronales y Sistemas Difuso, definen, que una neurona es un dispositivo simple de cálculo que, a partir de un vector de entrada procedente del exterior o de otras neuronas, proporciona una respuesta o salida. Los elementos que constituyen la neurona de etiqueta i son los siguientes: • Conjunto de entradas, Xj (t) • Pesos sinápticos de la neurona i, W ij que representan la intensidad de interacción entre cada neurona presináptica j y la neurona postsináptica i. 26 • Reglas de propagación σ(W ij, Xj(t)), que proporciona el valor del potencial postsináptico hi(t)= (t) σ(W ij, Xj(t)) de la neurona i en función de sus pesos y entradas. • Función de activación fi(ai(t-1), hi(t)), que proporciona el estado de activación actual ai(t)= fi(ai(t-1), hi(t)) de la neurona i, en función de su estado anterior ai(t-1) y de su potencial postsináptico actual. • Función ión de salida Fi(ai(t)), ), que proporciona la salida actual yi(t)= Fi(ai(t)) de la neurona i en función de su estado de activación. De este modo, la operación de la neurona i puede expresarse como: yi(t)= Fi (fi [(ai(t-1), σ(W ij, Xj(t)) ]) Ilustración 5. Modelo genérico de una neurona artificial 1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALES Existen tres propiedades que caracterizan a las redes neuronales artificiales: 1. Topología de la red. Forma Forma como las capas se encuentran conectadas. conectadas 27 2. Mecanismo de aprendizaje. aprendizaje Corresponde orresponde a la forma como se pueden modificar los pesos de la red para cumplir un objetivo particular. activación Definen efinen la respuesta de una neurona ante an un 3. Funciones de activación. estímulo de entrada. 1.2.3.1 Arquitectura o topología de las redes neuronales La topología o arquitectura de las RNA consiste en la organización y disposición de las neuronas en la red ya sea formando capas o agrupación de neuronas que se encuentran entre la entrada y salida de la red. Por tal motivo, según José R. Hilera/Víctor J. Martínez, los parámetros fundamentales de una red son: el número de capas, el número de neuronas por capas, el grado de conectividad y el tipo de conexiones entre neuronas. Cuando do se realiza una clasificación de la redes en términos topológicos, se suele distinguir entre las redes con una sola capa y las redes con múltiples capas. capas Las neuronas de una capa pueden agruparse, a su vez, formando grupos neuronales (Clúster). Dentro de un grupo, o de una capa sino existe esta agrupación, las neuronas suelen ser del mismo tipo. Finalmente, el conjunto de una o más capas constituye la red neuronal11. Ilustración 6.. Estructura jerárquica de un sistema basado basado en RNA 11 Redes Neuronales y Sistemas Difusos, Bonifacio Martín del Brio – Alfredo Zan Molina, Ed. Alfaomega 2 edición 28 En las redes de una capa, se establecen conexiones laterales entre las neuronas que pertenecen a la única capa que constituye la red; estas redes son utilizadas en tareas que se conocen como auto-asociación. Por lo contrario, las redes multicapas están conformadas por un conjunto de neuronas agrupadas en varias capas, para distinguir a que capa pertenece una neurona es necesario establecer el origen de la señal que la neurona recibe a la entrada y el destino de señal de la salida. Normalmente, todas las neuronas de una capa reciben señales de entrada de una capa anterior, más cercana a las entradas de la red, y envían las señales de salida a una capa posterior, más cercana a la salida de la red. A estas conexiones se les denomina conexiones hacia adelante o feedforward. Sin embargo, en un gran número de estas redes también existe la posibilidad de conectar las salidas de las neuronas de capas posteriores a las entradas de las capas anteriores, a estas conexiones se les denomina conexiones hacia atrás o feedback. Estas dos posibilidades permiten distinguir entre dos tipos de redes con múltiples capas: las redes con conexiones hacia adelante o redes feedforward, y las redes que disponen de conexiones tanto hacia adelante como hacia atrás o redes feedforward/feedback12. Se distinguen tres tipos de capas: de entrada, de salida y ocultas. Una capa de entrada está compuesta por neuronas que reciben datos procedentes del entorno, una capa de salida es aquella que proporciona la respuesta de la red neuronal, y la capa oculta, es aquella que no tiene conexión directa con el entorno. Este tipo de capa proporciona a la red grados de libertad adicionales, gracias a los cuales 12 RNA Fundamentos, Modelos y Aplicaciones – José R. Hilera / Víctor J. Martínez – Addison-Wesley Iberoamérica 29 puede encontrar representaciones internas correspondientes a determinados rasgos del entorno, proporcionando una mayor riqueza computacional. Ilustración 7.. Estructuras de una red multicapa y monocapa 1.2.3.2 Mecanismo de aprendizaje Es ell proceso por el cual una red neuronal artificial cambia sus pesos en respuesta re a una información de entrada. Los cambios que se producen se reducen a la modificación y creación de conexiones entre las neuronas, la creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero, una conexión ión se destruye cuando su peso pasa a ser cero. Se puede afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los pesos permanecen estables (dwij / dt = 0). Un aspecto importante respecto al aprendizaje en las redes neuronales es el conocer cómo se modifican los valores de los pesos; es decir, cuáles son los criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. Estos criterios determinan inan lo que se conoce como la regla de aprendizaje de la red. De forma general, se suelen considerar dos tipos de regla: las que responden 30 a lo que habitualmente se conoce como aprendizaje supervisado, y las correspondientes a un aprendizaje no supervisado13. Los mecanismos de aprendizajes se diferencian en la existencia o no de un agente externo que realice el control de todo el proceso de aprendizaje de la red neuronal. Aprendizaje supervisado. Para este tipo de aprendizaje, se dice que hay un profesor externo encargado de determinar si la red se está comportando de forma adecuada, mediante la comparación entre la salida producida y la esperada, y de actuar en consecuencia modificando apropiadamente los valores de los pesos14. En este tipo de aprendizaje existen tres formas para realizan las modificaciones o ajustes de los pesos de las conexiones, las cuales se presentan a continuación: • Aprendizaje por corrección de error. Consiste en ajustar los pesos en función de la diferencia entre los valores deseados y obtenidos en la salida de la red; es decir, en función del error cometido en la salida • Aprendizaje por refuerzo. Se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado; es decir, de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. • Aprendizaje estocástico. Consiste en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad. Aprendizaje no supervisado. En este caso no existe ningún supervisor externo que vigile el proceso de aprendizaje, la red modificará los valores de los pesos a partir de la información interna, determinando características de los datos del conjunto de entrenamiento: rasgos significativos, regularidades o redundancias. A 13 RNA Fundamentos, Modelos y Aplicaciones, José R. Hilera – Víctor J. Martínez; Addison – Wesley Iberoamérica 14 19 RNA un enfoque práctico; Pedro Isasi Viñuela / Inés M. Galvan – Editorial Person 31 este tipo de modelos se les conoce también como sistemas autoorganizados, debido a que la red se ajusta dependiendo únicamente de los valores recibidos como entrada15. - Asociación entre la información de entrada y salida Las RNA son sistemas que almacenan cierta información aprendida; está información se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas de entrada y salida. Existen dos formas primarias de realizar esa asociación de entrada/salida. Una primera sería la denominada hetero-asociación, que se refiere al caso en el que la red aprende parejas de datos [(A1, B1), (A2, B2)… (An, Bn)], de tal forma que cuando se presente cierta información de entrada Ai, deberá responder generándola correspondiente salida Bi. La segunda se conoce como auto-asociación, donde la red aprende ciertas informaciones A1, A2…An, de tal forma que cuando se le presenta una información de entrada realizará una autocorrelación, respondiendo con uno de los datos almacenados, el más parecido al de la entrada16. Estos dos mecanismos de asociación de asociación dan lugar a dos tipos de redes neuronales: las redes hetero-asociativas y las auto-asociativas. - Representación de la Información Las redes neuronales pueden también clasificarse en función de la forma en que se representan las informaciones de entrada y las respuestas o datos de salida. Así un gran número de redes, tanto los datos de entrada como de salida son de naturaleza analógica, cuando esto ocurre, las funciones de activación de las neuronas serán también continuas, del tipo lineal o sigmoidal. Otras redes sólo admiten valores discretos o binarios a su entrada, generando también unas 16 www.monografias.com 32 respuestas en la salida de tipo binario. En este caso, las funciones de activación de las neuronas son de tipo escalón. Existe también un tipo de redes híbridas en las que las informaciones de entrada pueden ser valores continuos, aunque las salidas de la red son discretas17. 1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFICIALES (RNA) En 1943 Warren McCulloch y Walter Pitts dieron origen a la primera red neuronal conocida, definiendo a la neurona como una maquina binaria con varias entradas y salidas, esta consistía en la suma de las señales de entrada, multiplicada por unos valores de pesos escogidos aleatoriamente. Después de este adelanto se desarrollaron en los años posteriores otros tipos de redes neuronales basados en la aplicación o problema que el investigador quería resolver. Entre los más conocidos tenemos: • La Red Neuronal Perceptrón • La Red Neuronal Hebbianas • La Red Neuronal Adaline • La Red Backpropagation, dentro de estas técnica encontramos la red Backpropagation con Momentum, la red Backpropagation con rata de aprendizaje variable • La Redes de Aprendizaje Asociativo, entre estas encontramos la redes Instar y las redes Outstar • Redes Competitivas, entre estas tenemos las redes de Kohonen y la de Hamming, y por último, • Las Redes Recurrentes, entre estas se encuentran la red de Hopfield, las redes Multicapas y la red de Elman 17 www.monografias.com 33 1.2.5 REDES NEURONALES HEBBIANAS Este tipo de redes neuronales artificiales se propusieron originalmente como un modelo simplificado de interacción entre neuronas por Donald Hebb a finales de los años 40. Hebb encontró que si una neurona excita de forma repetida a otra, la comunicación o conexión entre estas se ve reforzada (Ilustración 8). Dado que la conexión entre neuronas esta cuantificada por el peso de conexión entre estas, el reforzamiento de la conexión se puede expresar por medio de: W t +1 = W t + α X Y T (1) Donde Wt son los pesos en el tiempo t, Wt+1 son los pesos actualizados, α es la denominada tasa de aprendizaje, X es el patrón de entrada e YT es la salida de la red neuronal dada por: Yt =W tx X ( 2) La expresión anterior permite modificar los pesos de la red neuronal y por lo tanto se constituye en un esquema de entrenamiento como tal. La gran diferencia entre este y el procedimiento de retro – propagación de error consiste en que no se requiere la señal deseada, y al usar solamente información de los patrones de entrada, este tipo de entrenamiento se denomina no – supervisado. Una característica de este tipo de esquema de entrenamiento es que el valor de los pesos se incrementará sin límite a medida que se repite el procedimiento expresado por la ecuación (1) haciendo que este algoritmo sea inestable. Para hacer que el aprendizaje hebbiano sea útil es necesario contar con una versión estable del mismo, lo cual se puede hacer normalizando el valor de los pesos. Este procedimiento fue propuesto inicialmente por Oja (1982) y desde entonces se conoce como la regla de Oja y esta dado por: 34 wit +1 = wit + α y t xit ∑ (w t i + α y t xit (3) ) i Y donde la actualización de los pesos se realiza neurona por neurona. W10 x1 y1 x2 X y2 x3 y=W10*X ym xn Fuente: Moreno-Sánchez & García-Cabrejo Ilustración 8. Estructura de una red neuronal de tipo hebbiano modificado de MorenoSánchez & García-Cabrejo (2003) 1.2.5.1 Componentes Principales Usando Redes Neuronales Hebbianas Un aspecto interesante de la aplicación de la regla de Oja consiste en que el conjunto de pesos W obtenido cumple la relación CW=λ1W, donde C es la matriz de covarianza de los patrones de entrada y λ1 es una constate. Es similar a afirmar que los pesos obtenidos al aplicar la regla de Oja corresponden a un vector propio de la matriz de covarianza, y específicamente al primer componente principal del conjunto de patrones. 35 Con el fin de extraer los componentes principales (vectores propios) del conjunto de patrones de entrada, la actualización de los pesos dada por la ecuación (3) se puede aplicar de forma secuencial sobre la proyección del respectivo componente en un procedimiento similar a la ortogononalización de Gram – Schmidt (Marsden & Tromba, 2000). Esta metodología fue implementada por Sanger (1989) y el esquema de entrenamiento de la red neuronal de tipo hebbiano ecuación (1) queda expresada por: i ∆wijt = α yit x j − ∑ wkjt y kt k =1 (4) En esta regla de actualización la entrada a cada neurona se le resta el producto de la salida de las neuronas anteriores por sus respectivos pesos. La salida yt de la red neuronal se determina usando la expresión (2), y por lo tanto este tipo de esquema permite extraer los componentes principales lineales o tradicionales. Este procedimiento se puede modificar para la extracción de componentes principales no lineales, si se utiliza una función de activación no lineal del tipo: g ( y ) = tanh(β y ) (5) Donde y corresponde a la salida de la red neuronal ecuación (2) y β es un parámetro que determina el grado de activación que se aplica sobre la salida de la red neuronal. De acuerdo a Tagliaferri et al., (1999) la única condición que debe cumplir una función para ser empleada en este procedimiento de modificación de la salida de la red neuronal, es que sea derivable y que presente un crecimiento de rapidez menor a |t2|, para que no se presenten problemas de estabilidad numérica en la modificación de los pesos. Sin embargo existen otros algoritmos para el entrenamiento de este tipo de redes neuronales artificiales que incorporan directamente elementos de la función de 36 activación empleada. Uno de estos corresponde al denominado Algoritmo Hebbiano Generalizado (AHG), el cual se encuentra dado por: wijk +1 = wijk + α g ( y k ) e k i ek = x j − ∑ wkj y k j =1 (6) Donde ek es el término de error para la época k, y g(y) es la salida de la función de activación, ecuación (5). El entrenamiento de este tipo de redes neuronales artificiales se realiza de la siguiente forma: 1. Se inicializa la matriz de pesos W con valores aleatorios uniformemente distribuidos entre [-0.5,0.5]. 2. Para cada patrón de entrada X se determina la salida de la red neuronal. (Ecuaciones 2 o 5, según sea el caso). 3. Se modifican los pesos de la red neuronal usando expresiones como las presentadas en las ecuaciones 1, 3 y 4. 4. Si la variación de los pesos de una época a otra es menor que el valor de tolerancia especificado, entonces se detiene todo el procedimiento; sino se continúa a la siguiente época. 1.2.6 RED NEURONAL TIPO PERCEPTRON Este tipo de red fue inventada por el sicólogo Frank Rosenblatt en 1957, su interés consistía en ilustrar algunas propiedades fundamentales de los sistemas inteligentes, sin entrar en mayores detalles con respecto a condiciones específicas y desconocidas para organismos biológicos. 37 El perceptrón es un tipo de red de aprendizaje supervisado, es decir, necesita conocer los valores esperados para cada una de las entradas presentadas; su comportamiento está definido por pares de esta forma: , , , , … . … . . , , Cuando p es aplicado a la red, la salida de la red es comparada con el valor esperado t, y la salida de la red está determinada por: Los valores de los pesos determinan el funcionamiento de la red, estos valores se pueden fijar o adoptar utilizando diferentes algoritmos de entrenamiento de la red18. 1.2.6.1 Estructura de la Red En la figura número 9 se presenta un esquema de la estructura de una red perceptrón, la única neurona de salida realiza la suma ponderada de las entradas, resta el umbral y pasa el resultado a una función de transferencia de tipo escalón. La regla de decisión es responder +1 si el patrón presentado pertenece a la clase A o -1 si el patrón pertenece a la clase B, la salida depende de la entrada neta (n=suma de las entradas pi ponderadas)19. 18 19 Tutorial de las Redes neuronales, Universidad Tecnológica de Pereira 38 Ilustración 9. Estructura de una red Perceptrón La red tipo perceptrón emplea principalmente dos funciones de transferencia, hardlim con salidas 1, 0 ó hardlims con salidas 1, -1; 1; su uso depende del valor de la salida que se espera para la red, es decir, si la salida de la red es unipolar o bipolar. Para realizar el entrenamiento de la red, es necesario presentar inicialmente un conjunto de datos o patrones de entrada, los pesos de la red se ajustan de forma que al final del entrenamiento se obtengan las salidas esperadas para cada uno de los datos de entrada. El algoritmo de entrenamiento del perceptrón puede resumirse esumirse según el tutorial “Redes Neuronales”, de la Universidad Tecnológica de Pereira en los siguientes pasos: 1. Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se asignan valores aleatorios a cada uno de los pesos Wi y al valor valo de b 2. Se presenta el primer patrón a la red, junto con la salida esperada en forma de pares entrada/salida 3. Se calcula la salida de la red 39 4. Cuando al red no retorna la salida correcta, es necesario alterar el valor de los pesos, tratando de llevarlos hasta p y así aumentar las posibilidades de que la clasificación sea correcta. 40 2 DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE ANÁLISIS Para poder realizar el ejercicio de aplicar las RNA y los métodos multivariados relacionados en el proyecto, se tomó la decisión de utilizar datos reales provenientes de un programa de seguimiento y monitoreo que se realizó en el Embalse del Muña en el municipio de Sibaté en el Departamento de Cundinamarca. Esto con el fin de poder garantizar que al comparar los resultados arrojados por los métodos anteriormente mencionados se estaría trabajando sobre datos reales y no sobre datos imaginarios. 2.1 ÁREA DE ESTUDIO Hay que recordar que con el proyecto no se buscó realizar el análisis de la calidad del agua del Embalse del Muña, pero de igual manera para poder interpretar los resultados arrojados por los métodos es necesario realizar una pequeña descripción del área donde se tomaron las muestras de agua para su análisis fisicoquímicos. 2.1.1 LOCALIZACIÓN GEOGRÁFICA El Embalse del Muña se encuentra ubicado en el municipio de Sibaté en el Departamento de Cundinamarca, el embalse posee una extensión de 711 Ha a una altura de 2565 msnm. Este embalse se construyó en 1948 y desde entonces y hasta a la fecha se han utilizado sus aguas en la generación de energía eléctrica, este posee tres afluentes, el río Muña, el río Aguas Clara y el río Bogotá, las agua de este último son bombeadas hasta el embalse, en la actualidad, el río Bogotá presenta un alto nivel de contaminación por vertimientos domiciliarios e industriales que se realizan en gran parte de su trayecto, afectando la calidad del agua del río y por consiguiente del embalse. 41 2.2 CONJUNTO DE DATOS UTILIZADOS EMGESA S.A., realizó un Plan de Manejo Ambiental en el embalse del Muña y sus alrededores, el cual incluía un programa de monitoreo de calidad del agua del embalse, para esto determinaron siete (7) estaciones de muestreo los cuales se observan a continuación. 2 1 3 7 4 6 5 Fuente: Laboratorio VELZEA-STL Ilustración 10. Localización de los puntos de muestreo Las muestras de agua se tomaron mensualmente durante 31 meses, desde abril del 2004 hasta octubre del 2006. Se determinaron 21 parámetros de las muestras de agua tomadas en cada periodo de muestreo, lo que nos indica que para ejecutar los métodos evaluados se contó con una matriz de 4557 datos. Es importante resaltar que el plan de monitoreo estuvo auditado permanentemente para garantizar la calidad de las muestras y de sus resultados por una entidad externa a Emgesa S.A, exigida por la Corporación Autónoma Regional –CAR 42 A continuación, en la tabla No. 1 se presentan los parámetros fisicoquímicos medidos en cada punto de muestreo Tabla 1. Parámetros fisicoquímicos medidos PARÁMETROS C. fecales (NMP/100ml) Ortofosfatos (mg/l) Sólidos s. totales (mg/l) C. Totales (NMP/100ml) Fósforo Total (mg/l) Sólidos s. volátiles (mg/l) Cromo (mg/l) Nitrógeno amoniacal (mg/l) Sulfatos (mg/l) Plomo (mg/l) Nitrógeno kjeldaha (mg/l) Sulfuros (mg/l) RAS (mg/l) Oxigeno disuelto (mg/l) Turbidez (UNT) DBO (mg/l) Sólidos totales (mg/l) Conductividad (µs) DQO (mg/l) Sólidos suspendidos (mg/l) pH Por ser un programa de monitoreo privado y vigilado por las autoridades ambientales existe una mayor credibilidad en los resultados de los análisis fisicoquímicos. Es importante resaltar que los resultados que se presentan de algunos parámetros como el cromo y el plomo corresponden a los valores del límite de detección en laboratorio, lo que indicaba que las concentraciones de estos eran mínimas, a pesar de esos resultados se tomo la decisión de incluirlos en la matriz de datos para la ejecución del proyecto. A continuación, se presenta en la tabla No. 2 los resultados de los parámetros fisicoquímicos medidos en la estación de muestreo No. 1. Los datos de las otras estaciones de muestreo se encuentran en el anexo 1. 43 Tabla 2. Matriz de datos de la estación No. 1 usados en el proyecto No. PERIODO DE MUESTREO ESTACIÓN C FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 1 abr-04 1 106667 380000 0,025 24 94 3,32 3,79 23,24 28,13 0,2 2 may-04 1 60000 140000 0,040 28 68 2,22 3,73 15,25 19,19 0,2 3 jun-04 1 90000 170000 0,010 13 43 1,94 2,59 12,59 16,74 0,2 4 jul-04 1 1100000 1100000 0,010 18 96 2,17 2,85 14,09 16,77 0,2 5 ago-04 1 1600000 1600000 0,010 15 56 2,06 2,46 12,91 16,34 0,2 1 2 14000 0,010 10 91 1,80 2,92 13,48 18,84 0,2 1600000 0,010 19 73 2,16 3,73 14,93 21,13 0,2 1600000 0,010 13 58 1,15 2,89 13,03 14,21 0,2 6 sep-04 7 oct-04 1 160000 8 nov-04 1 1600000 9 dic-04 1 220000 220000 0,010 8 60 1,80 2,59 10,75 13,22 0,2 10 ene-05 1 1600000 1600000 0,010 53 122 2,64 4,54 24,37 27,28 0,2 11 feb-05 1 500000 500000 0,010 47 87 3,24 5,02 22,62 24,67 0,2 12 mar-05 1 1600000 1600000 0,010 27 90 3,22 4,99 23,66 26,34 0,2 13 abr-05 1 1100000 877000 0,010 40 104 3,75 3,80 24,20 42,00 0,2 14 may-05 1 93000 877000 0,010 36 80 3,02 3,53 22,90 33,54 0,2 15 jun-05 1 46000 915231 0,010 29 80 2,37 3,51 18,20 35,62 0,2 1 20 974864 0,010 34 42 2,52 2,88 27,90 37,80 0,2 1036777 0,010 19 78 2,73 3,49 16,70 24,49 0,2 0,7 16 jul-05 17 ago-05 1 24000 18 1 41 9500 0,006 20 72 1,03 2,24 12,27 15,85 19 sep-05 oct-05 1 93000 20400000 0,080 29 61 3,20 3,50 23,60 34,70 0,2 20 nov-05 1 4300 11000 0,080 19 64 2,75 3,60 15,30 21,00 0,2 21 dic-05 1 0,080 25 65 1,47 2,23 20,90 24,90 0,2 ene-06 1 2400000 90000 2400000 22 23000 0,080 26 135 2,82 5,42 22,60 23,90 0,2 23 feb-06 1 90 210 0,080 25 103 1,16 3,04 30,70 33,20 0,2 24 mar-06 1 70 210 0,080 43 168 3,59 3,65 33,40 34,60 0,2 25 abr-06 1 430000 7500000 0,080 32 44 3,83 4,26 33,30 37,00 0,2 26 may-06 1 3000 24000 0,011 35 67 1,43 2,66 17,47 19,80 1,2 27 jun-06 1 4500 18000 0,001 28 42 1,09 2,02 8,32 10,96 2,2 28 jul-06 1 2 500 0,001 43 81 0,88 1,09 10,53 12,22 0,8 29 ago-06 1 21 900 0,001 35 62 0,82 0,90 8,00 9,78 0,2 30 sep-06 1 80 5000 0,001 29 53 0,27 1,55 11,06 12,85 1,2 31 oct-06 1 2 500 0,001 30 66 0,96 1,84 9,19 14,80 0,5 44 No. PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T 1 abr-04 1 0,013 2,7 0,1 16 0,4 0,1 21 S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 8 293 12,07 3,13 13,20 458 6,91 19 238 6,90 3,55 16,00 408 6,95 2 may-04 1 0,010 3 jun-04 1 0,010 2,6 0,1 13 8 224 16,30 0,50 21,90 376 7,04 3,0 0,1 29 21 240 10,40 1,00 14,40 340 7,04 32 25 242 10,10 1,00 7,10 340 7,06 4 jul-04 1 0,010 5 ago-04 1 0,010 2,4 0,1 6 sep-04 1 0,010 2,5 0,1 9 6 201 7,80 1,00 6,90 425 6,38 7 oct-04 1 0,010 2,3 0,1 19 14 237 7,00 8,50 11,60 473 6,83 8 nov-04 1 0,050 1,9 0,1 18 8 196 11,00 3,90 10,50 400 6,66 9 dic-04 1 0,010 2,2 0,1 29 8 222 15,70 3,40 14,10 335 7,01 10 ene-05 1 0,030 2,3 0,1 33 26 329 14,60 12,60 17,30 497 6,78 11 feb-05 1 0,010 2,9 0,1 26 10 318 8,30 7,90 9,90 484 6,85 1 0,010 2,3 0,4 28 10 338 24,90 9,60 12,00 522 7,09 1 0,010 2,3 0,1 32 22 328 20,50 4,50 60,00 599 7,09 1 0,010 2,3 0,1 15 11 262 12,74 5,40 7,90 418 7,03 jun-05 1 0,010 2,4 0,1 4 2 260 12,79 3,80 1,60 433 7,14 16 jul-05 1 0,010 2,4 0,1 9 2 224 8,70 1,00 8,80 544 7,07 17 ago-05 1 0,010 2,3 0,1 12 4 259 12,49 2,30 6,30 405 6,94 18 1 0,008 2,5 0,1 11 8 217 16,76 1,18 9,80 388 6,66 19 sep-05 oct-05 1 0,160 0,9 0,1 12 9 276 6,40 3,40 13,30 520 6,78 20 nov-05 1 0,160 0,8 0,1 13 11 256 3,40 1,90 14,70 455 7,00 21 dic-05 1 0,160 2,2 0,1 18 16 251 39,40 2,70 19,10 434 6,73 22 ene-06 1 0,160 0,6 0,1 17 13 270 10,60 4,10 17,60 512 6,91 23 feb-06 1 0,160 0,3 0,1 11 9 270 34,00 5,10 13,40 574 7,01 24 mar-06 1 0,160 0,5 0,1 10 9 286 20,00 1,30 13,70 644 6,93 25 abr-06 1 0,160 1,7 0,1 14 13 265 14,50 3,70 16,00 576 6,78 26 may-06 1 0,005 2,6 0,1 18 4 269 8,98 1,20 16,62 223 6,69 27 jun-06 1 0,005 3,3 0,1 31 21 199 2,00 1,60 10,16 305 6,60 28 jul-06 1 0,005 1,2 0,1 14 5 155 6,39 2,85 13,90 254 6,89 29 ago-06 1 0,005 1,7 0,1 13 7 169 2,43 1,95 6,16 299 6,47 30 sep-06 1 0,005 2,4 0,1 13 9 232 25,71 1,36 12,70 350 6,94 31 oct-06 1 0,005 1,5 0,1 12 7 160 5,20 1,75 10,50 329 6,45 12 13 14 15 mar-05 abr-05 may-05 45 3 ANÁLISIS EXPLORATORIO DE DATOS (AED) Antes de usar los datos en la aplicación de los métodos estadísticos y las RNA se realizó un análisis exploratorio para poder lograr un entendimiento general de los datos y la relación entre las variables analizadas. El primer paso para la exploración fue la organización de los datos en una tabla o matriz que permitiera visualizarlos de manera clara (ver tabla No. 1), no hubo necesidad de completar datos puesto que se contó con toda la información completa. El paso siguiente del AED consistió en realizar un análisis estadístico básico y gráfico, y con base en estos se realizaron los respectivos análisis generales. 3.1 ESTADÍSTICA BÁSICA Los resultados de la estadística básica se recopilaron en tablas y gráficas, las cuales se presentan a continuación. 3.1.1 TABLAS Dentro del análisis estadístico básico aplicado en la exploración de los datos encontramos, desviación estándar, el promedio, el coeficiente de variación, el valor máximo y mínimo, la mediana, el cuartil 1 y 3. Estos métodos estadísticos se le aplicaron a la matriz o conjunto de datos global, donde se incluyen los datos de todas las estaciones. 46 A continuación, se presenta la tabla No. 3 donde se muestran los resultados del análisis estadístico básico realizado a la matriz de datos. Tabla 3. Resultados del análisis estadísticos básico PARÁMETROS FISICOQUÍMICOS C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL PROMEDIO 2083325,759 4622386,927 0,043 47,029 125,907 2,273 3,346 D. ESTANDAR 5341731,448 19832886,764 0,064 28,189 64,224 0,907 1,062 C. VARIACIÓN 2,564 4,291 1,487 0,599 0,510 0,399 0,317 MAX 24000000,000 240000000,000 0,800 155,000 420,000 6,100 6,830 MIN 2,000 11,000 0,001 8,000 33,000 0,006 0,800 MEDIANA 260000,000 1600000,000 0,026 39,000 111,000 2,310 3,357 CUARTIL 3 1600000,000 1600000,000 0,080 64,000 156,000 2,900 3,820 CUARTIL 1 8000,000 140000,000 0,010 26,000 74,000 1,675 2,670 PARÁMETROS FISICOQUÍMICOS N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T PROMEDIO 19,206 24,039 0,337 0,051 1,939 0,449 50,228 D. ESTANDAR 6,669 8,646 0,366 0,064 0,882 1,262 56,832 C. VARIACIÓN 0,347 0,360 1,088 1,256 0,455 2,815 1,131 MAX 39,400 70,000 2,400 0,160 4,060 12,000 350,000 MIN 6,200 8,150 0,200 0,005 0,300 0,100 3,000 MEDIANA 18,200 23,320 0,200 0,010 2,300 0,100 29,000 CUARTIL 3 23,430 27,710 0,200 0,135 2,510 0,300 60,000 CUARTIL 1 14,200 18,430 0,200 0,010 1,000 0,100 15,000 PARÁMETROS FISICOQUÍMICOS S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PROMEDIO 27,655 297,221 15,857 4,659 37,151 454,547 6,877 D. ESTANDAR 30,488 85,037 8,428 3,577 36,704 90,468 0,186 C. VARIACIÓN MAX PH 1,102 0,286 0,531 0,768 0,988 0,199 0,027 182,000 934,000 62,700 17,900 250,000 651,000 7,440 MIN 1,000 137,000 1,960 0,500 1,600 183,500 6,350 MEDIANA 16,000 280,000 15,400 3,700 24,750 444,333 6,889 CUARTIL 3 36,000 331,000 20,100 5,800 46,800 512,000 7,020 CUARTIL 1 9,000 247,000 10,100 2,200 13,400 400,000 6,745 47 Al realizar el análisis general de los resultados se obtuvieron las siguientes observaciones: • Con excepción del pH, los demás parámetros presentaron una diferencia significativa entre el valor máximo y mínimo obtenido durante las mediciones, esto nos muestra que las variables o elementos cambian durante el tiempo, describiéndose como un sistema dinámico. • De la muestra de datos analizados también se puede decir que las variables que se presentan a continuación: coliformes fecales, coliformes totales, cromo, plomo, o. disuelto, SS, SST y los SSV presentan una desviación estándar alta, siendo más significativa en los coliformes, lo que indica que existe mucha variación entre los datos. Esta dispersión de valores también se ve reflejado en los resultados de los coeficientes de variación. A continuación, se presenta la tabla número No. 4 donde se resaltan con una línea los valores de la desviación estándar que se encuentran por encima del valor promedio de la desviación estándar global. De esta manera, podemos observar que tan dispersos se encuentran los valores de las variables por estación. Tabla 4. Promedio de la desviación estándar de los parámetros medidos VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL 1 680056 3840789 0,031 11 29 0,97 1,10 2 6333929 17439199 0,028 23 47 0,96 0,97 3 7950694 22306583 0,053 36 79 0,79 1,20 4 4364385 1721494 0,031 22 50 0,99 1,30 5 6174657 4255348 0,144 22 56 0,84 1,02 6 4331890 1249466 0,031 20 47 0,97 1,06 7 4336788 44194473 0,030 19 36 0,80 0,80 Promedio Global D. Estándar 5341731 19832887 0,064 28 64 0,91 1,06 48 VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES ESTACIÓN N. AMONIACAL N. KJELDAHL O. D. PLOMO RAS S. S S.S.T 1 7,28 9,15 0,44 0,06 0,82 0,05 8,15 2 6,16 7,81 0,48 0,06 0,95 0,57 44,83 3 6,51 10,54 0,41 0,07 1,01 1,47 89,04 4 7,99 9,74 0,37 0,06 0,83 2,25 29,20 5 6,01 7,99 0,40 0,06 0,86 0,20 19,14 6 7,00 9,31 0,18 0,07 0,93 1,91 27,06 7 6,15 6,20 0,23 0,07 0,86 0,24 36,69 Promedio Global D. Estándar 6,67 8,65 0,37 0,06 0,88 1,26 56,83 VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES S.S.V S.T 1 6,58 47,27 8,76 2 24,69 51,55 11,12 3 46,89 84,61 6,79 3,86 4 21,26 136,06 5,45 5 13,76 38,76 8,00 6 16,37 57,29 7 22,76 57,91 Promedio Global D. Estándar 30,49 85,04 ESTACIÓN SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 2,85 9,74 104,53 0,20 4,51 26,35 91,07 0,19 54,57 90,66 0,23 2,72 20,92 107,99 0,18 3,61 14,39 78,84 0,18 7,19 3,88 30,09 79,86 0,15 6,97 3,12 22,15 79,45 0,15 8,43 3,58 36,70 90,47 0,19 Se puede observar que la estación de muestreo número tres, presenta un mayor número de variables (14 en total) que muestran una desviación estándar mayor que la desviación global, por tal motivo seria la estación con mayor dispersión o fluctuaciones de datos. Situación contraria ocurre en la estación número siete que presenta solamente dos desviaciones sobre la media, las demás estaciones mantienen una similitud en el número de datos por encima de la media. Respecto a las variables, se observa un comportamiento similar en la dispersión de los datos, presentándose en el oxigeno disuelto y en el plomo una mayor variabilidad en los datos debido a que la desviación estándar es mayor. 49 Mediante este análisis general, se puede decir que el 63 % de los datos de las variables obtenidas mediante el programa de muestreo son homogéneos, o sea, los valores no son muy diferentes, mientras que el 37% restante presenta una heterogeneidad mayor. 3.1.2 GRÁFICAS Las gráficas también fueron una herramienta que permitió establecer otras observaciones respecto a los datos. Las gráficas que se elaboraron fueron la temporal y la espacial, un vistazo general de las gráficas espaciales muestran que la temporalidad es un factor que incide en las concentraciones de los parámetros, motivo por el cual se presentan fluctuaciones significativas en los valores arrojados en las mediciones. Respecto a las gráficas espaciales, se observa que los parámetros o variables mantienen un comportamiento distinto en cada estación, por ejemplo, la estación tres presenta generalmente los valores más altos de concentración de los parámetros, mientras que en la estación uno se presenta los más bajos, y así en cada estación. Hay que recordar que el embalse en un sistema dinámico, el cual se ve afectado por la temporalidad, así como los vertimientos esporádicos que realizan para mantener el nivel del agua en él para la generación de energía. A continuación, se presentan algunas gráficas del comportamiento temporal y espacial de algunos parámetros fisicoquímicos, en el anexo No. 2 se muestran algunas gráficas complementarias. 50 51 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 mg\L oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 mg\L Gráfica 1. Análisis temporal del DBO5 en las estaciones de monitoreo ESTACIÓN DE MONITOREO 1 60 40 20 0 DBO5 PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 2 120 100 80 60 40 20 0 DBO5 52 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 mg\L oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 mg\L ESTACIÓN DE MONITOREO 3 200 150 100 50 0 DBO5 PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 4 120 100 80 60 40 20 0 DBO5 abr-04 53 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 mg\L abr-04 oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 mg\L ESTACIÓN DE MONITOREO 5 120 100 80 60 40 20 0 DBO5 PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 6 120 100 80 60 40 20 0 DBO5 abr-04 54 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 mg\L ESTACIÓN DE MONITOREO 7 100 80 60 40 20 0 DBO5 PERIODO DE MUESTREO Gráfica 2. Análisis temporal del pH en las estaciones de monitoreo ESTACIÓN DE MONITOREO 1 7,20 7,00 6,80 6,60 6,40 6,20 6,00 pH 55 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 ESTACIÓN DE MONITOREO 2 7,40 7,20 7,00 6,80 6,60 6,40 6,20 6,00 5,80 pH PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 3 8,00 7,50 7,00 6,50 6,00 5,50 pH abr-04 56 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 ESTACIÓN DE MONITOREO 4 7,50 7,00 6,50 6,00 5,50 pH PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 5 7,40 7,20 7,00 6,80 6,60 6,40 6,20 pH 57 PERIODO DE MUESTREO oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 abr-04 abr-04 oct-06 sep-06 ago-06 jul-06 jun-06 may-06 abr-06 mar-06 feb-06 ene-06 dic-05 nov-05 oct-05 sep-05 ago-05 jul-05 jun-05 may-05 abr-05 mar-05 feb-05 ene-05 dic-04 nov-04 oct-04 sep-04 ago-04 jul-04 jun-04 may-04 ESTACIÓN DE MONITOREO 6 7,40 7,20 7,00 6,80 6,60 6,40 6,20 pH PERIODO DE MUESTREO ESTACIÓN DE MONITOREO 7 7,40 7,20 7,00 6,80 6,60 6,40 6,20 6,00 pH Gráfica 3. Análisis espacial de los coliformes fecales en las estaciones de monitoreo PROMEDIO ANÁLISIS ESPACIAL 5000000,000 4500000,000 4000000,000 3500000,000 3000000,000 2500000,000 2000000,000 1500000,000 1000000,000 500000,000 0,000 C. FECALES 1 2 3 4 5 6 7 ESTACIONES DE MONITOREO Gráfica 4. Análisis espacial del cromo en las estaciones de monitoreo ANÁLISIS ESPACIAL 0,080 PROMEDIO mg/l 0,070 0,060 0,050 0,040 0,030 CROMO mg/l 0,020 0,010 0,000 1 2 3 4 5 6 ESTACIONES DE MONITOREO 58 7 Gráfica 5. Análisis espacial de DBO5 en las estaciones de monitoreo ANÁLISIS ESPACIAL 90,000 PROMEDIO mg/l 80,000 70,000 60,000 50,000 40,000 DBO5 mg/l 30,000 20,000 10,000 0,000 1 2 3 4 5 6 7 ESTACIONES DE MONITOREO Gráfica 6. Análisis espacial del pH en las estaciones de monitoreo ANÁLISIS ESPACIAL 6,940 PROMEDIO 6,920 6,900 6,880 pH 6,860 6,840 6,820 1 2 3 4 5 ESTACIONES DE MONITOREO 59 6 7 Gráfica 7. Análisis espacial de la turbidez en las estaciones de monitoreo PROMEDIO ANÁLISIS ESPACIAL 100,000 90,000 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 0,000 TURBIDEZ mg/l 1 2 3 4 5 6 7 ESTACIONES DE MONITOREO Gráfica 8. Análisis espacial de los sólidos totales en las estaciones de monitoreo ANÁLISIS ESPACIAL 450,000 400,000 PROMEDIO 350,000 300,000 250,000 200,000 SÓLIDOS TOTALES mg/l 150,000 100,000 50,000 0,000 1 2 3 4 5 6 ESTACIONES DE MONITOREO 60 7 4 APLICACIÓN DE LOS MÉTODOS Realizado el AED se continuó con el ejercicio de emplear los métodos estadísticos multivariados tradicionales y las RNA, se aplicaron primero los métodos multivariados, y posteriormente las RNA. Una vez se obtuvieron los resultados para cada metodología se realizó el análisis correspondiente de los mismos. Las metodologías empleadas en el presente trabajo se presentan en la tabla No. 5 Tabla 5. Metodologías empleadas en la investigación PROBLEMA LABOR Asociaciones entre variables Clasificación ANÁLISIS MULTIVARIADO RED NEURONAL TRADICIONAL ARTIFICIAL Análisis de Componentes Principales (ACP) Análisis Discriminante Red Neuronal de tipo Hebbiano Red Neuronal tipo Perceptrón Multicapa En el análisis de información obtenida en los programas de monitoreo de calidad de agua generalmente se presentan a grandes rasgos los siguientes problemas o inquietudes: • Determinación de la asociación entre las variables medidas: esto es de vital importancia, ya que le permite al analista determinar la ocurrencia de ciertos procesos fisicoquímicos que pueden afectar de forma significativa la calidad del agua. 61 • Agrupamiento entre muestras: el cual consiste en determinar cuáles son las muestras que presentan características estadísticas similares y de esta forma definir grupos que le puedan dar pistas al analista sobre la ocurrencia de ciertos procesos fisicoquímicos en el conjunto de datos estudiado. Por ejemplo, si se está analizando cuerpos de agua que en algunos de ellos se presentan procesos de eutroficación mientras que en otros no, el análisis de agrupamiento debería poder diferenciar estos cuerpos basado en la información colectada en cada uno de ellos. En este caso, el método de análisis empleado realiza la definición de los grupos de forma automática sin la intervención del analista. • Clasificación: procedimiento en el cual las muestras se asignan a una o más categorías que han sido previamente definidas por el analista de la información. La importancia de este procedimiento radica en que si se establece el sistema de clasificación de forma confiable, este puede ser aplicado en nuevas muestras que se vayan tomando en fases posteriores del programa de monitoreo. Esto se puede aplicar en el caso de los periodos hidrológicos (secos y húmedos), ya que en muchas oportunidades las características fisicoquímicas del agua dependen de si las mediciones se realizan en periodo seco o húmedo. En este caso particular resultaría de interés contar con un sistema automático para la determinación del periodo en el que fue tomada la muestra. Todos los procedimientos computacionales de las RNA se ejecutaron en Matlab®, con unas funciones diseñadas para tal fin durante el presente trabajo; y los métodos multivariados tradicionales se ejecutaron con el Toolbox de estadística de Matlab®. El análisis de los datos se realizó de manera temporal en el análisis discriminante (AD) y en el de análisis de agrupamiento, quiere decir, que los 62 datos se analizaron teniendo en cuenta el periodo o mes muestreado, así como si era tiempo seco o húmedo; mientras que los componentes principales se trabajaron de manera espacial ya que se tuvo en cuenta para el análisis de los datos de todas las estaciones al mismo tiempo. Recordemos que este ejercicio busca realizar una comparación de los métodos más no un análisis de la calidad del agua del embalse. 4.1 ASOCIACIÓN ENTRE VARIABLES Para determinar la asociación entre las variables fisicoquímicas que hacen parte de los datos que se adquieren comúnmente en los programas de monitoreo de calidad de agua se emplearon las técnicas de Análisis de Componentes Principales (ACP) y las Redes Neuronales Artificiales de tipo Hebbiano. Los resultados obtenidos en cada caso se presentan a continuación: 4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) 4.1.1.1 Procedimiento Inicialmente, se elaboraron histogramas (ver anexo No. 3) para poder observar que tipo de distribución presentaban las variables. Definidos los histogramas se determinó que sólo cuatro parámetros (fósforo total, sulfatos, conductividad y pH) presentaron una distribución simétrica o normal, los demás parámetros presentaron asimetría en la distribución de los datos. A éstas variables se les aplicó la transformación logarítmica (Ver anexo No. 4) para poder disminuir su rango y evitar que algunos datos distorsionarán los resultados del análisis estadístico. 63 Realizada la transformación logarítmica, se procedió a estandarizar los datos como paso preliminar a la determinación de los Componentes Principales (CP). El análisis de CP arrojó como resultados un conjunto de vectores propios que corresponden a los ejes coordenados de un nuevo espacio en donde se proyectan los datos originales. Con estos, fue posible calcular las coordenadas de los datos en este nuevo espacio; las cuales se emplean para efecto de visualización (ver anexo No. 5) y para determinar asociaciones de variables presentes en los datos. Esto último se pudo estudiar mediante la matriz de coeficientes de correlación entre los CP y las variables originales. Para determinar el posible número de CP en donde se encontrarían resumidas las variables originales se determinaron los valores propios de la matriz de covarianza, estos valores corresponden a la contribución de cada componente a la varianza de los datos. A continuación, se presenta en la siguiente gráfica la varianza acumulada por cada uno de los componentes. Gráfica 9. Varianza acumulada por componentes 64 El número de componentes que resumen la mayor parte de la información se determinó con base al quiebre de pendiente de la gráfica anterior, y que para efectos del presente trabajo se tomaron siete (7) componentes, que en síntesis son suficientes para representar las 21 variables originales. Así mismo, con el fin de determinar las asociaciones de las variables fisicoquímicas estudiadas se calculó la matriz de coeficientes de correlación entre los CP obtenidos anteriormente y las variables originales que conforman el conjunto de datos analizado (Ver tabla 6). 65 Tabla 6. Matriz de correlación - ACP método estadístico convencional C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9 Componente 10 0.6349 0.1202 -0.4589 0.3976 -0.3270 -0.0523 0.1274 -0.0402 0.0032 -0.0382 0.0094 -0.0481 0.0392 -0.0666 0.0221 -0.0289 -0.0750 0.0592 0.2478 -0.0025 -0.0676 0.5177 0.0328 -0.4564 0.3203 -0.5091 0.1001 0.1518 -0.1017 0.1169 0.2178 -0.0170 -0.0725 0.0029 -0.0879 0.0535 -0.0226 0.0620 -0.0028 -0.1804 -0.0063 0.0571 0.5553 -0.1663 0.5738 0.2332 -0.0972 0.0152 -0.0960 -0.0870 0.1153 0.0933 -0.2623 0.3316 -0.1614 0.0902 0.1054 -0.0551 0.0062 0.0617 0.0218 -0.0212 -0.0097 0.5012 0.4096 0.3276 -0.4724 -0.0424 -0.1047 0.2656 -0.1880 -0.0603 0.2146 0.0387 0.0357 0.1267 0.0094 0.0784 -0.0088 0.1695 -0.1322 0.0989 0.0312 0.0057 0.6671 0.4228 0.1837 -0.2746 0.2115 -0.0419 0.0738 -0.1025 -0.1068 0.2739 -0.1361 -0.1614 0.0093 -0.0247 -0.0427 0.0054 -0.2375 0.1117 -0.0418 -0.0175 -0.0098 0.5556 -0.4220 -0.2417 -0.0600 0.0368 0.2401 -0.2406 -0.3326 -0.3522 -0.0078 0.1559 -0.0773 -0.2118 0.1110 0.1039 -0.0237 0.0136 -0.0210 0.0076 -0.0018 -0.0023 0.6365 -0.4013 -0.2184 -0.2676 -0.0152 -0.2455 -0.1481 -0.2228 -0.0738 -0.1276 -0.0953 0.1612 0.0192 -0.2859 -0.1530 0.1243 0.0344 0.0403 -0.0175 0.0339 0.0210 0.6615 -0.5691 0.0664 -0.2914 -0.1595 0.0425 0.0047 0.0336 0.1249 0.0303 0.1275 0.0073 0.0953 0.1182 -0.1646 0.0178 0.0315 0.0167 -0.0124 -0.1789 -0.0644 0.6821 -0.5292 -0.0138 -0.2592 -0.1049 0.2056 -0.0050 0.1117 0.1486 -0.0055 0.0335 -0.0218 0.1254 0.1877 -0.0307 0.0302 -0.0038 0.1233 0.0091 0.1709 0.0192 -0.4273 0.4899 0.2797 -0.3306 -0.3195 0.0122 0.3114 -0.1175 0.0413 -0.1719 0.2580 0.1063 -0.2095 -0.0360 -0.0257 -0.0377 -0.0477 0.1290 -0.0358 0.0135 -0.0108 66 C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 11 0.3507 -0.4491 0.6176 0.3674 -0.1408 -0.0811 0.1101 -0.0790 0.0130 -0.0267 0.1476 0.0037 0.0083 -0.0050 -0.0821 0.0658 -0.1840 -0.2088 -0.0220 0.0477 0.0097 Componente 12 -0.1449 0.3421 -0.6838 -0.4247 -0.2006 0.1874 0.0068 0.0581 -0.0106 -0.0532 -0.1352 0.2222 0.0031 0.1163 0.0058 0.0498 -0.1564 -0.1517 0.0057 -0.0144 0.0287 Componente 13 0.4646 0.5212 -0.1091 -0.0564 0.1700 0.0313 -0.4788 -0.0193 0.3584 0.1264 0.2632 0.0647 -0.0289 -0.1016 0.0155 -0.0690 -0.0380 -0.0399 0.0235 0.0153 0.0023 Componente 14 0.6866 0.6263 0.0614 0.1137 -0.0124 0.0926 -0.0717 0.0292 -0.0927 -0.1638 -0.0451 0.0236 0.0873 0.0104 0.0236 0.0307 0.0417 -0.0382 -0.1319 0.0433 -0.1874 Componente 15 0.6634 0.5160 0.2317 0.1334 -0.0413 0.0970 -0.0924 -0.0807 -0.1158 -0.2597 -0.0464 -0.0129 0.1787 0.0491 -0.1249 -0.2208 0.0071 0.0085 -0.0039 -0.0274 0.1153 67 Componente 16 0.7940 0.2186 -0.0048 -0.1368 0.0098 -0.0645 0.0558 0.1289 0.1788 -0.1158 -0.1706 -0.2355 -0.3408 0.0383 -0.1278 0.0182 0.0750 -0.0889 0.0309 0.0127 0.0132 Componente 17 0.6636 -0.0985 -0.1710 0.1432 0.2904 0.2206 0.2610 0.3621 -0.2140 0.1488 0.1195 0.1989 -0.0980 -0.1126 -0.1227 -0.0878 0.0287 -0.0087 0.0002 0.0147 0.0046 Componente 18 0.5213 0.0158 -0.3507 0.0363 0.0309 -0.7158 0.0039 0.1301 -0.0857 -0.0119 0.1120 0.0672 -0.0229 0.1859 0.0733 -0.0608 -0.0185 0.0168 -0.0616 0.0089 0.0151 Componente 19 0.6828 0.5246 0.2055 0.1829 0.0103 0.0826 -0.0365 0.1592 -0.0722 -0.0666 0.1043 0.0184 0.0161 0.0284 0.1121 0.3158 0.0244 0.0609 0.0215 -0.0527 0.0867 Componente 20 0.5808 -0.4901 0.1931 -0.3746 -0.0564 0.0308 0.0343 0.2391 0.0228 -0.1730 -0.0214 -0.0801 0.0280 -0.1956 0.3001 -0.0994 -0.0631 -0.0285 -0.0170 -0.0313 0.0069 Componente 21 0.3837 -0.1277 -0.3457 0.1582 0.5771 0.0780 0.4002 -0.2929 0.2603 -0.1614 0.0106 0.0434 0.0357 0.0412 0.0792 0.0165 -0.0137 0.0007 -0.0278 -0.0209 0.0065 Siguiendo con el análisis de la matriz de correlación, se observó que los valores de dichos coeficientes resultaron tener valores bajos y por lo tanto no se determinó ninguna asociación significativa. Para efectos del presente trabajo se considera que la relación entre dos variables es significativa si el coeficiente de correlación es mayor a 0.5 en valor absoluto. Observado esto, se tomó la decisión de correr o determinar nuevamente los CP en dos fases donde se eliminaron las variables que presentaron distribución anómalos para mejorar la varianza; el primer ejercicio se realizó eliminando los coliformes fecales y en el segundo ejercicio o fase se eliminaron los coliformes fecales, el cromo, el plomo, oxigeno disuelto, sólidos suspendidos. Los resultados obtenidos en los dos ejercicios fue el mismo que se obtuvo en la primera matriz, o sea, no hubo mejora en la asociación de las variables con los componentes, por tal motivo, se tomó la decisión de trabajar con todos los datos. Las matrices de componentes principales (CP) de la fase uno y dos se encuentran en el anexo No. 6 4.1.1.2 Resultados En la tabla No. 6, se presentan las asociaciones entre variables fisicoquímicas identificadas a partir del ACP. Como se evidencia de la inspección de dicha tabla, no existen variables relacionadas, mientras que en los componentes 2, 12, 14, 16 y 18 solo aparece una sola variable. Así mismo los componentes principales 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 15, 17, 19, 20, 21 no muestran correlaciones significativas con ninguna de las variables analizadas en el presente trabajo. 68 En conclusión, el método multivariado del ACP no pudo obtener o encontrar un resultado coherente puesto que no logró vincular las variables fisicoquímicas entre sí. Esto posiblemente se deba a la dinámica del embalse y su interacción con la calidad del agua, la cual no permite que se presente correlación entre estas variables, aunque sabemos que si debe existir puesto que hay parámetros que de alguna manera están relacionados. 4.1.2 REDES NEURONALES ARTIFICIALES (RNA) Hay que recordar que todo el procedimiento computacional de las redes se realizó con las funciones diseñadas en Matlab® 4.1.2.1 Procedimiento El tipo de red neuronal utilizada fue la red neuronal hebbiana con entrenamiento hebbiano generalizado (aprendizaje no supervisado). El procedimiento seguido para determinar los CP con RNA fue el siguiente: 1. Inicialmente se cargaron los datos en Matlab®, 2. seguido de esto los datos se estandarizaron 3. se realizó el entrenamiento de la red con los siguientes parámetros: • 21 variables de entrada • Siete variables de salida • La tasa de aprendizaje fue igual a 1x10-6, se eligió este valor por ensayo y error, y este valor fue el que dio el menor error en el entrenamiento de la red. • Número de épocas de entrenamiento igual a 1000 69 A esta red no se le determinó el coeficiente de correlación puesto que es una red de entrenamiento no supervisado, y no se contó con una salida deseada con la cual se pudiera comparar. La función se corrió en Matlab y en la tabla No. 7 se presenta la matriz de correlación obtenida por este método. Como se puede observar en la matriz de correlación, los coeficientes de correlación obtenidos permiten identificar asociaciones significativas entre las variables fisicoquímicas y los componentes principales no lineales obtenidos por la red neuronal artificial de tipo hebbiano. 70 Tabla 7. Matriz de correlación obtenida con la red neuronal artificial C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9 Componente 10 0.6349 0.5177 0.5553 0.5012 0.6671 0.5556 0.6365 0.6615 0.6821 -0.4273 0.3507 -0.1449 0.4646 0.6866 0.6634 0.7940 0.6636 0.5213 0.6828 0.5808 0.3837 0.1202 0.0328 -0.1663 0.4096 0.4228 -0.4220 -0.4013 -0.5691 -0.5292 0.4899 -0.4491 0.3421 0.5212 0.6263 0.5160 0.2186 -0.0985 0.0158 0.5246 -0.4901 -0.1277 -0.4589 -0.4564 0.5738 0.3276 0.1837 -0.2417 -0.2184 0.0664 -0.0138 0.2797 0.6176 -0.6838 -0.1091 0.0614 0.2317 -0.0048 -0.1710 -0.3507 0.2055 0.1931 -0.3457 0.3976 0.3203 0.2332 -0.4724 -0.2746 -0.0600 -0.2676 -0.2914 -0.2592 -0.3306 0.3674 -0.4247 -0.0564 0.1137 0.1334 -0.1368 0.1432 0.0363 0.1829 -0.3746 0.1582 -0.3270 -0.5091 -0.0972 -0.0424 0.2115 0.0368 -0.0152 -0.1595 -0.1049 -0.3195 -0.1408 -0.2006 0.1700 -0.0124 -0.0413 0.0098 0.2904 0.0309 0.0103 -0.0564 0.5771 -0.0523 0.1001 0.0152 -0.1047 -0.0419 0.2401 -0.2455 0.0425 0.2056 0.0122 -0.0811 0.1874 0.0313 0.0926 0.0970 -0.0645 0.2206 -0.7158 0.0826 0.0308 0.0780 0.1274 0.1518 -0.0960 0.2656 0.0738 -0.2406 -0.1481 0.0047 -0.0050 0.3114 0.1101 0.0068 -0.4788 -0.0717 -0.0924 0.0558 0.2610 0.0039 -0.0365 0.0343 0.4002 -0.0402 -0.1017 -0.0870 -0.1880 -0.1025 -0.3326 -0.2228 0.0336 0.1117 -0.1175 -0.0790 0.0581 -0.0193 0.0292 -0.0807 0.1289 0.3621 0.1301 0.1592 0.2391 -0.2929 0.0032 0.1169 0.1153 -0.0603 -0.1068 -0.3522 -0.0738 0.1249 0.1486 0.0413 0.0130 -0.0106 0.3584 -0.0927 -0.1158 0.1788 -0.2140 -0.0857 -0.0722 0.0228 0.2603 -0.0382 0.2178 0.0933 0.2146 0.2739 -0.0078 -0.1276 0.0303 -0.0055 -0.1719 -0.0267 -0.0532 0.1264 -0.1638 -0.2597 -0.1158 0.1488 -0.0119 -0.0666 -0.1730 -0.1614 71 C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 11 0.0094 -0.0170 -0.2623 0.0387 -0.1361 0.1559 -0.0953 0.1275 0.0335 0.2580 0.1476 -0.1352 0.2632 -0.0451 -0.0464 -0.1706 0.1195 0.1120 0.1043 -0.0214 0.0106 Componente 12 -0.0481 -0.0725 0.3316 0.0357 -0.1614 -0.0773 0.1612 0.0073 -0.0218 0.1063 0.0037 0.2222 0.0647 0.0236 -0.0129 -0.2355 0.1989 0.0672 0.0184 -0.0801 0.0434 Componente 13 0.0392 0.0029 -0.1614 0.1267 0.0093 -0.2118 0.0192 0.0953 0.1254 -0.2095 0.0083 0.0031 -0.0289 0.0873 0.1787 -0.3408 -0.0980 -0.0229 0.0161 0.0280 0.0357 Componente 14 -0.0666 -0.0879 0.0902 0.0094 -0.0247 0.1110 -0.2859 0.1182 0.1877 -0.0360 -0.0050 0.1163 -0.1016 0.0104 0.0491 0.0383 -0.1126 0.1859 0.0284 -0.1956 0.0412 Componente 15 0.0221 0.0535 0.1054 0.0784 -0.0427 0.1039 -0.1530 -0.1646 -0.0307 -0.0257 -0.0821 0.0058 0.0155 0.0236 -0.1249 -0.1278 -0.1227 0.0733 0.1121 0.3001 0.0792 72 Componente 16 -0.0289 -0.0226 -0.0551 -0.0088 0.0054 -0.0237 0.1243 0.0178 0.0302 -0.0377 0.0658 0.0498 -0.0690 0.0307 -0.2208 0.0182 -0.0878 -0.0608 0.3158 -0.0994 0.0165 Componente 17 -0.0750 0.0620 0.0062 0.1695 -0.2375 0.0136 0.0344 0.0315 -0.0038 -0.0477 -0.1840 -0.1564 -0.0380 0.0417 0.0071 0.0750 0.0287 -0.0185 0.0244 -0.0631 -0.0137 Componente 18 0.0592 -0.0028 0.0617 -0.1322 0.1117 -0.0210 0.0403 0.0167 0.1233 0.1290 -0.2088 -0.1517 -0.0399 -0.0382 0.0085 -0.0889 -0.0087 0.0168 0.0609 -0.0285 0.0007 Componente 19 0.2478 -0.1804 0.0218 0.0989 -0.0418 0.0076 -0.0175 -0.0124 0.0091 -0.0358 -0.0220 0.0057 0.0235 -0.1319 -0.0039 0.0309 0.0002 -0.0616 0.0215 -0.0170 -0.0278 Componente 20 -0.0025 -0.0063 -0.0212 0.0312 -0.0175 -0.0018 0.0339 -0.1789 0.1709 0.0135 0.0477 -0.0144 0.0153 0.0433 -0.0274 0.0127 0.0147 0.0089 -0.0527 -0.0313 -0.0209 Componente 21 -0.0676 0.0571 -0.0097 0.0057 -0.0098 -0.0023 0.0210 -0.0644 0.0192 -0.0108 0.0097 0.0287 0.0023 -0.1874 0.1153 0.0132 0.0046 0.0151 0.0867 0.0069 0.0065 4.1.2.2 Resultados En la tabla No. 7 se incluye la asociación entre las variables fisicoquímicas estudiadas y los componentes principales no lineales. De esta se puede ver que el componente 1 agrupa las variables de Coliformes fecales y totales, DBO5, DQO, Ortofosfatos, Fosforo, N (Amoniacal y Kendhal), SST, SSV, ST, Sulfatos, Turbidez, Conductividad; mientras que al componente 2 se encuentran asociadas las variables de Oxigeno disuelto + SS. En el componente 3 se agrupan las variables relacionadas con los metales pesados Cromo, Plomo, RAS. El pH se encuentra asociado al componente 5 y los Sulfuros en el componente 6. De lo anterior se infiere que en el componente 1 se encuentran variables de tipo físico, químico y biológico; indicando en este caso particular que los procesos que afectan la calidad del agua del embalse tienen contribuciones de estas 3 fuentes. El componente 2 agrupa las variables de Oxígeno disuelto y Sólidos suspendidos, las cuales se encuentran relacionadas, ya que los sólidos están relacionados con la concentración de oxígeno. Con respecto al oxigeno es de entender que ninguna variable depende o está relacionado con él puesto que las concentraciones son mínimas, lo que demuestra que el embalse funciona como un sistema anaerobio. El componente 3 agrupa los metales pesados, y por lo tanto se infiere que la dinámica que presentan dichas variables es de naturaleza diferente a los restantes parámetros estudiados. Esta misma situación se presenta en el caso del pH y los Sulfuros, variables que se encuentran asociadas a los componentes 5 y 6 respectivamente. 73 4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN Como se observó en los resultados de cada metodología, las RNA obtuvieron un mejor desempeño al poder asociar las variables entre sí, lo que indica que la no linealidad de la RNA permitió encontrar asociaciones entre variables de manera más concreta y detallada, que las metodología convencional. Partimos del hecho que la dinámica bio-físico-química que se presenta en embalse es compleja, y por lo tanto la identificación de procesos específicos resulta de vital importancia. La metodología de ACP convencional no fue útil a la hora de determinar las asociaciones entre las variables, que son las que permiten identificar procesos fisicoquímicos; mientras que con las RNA de tipo hebbiano las asociaciones se pudieron interpretar de una forma mucho más clara. 4.2 CLASIFICACIÓN DE LAS VARIABLES Para realizar este tipo de análisis usando las funciones discriminantes y las RNA se hizo necesario etiquetar las muestras para que los métodos aplicados pudiesen predecir la pertenencia de una variable o parámetro a un determinado grupo. Los grupos establecidos fueron dos: periodo seco y periodo húmedo, de acuerdo a la fecha de toma de las muestras analizadas. Esto se hizo con la finalidad de establecer si el periodo hidrológico afectaba de forma significativa los valores de las concentraciones de los parámetros analizados. Para realizar el ejercicio de clasificación, no se utilizó ninguna técnica específica para definir los grupos, el investigador lo determinó según el análisis de la información de precipitación del área de estudio. Como herramienta de apoyo en la selección de los periodos secos y húmedos se graficó la precipitación 74 promedio mensual, en estaciones ubicadas en el embalse del Muña, así como otras estaciones pluviométricas y pluviográficas ubicadas en los alrededores de la zona de estudio. A los datos de precipitación no se les realizó ningún tratamiento estadístico para su análisis, ya que en este caso particular lo que interesaba era el patrón de variación temporal y la determinación de la ocurrencia de periodos secos y húmedos. Esta parte del análisis se encuentra motivada por la alta variabilidad que han presentado los parámetros hidrológicos en los últimos años. A continuación, se presenta el histograma de la precipitación promedio mensual. oct-06 sep-06 jul-06 ago-06 jun-06 abr-06 may-06 feb-06 mar-06 dic-05 ene-06 oct-05 nov-05 sep-05 jul-05 ago-05 jun-05 abr-05 may-05 feb-05 mar-05 dic-04 ene-05 oct-04 nov-04 sep-04 jul-04 ago-04 jun-04 abr-04 100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00 0,00 may-04 Precipitación (mm) PRECIPITACIÓN MENSUAL PERIODO DE MUESTREO Gráfica 10. Histograma de precipitación mensual Con base a un análisis visual del histograma, se determinó, como se dijo anteriormente, por criterio del investigador, que todos los datos por debajo de los 40 mm de precipitación serian periodos secos y por encima de estos serian periodos húmedos. 75 4.2.1 ANALISIS DISCRIMINANTE (AD) Este análisis se realizó de manera temporal, esto con el fin de poder realizar un mejor etiquetamiento para la investigación 4.2.1.1 Procedimiento Para poder correr la función discriminante fue necesario realizar inicialmente la estandarización de los datos, para poder compararlos entre sí. Al correr la función, se determinaron los puntos medios y un centro a cada periodo o grupo; los valores fueron: PUNTO MEDIO Centro del grupo Centro del grupo PERIODO SECO PERIODO HÚMEDO . . -0.47 0.44 -0.014 Este análisis se basa en la determinación de los centros para cada uno de los grupos estudiados (en este caso periodos seco y húmedo). Con estos dos centros definidos, se determina el punto medio entre ellos que para este caso particular es igual a -0.014. Si una muestra tiene un valor de coordenada 76 menor a -0.014 entonces se clasifica como periodo seco, y en caso contrario como periodo húmedo. Esta regla se aplicó al conjunto de datos de validación y a partir de esto se realizó la respectiva clasificación en periodos hidrológicos. De este procedimiento se puede cuantificar el error de clasificación correcta e incorrecta. 4.2.1.2 Resultados Los resultados arrojados por la función se presentan a continuación en la tabla No. 8, en esta matriz se comparan los datos reales con lo modelado. 77 Tabla 8. Matriz de resultado del AD - método estadístico No. FECHA PERIODO REAL ESTACIÓN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 abr-04 may-04 jun-04 jul-04 ago-04 sep-04 oct-04 nov-04 dic-04 ene-05 feb-05 mar-05 abr-05 may-05 jun-05 jul-05 ago-05 sep-05 oct-05 nov-05 dic-05 ene-06 feb-06 mar-06 abr-06 may-06 jun-06 jul-06 ago-06 sep-06 oct-06 1 1 1 0 0 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 PERIODO PERIODO PERIODO PERIODO ESTACIÓN ESTACIÓN ESTACIÓN MODELADO MODELADO MODELADO MODELADO 0 1 0 0 0 1 1 1 0 0 0 0 1 0 0 0 1 1 1 1 0 1 0 1 0 0 1 0 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 1 1 0 0 1 1 1 0 0 0 0 1 0 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 1 1 78 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 0 1 1 0 0 1 1 1 0 0 0 0 1 0 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 0 0 1 1 1 0 0 0 0 1 0 0 0 0 1 1 1 1 0 0 1 1 1 0 0 1 1 1 No. FECHA PERIODO REAL ESTACIÓN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 abr-04 may-04 jun-04 jul-04 ago-04 sep-04 oct-04 nov-04 dic-04 ene-05 feb-05 mar-05 abr-05 may-05 jun-05 jul-05 ago-05 sep-05 oct-05 nov-05 dic-05 ene-06 feb-06 mar-06 abr-06 may-06 jun-06 jul-06 ago-06 sep-06 oct-06 1 1 1 0 0 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 1 1 1 1 0 0 1 1 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 PERIODO PERIODO PERIODO ESTACIÓN ESTACIÓN MODELADO MODELADO MODELADO 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 1 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 1 1 0 0 0 1 1 1 0 0 0 0 1 0 0 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 Convenciones: 1 periodo húmedo 0 periodo seco Estos mismos resultados se ven reflejados en la siguiente gráfica: 79 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 Gráfica ráfica 11.. Distribución de los datos entre los periodos De 217 datos 161 datos coincidieron en si era un periodo seco o periodo húmedo, para poder determinar que tan eficiente fue el procedimiento de clasificación se procedió a realizar la matriz de confusión. 4.2.1.3 Matriz atriz de Confusión Como se comentó anteriormente, la matriz de confusión (MC) nos permitió determinar que tan eficaz en porcentaje fue el procedimiento estadístico para realizar la clasificación y predecir que elemento elemento va en que grupo. A continuación, se presenta la matriz de confusión del método multivariado. 80 Tabla 9. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de datos calibrados CLASIFICADO POR EL MODELO PORCENTAJE SECO HÚMEDO SECO 57 23 71% 29% HÚMEDO 20 70 22% 78% CLASIFICACIÓN REAL Como se puede observar en la matriz de confusión, el modelo clasificó como seco correctamente a 57 datos de los 80 datos empleados para la calibración, ya que los 23 restantes los clasificó como periodos húmedos; respecto al periodo húmedo, clasificó correctamente 70 datos de 90, los otros 20 datos restantes lo clasifico de manera incorrecta como seco. Lo que significa que el modelo logró acertar en un 78% los periodos húmedos y en un 71% en los periodos secos, esto nos indica que el modelo funciona de cierta manera. Una vez realizado el procedimiento de calibración se procedió a realizar la clasificación de un conjunto de 50 datos, que no se consideraron en el procedimiento de calibración. Los resultados se presentan en la siguiente tabla. Tabla 10. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de datos de validación CLASIFICADO POR EL MODELO PORCENTAJE SECO HÚMEDO SECO 15 10 60% 40% HÚMEDO 6 16 28% 72% CLASIFICACIÓN REAL 81 Los resultados obtenidos indican que los porcentajes de clasificación correcta en el conjunto de datos de validación aunque son mejores a los obtenidos en la calibración, ción, indican que el análisis discriminante convencional puede realizar una clasificación automática satisfactoria del periodo hidrológico a partir de los valores de las muestras. 4.2.2 REDES NEURONALES ARTIFICIALES (RNA) Para realizar el AD se utilizó una RN RNA A de entrenamiento supervisado con retropropagación de error y alimentación hacia adelante – Perceptrón multicapa. Esta red se seleccionó debido a que es la red más sencilla para hacer un análisis equivalente al análisis discriminante. La red neuronal estaba estaba conformada por una (1) capa oculta y cinco (5) neuronas, esta estructura se seleccionó de acuerdo al criterio del factor de compresión que dio aproximadamente 1.97. A continuación, se presenta el esquema de la red que se utilizó en el ejercicio. Ilustración 11. 11 Esquema red neuronal usada en el análisis discriminante 82 La idea del factor de compresión es que los pesos sean menos que las variables, lo que indica que si usamos cinco (5) neuronas en la capa oculta el resultado sería 110 pesos, el número de pesos se determinó de la siguiente manera: Pesos = (No. de datos o variables x No. De Neuronas + No. Salidas) Para nuestro ejercicio sería: Pesos = (21 x 5 + 5) = 110 Y el factor de compresión sería: FC = No. De datos / peso Para nuestro ejercicio tendríamos: FC = 217 / 110 = 1.97 De esta manera se puede decir que la relación entre el número de muestras y los pesos sería de 1.97 aproximadamente. 4.2.2.1 Procedimiento Los pasos que se efectuaron para realizar el AD con RNA fueron: 1. Se cargaron los datos 83 2. Se realizó la estandarización de los datos: esta estandarización nos permitió llevar los datos a una distribución normal de media cero (0) y varianza uno (1), lo que nos definir un rango de variación entre -3 y 3. 3. Se definieron los datos de calibración y validación: La calibración hace referencia al entrenamiento de la red neuronal, se utilizó el 75% de los datos para calibrar y entrenar la red, en total fueron 163 datos usados en esta etapa. La validación nos permitirá saber que tan bueno fue el modelo que se usó para el entrenamiento de la red, en la validación se usaron el resto de datos que no se usaron en la calibración, 54 en total. 4. Entrenamiento de la red con los datos de calibración: la red se entrenó con los datos seleccionados aleatoriamente de la muestra, como se mencionó, fueron 163 datos seleccionados para el entrenamiento. El criterio de clasificación utilizado fue, que todo dato mayor que 0.5 es húmedo y si es menor a 0.5 es seco. El entrenamiento de la red culminó después de 12 épocas, el error obtenido fue de 2.6x10-2, este fue el error de entrenamiento después de 12 épocas. A continuación, se presenta éste resultado en la siguiente gráfica. 84 Gráfica 12. Número de épocas Ell resultado de la calibración se presenta en la siguiente matriz de confusión: Tabla 11.. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de datos de calibración CLASIFICADO POR EL MODELO SECO HÚMEDO SECO 68 10 87% 13% HÚMEDO 11 74 13% 87% CLASIFICACIÓN REAL Como se puede ver, el porcentaje de clasificación correcta fue bastante alto (87%) en cada caso, caso lo que indica que la red neuronal artificial se capturó la 85 relación de dependencia entre las variables físico-químicas biológicas y la temporada hidrológica. 5. Evaluación de la confiabilidad del modelo obtenido con los datos de la validación: La eficiencia de la validación se analizó con la matriz de confusión, la cual se presenta a continuación: Tabla 12. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de datos de validación CLASIFICADO POR EL MODELO SECO HÚMEDO SECO 15 15 50% 50% HÚMEDO 11 13 45% 55% CLASIFICACIÓN REAL Con pocos datos el sistema logró un 50% de clasificación correcta para el periodo seco, mientras que para el periodo húmero este porcentaje de clasificación fue de 55%. Los porcentajes de clasificación incorrecta fueron de 45% y 50%. A pesar que estos valores pueden parecer altos es de aclarar que el conjunto de datos de validación es de 54 muestras y que es de esperar que los porcentajes en este conjunto de validación sean menores a los obtenidos en la calibración. En este caso particular se interpreta como resultado del tamaño de la muestra empleado en la calibración, y el procedimiento de entrenamiento de parda temprana que se empleo con la RNA. 86 4.2.2.2 Resultados Por último, después de aprobar el resultado de validación se prosiguió a correr la red con todos los datos, 217 en total, los resultados de presentan en la siguiente tabla: Tabla 13. Resultado del AD con la RNA No. FECHA PERIODO PERIODO ESTACIÓN MODELADO REAL ESTACIÓN PERIODO PERIODO ESTACIÓN MODELADO MODELADO ESTACIÓN PERIODO MODELADO 1 abr-04 1 1 1 2 1 3 1 4 1 2 may-04 1 1 1 2 1 3 1 4 1 3 jun-04 1 1 1 2 1 3 1 4 1 4 jul-04 0 1 0 2 0 3 0 4 0 5 ago-04 0 1 0 2 0 3 0 4 0 6 sep-04 1 1 1 2 1 3 1 4 1 7 oct-04 1 1 1 2 1 3 1 4 1 8 nov-04 1 1 1 2 1 3 1 4 0 9 dic-04 0 1 1 2 0 3 0 4 0 10 ene-05 0 1 0 2 0 3 0 4 0 11 feb-05 0 1 0 2 0 3 0 4 0 12 mar-05 0 1 0 2 0 3 0 4 0 13 abr-05 1 1 1 2 1 3 1 4 1 14 may-05 1 1 1 2 0 3 0 4 1 15 jun-05 0 1 0 2 0 3 0 4 1 16 jul-05 0 1 0 2 1 3 1 4 0 17 ago-05 0 1 0 2 0 3 0 4 0 18 sep-05 0 1 1 2 1 3 1 4 1 19 oct-05 1 1 1 2 0 3 0 4 0 20 nov-05 1 1 1 2 1 3 1 4 0 21 dic-05 0 1 0 2 0 3 0 4 0 22 ene-06 0 1 0 2 0 3 0 4 0 23 feb-06 0 1 0 2 0 3 0 4 0 24 mar-06 1 1 0 2 1 3 1 4 0 25 abr-06 1 1 1 2 1 3 1 4 1 26 may-06 1 1 0 2 1 3 1 4 1 27 jun-06 1 1 1 2 1 3 1 4 1 28 jul-06 0 1 0 2 1 3 0 4 0 29 ago-06 0 1 0 2 1 3 0 4 0 30 sep-06 1 1 1 2 1 3 1 4 1 31 oct-06 1 1 0 2 1 3 1 4 1 87 PERIODO PERIODO PERIODO PERIODO ESTACIÓN ESTACIÓN ESTACIÓN REAL MODELADO MODELADO MODELADO No. FECHA 1 abr-04 1 5 1 6 0 7 1 2 may-04 1 5 1 6 1 7 1 3 jun-04 1 5 1 6 1 7 1 4 jul-04 0 5 0 6 0 7 0 5 ago-04 0 5 0 6 0 7 0 6 sep-04 1 5 1 6 1 7 1 7 oct-04 1 5 1 6 1 7 1 8 nov-04 1 5 1 6 1 7 1 9 dic-04 0 5 0 6 0 7 0 10 ene-05 0 5 0 6 0 7 0 11 feb-05 0 5 0 6 0 7 0 12 mar-05 0 5 0 6 0 7 0 13 abr-05 1 5 0 6 1 7 1 14 may-05 1 5 0 6 0 7 0 15 jun-05 0 5 0 6 0 7 0 16 jul-05 0 5 1 6 1 7 1 17 ago-05 0 5 0 6 1 7 1 18 sep-05 0 5 1 6 1 7 1 19 oct-05 1 5 0 6 1 7 1 20 nov-05 1 5 1 6 1 7 1 21 dic-05 0 5 0 6 0 7 0 22 ene-06 0 5 0 6 1 7 0 23 feb-06 0 5 0 6 0 7 0 24 mar-06 1 5 1 6 0 7 1 25 abr-06 1 5 0 6 1 7 0 26 may-06 1 5 1 6 1 7 1 27 jun-06 1 5 1 6 1 7 0 28 jul-06 0 5 0 6 0 7 0 29 ago-06 0 5 0 6 0 7 0 30 sep-06 1 5 1 6 1 7 1 31 oct-06 1 5 1 6 1 7 1 88 Para visualizar de una manera más clara y evaluar el resultado de la red neuronal, se elaboró la matriz de confusión la cual se presenta a continuación. Tabla 14. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de datos completos CLASIFICADO POR EL MODELO SECO HÚMEDO SECO 83 25 77% 23% HÚMEDO 22 87 20% 80% CLASIFICACIÓN REAL Ya revisando los resultados con la MC, se observa que globalmente los porcentajes de clasificación correcta son altos, lo que indica que el modelo usado con la red es confiable y logró capturar la relación de dependencia presentes en el conjunto de datos analizados. El porcentaje de clasificación correcta para temporada seca fue de 77%, mientras que para la temporada húmeda este valor alcanzó un 80%. Los porcentajes de clasificación errónea fueron de 20 y 23%. En este caso no se calculó el coeficiente de correlación puesto que los datos eran discretos y no continuos, lo que indica que no existía la necesidad de averiguar si los resultados estaban relacionados puesto que la respuesta estaba definida, periodo seco o periodo húmedo. 89 4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN Los resultados de clasificación obtenidos por los métodos son muy similares en la calibración, lo que indica que cualquiera de los métodos puede dar un buen resultado al utilizarse en el análisis de la información de calidad de agua. Una ventaja que puede tener las RNA sobre el método tradicional es que este puede aprender y mejorar poco a poco siempre y cuando existieran más datos para utilizar en el procedimiento de aprendizaje y validación. Los porcentajes de clasificación correcta obtenidos en los procedimientos de validación con RNA fueron menores que los obtenidos para el análisis discriminante debido al número de muestras empleado en el entrenamiento de la RNA (aproximadamente 170), así como la dependencia que existe entre la semilla del generador de números aleatorios con el cual se inicializan los pesos de la RNA. Además, los resultados del entrenamiento de las RNA tipo perceptrón multicapa con retro-propagación de error son muy dependientes del número de patrones empleados, y por lo tanto los resultados del entrenamiento pueden presentar grandes variaciones dependiendo de la selección que se haga del conjunto de calibración vs validación. Para el caso del análisis discriminante convencional, la clasificación realizada con los datos de validación presentó unos porcentajes de clasificación correcta muy similares a los obtenidos durante el procedimiento de calibración. Esto indica que a pesar que las RNA sean modelos de regresión no-lineal, se hace necesario contar con un conjunto de datos lo suficientemente grande, de tal forma que se asegure un procedimiento de entrenamiento que permita obtener valores estables de los pesos que definen dichas redes neuronales. Esto se podría mejorar si se emplean otras arquitecturas de RNA como la GRNN (Specth, 1990) 90 5 CONCLUSIONES 1. Componentes principales (CP): el método tradicional o estadístico no consiguió una reducción de dimensionalidad en la información de calidad de agua estudiada, ya que no permitió asociar las variables en grupos que fueran claramente interpretables. Respecto a las Redes Neuronales Artificiales de tipo hebbiano, esta técnica permitió identificar algunas asociaciones con sentido físico/químico entre las variables analizadas, y además los grupos de variables encontradas se ubicaron en los primeros seis componentes. El primer componente se asocia a variables de tipo físico, químico y biológico, el segundo componente a variables relacionadas con el oxígeno disuelto, el tercer componente a los metales pesados, el componente 5 al pH y el componente 6 a los sulfuros. En conclusión, la red neuronal artificial como método no lineal obtuvo un mejor desempeño que la técnica multivariada convencional a la hora de identificar asociaciones con un claro sentido para el analista de la información. 2. Análisis discriminante (AD): tanto el método tradicional como la red neuronal brindaron resultados similares, siendo estos muy eficientes al dar determinar un periodo seco o húmedo. Esto es de vital importancia en procedimientos de clasificación automática, para la temporada hidrológica que pueden ser requeridos en programas de monitoreo de la calidad de agua. Sin embargo hay que recordar que la red neuronal artificial tiene la posibilidad de mejorar en los porcentajes de clasificación si se tuviese un conjunto de datos con un mayor número de patrones para su entrenamiento. 91 3. De acuerdo a los resultados obtenidos en este trabajo, los procedimientos de análisis multivariado empleados comúnmente en el análisis de información de calidad de agua pueden brindar resultados que pueden ser poco interpretables, o que pueden resultar muy sensibles a la presencia de valores anómalos. Estos problemas pueden ser resueltos con la utilización de metodologías de análisis no lineales como las Redes Neuronales Artificiales, las cuales permiten construir representaciones de la información que dependen de relaciones de dependencia presentes en el conjunto de datos, y las cuales no hacen suposiciones restrictivas con respecto a la información original. Así mismo, estos modelos de RNA son robustos frente a la presencia de valores anómalos. 4. Las redes neuronales de aprendizaje supervisado, presenta cierta desventaja al usarlas en el análisis de datos de calidad de agua, puesto que, es necesario contar con un número grande de patrones que aseguren que los procedimientos de calibración (entrenamiento) sean satisfactorios. Esto representa una restricción a la hora de usar este tipo de metodologías en situaciones en donde se poseen pocos datos medidos. 5. Es necesario realizar más investigaciones o trabajos utilizando los métodos convencionales y las redes neuronales artificiales para poder determinar con propiedad que herramienta es más eficiente en asociar y clasificar datos, teniendo en cuenta, que en este último existen una variedad de redes por aplicar. 92 6 RECOMENDACIONES 1. Se recomienda que para realizar análisis de datos de calidad de agua con componentes principales (CP), es recomendable utilizar las redes neuronales de tipo hebbiano, puesto que así como en este ejercicio, se pudo encontrar que en otras experiencias donde se aplicó la técnica convencional en datos de agua también se obtuvieron resultados no muy satisfactorios. 2. En la clasificación de datos de calidad de agua puede usarse cualquier de los dos métodos usados en este trabajo, puesto que, los dos presentaron un resultado similar y satisfactorio en la clasificación de los datos. 3. Como futuro estudios de investigación, se recomendable realizar este mismo ejercicio con datos de calidad de agua proveniente de sistemas lóticos, puesto que estos presentan una dinámica de las características fisicoquímicas distinta a los sistemas lénticos. 4. En general, hay que realizar otras investigaciones aplicando otros tipos de redes para poder conocer que tan eficientes son en el análisis de datos de calidad de agua. 93 7 BIBLIOGRAFÍA Kottegoda, N y Rozzo, R. (1993). Statistics, probability and reliability for Civil and Environmental Engineers. McGraw Hill, 585 pp. Moreno-Sánchez, G. y García-Cabrejo, O. (2003). Metodologías Cuantitativas en el Análisis de Datos Estratigráficos. Notas de Clase (Material No Publicado). 105 pp. Oja, E. (1982). A simplified neuron model as a principal component analyzer. Journal of Mathematical Biology 15 (2), 267-273. Ouyang, Y. (2005). evaluation of river water quality monitoring stations by principal component analysis. Water Research, Vol 39, Nro 4. pp 2621-2635. Specth, A. (1990). A General Regression Neural Network. Tagliaferri, R., Ciaramella A, Milano L., Barone F. & Longo, G. (1999). Spectral analysis of stellar light curves by means of neural networks. Astronomy & Astrophysics Supplement Series 137 (2), 391 – 405 Vega, M., Pardo, R., Barrado, E. y Debaan, L. (1998). Assessment of seasonal and polluting effects on the quality of river water by exploratory data analysis. Water Research, Vol 32 Nro. 12, pp 3581-3592. Wunderlin, D., Díaz, MP., Ame, M., Pesce, S., Hued,A., y Bistoni, M. (2001). Pattern recognition techniques for the evaluation of spatial and temporal 94 variations in water quality. a case study: suquia river basin (Cordoba– Argentina). Water Research, Vol 35, Nro. 12, pp 2881-2894. Díaz M. Luis G. Estadística Multivariada: inferencia y método (2002). Facultad de Ciencia, Universidad Nacional de Colombia Giarratano Joseph, Riley Gary . Sistemas expertos: principios y programación. Tercera edición. Thomson editores Hilera José, Martínez Víctor. Redes Neuronales Artificiales: fundamentos, modelos y aplicaciones. Addison-Wesley Iberoamerica Martín Bonifacio, Sanz Alfredo. Redes Neuronales y Sistemas Difusos. Alfaomega, 2da Edición Isasi Pedro, Galvan Inés. Redes Neuronales Artificiales. Un enfoque práctico. Editorial Person 95 8 ANEXOS 96 ANEXO 1 MATRIZ DE DATOS DE LAS ESTACIONES DE MONITOREO 2 AL 7 97 Tabla 15. Matriz de datos medidos en la estación de monitoreo No. 2 PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 32 abr-04 2 1600000 1600000 0.040 40 131 1.98 3.01 20.89 27.71 0.2 33 may-04 2 1600000 1600000 0.040 34 105 2.07 2.93 16.66 19.58 0.2 34 jun-04 2 90000 140000 0.030 19 74 2.25 2.90 15.00 18.55 0.2 35 jul-04 2 1600000 1600000 0.020 36 178 2.59 3.03 16.66 21.20 0.2 36 ago-04 2 260000 1600000 0.030 47 118 2.28 2.73 16.76 21.55 0.2 37 sep-04 2 4000 1600000 0.040 65 183 1.87 4.09 16.93 26.13 0.2 38 oct-04 2 1600000 1600000 0.070 33 118 0.79 1.72 8.25 16.24 0.2 39 nov-04 2 1600000 1600000 0.010 44 159 1.14 3.49 12.58 18.22 0.2 40 dic-04 2 1600000 1600000 0.030 75 202 2.98 3.08 19.36 25.35 0.2 41 ene-05 2 1600000 1600000 0.030 59 146 2.32 5.13 25.43 28.63 0.2 42 feb-05 2 1600000 1600000 0.060 77 156 2.40 4.23 22.32 24.05 0.2 43 mar-05 2 1600000 1600000 0.120 64 136 2.94 5.24 24.44 25.92 0.2 44 abr-05 2 1600000 1600000 0.043 57 209 0.65 3.66 24.50 42.00 0.2 45 may-05 2 1100000 1600000 0.044 37 147 1.61 3.48 14.30 24.24 0.2 46 jun-05 2 460000 1600000 0.044 83 149 3.93 3.52 23.00 23.97 0.2 47 jul-05 2 9000000 24000000 0.045 82 203 4.20 4.21 24.10 44.80 0.2 48 ago-05 2 11000000 1600000 0.047 87 151 2.58 3.53 18.40 25.51 0.2 49 sep-05 oct-05 2 32000 1600000 0.030 86 182 1.21 3.69 18.12 24.75 0.5 50 2 90000 430000 0.080 51 76 2.10 2.19 15.80 19.60 0.2 51 nov-05 2 11000000 24000000 0.080 66 176 2.60 2.85 16.30 24.10 0.2 52 dic-05 2 24000000 24000000 0.080 54 111 2.44 5.08 21.30 25.00 0.2 53 ene-06 2 230000 1500000 0.080 41 138 1.86 4.83 18.20 20.70 0.2 54 feb-06 2 400 1400 0.080 93 205 1.26 3.94 35.90 39.20 0.2 55 mar-06 2 300 900 0.080 93 255 3.76 4.21 25.20 28.60 0.2 56 abr-06 2 2100000 93000000 0.080 63 266 3.68 3.46 33.70 38.30 0.2 57 may-06 2 2600000 9000000 0.009 48 67 1.15 1.32 14.20 16.14 0.9 58 jun-06 2 2800000 8500000 0.015 98 148 1.95 2.93 12.75 15.60 2.0 59 jul-06 2 4000 70000 0.010 98 162 1.71 3.35 14.41 17.59 0.5 60 ago-06 2 17000 350000 0.032 79 155 0.74 1.73 16.73 18.83 2.1 61 sep-06 2 60000 1600000 0.019 106 180 0.56 3.30 19.31 23.37 0.8 62 oct-06 2 8000 13000 0.007 83 160 1.60 3.15 10.26 12.80 0.5 No. 98 PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 32 abr-04 2 0.010 2.5 0.4 58 30 344 10.53 6.43 64.20 419 6.76 33 may-04 2 0.010 0.3 1.5 69 60 305 10.20 6.62 37.50 421 6.72 34 jun-04 2 0.010 2.3 0.1 15 5 260 19.10 5.90 23.90 404 6.74 No. 35 jul-04 2 0.010 3.8 0.2 32 18 273 6.60 11.30 45.30 365 6.89 36 ago-04 2 0.010 2.4 2.5 190 116 335 22.00 1.40 87.00 400 7.00 37 sep-04 2 0.010 2.5 0.1 49 39 275 12.30 1.00 29.00 484 6.67 38 oct-04 2 0.010 1.9 0.3 173 53 368 33.60 9.80 129.00 400 6.81 39 nov-04 2 0.050 1.9 0.2 167 17 310 16.00 5.40 40.60 450 7.03 40 dic-04 2 0.010 2.8 0.7 115 40 356 31.70 14.10 69.20 463 7.16 41 ene-05 2 0.030 2.2 0.1 46 16 347 18.70 16.60 27.30 507 6.92 42 feb-05 2 0.010 2.6 0.3 90 40 394 20.50 11.30 46.80 489 6.97 43 mar-05 2 0.010 2.5 0.1 31 21 332 20.60 17.80 23.60 548 7.12 44 abr-05 2 0.015 2.6 0.4 116 80 432 31.20 6.10 83.00 631 6.77 45 may-05 2 0.015 2.6 0.1 87 36 333 19.46 4.40 74.00 301 7.10 46 jun-05 2 0.016 2.7 1.4 65 51 332 20.15 6.40 65.00 391 7.12 47 jul-05 2 0.017 2.7 0.2 94 66 357 18.90 7.80 49.60 642 7.18 48 ago-05 2 0.016 2.8 1.4 100 64 335 19.47 2.10 72.90 405 7.05 49 sep-05 2 0.008 2.7 0.3 67 52 328 9.53 2.85 28.65 481 6.51 50 oct-05 2 0.160 0.4 0.2 115 62 303 12.40 2.00 98.40 353 6.86 51 nov-05 2 0.160 0.6 0.1 49 41 311 62.70 2.90 35.80 490 7.12 52 dic-05 2 0.160 0.4 0.1 67 59 250 31.10 3.80 40.00 466 6.95 53 ene-06 2 0.160 0.6 0.1 74 35 273 17.00 3.00 86.70 390 6.74 54 feb-06 2 0.160 0.8 0.1 43 37 356 28.00 2.10 44.20 579 6.96 55 mar-06 2 0.160 0.6 0.1 96 72 441 21.00 3.70 103.00 614 6.93 56 abr-06 2 0.160 1.6 0.3 45 31 334 11.30 4.00 44.10 609 6.62 57 may-06 2 0.050 2.5 0.1 29 10 247 13.69 3.00 53.00 425 6.75 58 jun-06 2 0.006 3.3 0.1 60 50 306 31.73 2.20 40.90 436 6.72 59 jul-06 2 0.005 1.6 0.1 19 8 223 12.95 2.85 40.10 373 6.85 60 ago-06 2 0.005 2.0 0.1 58 35 304 10.36 1.35 32.30 425 6.67 61 sep-06 2 0.005 2.9 0.5 84 64 380 6.76 4.70 28.30 477 6.35 62 oct-06 2 0.005 1.7 0.1 25 15 280 13.56 2.10 50.55 614 6.82 99 Tabla 16. Matriz de datos medidos en la estación de monitoreo No. 3 No. PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 63 abr-04 3 1600000 1600000 0.060 63 188 1.86 2.42 19.36 21.24 0.2 64 may-04 3 1600000 1600000 0.070 57 173 1.66 2.01 14.09 14.12 0.2 65 jun-04 3 70000 70000 0.020 34 92 2.20 2.38 15.75 20.94 0.2 66 jul-04 3 1600000 1600000 0.060 29 230 2.71 3.13 15.57 23.76 0.2 67 ago-04 3 1600000 1600000 0.040 65 206 2.47 2.83 18.40 25.40 0.2 68 sep-04 3 4000 1600000 0.210 116 338 2.52 3.69 22.34 31.65 0.2 69 oct-04 3 900000 1600000 0.060 41 142 0.68 1.63 7.54 15.20 0.2 70 nov-04 3 1600000 1600000 0.010 53 156 1.57 3.43 15.56 18.53 0.2 71 dic-04 3 1600000 1600000 0.180 143 420 3.96 6.83 20.37 25.45 0.2 72 ene-05 3 1600000 1600000 0.040 92 210 2.78 5.95 31.00 33.94 0.2 73 feb-05 3 1600000 1600000 0.060 81 184 2.16 4.38 22.22 23.32 0.2 74 mar-05 3 1600000 1600000 0.040 69 138 3.13 5.18 23.94 24.36 0.2 75 abr-05 3 24000000 1600000 0.040 71 321 3.79 4.24 25.50 70.00 0.2 76 may-05 3 24000000 1600000 0.180 43 215 1.40 3.70 13.10 26.76 0.2 77 jun-05 3 1100000 1600000 0.040 41 217 2.94 3.80 18.10 27.19 0.2 78 jul-05 3 300 1600000 0.060 27 62 2.93 3.29 19.50 25.20 0.4 79 ago-05 3 24000000 1600000 0.060 124 206 2.86 3.68 18.40 26.69 0.2 80 3 22000 1050000 0.118 98 237 2.29 3.35 21.01 27.51 0.5 81 sep-05 oct-05 3 24000000 24000000 0.080 52 108 1.70 1.81 12.40 14.50 0.2 82 nov-05 3 1500000 9300000 0.080 55 152 2.92 3.09 14.90 21.50 0.2 83 dic-05 3 9300000 24000000 0.080 109 240 2.70 4.84 25.40 30.20 0.2 84 ene-06 3 930000 11000000 0.210 99 299 1.96 2.42 18.60 21.30 0.2 85 feb-06 3 110000 210000 0.080 117 237 1.47 4.15 39.40 42.50 0.2 86 mar-06 3 110000 280000 0.080 95 256 3.54 4.03 26.90 29.70 0.2 87 abr-06 3 1100000 120000000 0.080 71 250 3.54 3.79 30.20 35.90 0.2 88 may-06 3 2200000 2400000 0.011 49 73 1.49 2.29 19.47 21.60 0.4 89 jun-06 3 1800000 2200000 0.033 149 222 1.68 1.93 11.09 13.42 2.4 90 jul-06 3 4561111 21487778 0.082 88 204 2.33 3.15 22.04 25.62 0.5 91 ago-06 3 2401235 21208642 0.082 92 215 2.40 3.30 23.11 26.86 0.5 92 sep-06 3 40000 500000 0.026 79 136 2.06 3.02 19.68 23.36 0.7 93 oct-06 3 5000 24000 0.055 155 280 1.76 2.56 16.88 19.15 0.5 100 PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 63 abr-04 3 0.010 2.5 1.0 123 39 388 16.47 7.37 111.07 388 6.74 64 may-04 3 0.010 0.3 1.0 136 70 415 21.90 6.16 94.70 395 7.03 65 jun-04 3 0.010 2.2 0.3 46 22 319 20.80 7.90 68.20 437 6.68 66 jul-04 3 0.010 3.3 0.5 57 40 331 13.30 9.80 66.40 373 6.95 67 ago-04 3 0.010 2.6 1.5 153 133 267 23.80 2.40 49.00 409 7.13 68 sep-04 3 0.010 3.0 1.1 177 14 481 20.40 1.00 94.30 600 6.71 69 oct-04 3 0.010 1.9 0.3 325 140 449 30.70 8.50 177.00 398 6.98 70 nov-04 3 0.050 2.1 0.1 63 17 314 27.00 5.60 36.80 499 6.94 71 dic-04 3 0.010 3.0 2.0 324 182 660 29.80 10.80 112.00 543 7.31 72 ene-05 3 0.030 2.5 0.2 89 42 408 19.20 17.90 48.50 568 7.06 73 feb-05 3 0.010 2.4 0.4 90 26 409 34.30 11.00 44.90 475 7.28 74 mar-05 3 0.010 2.6 0.3 57 26 334 19.90 12.10 31.60 555 7.10 75 abr-05 3 0.010 2.4 0.8 160 104 472 28.40 3.60 105.00 642 6.78 76 may-05 3 0.010 2.4 0.1 92 36 404 23.54 4.30 76.00 291 7.10 77 jun-05 3 0.010 2.5 8.0 350 126 405 24.08 4.30 85.00 403 7.44 78 jul-05 3 0.010 2.4 0.1 12 6 244 11.00 0.60 10.50 573 6.99 79 ago-05 3 0.010 2.4 2.5 178 92 394 22.79 3.70 75.20 399 6.90 80 sep-05 3 0.008 3.1 1.0 127 25 425 12.61 3.00 61.80 506 6.58 81 oct-05 3 0.160 0.4 0.1 119 58 311 8.70 1.60 107.00 349 6.69 No. 82 nov-05 3 0.160 0.7 0.1 50 43 307 23.60 3.20 32.00 485 7.10 83 dic-05 3 0.160 0.4 0.6 217 119 441 24.90 8.90 250.00 505 7.07 84 ene-06 3 0.160 0.5 0.5 270 93 478 27.40 2.30 228.00 415 7.02 85 feb-06 3 0.160 0.5 0.1 66 64 400 31.20 8.40 67.00 567 6.98 86 mar-06 3 0.160 0.5 0.8 142 106 497 23.00 4.60 136.00 614 6.87 87 abr-06 3 0.160 1.6 0.5 109 56 393 16.20 7.50 61.00 607 6.73 88 may-06 3 0.050 2.5 0.1 24 12 265 13.43 3.20 79.00 434 6.79 89 jun-06 3 0.005 4.1 0.3 165 149 451 21.04 2.87 64.00 437 6.75 90 jul-06 3 0.131 1.2 0.3 129 78 394 21.05 4.73 113.78 490 6.89 91 ago-06 3 0.010 1.3 0.4 130 80 403 22.42 5.08 114.53 506 6.91 92 sep-06 3 0.005 3.3 0.8 76 36 369 4.82 5.00 29.30 412 6.44 93 oct-06 3 0.005 1.8 0.5 56 32 315 16.25 2.15 60.82 577 6.49 101 Tabla 17. Matriz de datos medidos en la estación de monitoreo No. 4 No. PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 94 abr-04 4 350000 626667 0.017 19 79 3.45 3.90 23.44 28.64 0.2 95 may-04 4 130000 220000 0.010 27 198 2.53 4.11 14.58 18.43 0.2 96 jun-04 4 20000 20000 0.010 23 144 2.34 2.63 14.00 16.92 0.2 97 jul-04 4 1600000 1600000 0.010 19 63 2.12 2.64 13.92 16.83 0.2 98 ago-04 4 1600000 1600000 0.010 18 204 1.90 2.22 13.89 20.30 0.2 99 sep-04 4 2700 17000 0.020 12 57 1.62 2.71 13.40 19.88 0.2 100 oct-04 4 8000 1600000 0.020 19 84 2.04 2.94 13.61 18.84 0.2 101 nov-04 4 110000 110000 0.010 15 50 1.13 2.96 11.56 12.18 0.2 102 dic-04 4 260000 260000 0.010 10 157 1.73 2.34 11.66 13.33 0.2 103 ene-05 4 1600000 1600000 0.010 43 109 2.51 4.82 25.68 28.11 0.2 104 feb-05 4 300000 300000 0.010 54 97 3.17 5.09 23.33 25.19 0.2 105 mar-05 4 700000 700000 0.010 32 92 3.27 4.90 23.33 24.46 0.2 106 abr-05 4 24000000 721139 0.010 29 99 3.68 3.69 17.50 42.00 0.2 107 may-05 4 15000 729012 0.010 29 110 3.13 3.46 22.20 21.93 0.2 108 jun-05 4 9300 771429 0.010 22 113 2.52 3.42 17.00 21.42 0.2 109 jul-05 4 1700 834048 0.010 27 53 2.47 2.80 28.70 44.20 0.2 110 ago-05 4 4600 770219 0.010 54 107 2.64 3.41 17.90 23.29 0.2 111 sep-05 oct-05 4 1550 19500 0.011 18 50 0.81 2.11 11.94 15.90 0.4 112 4 150000 1100000 0.080 31 68 2.90 3.12 25.00 30.10 0.2 113 nov-05 4 1500 2100 0.080 16 53 2.47 2.54 14.20 22.50 0.2 114 dic-05 4 2400000 2400000 0.080 15 54 2.18 2.61 20.00 23.30 0.2 115 ene-06 4 90000 230000 0.080 30 113 2.61 5.90 21.20 24.10 0.2 116 feb-06 4 1500 2100 0.080 28 52 2.90 3.02 36.40 39.80 0.2 117 mar-06 4 900 2000 0.080 45 164 3.48 5.22 34.00 36.10 0.2 118 abr-06 4 430000 9300000 0.080 26 33 3.76 4.53 33.40 36.90 0.2 119 may-06 4 2600 22000 0.007 70 164 1.34 2.43 16.93 19.23 0.9 120 jun-06 4 5600 38000 0.001 86 138 1.06 1.92 8.32 11.51 2.1 121 jul-06 4 30 1600 0.001 96 194 0.64 0.80 7.76 9.50 0.5 122 ago-06 4 110 1600 0.001 34 60 0.67 0.83 8.65 10.09 0.6 123 sep-06 4 400 22000 0.001 24 42 0.01 1.50 10.48 11.91 0.6 124 oct-06 4 2 1600 0.001 80 155 0.60 0.95 6.20 8.15 0.3 102 No. PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 94 abr-04 4 0.010 2.7 0.1 8 3 280 9.03 2.87 13.33 444 6.67 95 may-04 4 0.010 0.4 4.0 81 68 934 18.40 5.24 101.00 406 6.92 96 jun-04 4 0.010 2.4 0.4 23 7 301 17.70 4.10 40.30 370 6.93 97 jul-04 4 0.010 3.0 0.5 6 3 227 13.90 9.70 14.10 342 6.83 98 ago-04 4 0.010 2.3 12.0 156 104 342 16.90 5.00 80.90 337 7.02 99 sep-04 4 0.010 2.4 0.1 11 3 186 12.40 1.00 8.80 424 6.75 100 oct-04 4 0.010 2.2 0.1 36 9 239 5.60 7.90 15.60 459 6.65 101 nov-04 4 0.050 1.7 0.1 16 10 200 15.60 3.70 11.70 350 6.58 102 dic-04 4 0.010 2.1 0.1 27 11 217 16.50 3.90 22.50 305 7.01 103 ene-05 4 0.070 2.3 0.2 22 17 337 13.70 11.00 13.30 504 6.95 104 feb-05 4 0.010 3.0 0.1 28 11 272 8.40 9.00 11.30 522 6.72 105 mar-05 4 0.010 2.2 0.5 24 9 306 22.00 9.30 13.30 508 7.09 106 abr-05 4 0.010 2.2 0.1 26 16 378 19.90 3.40 29.00 603 7.21 107 may-05 4 0.010 2.2 0.1 20 15 325 14.62 4.00 6.20 418 7.05 7.09 108 jun-05 4 0.010 2.3 0.1 4 3 328 15.05 3.60 1.90 441 109 jul-05 4 0.010 2.3 0.1 11 3 196 10.80 1.50 10.60 525 7.03 110 ago-05 4 0.010 2.3 0.1 8 4 317 14.41 2.40 6.60 383 6.89 111 sep-05 4 0.008 2.4 0.1 8 3 206 7.20 1.41 7.46 388 6.75 112 oct-05 4 0.160 0.7 0.1 11 9 256 5.90 2.70 15.40 517 6.82 113 nov-05 4 0.160 0.8 0.1 16 13 243 15.20 2.20 13.90 433 7.04 114 dic-05 4 0.160 0.5 0.1 16 13 257 5.80 2.90 21.10 434 6.79 115 ene-06 4 0.160 0.8 0.1 17 15 273 8.30 5.10 17.80 490 6.91 116 feb-06 4 0.160 0.8 0.1 11 10 280 17.00 2.50 14.30 567 7.04 117 mar-06 4 0.160 0.7 0.1 15 12 286 10.10 1.40 18.40 638 6.80 118 abr-06 4 0.160 1.7 0.1 15 12 268 15.00 4.20 16.60 559 6.64 119 may-06 4 0.005 2.7 0.1 49 42 295 9.73 1.00 20.20 452 6.83 120 jun-06 4 0.005 3.3 0.1 37 32 184 2.06 1.55 10.06 184 6.74 121 jul-06 4 0.005 1.0 0.1 15 12 137 6.70 3.10 16.40 226 6.91 122 ago-06 4 0.005 1.8 0.3 15 12 166 2.92 2.53 6.20 273 6.37 123 sep-06 4 0.005 2.4 0.1 4 2 225 1.99 1.81 6.12 351 6.74 124 oct-06 4 0.005 0.9 0.1 10 5 200 6.80 2.20 11.40 331 6.74 103 Tabla 18. Matriz de datos medidos en la estación de monitoreo No. 5 No. PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 125 abr-04 5 620000 1600000 0.013 37 108 3.18 3.40 24.77 29.23 0.2 126 may-04 5 1600000 1600000 0.010 23 140 2.07 3.59 15.08 16.10 0.2 127 jun-04 5 200000 360000 0.010 16 74 2.08 3.05 12.92 18.78 0.2 128 jul-04 5 1600000 1600000 0.010 41 94 2.47 3.02 16.24 18.64 0.2 129 ago-04 5 260000 1600000 0.010 22 72 2.26 2.81 14.30 17.75 0.2 130 sep-04 5 23000 1600000 0.070 72 349 2.31 4.16 18.16 26.96 0.2 131 oct-04 5 1600000 1600000 0.020 23 84 1.79 3.82 15.03 21.34 0.2 132 nov-04 5 1100000 1600000 0.010 15 71 1.48 2.87 9.64 14.89 0.2 133 dic-04 5 1600000 1600000 0.010 58 144 2.71 4.11 18.04 21.81 0.2 134 ene-05 5 1600000 1600000 0.010 39 99 1.72 4.89 24.17 24.46 0.2 135 feb-05 5 1600000 1600000 0.010 41 100 3.19 5.18 22.11 23.84 0.2 136 mar-05 5 1600000 1600000 0.020 69 116 2.80 5.00 23.73 24.36 0.2 137 abr-05 5 24000000 1600000 0.010 49 150 3.14 3.54 21.80 42.00 0.2 138 may-05 5 15000 1600000 0.010 43 123 2.97 3.80 17.10 23.09 0.2 139 jun-05 5 24000 1600000 0.010 35 124 2.73 3.83 19.70 22.62 0.2 140 jul-05 5 500 1600000 0.020 28 69 3.06 3.19 26.70 43.40 0.2 141 ago-05 5 11000000 1600000 0.020 43 120 3.16 3.77 18.60 24.33 0.2 142 5 13500 830000 0.036 52 202 1.31 3.27 15.42 20.78 0.6 143 sep-05 oct-05 5 24000000 24000000 0.080 30 66 3.10 3.48 23.90 30.80 0.2 144 nov-05 5 930 4600 0.080 35 79 2.24 2.92 12.30 19.20 0.2 145 dic-05 5 2400000 2400000 0.080 25 66 1.69 2.10 20.30 23.00 0.2 146 ene-06 5 430000 930000 0.800 24 91 2.40 5.29 21.40 24.30 0.2 147 feb-06 5 9000 28000 0.080 73 140 2.83 3.37 29.20 32.20 0.2 148 mar-06 5 9000 21000 0.080 50 174 3.49 4.84 30.40 32.30 0.2 149 abr-06 5 930000 2400000 0.080 37 77 3.42 4.02 32.90 38.30 0.2 150 may-06 5 2300 13000 0.010 80 183 2.15 3.65 16.38 18.87 1.0 151 jun-06 5 5600 25000 0.005 98 158 1.60 2.72 12.75 14.81 2.0 152 jul-06 5 900 30000 0.001 73 140 1.35 1.85 14.41 18.36 0.9 153 ago-06 5 1100 30000 0.001 86 155 0.46 1.05 12.00 13.66 0.4 154 sep-06 5 4000 60000 0.001 32 55 0.31 2.38 12.68 14.60 1.1 155 oct-06 5 8000 50000 0.001 63 138 0.95 1.93 12.80 13.20 0.4 104 PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 125 abr-04 5 0.010 2.6 0.1 30 11 290 12.23 2.73 26.30 434 6.69 126 may-04 5 0.010 0.4 0.7 14 8 270 9.60 3.09 32.90 405 6.89 127 jun-04 5 0.010 2.4 0.1 23 10 238 19.10 3.80 25.20 384 7.00 No. 128 jul-04 5 0.010 3.5 0.1 20 8 261 8.30 2.40 28.30 367 6.85 129 ago-04 5 0.010 2.4 0.1 33 23 195 15.50 1.00 14.70 357 7.09 130 sep-04 5 0.010 2.6 1.0 107 72 303 10.60 1.00 39.10 498 6.88 131 oct-04 5 0.010 2.3 0.1 39 36 251 12.20 11.70 27.10 473 6.71 132 nov-04 5 0.050 1.9 0.1 40 26 230 14.50 6.30 30.90 424 7.13 133 dic-04 5 0.010 2.7 0.1 28 6 319 32.70 10.60 60.10 422 7.14 134 ene-05 5 0.040 2.2 0.1 22 11 310 10.10 12.30 13.10 478 7.20 6.87 135 feb-05 5 0.010 2.8 0.1 38 12 318 13.00 13.00 16.80 490 136 mar-05 5 0.010 2.6 0.4 36 16 214 25.50 11.70 17.20 533 7.05 137 abr-05 5 0.050 1.9 0.1 33 32 380 20.10 3.70 40.00 587 7.30 138 may-05 5 0.010 2.7 0.1 15 11 275 15.65 3.80 12.00 423 7.04 139 jun-05 5 0.040 2.2 0.1 3 1 274 15.91 4.10 3.40 453 6.94 140 jul-05 5 0.010 2.8 0.1 11 5 246 17.00 1.50 20.08 603 6.78 141 ago-05 5 0.010 2.6 0.1 24 16 273 15.75 5.60 14.90 439 6.71 142 sep-05 5 0.008 2.5 0.6 59 40 288 6.46 1.06 24.75 449 6.78 143 oct-05 5 0.160 0.8 0.1 17 11 279 19.70 4.90 9.72 503 6.87 144 nov-05 5 0.160 0.8 0.3 20 17 231 5.30 2.70 27.40 440 6.72 145 dic-05 5 0.160 0.4 0.1 22 16 243 16.90 2.50 22.40 458 6.90 146 ene-06 5 0.160 0.6 0.1 26 21 277 9.70 7.40 31.70 486 6.97 147 feb-06 5 0.160 0.5 0.1 22 21 300 29.60 2.50 23.40 617 7.04 148 mar-06 5 0.160 0.6 0.1 19 17 277 17.70 3.10 22.30 651 6.88 149 abr-06 5 0.160 1.6 0.1 28 21 278 30.10 5.20 21.80 573 6.61 150 may-06 5 0.005 2.3 0.4 57 12 306 21.17 3.50 70.00 449 6.69 151 jun-06 5 0.005 2.6 0.1 52 42 276 3.22 2.85 40.00 401 7.03 152 jul-06 5 0.005 1.8 0.1 14 12 211 6.05 2.45 14.90 361 6.93 153 ago-06 5 0.005 1.9 0.1 15 13 216 3.03 1.78 13.70 380 6.60 154 sep-06 5 0.005 2.5 0.1 11 8 272 2.32 1.12 10.40 400 6.67 155 oct-06 5 0.005 1.9 0.1 20 10 260 5.20 1.80 15.20 412 6.81 105 Tabla 19. Matriz de datos medidos en la estación de monitoreo No. 6 No. PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 156 abr-04 6 846667 1233333 0.017 32 169 2.55 4.58 24.77 27.33 0.2 157 may-04 6 140000 140000 0.010 21 106 2.30 3.39 15.66 16.20 0.2 158 jun-04 6 330000 330000 0.010 12 43 2.07 2.86 13.17 17.32 0.2 159 jul-04 6 1600000 1600000 0.010 35 86 2.24 2.73 14.67 18.00 0.2 160 ago-04 6 400000 800000 0.010 22 72 2.10 2.55 13.97 15.77 0.2 161 sep-04 6 4 1600 0.020 18 63 1.82 3.16 14.63 19.99 0.2 162 oct-04 6 1600000 1600000 0.020 18 86 1.69 2.27 11.69 21.45 0.2 163 nov-04 6 1600000 1600000 0.010 12 61 1.55 2.98 15.05 15.98 0.2 164 dic-04 6 1600000 1600000 0.010 23 117 2.36 3.50 15.71 18.58 0.2 165 ene-05 6 1600000 1600000 0.030 82 151 2.57 5.46 25.43 28.21 0.2 166 feb-05 6 1600000 1600000 0.010 53 102 3.16 4.84 22.11 24.99 0.2 167 mar-05 6 1600000 1600000 0.040 98 220 3.35 6.17 23.43 27.90 0.2 168 abr-05 6 24000000 1600000 0.010 52 151 3.34 3.83 25.90 56.00 0.2 169 may-05 6 23000 1600000 0.010 38 110 3.22 3.72 23.20 23.67 0.2 170 jun-05 6 15000 1600000 0.030 23 105 2.36 3.65 19.00 23.39 0.2 171 jul-05 6 2400 1600000 0.010 28 60 3.11 3.33 29.80 39.70 0.2 172 ago-05 6 24000 1600000 0.040 27 106 2.82 3.69 17.60 24.66 0.2 173 sep-05 oct-05 6 202 8800 0.011 26 62 1.26 2.50 13.11 16.63 0.6 174 6 40000 150000 0.080 28 54 6.10 6.46 21.50 27.20 0.2 175 nov-05 6 1500 4600 0.080 34 82 2.26 3.08 13.30 18.60 0.2 176 dic-05 6 2400000 2400000 0.080 29 100 2.16 3.27 21.20 24.50 0.2 177 ene-06 6 430000 2400000 0.080 39 111 2.25 3.06 19.60 25.30 0.2 178 feb-06 6 4000 7000 0.080 48 120 1.09 3.24 34.80 37.60 0.2 179 mar-06 6 4000 9000 0.080 77 248 3.55 3.59 34.90 36.00 0.2 180 abr-06 6 280000 6400000 0.080 23 61 3.61 4.24 33.30 38.90 0.2 181 may-06 6 8000 50000 0.007 22 79 1.87 2.67 17.47 19.88 0.9 182 jun-06 6 395938 1427575 0.071 38 107 2.86 3.70 24.51 28.50 0.3 183 jul-06 6 440430 1587272 0.070 39 113 2.46 3.36 24.88 28.66 0.3 184 ago-06 6 495296 1785106 0.068 39 117 2.48 3.39 26.33 29.92 0.3 185 sep-06 6 400 16000 0.001 34 60 0.70 1.85 11.58 13.26 1.0 186 oct-06 6 2 11 0.001 55 68 1.67 2.26 9.15 12.80 0.5 106 PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T 156 abr-04 6 0.010 3.3 1.1 134 74 405 157 may-04 6 0.010 0.4 0.1 24 18 246 158 jun-04 6 0.010 2.3 0.1 15 6 230 159 jul-04 6 0.010 3.0 0.1 18 13 160 ago-04 6 0.010 2.5 0.1 17 13 161 sep-04 6 0.010 2.4 0.1 30 14 218 16.20 1.00 10.60 450 6.71 162 oct-04 6 0.010 2.3 0.1 60 3 245 24.70 6.90 33.90 455 7.03 163 nov-04 6 0.050 2.0 0.1 40 16 233 13.40 5.90 26.80 435 6.67 164 dic-04 6 0.010 2.6 1.3 24 8 312 27.20 15.90 41.60 369 7.05 165 ene-05 6 0.010 2.3 4.0 60 26 391 8.20 15.50 26.40 517 7.17 6.94 No. S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH 12.63 7.77 147.07 436 6.66 10.60 8.15 16.90 416 6.83 16.60 2.20 19.10 371 7.00 250 13.50 2.30 27.90 333 6.87 192 13.70 1.00 7.90 339 7.17 166 feb-05 6 0.010 2.7 0.2 58 10 318 11.50 13.30 16.90 482 167 mar-05 6 0.010 2.7 10.0 88 60 166 29.40 4.20 109.00 530 6.70 168 abr-05 6 0.010 2.4 0.5 47 30 360 21.40 3.90 50.00 581 6.98 169 may-05 6 0.010 2.3 0.1 22 10 274 16.85 4.40 5.70 422 6.95 170 jun-05 6 0.010 2.5 0.1 4 2 264 17.17 4.40 2.80 440 6.95 171 jul-05 6 0.010 2.5 0.1 10 6 249 17.30 2.60 14.40 612 6.88 172 ago-05 6 0.010 2.4 0.1 12 6 272 16.90 2.20 8.70 438 6.77 173 sep-05 6 0.008 2.5 0.6 26 13 235 9.08 1.63 12.30 412 6.65 174 oct-05 6 0.160 0.8 0.1 13 11 256 10.40 2.70 9.50 514 6.82 175 nov-05 6 0.160 0.6 0.1 22 19 223 15.30 1.80 30.60 456 6.76 176 dic-05 6 0.160 0.4 1.0 64 44 281 18.20 5.60 57.30 445 6.86 177 ene-06 6 0.160 0.3 0.1 23 21 286 6.30 3.60 26.90 487 7.00 178 feb-06 6 0.160 0.4 0.1 13 12 310 35.60 5.20 18.30 565 6.93 179 mar-06 6 0.160 0.5 0.1 36 20 374 22.20 4.20 41.10 651 6.95 180 abr-06 6 0.160 1.7 0.1 40 37 274 15.40 4.80 28.90 575 6.85 181 may-06 6 0.005 2.6 0.1 15 10 264 7.09 1.50 10.15 457 6.66 182 jun-06 6 0.141 0.9 0.1 28 22 284 16.31 3.68 27.84 519 6.85 183 jul-06 6 0.138 0.9 0.1 30 23 287 17.05 3.80 30.14 519 6.86 184 ago-06 6 0.135 1.0 0.1 31 24 295 17.27 4.05 30.08 527 6.87 185 sep-06 6 0.005 2.6 1.0 21 11 251 1.96 2.25 14.00 374 6.59 186 oct-06 6 0.005 1.6 0.1 15 5 175 5.35 1.60 12.80 386 6.62 107 Tabla 20. Matriz de datos medidos en la estación de monitoreo No. 7 No. PERIODO DE MUESTREO ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO 187 abr-04 7 1366667 1600000 0.047 50 127 2.70 3.67 22.78 26.70 0.2 188 may-04 7 1600000 1600000 0.010 18 103 2.13 3.19 15.33 20.12 0.2 189 jun-04 7 40000 70000 0.020 16 46 2.15 2.67 13.92 17.62 0.2 190 jul-04 7 1600000 1600000 0.010 31 109 2.51 2.60 15.58 19.45 0.2 191 ago-04 7 400000 1600000 0.010 15 78 2.19 2.59 14.05 17.02 0.2 192 sep-04 7 11000 900000 0.020 26 79 1.78 3.37 15.78 21.45 0.2 193 oct-04 7 1600000 1600000 0.030 25 92 1.51 2.08 10.98 20.09 0.2 194 nov-04 7 1600000 1600000 0.030 44 121 1.48 2.86 14.50 18.32 0.2 195 dic-04 7 1600000 1600000 0.010 64 148 2.70 4.16 17.58 23.06 0.2 196 ene-05 7 1600000 1600000 0.030 86 153 2.49 5.25 26.70 28.42 0.2 197 feb-05 7 1600000 1600000 0.010 73 143 2.66 4.59 19.41 23.53 0.2 198 mar-05 7 1600000 1600000 0.010 66 116 2.98 5.07 25.25 27.48 0.2 199 abr-05 7 24000000 1600000 0.030 36 139 3.78 3.85 26.80 28.00 0.2 200 may-05 7 24000 1600000 0.010 47 112 2.65 3.53 20.40 22.40 0.2 201 jun-05 7 46000 1600000 0.030 32 111 2.64 3.52 19.50 22.07 0.2 202 jul-05 7 110000 1600000 0.010 23 61 2.90 3.25 19.50 29.40 0.3 203 ago-05 7 93000 1600000 0.010 35 109 3.01 3.52 20.30 22.82 0.2 204 7 6150 495000 0.044 32 71 1.35 2.73 13.96 17.90 0.7 205 sep-05 oct-05 7 93000 240000 0.080 21 80 3.10 3.36 21.80 25.00 0.2 206 nov-05 7 150 1500 0.080 26 131 2.58 2.63 15.60 22.80 0.2 207 dic-05 7 1500000 9300000 0.080 44 95 2.20 3.96 20.40 22.30 0.2 208 ene-06 7 230000 430000 0.080 36 149 1.99 2.83 17.30 23.50 0.2 209 feb-06 7 7000 28000 0.080 76 175 1.19 3.66 36.80 40.10 0.2 210 mar-06 7 4000 21000 0.080 54 204 4.01 4.46 26.70 28.50 0.2 211 abr-06 7 4300000 240000000 0.080 65 149 3.58 3.90 31.90 38.00 0.2 212 may-06 7 26000 1400000 0.012 46 101 1.02 2.38 14.20 16.22 1.1 213 jun-06 7 770019 31427563 0.072 46 136 2.46 3.40 23.09 27.05 0.3 214 jul-06 7 854646 35326008 0.070 49 142 2.38 3.40 23.25 27.31 0.3 215 ago-06 7 961458 39741571 0.069 52 144 2.35 3.50 24.20 27.87 0.3 216 sep-06 7 1300 90000 0.068 37 63 0.91 2.09 12.14 14.34 1.1 217 oct-06 7 170000 500000 0.066 40 70 0.74 2.60 10.53 10.80 0.5 108 PERIODO DE MUESTREO ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD 187 abr-04 7 0.013 2.6 0.7 62 32 335 14.53 4.97 67.73 415 6.58 188 may-04 7 0.010 0.4 0.1 22 18 264 11.50 5.24 23.40 410 6.88 7.05 No. PH 189 jun-04 7 0.010 2.4 0.1 11 7 242 14.70 7.40 19.90 407 190 jul-04 7 0.010 3.1 0.3 60 47 244 14.40 0.70 22.70 350 6.93 191 ago-04 7 0.010 2.4 0.1 20 8 196 13.70 1.00 7.40 334 7.11 192 sep-04 7 0.010 2.5 0.1 16 2 228 15.80 1.00 12.70 461 6.87 193 oct-04 7 0.010 2.2 0.2 66 4 274 26.60 8.20 43.40 445 6.86 194 nov-04 7 0.050 1.9 0.1 62 30 286 9.70 5.80 40.10 436 7.01 195 dic-04 7 0.010 2.8 1.0 40 33 342 31.20 8.50 56.20 406 7.14 196 ene-05 7 0.030 2.3 0.6 42 4 372 7.10 12.20 22.90 524 7.21 197 feb-05 7 0.010 2.6 0.6 62 24 368 19.50 11.10 31.50 491 7.05 198 mar-05 7 0.010 2.6 0.1 40 19 308 20.00 11.00 19.90 542 6.79 199 abr-05 7 0.050 2.3 0.1 210 124 504 22.60 4.30 57.00 620 6.77 200 may-05 7 0.010 2.3 0.1 32 25 305 17.03 4.40 18.00 375 7.03 201 jun-05 7 0.030 2.5 0.1 4 3 303 17.22 4.60 3.40 456 6.84 202 jul-05 7 0.010 2.5 0.1 13 3 250 10.30 1.10 12.20 586 6.90 203 ago-05 7 0.010 2.4 0.1 40 15 301 16.62 4.20 15.10 432 6.80 204 sep-05 7 0.008 2.5 0.1 14 5 241 8.93 1.08 11.01 422 6.68 205 oct-05 7 0.160 0.8 0.1 15 14 270 12.90 4.80 13.40 506 6.80 206 nov-05 7 0.160 0.7 0.5 25 23 256 4.20 1.50 20.50 460 7.04 207 dic-05 7 0.160 0.5 0.1 32 30 276 20.70 2.80 34.00 410 6.91 208 ene-06 7 0.160 0.4 0.3 38 27 264 16.00 2.30 56.90 390 6.87 209 feb-06 7 0.160 0.6 0.1 28 23 327 31.70 6.20 28.70 537 6.99 210 mar-06 7 0.160 0.7 0.1 26 19 386 18.30 3.90 27.90 648 6.84 211 abr-06 7 0.160 1.6 0.1 46 38 313 12.00 3.60 42.30 300 6.77 212 may-06 7 0.050 2.4 0.6 64 8 304 13.92 2.50 107.00 414 6.91 213 jun-06 7 0.146 1.0 0.2 34 9 300 16.22 3.45 41.34 458 6.89 214 jul-06 7 0.145 1.0 0.3 37 8 303 16.63 3.28 44.83 452 6.90 215 ago-06 7 0.143 1.0 0.2 38 13 309 18.18 3.50 47.87 451 6.89 216 sep-06 7 0.005 2.5 0.1 11 7 254 2.05 1.16 9.32 382 6.48 217 oct-06 7 0.005 1.8 0.1 15 8 280 3.00 2.10 10.55 447 6.72 109 ANEXO 2 GRÁFICAS. ANÁLISIS TEMPORAL Y ESPACIAL DE ALGUNOS PARÁMETROS FISICOQUÍMICOS 110 Gráfica 13. Comportamiento temporal de los Coliformes fecales por estación de monitoreo ESTACION DE MONITOREO 3 3000000 30000000 2500000 25000000 NMP/100ml 2000000 1500000 1000000 C. FECALES 500000 15000000 10000000 C. FECALES 5000000 PERIODO DE MUESTREO PERIODO DE MUESTREO ESTACION DE MONITOREO 2 ESTACION DE MONITOREO 4 30000000 25000000 25000000 NMP/100ml 30000000 20000000 15000000 10000000 C. FECALES 5000000 jul-06 oct-06 abr-06 ene-06 jul-05 oct-05 abr-05 ene-05 jul-04 oct-04 abr-04 jul-06 oct-06 abr-06 oct-05 ene-06 jul-05 abr-05 ene-05 jul-04 oct-04 0 abr-04 0 20000000 15000000 10000000 C. FECALES 5000000 PERIODO DE MUESTREO PERIODO DE MUESTREO 111 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 abr-04 jul-06 oct-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 0 jul-04 0 abr-04 NMP/100ml 20000000 jul-04 NMP/100ml ESTACION DE MONITOREO 1 ESTACION DE MONITOREO 7 30000000 30000000 25000000 25000000 NMP/100ml 20000000 15000000 10000000 C. FECALES 5000000 15000000 10000000 C. FECALES 5000000 PERIODO DE MUESTREO 30000000 25000000 20000000 15000000 10000000 C. FECALES 5000000 jul-06 oct-06 abr-06 oct-05 ene-06 jul-05 abr-05 oct-04 ene-05 0 jul-04 PERIODO DE MUESTREO 112 oct-06 jul-06 abr-06 ene-06 jul-05 oct-05 abr-05 ene-05 PERIODO DE MUESTREO ESTACION DE MONITOREO 6 abr-04 jul-04 abr-04 jul-06 oct-06 abr-06 oct-05 ene-06 jul-05 abr-05 oct-04 ene-05 jul-04 0 abr-04 0 NMP/100ml 20000000 oct-04 NMP/100ml ESTACION DE MONITOREO 5 Gráfica 14. Comportamiento temporal del DQO por estación de monitoreo ESTACION DE MONITOREO 1 ESTACION DE MONITOREO 2 PERIODO DE MUESTREO ESTACION DE MONITOREO 3 ESTACION DE MONITOREO 4 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 oct-04 jul-04 abr-04 ene-05 PERIODO DE MUESTREO 300 mg\L PERIODO DE MUESTREO PERIODO DE MUESTREO 113 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 DQO abr-04 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 100 0 DQO jul-04 200 jul-04 500 400 300 200 100 0 abr-04 mg\L DQO abr-04 DQO 0 abr-05 50 ene-05 100 oct-04 mg\L mg\L 150 300 250 200 150 100 50 0 jul-04 200 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 jul-04 abr-04 mg\L PERIODO DE MUESTREO ESTACION DE MONITOREO 7 300 200 100 0 DQO PERIODO DE MUESTREO 114 PERIODO DE MUESTREO oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 DQO jul-04 mg\L 400 300 200 100 0 abr-04 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 jul-04 abr-04 mg\L ESTACION DE MONITOREO 5 ESTACION DE MONITOREO 6 300 200 100 0 DQO Gráfica 15. Comportamiento temporal del Oxígeno disuelto por estación de monitoreo ESTACION DE MONITOREO 2 2,5 2,5 2,0 2,0 1,5 1,5 mg\L 1,0 0,5 1,0 0,5 O. DISUELTO O. DISUELTO PERIODO DE MUESTREO oct-06 jul-06 abr-06 ene-06 jul-05 oct-05 abr-05 PERIODO DE MUESTREO ESTACION DE MONITOREO 3 ESTACION DE MONITOREO 4 3,0 2,5 2,5 2,0 mg\L 2,0 1,5 1,0 1,5 1,0 0,5 O. DISUELTO 0,5 O. DISUELTO PERIODO DE MUESTREO PERIODO DE MUESTREO 115 oct-06 jul-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 oct-04 jul-04 abr-04 oct-06 jul-06 abr-06 oct-05 ene-06 jul-05 abr-05 ene-05 oct-04 0,0 jul-04 0,0 abr-04 mg\L ene-05 oct-04 abr-04 oct-06 jul-06 abr-06 oct-05 ene-06 jul-05 abr-05 ene-05 oct-04 jul-04 0,0 abr-04 0,0 jul-04 mg\L ESTACION DE MONITOREO 1 ESTACION DE MONITOREO 6 2,5 1,2 2,0 1,0 0,8 1,5 mg\L 1,0 0,4 0,5 O. DISUELTO O. DISUELTO 0,2 PERIODO DE MUESTREO 1,2 1,0 0,8 0,6 0,4 O. DISUELTO 0,2 oct-06 jul-06 abr-06 oct-05 ene-06 jul-05 abr-05 ene-05 oct-04 0,0 jul-04 PERIODO DE MUESTREO 116 jul-06 oct-06 abr-06 ene-06 oct-05 jul-05 abr-05 ene-05 PERIODO DE MUESTREO ESTACION DE MONITOREO 7 abr-04 oct-04 abr-04 oct-06 jul-06 abr-06 oct-05 ene-06 jul-05 abr-05 ene-05 oct-04 jul-04 0,0 abr-04 0,0 mg\L 0,6 jul-04 mg\L ESTACION DE MONITOREO 5 Gráfica 16. Análisis espacial – comportamiento de los parámetros fisicoquímicos por estación de monitoreo ANÁLISIS ESPACIAL ANÁLISIS ESPACIAL 25,000 2,050 2,000 PROMEDIO PROMEDIO 20,000 15,000 10,000 SULFATOS mg/L 5,000 1,950 1,900 1,850 RAS mg/l 1,800 1,750 0,000 1,700 1 2 3 4 5 6 7 1 2 ESTACIONES DE MONITOREO 3 PROMEDIO PROMEDIO ms CONDUCTIVIDAD 3 4 5 6 6 7 ANÁLISIS ESPACIAL 490,000 480,000 470,000 460,000 450,000 440,000 430,000 420,000 410,000 400,000 2 5 ESTACIONES DE MONITOREO ANÁLISIS ESPACIAL 1 4 7 3,600 3,500 3,400 3,300 3,200 3,100 3,000 2,900 2,800 FÓSFORO TOTAL mg/l 1 ESTACIONES DE MONITOREO 2 3 4 5 6 ESTACIONES DE MONITOREO 117 7 ANÁLISIS ESPACIAL ANÁLISIS ESPACIAL 2,600 2,400 PROMEDIO PROMEDIO 2,500 2,300 2,200 ORTOFOSFATO mg/l 2,100 2,000 1,900 1 2 3 4 5 6 21,000 20,500 20,000 19,500 19,000 18,500 18,000 17,500 17,000 7 N. AMONIACAL mg/l 1 ESTACIONES DE MONITOREO 2 6,000 26,000 5,000 25,000 PROMEDIO PROMEDIO 27,000 4,000 3,000 SULFUROS mg/l 2,000 20,000 6 7 N. KJELDAHL mg/l 22,000 0,000 5 7 23,000 21,000 4 6 24,000 1,000 3 5 ANÁLISIS ESPACIAL 7,000 2 4 ESTACIONES DE MONITOREO ANÁLISIS ESPACIAL 1 3 1 ESTACIONES DE MONITOREO 2 3 4 5 6 ESTACIONES DE MONITOREO 118 7 ANEXO 3 HISTOGRAMAS DE LOS PARÁMETROS FISICOQUÍMICO SIN TRANSFORMACIÓN LOGARITMICA 119 120 ANEXO 4 HISTOGRAMAS CON TRANSFORMACIÓN LOGARITMICA 121 122 ANEXO 5 GRAFICA. COMPONENTES vs COMPONENTES 123 124 ANEXO 6 MATRIZ DE CORRELACIÓN DEL ACP DE LA FASE 2 Y 3 125 Tabla 21. Fase 2: Matriz de correlación - ACP método estadístico convencional - se retiró los coliformes fecales y totales CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9 Componente 10 -0.5916 0.1363 0.5906 -0.0798 0.0993 -0.0611 0.0829 -0.0444 0.0793 -0.2269 0.3828 -0.1229 0.0697 -0.146 0.0632 -0.0243 0.0563 0.0014 0.0215 -0.5383 -0.4399 0.1427 0.4859 -0.222 0.2402 0.1736 0.0588 -0.1652 0.0526 0.1062 0.1078 -0.0542 -0.0658 -0.0103 -0.1615 -0.1788 -0.0165 -0.0334 -0.6944 -0.4499 0.0047 0.1487 -0.1676 0.1281 0.1869 -0.0208 -0.3384 -0.1344 -0.0396 -0.0432 -0.081 0.0579 -0.0146 0.2181 0.1387 0.0106 0.0167 -0.547 0.4191 -0.2798 -0.0445 0.0658 -0.3192 0.2797 0.3905 -0.0993 0.1519 -0.0742 -0.2194 -0.034 -0.137 0.0269 -0.0128 -0.0206 0.0002 0.0029 -0.6374 0.3938 -0.3156 0.1702 0.2233 0.1448 0.2137 0.1375 0.0801 -0.0993 0.0423 0.0894 0.2799 0.2245 -0.123 -0.0359 0.0446 -0.0123 -0.0359 -0.6845 0.5495 -0.0212 0.3178 0.0099 -0.0518 -0.0371 -0.0918 0.0712 0.1362 0.0587 0.0637 -0.171 0.1255 0.0084 -0.0385 0.0279 0.0425 0.1875 -0.6976 0.5126 -0.0986 0.2464 -0.0686 -0.1968 -0.1006 -0.1385 0.0822 0.0376 0.0297 0.0861 -0.2088 -0.0231 -0.0071 -0.023 0.1281 -0.0021 -0.1728 0.4117 -0.4947 0.241 0.5188 -0.184 0.0947 -0.0142 0.1203 0.2538 0.2592 0.0309 -0.1673 0.1308 0.0189 0.049 0.0332 0.1383 0.0175 -0.0131 -0.3848 0.4254 0.7106 -0.133 0.0142 0.0989 -0.0029 0.0846 0.1103 0.1524 0.0176 -0.0007 -0.049 0.0948 -0.0795 0.2146 -0.1721 -0.0028 -0.0452 0.202 -0.3158 -0.7353 0.3258 -0.0038 -0.2037 -0.1465 0.0945 0.1494 -0.115 0.2363 0.0194 -0.0458 -0.0411 -0.0471 0.1682 -0.1142 -0.0377 0.0142 126 CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 11 Componente 12 Componente 13 Componente 14 Componente 15 Componente 16 Componente 17 Componente 18 Componente 19 -0.4565 -0.5294 -0.2081 -0.1111 0.2775 -0.2027 0.2366 -0.4307 -0.0248 0.27 0.0655 -0.015 0.1042 0.0109 0.0525 0.0407 -0.0498 -0.0051 -0.0167 -0.6669 -0.6387 0.0256 -0.1337 0.0592 -0.1323 -0.084 0.1354 0.1106 -0.0535 -0.0539 0.1098 0.0139 -0.0245 -0.0262 -0.0088 -0.0203 0.224 -0.0144 -0.6599 -0.534 0.2001 -0.0998 0.0668 -0.1508 0.0158 0.1918 0.1658 -0.0646 -0.1169 0.191 -0.0397 0.0866 0.2443 0.0037 0.0142 -0.1191 0.0132 -0.7902 -0.2351 -0.1028 0.0759 -0.0046 0.08 -0.1195 -0.1517 0.1534 -0.1819 -0.1745 -0.3764 -0.0659 0.1158 -0.0081 -0.0672 -0.0935 -0.0163 -0.0127 -0.6506 0.093 -0.2012 -0.3093 -0.3448 -0.0555 -0.3871 0.0683 -0.2232 0.1353 0.173 -0.0523 0.1635 0.1332 0.0957 -0.0245 -0.0124 -0.0019 -0.0146 -0.4856 -0.0089 -0.3635 -0.1373 0.3923 0.6082 -0.1705 0.0886 0.0193 0.1197 0.0499 -0.0148 -0.0887 -0.1344 0.0805 0.0299 0.04 -0.0014 -0.0078 -0.6762 -0.5419 0.181 -0.1728 0.029 -0.1055 -0.1831 0.0482 0.0179 0.1004 -0.0284 0.0289 0.0067 -0.105 -0.3093 -0.0467 0.0782 -0.0996 0.0422 -0.6262 0.4642 0.0542 0.3697 -0.061 -0.0196 -0.1762 -0.1356 -0.0161 -0.0534 -0.2324 0.076 0.2604 -0.2372 0.0552 0.0815 -0.0418 -0.0059 0.028 -0.3648 0.1333 -0.3739 -0.443 -0.5384 0.2035 0.2756 -0.0879 0.2936 0.0084 -0.0017 0.0507 0.0025 -0.0892 -0.0157 0.0199 0.0107 -0.0032 0.021 127 Tabla 22. Fase 3: Matriz de correlación - ACP método estadístico convencional - se retiró el cromo, plomo, los coliformes, oxigeno disuelto, sólidos suspendido DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL RAS S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9 0.5852 0.3829 0.3090 -0.3230 0.0335 -0.4276 0.1188 -0.1615 0.1639 -0.0577 -0.0666 0.0311 0.2214 -0.0420 0.0221 0.7251 0.4094 0.0943 -0.1218 0.0022 -0.3058 0.1439 -0.1896 -0.1913 -0.0032 0.0714 -0.0534 -0.2952 0.0276 -0.0143 0.5392 -0.4810 -0.1644 0.0489 -0.2425 0.2740 0.4464 -0.2229 -0.1410 -0.1060 -0.1713 -0.0151 0.0704 0.0047 -0.0006 0.6414 -0.4879 -0.1281 -0.2325 0.1906 0.0781 0.2563 0.0520 0.0621 0.3049 0.2266 0.1401 0.0065 -0.0265 0.0296 0.6682 -0.6054 0.2411 -0.0737 -0.0257 0.0019 -0.0711 0.0567 0.1220 -0.2002 0.1433 0.0074 0.0183 0.1572 -0.1178 0.6855 -0.5739 0.1679 -0.0295 -0.1865 0.0221 -0.1424 0.1137 0.0932 -0.2074 0.0309 0.0053 -0.1249 -0.1668 0.0843 -0.1046 0.1173 -0.4970 -0.7294 -0.4017 0.0426 -0.1583 0.0329 0.0459 0.0147 -0.0380 -0.0083 -0.0279 0.0456 0.0173 0.6864 0.6287 -0.0715 0.0284 -0.0956 0.2124 0.0191 0.0963 0.0884 0.0569 -0.0330 0.0086 -0.0123 -0.1112 -0.1978 0.6628 0.5588 0.0977 0.1116 -0.0763 0.2253 0.1474 0.1671 0.1631 0.0403 0.0655 -0.2694 0.0171 0.0621 0.1045 128 DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL RAS S.S.T S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH Componente 10 Componente 11 Componente 12 Componente 13 Componente 14 Componente 15 0.8130 0.1737 -0.0414 -0.0782 0.0546 -0.0133 -0.1548 0.2456 -0.4209 -0.0545 0.0691 0.0005 0.1685 -0.0070 0.0177 0.6569 -0.0990 -0.3053 0.3406 -0.1783 -0.0301 -0.3559 -0.3848 0.0269 0.1119 0.1327 -0.0642 0.0834 -0.0096 0.0080 0.5061 -0.0476 -0.4215 -0.1815 0.6691 0.1374 -0.1106 -0.0931 0.0682 -0.1326 -0.1189 -0.0765 -0.0334 -0.0050 0.0078 0.6762 0.5672 0.0494 0.1807 -0.0385 0.1979 -0.1040 -0.0150 0.0609 -0.0386 -0.0995 0.3225 -0.0536 0.0782 0.0784 0.6208 -0.5057 0.3531 -0.0500 -0.0071 -0.0494 -0.2015 0.0677 -0.0248 0.2864 -0.3062 -0.0693 -0.0393 0.0336 -0.0107 0.3757 -0.1650 -0.6053 0.3736 -0.0773 -0.4659 0.1324 0.2606 0.0898 -0.0117 -0.0886 0.0202 -0.0113 0.0240 -0.0051 129