Estudio comparativo de técnicas estadística multivariada versus las

Anuncio
ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIVARIADA
VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁLISIS DE
DATOS DE CALIDAD DE AGUA
JUAN CARLOS RODRÍGUEZ CAMPO
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
MAESTRIA EN HIDROSISTEMAS
BOGOTÁ D.C.
2008
ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIVARIADA
VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁLISIS DE
DATOS DE CALIDAD DE AGUA
JUAN CARLOS RODRÍGUEZ CAMPO
Trabajo de grado para optar el título de
MAGISTER EN HIDROSISTEMAS
Director
OSCAR GARCÍA-CABREJO
Geólogo, M.Sc.
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
MAESTRIA EN HIDROSISTEMAS
BOGOTÁ D.C.
2008
2
ACEPTACIÓN
____________________________
____________________________
____________________________
____________________________
____________________________
3
Este trabajo lo dedico
a Dios y a mi familia,
por su apoyo incondicional
en la realización de este sueño
Gracias…..
4
AGRADECIMIENTO
El autor expresa su agradecimiento a:
Oscar García-Cabrejo; Geólogo, amigo y director del proyecto, por su orientación
y tiempo compartido para la ejecución de proyecto
Nelson Obregón Neira; Ing. Civil, director de la Maestría, por su constante
motivación y amistad
Compañeros de estudio y profesores; por compartir su amistad y hacer amena el
tiempo que pase realizando la maestría.
5
TABLA DE CONTENIDO
OBJETIVOS
INTRODUCCIÓN
1
MARCO TEÓRICO
15
1.1 ESTADÍSTICA MULTIVARIADA
1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTIGACIÓN
1.1.1.1 Análisis de Componentes Principales (ACP)
1.1.1.2 Análisis Discriminante (AD)
1.2 REDES NEURONALES
1.2.1 NEURONAS BIOLÓGICAS
1.2.2 REDES NEURONALES ARTIFICIALES (RNA)
1.2.2.1 Modelo General de una Neurona Artificial
1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALES
1.2.3.1 Arquitectura o topología de las redes neuronales
1.2.3.2 Mecanismo de aprendizaje
1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFICIALES (RNA)
1.2.5 REDES NEURONALES HEBBIANAS
1.2.5.1 Componentes Principales Usando Redes Neuronales Hebbianas
1.2.6 RED NEURONAL TIPO PERCEPTRON
1.2.6.1 Estructura de la Red
2
DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE ANÁLISIS
2.1 ÁREA DE ESTUDIO
2.1.1 LOCALIZACIÓN GEOGRÁFICA
2.2 CONJUNTO DE DATOS UTILIZADOS
3
ANÁLISIS EXPLORATORIO DE DATOS (AED)
3.1 ESTADÍSTICA BÁSICA
3.1.1 TABLAS
3.1.2 GRÁFICAS
4
15
18
19
21
23
23
24
26
27
28
30
33
34
35
37
38
41
41
41
42
46
46
46
50
APLICACIÓN DE LOS MÉTODOS
61
4.1 ASOCIACIÓN ENTRE VARIABLES
4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)
4.1.1.1 Procedimiento
4.1.1.2 Resultados
4.1.2 REDES NEURONALES ARTIFICIALES (RNA)
4.1.2.1 Procedimiento
4.1.2.2 Resultados
4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN
4.2 CLASIFICACIÓN DE LAS VARIABLES
4.2.1 ANALISIS DISCRIMINANTE (AD)
4.2.1.1 Procedimiento
4.2.1.2 Resultados
6
63
63
63
68
69
69
73
74
74
76
76
77
4.2.1.3 Matriz de Confusión
4.2.2 REDES NEURONALES ARTIFICIALES (RNA)
4.2.2.1 Procedimiento
4.2.2.2 Resultados
4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN
80
82
83
87
90
5
CONCLUSIONES
91
6
RECOMENDACIONES
93
7
BIBLIOGRAFÍA
94
8
ANEXOS
96
7
LISTA DE TABLAS
TABLA 1. PARÁMETROS FISICOQUÍMICOS MEDIDOS
TABLA 2. MATRIZ DE DATOS DE LA ESTACIÓN NO. 1 USADOS EN EL PROYECTO
TABLA 3. RESULTADOS DEL ANÁLISIS ESTADÍSTICOS BÁSICO
TABLA 4. PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS MEDIDOS
TABLA 5. METODOLOGÍAS EMPLEADAS EN LA INVESTIGACIÓN
TABLA 6. MATRIZ DE CORRELACIÓN - ACP MÉTODO ESTADÍSTICO CONVENCIONAL
TABLA 7. MATRIZ DE CORRELACIÓN OBTENIDA CON LA RED NEURONAL ARTIFICIAL
TABLA 8. MATRIZ DE RESULTADO DEL AD - MÉTODO ESTADÍSTICO
TABLA 9. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE
43
44
47
48
61
66
71
78
81
DATOS CALIBRADOS
TABLA 10. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE
81
DATOS DE VALIDACIÓN
TABLA 11. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE
85
DATOS DE CALIBRACIÓN
TABLA 12. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE
86
DATOS DE VALIDACIÓN
TABLA 13. RESULTADO DEL AD CON LA RNA
87
TABLA 14. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE
DATOS COMPLETOS
89
8
LISTA DE FIGURAS
ILUSTRACIÓN 1. ESQUEMA DE LA REPRESENTACIÓN DE UNA MATRIZ DE DATOS
ILUSTRACIÓN 2. FUNCIÓN DISCRIMINANTE
ILUSTRACIÓN 3. ESTRUCTURA Y PARTES DE UNA NEURONA BIOLÓGICA
ILUSTRACIÓN 4. ESTRUCTURA DE UNA RED NEURONAL ARTIFICIAL
ILUSTRACIÓN 5. MODELO GENÉRICO DE UNA NEURONA ARTIFICIAL
ILUSTRACIÓN 6. ESTRUCTURA JERÁRQUICA DE UN SISTEMA BASADO EN RNA
ILUSTRACIÓN 7. ESTRUCTURAS DE UNA RED MULTICAPA Y MONOCAPA
ILUSTRACIÓN 8. ESTRUCTURA DE UNA RED NEURONAL DE TIPO HEBBIANO MODIFICADO DE MORENOSÁNCHEZ & GARCÍA-CABREJO (2003)
ILUSTRACIÓN 9. ESTRUCTURA DE UNA RED PERCEPTRON
ILUSTRACIÓN 10. LOCALIZACIÓN DE LOS PUNTOS DE MUESTREO
ILUSTRACIÓN 11. ESQUEMA RED NEURONAL USADA EN EL ANÁLISIS DISCRIMINANTE
9
18
22
23
25
27
28
30
35
39
42
82
LISTA DE GRÁFICAS
GRÁFICA 1. ANÁLISIS TEMPORAL DEL DBO5 EN LAS ESTACIONES DE MONITOREO
GRÁFICA 2. ANÁLISIS TEMPORAL DEL PH EN LAS ESTACIONES DE MONITOREO
GRÁFICA 3. ANÁLISIS ESPACIAL DE LOS COLIFORMES FECALES EN LAS ESTACIONES DE MONITOREO
GRÁFICA 4. ANÁLISIS ESPACIAL DEL CROMO EN LAS ESTACIONES DE MONITOREO
GRÁFICA 5. ANÁLISIS ESPACIAL DE DBO5 EN LAS ESTACIONES DE MONITOREO
GRÁFICA 6. ANÁLISIS ESPACIAL DEL PH EN LAS ESTACIONES DE MONITOREO
GRÁFICA 7. ANÁLISIS ESPACIAL DE LA TURBIDEZ EN LAS ESTACIONES DE MONITOREO
GRÁFICA 8. ANÁLISIS ESPACIAL DE LOS SÓLIDOS TOTALES EN LAS ESTACIONES DE MONITOREO
GRÁFICA 9. VARIANZA ACUMULADA POR COMPONENTES
GRÁFICA 10. HISTOGRAMA DE PRECIPITACIÓN MENSUAL
GRÁFICA 11. DISTRIBUCIÓN DE LOS DATOS ENTRE LOS PERIODOS
GRÁFICA 12. NÚMERO DE ÉPOCAS
10
51
54
58
58
59
59
60
60
64
75
80
85
OBJETIVOS
OBJETIVO GENERAL
Realizar un estudio comparativo de las técnicas estadísticas multivariadas versus
las redes neuronales artificiales en el análisis estadístico de datos de calidad de
agua
OBJETIVOS ESPECÍFICOS
1. Aplicar las técnicas multivariadas convencionales como: Análisis de
Componentes Principales y Análisis Discriminante en el análisis exploratorio
de un conjunto de datos de calidad de agua
2. Estudiar la viabilidad de aplicación de técnicas de redes neuronales
artificiales de aprendizaje supervisado y no supervisado en el análisis de
información relacionada con la calidad del agua
3. Realizar una comparación de los resultados obtenidos del análisis de un
conjunto de datos de calidad de agua empleando las técnicas estadísticas
multivariadas tradicionales y las redes neuronales artificiales
11
INTRODUCCIÓN
Los programas de monitoreo de la calidad de agua son una herramienta
importante para obtener un conocimiento directo de las condiciones químicas de
un cuerpo de agua, y por ende su estado de calidad con respecto a diferentes
usos. Una característica de dichos programas de monitoreo es que producen
conjuntos de datos que se caracterizan por ser grandes (en cuanto a número de
muestras), y multidimensionales (ya que miden numerosas variables al mismo
tiempo); los cuales en muchas oportunidades son difíciles de analizar e interpretar.
A nivel tradicional, el análisis de estos conjuntos de datos se concentra en una
sola variable lo cual permite determinar las posibles tendencias, ya sea de
crecimiento o decrecimiento.
Sin embargo aplicar este tipo de análisis a un
conjunto de datos multivariado como el que se obtiene comúnmente en los
programas de monitoreo de calidad es tedioso y lo más grave es que descarta las
posibles relaciones entre la variable analizada y las otras que se midieron. Es por
esta razón cobra interés la utilización de las técnicas estadísticas multivariadas
como herramientas para el análisis e interpretación de este tipo de información.
Las técnicas estadísticas multivariadas permiten estudiar conjuntos de datos que
se encuentren conformados por un número muy grande de variables explotando
las correlaciones que presentan dichos parámetros. Estas técnicas multivariadas
se emplean comúnmente en problemas de reducción de dimensionalidad, en
donde el conjunto de datos multidimensional es proyectado en un espacio de
menor dimensionalidad y los resultados de estas proyecciones pueden ser
empleados para visualización y/o para determinar asociaciones significativas entre
variables. Estos últimos aspectos resultan de especial importancia para el análisis
de la información de calidad de agua, y es por esta razón que la utilización de los
métodos estadísticos multivariados ha aumentado en los últimos años (Vega et al,
1998).
12
Los métodos estadísticos multivariados convencionales se han aplicado en el
análisis de información de calidad de agua por los siguientes autores:
•
Vega et al (1998) aplicaron Análisis de Componentes Principales y Análisis
de Agrupamientos en el Rio Pisuerga (España), el cual se encuentra
afectado por vertimientos de procesos agrícolas y aguas residuales.
•
Wunderlin et al (2001) aplicaron Análisis de componentes principales,
Análisis de Factor, Análisis de Agrupamiento y Análisis Discriminante en la
Cuenca del Rio Suquia.
•
Ouyang (2005) aplicó el análisis de componentes principales y análisis de
factor para determinar la efectividad de la red de monitoreo de calidad de
agua en la cuenca LSJR en el NE de Florida, USA.
Sin embargo una de las principales limitaciones de la técnica estadísticas
multivariadas corresponde al hecho que la gran mayoría de ellas hacen
suposiciones de normalidad y dependencia lineal entre las variables analizadas
(Kottegoda y Rozzo, 1993). Esto tiene serias limitaciones en cuanto a la aplicación
a los
datos obtenidos en los monitoreos de calidad de agua, ya que estas
variables difícilmente cumplen con esas condiciones y por lo tanto los resultados
obtenidos deben interpretarse con mucha cautela.
Como alternativa de solución al problema antes mencionado se tienen las
denominadas Redes Neuronales Artificiales. Estos son modelos que se
encuentran basados en la estructura del cerebro de los animales, y que
reproducen una de las características más sorprendentes de este órgano: su
capacidad de aprendizaje.
Por lo tanto las Redes Neuronales Artificiales son
modelos matemáticos que pueden aprender de un conjunto de datos. Esto se ha
aplicado con un relativo éxito en labores de predicción y clasificación, pero un uso
menos publicitado de estos modelos matemáticos es que se pueden emplear para
13
construir representaciones de la información analizada que pueden ser empleadas
en el análisis exploratorio de datos. Esto es especialmente aplicable en el caso
que el conjunto de datos tenga una función de densidad de probabilidad diferente
a la normal y que las relaciones de dependencia entre las variables sea altamente
complejas y de tipo no-lineal, características propias de las variables de calidad de
agua.
Las técnicas multivariadas convencionales empleadas en este trabajo fueron
Análisis de Componentes principales (CP) y el Análisis discriminante (AD);
mientras que las RNA utilizadas en éste ejercicios fueron, la red perceptrón
multicapa, y la red hebbiana de aprendizaje no supervisado
Para esta investigación, los datos usados provinieron del programa del Plan de
Seguimiento y Monitoreo (PSM) realizado en el embalse del Muña, que se
encuentra localizado en el municipio de Sibaté en el departamento de
Cundinamarca, las aguas de este embalse es utilizado para la generación de
energía eléctrica y su afluente más representativo son las aguas que se bombean
desde el río Bogotá. EMGESA S.A. es la empresa propietaria y encargada de la
operación del embalse. Para realizar el PSM se seleccionaron siete estaciones de
monitoreo para la toma de las muestras de agua, de cada muestra se
determinaron 21 parámetros fisicoquímicos, el periodo de muestreo estuvo
comprendido desde abril del 2004 hasta octubre del 2006, para un total de 4557
datos.
14
1
MARCO TEÓRICO
A continuación, se hace una breve descripción teórica de los métodos usados en
la investigación, las RNA y los métodos multivariados.
1.1
ESTADÍSTICA MULTIVARIADA
En la estadística, los métodos multivariados son un conjunto de técnicas que
permiten al investigador interpretar y visualizar conjuntos grandes de datos (tanto
en individuos como en variables), a partir de su simplificación o reducción. Su
importancia radica en que las distintas características o variables pueden estar
correlacionadas ya que se miden de un mismo individuo, por lo tanto, si se
realizan análisis separados de cada una de estas características, se pierde la
información dada por esta correlación.
En el mundo, las técnicas multivariadas se utilizan en diferentes campos de la
ciencia o del conocimiento, donde se requieren estas técnicas para el análisis o
exploración de datos.
Las áreas en las que se han utilizado las técnicas
multivariadas se pueden mencionar la geología, que buscan determinar las
características relevantes del suelo y hacer una clasificación de estos; también se
aplica estos conocimientos en áreas como la antropología, donde buscan
determinar de un individuo (mediciones de algunos huesos de un cadáver) un
modelo con el cual se pueda predecir algunas características como la edad, el
sexo entre otras. Otros campos en los que se aplican las técnicas multivariadas se
pueden mencionar el mercadeo, la psicología, la biología, la medicina y la
arqueología, entre otras.
15
Una primera diferencia entre los distintos métodos se basa en los objetivos que
persiguen. Generalmente, se distinguen cuatro posibles objetivos1:
•
Simplificación estructural, se trata de describir la información original de
forma sintética o resumida. Se busca la simplicidad a base de conseguir una
reducción de la complejidad del problema. El método consiste en condensar
las p variables originales en un número menor de nuevas variables creadas
por el propio análisis, que contienen sin embargo gran parte de la información
original. A este tipo de objetivo, y de método, se denomina reducción de la
dimensión ya que los datos originales se expresan en un espacio de
dimensión p mientras que como resultado del análisis podemos expresarles
en otro espacio de menor dimensión. Las nuevas variables creadas por el
análisis se denominan ejes, factores, o componentes principales. Son
variables sintéticas, que estarán en función de las p variables originales.
Generalmente, estos factores tienen una interpretación o significado que el
investigador debe descubrir. El análisis de componentes principales (ACP), el
análisis factorial (AF), y el análisis de correspondencias (AC) son métodos de
reducción de la dimensión.
•
Clasificación o agrupación, estos métodos incluyen los de agrupamiento
(análisis clúster) y los de segmentación. La agrupación de individuos consiste
en formar grupos de individuos homogéneos en cuanto a las p variables, y
heterogéneos respecto a los otros grupos. La agrupación de variables busca
la formación de grupos de variables similares en cuanto a su comportamiento
en un colectivo de objetos.
•
Análisis de interdependencia, se trata de buscar la interdependencia entre
grupos de variables, sin que a priori se suponga relación de causalidad entre
ellas. El método más conocido es el análisis de correspondencias, que es
una generalización del análisis de correspondencias bivariante.
1
http://dmi.uib.es/~dmiram0/anadadesbio/ADbio0304/apuntesadades.pdf
16
•
Análisis de dependencia, explica las relaciones entre grupos de variables,
donde se supone que unas pueden ser causas de otras. El análisis de
regresión pertenece a este grupo de métodos. Un tipo interesante de análisis
de dependencia consiste en buscar un criterio que permita separar o
discriminar entre objetos pertenecientes a priora a grupos diferentes. Dicho
criterio es una función de las variables originales. En último término, se trata
de usar los resultados en el futuro para predecir a qué grupo pertenecen
nuevos objetos que no formaban parte de la información original y para los
cuales se han medido las p variables. El análisis discriminante y la regresión
logística son métodos que persiguen este objetivo.
Generalmente, los datos son estáticos, en el sentido de que son mediciones
realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis
Multivariado se puede aplicar también para analizar la evolución temporal del
fenómeno en estudio. En este caso, los n individuos son n momentos de tiempo. A
veces, se emplean métodos multivariados para comparar una determinada
situación en dos momentos de tiempo.
Como se ha mencionado anteriormente la estadística o análisis multivariado utiliza
diferentes muestras o características
medidas de un mismo individuo y estos
datos se deben presentar en forma de tablas o matriz.
A continuación, en la siguiente ilustración se muestra un ejemplo de cómo se
presentan normalmente los datos para su análisis.
17
VARIABLES
M
U
E
S
T
R
A
S
X1i
X2i
……
……
Xji
1
X11
X21
……
……
Xj1
2
X12
X22
……
……
Xj2
……
……
……
……
……
……
……
……
……
……
……
……
n
X1n
X2n
……
……
Xjn
Ilustración 1. Esquema de la representación de una matriz de datos
En
los
métodos
multivariados,
se
supone
que
las
variables
están
correlacionadas, pero las observaciones sobre los individuos son independientes.
Generalmente se supone también que el conjunto de variables que intervienen
en el análisis poseen una distribución normal multivariada. Esta suposición
permite
que
el
análisis
multivariado
se
desarrolle
paralelamente
al
correspondiente análisis univariado basado en una distribución normal.
1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTIGACIÓN
Como se ha mencionado anteriormente, los métodos multivariados surgen a partir
del interés de analizar la correlación que existe entre varias características
medidas de un mismo individuo. Según el objetivo del análisis y el tipo de datos
obtenidos se sugiere un tipo de tratamiento de la información, a partir de esto
existen distintas metodologías o técnicas multivariadas, las cuales han sido
clasificadas o agrupadas en dos métodos, el primero es el método de dependencia,
éste se enfoca en las relaciones entre los individuos, entre ellos tenemos: Análisis
Discriminante, Regresión Múltiple, Análisis de Varianza Multivariado, entre otras.
Y el segundo grupo corresponde a los llamados métodos de interdependencia,
este grupo contrario al anterior se enfoca a la relación entre variables, entre ellas
se pueden mencionar: El Análisis de Componentes Principales, Análisis de
18
Conglomerado, Análisis de Factores, entre otras. A continuación, se hace una
breve definición de los métodos multivariados que se utilizaron en este proyecto.
1.1.1.1 Análisis de Componentes Principales (ACP)
El análisis de componentes principales tiene como objetivo la estructuración de un
conjunto de datos multivariado mediante la reducción del número de variables.
Esta es una metodología de tipo matemático para la cual no es necesario asumir
distribución probabilística alguna. El análisis de componentes principales tiene
como objetivos, entre otros, los siguientes2:
•
Generar nuevas variables que expresen la
información contenida en un
conjunto de datos
•
Reducir la dimensión del espacio donde están inscritos los datos
•
Eliminar las variables (si es posible) que aporten poco al estudio del problema
•
Facilitar la interpretación de la información contenida en los datos
Entre las aplicaciones del análisis de componentes principales podemos
mencionar: el uso como método para reducir la dimensión de la matriz de datos en
busca de evitar redundancias y destacar relaciones; en muchos casos,
seleccionando únicamente los primeros componentes, se puede explicar la mayor
parte de la variación de los datos originales. También se pueden utilizar como
técnicas para el análisis exploratorio que permitan revelar interrelaciones entre los
datos y por último, permiten construir variables no observables a partir de
variables observables.
En fin, un componente principal es el producto de los datos originales y vector
propio; el resultado de proyectar los datos en un nuevo eje, es una nueva variable.
Hay tantos componentes principales como variables originales, no obstante los
2
Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de
Colombia
19
componentes principales proporcionan la información en los parámetros más
significativos, que describen nuestro conjunto de datos completos que produce la
reducción de datos con la pérdida mínima de información3.
En el caso de la no correlación entre las variables originales, el análisis de
componentes principales no tiene mucho que hacer, pues las componentes se
corresponderían con cada variable por orden de magnitud en la varianza; es decir,
la primera componente coincide con la variable de mayor varianza, la segunda
componente con la variable de segunda mayor varianza, y así sucesivamente4.
1.1.1.1.1 Modelo Matemático
En componentes principales no tenemos a priori ninguna hipótesis acerca de la
cualidad de los factores. El valor que toma una variable en un determinado caso
se explica en un 100% por los K factores. El modelo matemático es el siguiente5:
Xij = a1j Fi1 + a2j Fi2 +…………. + akj Fik
En el modelo anterior parte de la base de que tenemos K variables inicialmente y,
a partir de ellas, hemos calculado K factores linealmente independiente y
ortogonales. Xij es el valor de la pésima variable que tiene el pésimo caso; este
valor viene determinado por el producto de los coeficientes factoriales de la
pésima variable con cada uno de los factores; el valor que tiene cada caso en
cada uno de los factores, por ejemplo a2j, es el coeficiente factorial de la pésima
variable con el segundo factor y Fi2 es el valor del segundo factor correspondiente
al pésimo caso.
3
Pattern recognition techniques for the evaluation of spatial and temporal variations in water quality. a case
study: suquia river basin (córdoba–argentina). WUNDERLIN DANIEL ALBERTO. Universidad Nacional de
Córdoba, Facultad de Ciencias Químicas, Dto. Bioquímica.
4
Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de
Colombia
5
Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez
Cáceres. Editorial Diaz de Santos
20
Conceptualmente, el modelo indica que el 100% de la información de la variable
se explica por los K factores.
1.1.1.2 Análisis Discriminante (AD)
El análisis discriminante es una técnica estadística multivariado que tiene como
finalidad establecer si existen diferencias significativas entre grupos de objetos
respecto a un conjunto de variables medidas sobre los mismos, en el caso de
existir, se debe explicar en qué sentido se dan y proporcionar procedimientos de
clasificación sistemática de nuevas observaciones de origen desconocido en uno
de los grupos analizados.
Dos son los objetivos centrales del análisis discriminante:
•
Descriptivo, si estamos sólo interesados en poner en evidencia la capacidad
discriminante de un cierto conjunto de variables
•
Decisional, si buscamos un criterio que nos permita decidir sobre la
adscripción a uno de los grupos de un caso nuevo, no perteneciente a la
muestra de entrenamiento.
La diferencia que existe entre análisis discriminante y los métodos de
agrupamientos como el de clúster es que, en el primero, los grupos están
definidos, mientras que en el segundo se trata de definir los grupos ante un
conjunto de individuos.
Según cuál sea nuestro interés, se utilizarán alguno de los dos siguientes
métodos6:
6
Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez
Cáceres. Editorial Diaz de Santos
21
•
Análisis factorial discriminante. Su objetivo es explicar la permanencia de
un individuo a un determinado grupo. Este método también permite realizar
predicciones, asignando a cada individuo al grupo más cercano a su
puntuación factorial.
•
Funciones discriminantes. Este método pretende predecir la pertenencia de
un individuo a un determinado agrupo, en función a al probabilidad calculada,
conocidos una serie de datos.
1.1.1.2.1 Fundamento Matemático
En el análisis discriminante el interés es el de encontrar una función o funciones
que maximicen el cociente entre la variabilidad entre grupos y la variabilidad
dentro de grupos. De esta manara, la función debe tener el máximo poder posible
de discriminación de los grupos7.
Y
A
B
Z
0
0
X
Ilustración 2. Función Discriminante
En el gráfico anterior podemos observar que hay valores de las variables X e Y
que pueden darse tanto en elementos del grupo A como del B; por tanto, dichas
variables, por sí solas, no pueden discriminar los dos grupos. Proyectando ambos
grupos sobre el eje Z, podemos discriminar los elementos pertenecientes a los
7
Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez
Cáceres. Editorial Diaz de Santos
22
grupos A y B. por lo tanto, debemos calcular una función discriminante D,
combinación lineal de X e Y definida sobre el eje Z.
El caso anterior es un caso ideal de discriminación, en la mayoría de los casos
prácticos, el poder de discriminación no es total.
1.2
REDES NEURONALES
El cerebro humano continuamente recibe señales de entrada de muchas fuentes y
las procesa a manera de crear una apropiada respuesta de salida. Nuestros
cerebros cuentan con millones de neuronas que se interconectan para elaborar
"Redes Neuronales". Estas redes ejecutan los millones de instrucciones
necesarias para mantener una vida normal8.
1.2.1 NEURONAS BIOLÓGICAS
Las neuronas son las células que forman la corteza cerebral de los seres vivos,
cada una está formada por elementos llamados cuerpo, axón y dendritas.
Fuente: Imagen tomada de internet - http://www.filosofiayliteratura.org/Revista/Articulos/biologia/neurona.gif
Ilustración 3. Estructura y partes de una neurona biológica
8
http://electronica.com.mx/neural/informacion/index.html
23
Como se puede ver en la figura anterior, las dendritas son una estructura de
filamentos que rodean el cuerpo de la neurona. El axón es un tubo largo y delgado
que se ramifica en su extremo en pequeños bulbos que no alcanzan a tocan las
dendritas de las células vecinas. La pequeña separación entre los bulbos finales y
las dendritas se le denomina sinapsis.
Una de las características de las neuronas es su capacidad de comunicarse. En
términos generales las dendritas y el cuerpo celular reciben señales de entrada; el
cuerpo celular las combina e integra y emite señales de salida. El axón transmite
dichas señales a los terminales axónicos, que distribuyen información o un nuevo
conjunto de neuronas, se calcula que en el cerebro humano existen del orden de
1015 conexiones.
Las señales que se utilizan son de dos tipos: eléctrica y química.
La señal
generada por la neurona y transportada a lo largo del axón es un impulso eléctrico,
mientras que la señal que se transmite entre los terminales axónicos de una
neurona y las dendritas de la otra es de origen químico9.
1.2.2 REDES NEURONALES ARTIFICIALES (RNA)
Las
Redes
Neuronales
Artificiales
(RNA)
son
sistemas
o
modelos
computacionales que buscan la manera de imitar la forma en que el cerebro
procesa la información para resolver problemas reales.
La clase de problemas que mejor se resuelven con las redes neuronales son los
mismos que el ser humano resuelve mejor: Asociación, evaluación, y
reconocimiento de patrones. Las redes neuronales son perfectas para problemas
que son muy difíciles de calcular pero que no requieren de respuestas perfectas,
sólo respuestas rápidas y buenas10.
9
www.monografias.com
http://electronica.com.mx/neural/informacion/index.html
10
24
Las neuronas artificiales son modelos que tratan de simular el comportamiento de
las neuronas biológicas.
biológicas. Cada neurona se representa como una unidad de
proceso
ceso que forma parte de una entidad mayor, la red neuronal.
Dicha unidad de proceso consta de una serie de entradas
entradas Xi, que equivalen a las
dendritas de donde reciben la estimulación,
estimulación, ponderadas por unos pesos Wi,
Wi que
representan como los impulsos entrant
entrantes
es son evaluados y se combinan con la
función de red que nos dará el nivel potencial de la neurona.
La salida de la función de red es evaluada en la función de activación que da lugar
a la salida de la unidad de proceso. Como se puede verr en la siguiente ilustración,
la
a neurona artificial se comporta como la neurona biológica pero de una forma muy
simplificada.
Ilustración 4.. Estructura de una red neuronal artificial
Por las entradas Xi llegan unos valores que pueden ser
ser enteros, reales o binarios.
Estos valores equivalen a las señales que enviarían otras neuronas a la nuestra a
través de las dendritas.
25
Los pesos que hay en las sinapsis Wi, equivaldrían en la neurona biológica a los
mecanismos que existen en las sinapsis para transmitir la señal. De forma que la
unión de estos valores (Xi y Wi) equivalen a las señales químicas inhibitorias y
excitadoras que se dan en las sinapsis y que inducen a la neurona a cambiar su
comportamiento.
Estos valores son la entrada de la función de ponderación o red que convierte
estos valores en uno solo llamado típicamente el potencial que en la neurona
biológica equivaldría al total de las señales que le llegan a la neurona por sus
dendritas. La función de ponderación suele ser una la suma ponderada de las
entradas y los pesos sinápticos.
La salida de función de ponderación llega a la función de activación que
transforma este valor en otro en el dominio que trabajen las salidas de las
neuronas.
Suele ser una función no lineal como la función paso o sigmoidea aunque también
se usa funciones lineales.
1.2.2.1 Modelo General de una Neurona Artificial
Bonitacio Martín del Brio y Alfredo Sanz Molina, en su libro Redes Neuronales y
Sistemas Difuso, definen, que una neurona es un dispositivo simple de cálculo que,
a partir de un vector de entrada procedente del exterior o de otras neuronas,
proporciona una respuesta o salida. Los elementos que constituyen la neurona de
etiqueta i son los siguientes:
•
Conjunto de entradas, Xj (t)
•
Pesos sinápticos de la neurona i, W ij que representan la intensidad de
interacción entre cada neurona presináptica j y la neurona postsináptica i.
26
•
Reglas de propagación σ(W ij, Xj(t)), que proporciona el valor del potencial
postsináptico hi(t)=
(t) σ(W ij, Xj(t)) de la neurona i en función de sus pesos y
entradas.
•
Función de activación fi(ai(t-1), hi(t)), que proporciona el estado de
activación actual ai(t)= fi(ai(t-1), hi(t)) de la neurona i, en función de su
estado anterior ai(t-1) y de su potencial postsináptico actual.
•
Función
ión de salida Fi(ai(t)),
), que proporciona la salida actual yi(t)= Fi(ai(t)) de
la neurona i en función de su estado de activación.
De este modo, la operación de la neurona i puede expresarse como:
yi(t)= Fi (fi [(ai(t-1), σ(W ij, Xj(t)) ])
Ilustración 5. Modelo genérico de una neurona artificial
1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALES
Existen tres propiedades que caracterizan a las redes neuronales artificiales:
1. Topología de la red. Forma
Forma como las capas se encuentran conectadas.
conectadas
27
2. Mecanismo de aprendizaje.
aprendizaje Corresponde
orresponde a la forma como se pueden modificar
los pesos de la red para cumplir un objetivo particular.
activación Definen
efinen la respuesta de una neurona ante
an
un
3. Funciones de activación.
estímulo de entrada.
1.2.3.1 Arquitectura o topología de las redes neuronales
La topología o arquitectura de las RNA consiste en la organización y disposición
de las neuronas en la red ya sea formando capas o agrupación de neuronas que
se encuentran entre la entrada y salida de la red. Por tal motivo, según José R.
Hilera/Víctor J. Martínez, los parámetros fundamentales de una red son: el número
de capas, el número de neuronas por capas, el grado de conectividad y el tipo de
conexiones entre neuronas.
Cuando
do se realiza una clasificación de la redes en términos topológicos, se suele
distinguir entre las redes con una sola capa y las redes con múltiples capas.
capas Las
neuronas de una capa pueden agruparse, a su vez, formando grupos neuronales
(Clúster). Dentro de un grupo, o de una capa sino existe esta agrupación, las
neuronas suelen ser del mismo tipo. Finalmente, el conjunto de una o más capas
constituye la red neuronal11.
Ilustración 6.. Estructura jerárquica de un sistema basado
basado en RNA
11
Redes Neuronales y Sistemas Difusos, Bonifacio Martín del Brio – Alfredo Zan Molina, Ed. Alfaomega 2
edición
28
En las redes de una capa, se establecen conexiones laterales entre las neuronas
que pertenecen a la única capa que constituye la red; estas redes son utilizadas
en tareas que se conocen como auto-asociación.
Por lo contrario, las redes multicapas están conformadas por un conjunto de
neuronas agrupadas en varias capas, para distinguir a que capa pertenece una
neurona es necesario establecer el origen de la señal que la neurona recibe a la
entrada y el destino de señal de la salida.
Normalmente, todas las neuronas de una capa reciben señales de entrada de una
capa anterior, más cercana a las entradas de la red, y envían las señales de salida
a una capa posterior, más cercana a la salida de la red. A estas conexiones se les
denomina conexiones hacia adelante o feedforward.
Sin embargo, en un gran número de estas redes también existe la posibilidad de
conectar las salidas de las neuronas de capas posteriores a las entradas de las
capas anteriores, a estas conexiones se les denomina conexiones hacia atrás o
feedback.
Estas dos posibilidades permiten distinguir entre dos tipos de redes con múltiples
capas: las redes con conexiones hacia adelante o redes feedforward, y las redes
que disponen de conexiones tanto hacia adelante como hacia atrás o redes
feedforward/feedback12.
Se distinguen tres tipos de capas: de entrada, de salida y ocultas. Una capa de
entrada está compuesta por neuronas que reciben datos procedentes del entorno,
una capa de salida es aquella que proporciona la respuesta de la red neuronal, y
la capa oculta, es aquella que no tiene conexión directa con el entorno. Este tipo
de capa proporciona a la red grados de libertad adicionales, gracias a los cuales
12
RNA Fundamentos, Modelos y Aplicaciones – José R. Hilera / Víctor J. Martínez – Addison-Wesley
Iberoamérica
29
puede encontrar representaciones internas correspondientes a determinados
rasgos del entorno, proporcionando una mayor riqueza computacional.
Ilustración 7.. Estructuras de una red multicapa y monocapa
1.2.3.2 Mecanismo de aprendizaje
Es ell proceso por el cual una red neuronal artificial cambia sus pesos en respuesta
re
a una información de entrada. Los cambios que se producen se reducen a la
modificación y creación de conexiones entre las neuronas, la creación de una
nueva conexión implica que el peso de la misma pasa a tener un valor distinto de
cero, una conexión
ión se destruye cuando su peso pasa a ser cero.
Se puede
afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando
los valores de los pesos permanecen estables (dwij / dt = 0).
Un aspecto importante respecto al aprendizaje en las redes neuronales es el
conocer cómo se modifican los valores de los pesos; es decir, cuáles son los
criterios que se siguen para cambiar el valor asignado a las conexiones cuando se
pretende que la red aprenda una nueva información.
Estos criterios determinan
inan lo que se conoce como la regla de aprendizaje de la
red. De forma general, se suelen considerar dos tipos de regla: las que responden
30
a lo que habitualmente se conoce como aprendizaje supervisado, y las
correspondientes a un aprendizaje no supervisado13.
Los mecanismos de aprendizajes se diferencian en la existencia o no de un
agente externo que realice el control de todo el proceso de aprendizaje de la red
neuronal.
Aprendizaje supervisado. Para este tipo de aprendizaje, se dice que hay un
profesor externo encargado de determinar si la red se está comportando de forma
adecuada, mediante la comparación entre la salida producida y la esperada, y de
actuar en consecuencia modificando apropiadamente los valores de los pesos14.
En este tipo de aprendizaje existen tres formas para realizan las modificaciones o
ajustes de los pesos de las conexiones, las cuales se presentan a continuación:
•
Aprendizaje por corrección de error.
Consiste en ajustar los pesos en
función de la diferencia entre los valores deseados y obtenidos en la salida
de la red; es decir, en función del error cometido en la salida
•
Aprendizaje por refuerzo. Se basa en la idea de no disponer de un ejemplo
completo del comportamiento deseado; es decir, de no indicar durante el
entrenamiento exactamente la salida que se desea que proporcione la red
ante una determinada entrada.
•
Aprendizaje estocástico.
Consiste en realizar cambios aleatorios en los
valores de los pesos de las conexiones de la red y evaluar su efecto a partir
del objetivo deseado y de distribuciones de probabilidad.
Aprendizaje no supervisado. En este caso no existe ningún supervisor externo
que vigile el proceso de aprendizaje, la red modificará los valores de los pesos a
partir de la información interna, determinando características de los datos del
conjunto de entrenamiento: rasgos significativos, regularidades o redundancias. A
13
RNA Fundamentos, Modelos y Aplicaciones, José R. Hilera – Víctor J. Martínez; Addison – Wesley
Iberoamérica
14 19
RNA un enfoque práctico; Pedro Isasi Viñuela / Inés M. Galvan – Editorial Person
31
este tipo de modelos se les conoce también como sistemas autoorganizados,
debido a que la red se ajusta dependiendo únicamente de los valores recibidos
como entrada15.
-
Asociación entre la información de entrada y salida
Las RNA son sistemas que almacenan cierta información aprendida; está
información se registra de forma distribuida en los pesos asociados a las
conexiones entre neuronas de entrada y salida. Existen dos formas primarias de
realizar esa asociación de entrada/salida.
Una primera sería la denominada
hetero-asociación, que se refiere al caso en el que la red aprende parejas de datos
[(A1, B1), (A2, B2)… (An, Bn)], de tal forma que cuando se presente cierta
información de entrada Ai, deberá responder generándola correspondiente salida
Bi. La segunda se conoce como auto-asociación, donde la red aprende ciertas
informaciones A1, A2…An, de tal forma que cuando se le presenta una información
de entrada realizará una autocorrelación, respondiendo con uno de los datos
almacenados, el más parecido al de la entrada16.
Estos dos mecanismos de asociación de asociación dan lugar a dos tipos de redes
neuronales: las redes hetero-asociativas y las auto-asociativas.
-
Representación de la Información
Las redes neuronales pueden también clasificarse en función de la forma en que
se representan las informaciones de entrada y las respuestas o datos de salida.
Así un gran número de redes, tanto los datos de entrada como de salida son de
naturaleza analógica, cuando esto ocurre, las funciones de activación de las
neuronas serán también continuas, del tipo lineal o sigmoidal. Otras redes sólo
admiten valores discretos o binarios a su entrada, generando también unas
16
www.monografias.com
32
respuestas en la salida de tipo binario. En este caso, las funciones de activación
de las neuronas son de tipo escalón. Existe también un tipo de redes híbridas en
las que las informaciones de entrada pueden ser valores continuos, aunque las
salidas de la red son discretas17.
1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFICIALES (RNA)
En 1943 Warren McCulloch y Walter Pitts dieron origen a la primera red neuronal
conocida, definiendo a la neurona como una maquina binaria con varias entradas
y salidas, esta consistía en la suma de las señales de entrada, multiplicada por
unos valores de pesos escogidos aleatoriamente.
Después de este adelanto se desarrollaron en los años posteriores otros tipos de
redes neuronales basados en la aplicación o problema que el investigador quería
resolver. Entre los más conocidos tenemos:
•
La Red Neuronal Perceptrón
•
La Red Neuronal Hebbianas
•
La Red Neuronal Adaline
•
La Red Backpropagation, dentro de estas técnica encontramos la red
Backpropagation con Momentum, la red Backpropagation con rata de
aprendizaje variable
•
La Redes de Aprendizaje Asociativo, entre estas encontramos la redes
Instar y las redes Outstar
•
Redes Competitivas, entre estas tenemos las redes de Kohonen y la de
Hamming, y por último,
•
Las Redes Recurrentes, entre estas se encuentran la red de Hopfield, las
redes Multicapas y la red de Elman
17
www.monografias.com
33
1.2.5 REDES NEURONALES HEBBIANAS
Este tipo de redes neuronales artificiales se propusieron originalmente como un
modelo simplificado de interacción entre neuronas por Donald Hebb a finales de
los años 40. Hebb encontró que si una neurona excita de forma repetida a otra, la
comunicación o conexión entre estas se ve reforzada (Ilustración 8). Dado que la
conexión entre neuronas esta cuantificada por el peso de conexión entre estas, el
reforzamiento de la conexión se puede expresar por medio de:
W t +1 = W t + α X Y T
(1)
Donde Wt son los pesos en el tiempo t, Wt+1 son los pesos actualizados, α es la
denominada tasa de aprendizaje, X es el patrón de entrada e YT es la salida de la
red neuronal dada por:
Yt =W tx X
( 2)
La expresión anterior permite modificar los pesos de la red neuronal y por lo tanto
se constituye en un esquema de entrenamiento como tal. La gran diferencia entre
este y el procedimiento de retro – propagación de error consiste en que no se
requiere la señal deseada, y al usar solamente información de los patrones de
entrada, este tipo de entrenamiento se denomina no – supervisado.
Una característica de este tipo de esquema de entrenamiento es que el valor de
los pesos se incrementará sin límite a medida que se repite el procedimiento
expresado por la ecuación (1) haciendo que este algoritmo sea inestable. Para
hacer que el aprendizaje hebbiano sea útil es necesario contar con una versión
estable del mismo, lo cual se puede hacer normalizando el valor de los pesos.
Este procedimiento fue propuesto inicialmente por Oja (1982) y desde entonces se
conoce como la regla de Oja y esta dado por:
34
wit +1 =
wit + α y t xit
∑ (w
t
i
+ α y t xit
(3)
)
i
Y donde la actualización de los pesos se realiza neurona por neurona.
W10
x1
y1
x2
X
y2
x3
y=W10*X
ym
xn
Fuente: Moreno-Sánchez & García-Cabrejo
Ilustración 8. Estructura de una red neuronal de tipo hebbiano modificado de MorenoSánchez & García-Cabrejo (2003)
1.2.5.1 Componentes Principales Usando Redes Neuronales Hebbianas
Un aspecto interesante de la aplicación de la regla de Oja consiste en que el
conjunto de pesos W obtenido cumple la relación CW=λ1W, donde C es la matriz
de covarianza de los patrones de entrada y λ1 es una constate. Es similar a
afirmar que los pesos obtenidos al aplicar la regla de Oja corresponden a un
vector propio de la matriz de covarianza, y específicamente al primer componente
principal del conjunto de patrones.
35
Con el fin de extraer los componentes principales (vectores propios) del conjunto
de patrones de entrada, la actualización de los pesos dada por la ecuación (3) se
puede aplicar de forma secuencial sobre la proyección del respectivo componente
en un procedimiento similar a la ortogononalización de Gram – Schmidt (Marsden
& Tromba, 2000). Esta metodología fue implementada por Sanger (1989) y el
esquema de entrenamiento de la red neuronal de tipo hebbiano ecuación (1)
queda expresada por:
i


∆wijt = α yit  x j − ∑ wkjt y kt 
k =1


(4)
En esta regla de actualización la entrada a cada neurona se le resta el producto de
la salida de las neuronas anteriores por sus respectivos pesos. La salida yt de la
red neuronal se determina usando la expresión (2), y por lo tanto este tipo de
esquema permite extraer los componentes principales lineales o tradicionales.
Este procedimiento se puede modificar para la extracción de componentes
principales no lineales, si se utiliza una función de activación no lineal del tipo:
g ( y ) = tanh(β y )
(5)
Donde y corresponde a la salida de la red neuronal ecuación (2) y β es un
parámetro que determina el grado de activación que se aplica sobre la salida de la
red neuronal. De acuerdo a Tagliaferri et al., (1999) la única condición que debe
cumplir una función para ser empleada en este procedimiento de modificación de
la salida de la red neuronal, es que sea derivable y que presente un crecimiento
de rapidez menor a |t2|, para que no se presenten problemas de estabilidad
numérica en la modificación de los pesos.
Sin embargo existen otros algoritmos para el entrenamiento de este tipo de redes
neuronales artificiales que incorporan directamente elementos de la función de
36
activación empleada.
Uno de estos corresponde al denominado Algoritmo
Hebbiano Generalizado (AHG), el cual se encuentra dado por:
wijk +1 = wijk + α g ( y k ) e k
i
ek = x j − ∑ wkj y k
j =1
(6)
Donde ek es el término de error para la época k, y g(y) es la salida de la función de
activación, ecuación (5).
El entrenamiento de este tipo de redes neuronales artificiales se realiza de la
siguiente forma:
1. Se inicializa la matriz de pesos W con valores aleatorios uniformemente
distribuidos entre [-0.5,0.5].
2. Para cada patrón de entrada X se determina la salida de la red neuronal.
(Ecuaciones 2 o 5, según sea el caso).
3. Se modifican los pesos de la red neuronal usando expresiones como las
presentadas en las ecuaciones 1, 3 y 4.
4. Si la variación de los pesos de una época a otra es menor que el valor de
tolerancia especificado, entonces se detiene todo el procedimiento; sino se
continúa a la siguiente época.
1.2.6 RED NEURONAL TIPO PERCEPTRON
Este tipo de red fue inventada por el sicólogo Frank Rosenblatt en 1957, su interés
consistía en ilustrar algunas propiedades fundamentales de los sistemas
inteligentes, sin entrar en mayores detalles con respecto a condiciones específicas
y desconocidas para organismos biológicos.
37
El perceptrón es un tipo de red de aprendizaje supervisado, es decir, necesita
conocer los valores esperados para cada una de las entradas presentadas; su
comportamiento está definido por pares de esta forma:
, , , , … . … . . , , Cuando p es aplicado a la red, la salida de la red es comparada con el valor
esperado t, y la salida de la red está determinada por:
Los valores de los pesos determinan el funcionamiento de la red, estos valores se
pueden fijar o adoptar utilizando diferentes algoritmos de entrenamiento de la
red18.
1.2.6.1 Estructura de la Red
En la figura número 9 se presenta un esquema de la estructura de una red
perceptrón, la única neurona de salida realiza la suma ponderada de las entradas,
resta el umbral y pasa el resultado a una función de transferencia de tipo escalón.
La regla de decisión es responder +1 si el patrón presentado pertenece a la clase
A o -1 si el patrón pertenece a la clase B, la salida depende de la entrada neta
(n=suma de las entradas pi ponderadas)19.
18 19
Tutorial de las Redes neuronales, Universidad Tecnológica de Pereira
38
Ilustración 9. Estructura de una red Perceptrón
La red tipo perceptrón emplea principalmente dos funciones de transferencia,
hardlim con salidas 1, 0 ó hardlims con salidas 1, -1;
1; su uso depende del valor de
la salida que se espera para la red, es decir, si la salida de la red es unipolar o
bipolar.
Para realizar el entrenamiento de la red, es necesario presentar inicialmente un
conjunto de datos o patrones de entrada, los pesos de la red se ajustan de forma
que al final del entrenamiento se obtengan las salidas esperadas para cada uno
de los datos de entrada.
El algoritmo de entrenamiento del perceptrón puede resumirse
esumirse según el tutorial
“Redes Neuronales”, de la Universidad Tecnológica de Pereira en los siguientes
pasos:
1. Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se
asignan valores aleatorios a cada uno de los pesos Wi y al valor
valo de b
2. Se presenta el primer patrón a la red, junto con la salida esperada en forma
de pares entrada/salida
3. Se calcula la salida de la red
39
4. Cuando al red no retorna la salida correcta, es necesario alterar el valor de
los pesos, tratando de llevarlos hasta p y así aumentar las posibilidades de
que la clasificación sea correcta.
40
2
DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE ANÁLISIS
Para poder realizar el ejercicio de aplicar las RNA y los métodos multivariados
relacionados en el proyecto, se tomó la decisión de utilizar datos reales
provenientes de un programa de seguimiento y monitoreo que se realizó en el
Embalse del Muña en el municipio de Sibaté en el Departamento de
Cundinamarca. Esto con el fin de poder garantizar que al comparar los resultados
arrojados por los métodos anteriormente mencionados se estaría trabajando sobre
datos reales y no sobre datos imaginarios.
2.1
ÁREA DE ESTUDIO
Hay que recordar que con el proyecto no se buscó realizar el análisis de la calidad
del agua del Embalse del Muña, pero de igual manera para poder interpretar los
resultados arrojados por los métodos es necesario realizar una pequeña
descripción del área donde se tomaron las muestras de agua para su análisis
fisicoquímicos.
2.1.1 LOCALIZACIÓN GEOGRÁFICA
El Embalse del Muña se encuentra ubicado en el municipio de Sibaté en el
Departamento de Cundinamarca, el embalse posee una extensión de 711 Ha a
una altura de 2565 msnm. Este embalse se construyó en 1948 y desde entonces
y hasta a la fecha se han utilizado sus aguas en la generación de energía
eléctrica, este posee tres afluentes, el río Muña, el río Aguas Clara y el río Bogotá,
las agua de este último son bombeadas hasta el embalse, en la actualidad, el río
Bogotá presenta un alto nivel de contaminación por vertimientos domiciliarios e
industriales que se realizan en gran parte de su trayecto, afectando la calidad del
agua del río y por consiguiente del embalse.
41
2.2
CONJUNTO DE DATOS UTILIZADOS
EMGESA S.A., realizó un Plan de Manejo Ambiental en el embalse del Muña y
sus alrededores, el cual incluía un programa de monitoreo de calidad del agua del
embalse, para esto determinaron siete (7) estaciones de muestreo los cuales se
observan a continuación.
2
1
3
7
4
6
5
Fuente: Laboratorio VELZEA-STL
Ilustración 10. Localización de los puntos de muestreo
Las muestras de agua se tomaron mensualmente durante 31 meses, desde abril
del 2004 hasta octubre del 2006. Se determinaron 21 parámetros de las muestras
de agua tomadas en cada periodo de muestreo, lo que nos indica que para
ejecutar los métodos evaluados se contó con una matriz de 4557 datos.
Es importante resaltar que el plan de monitoreo estuvo auditado permanentemente
para garantizar la calidad de las muestras y de sus resultados por una entidad
externa a Emgesa S.A, exigida por la Corporación Autónoma Regional –CAR
42
A continuación, en la tabla No. 1 se presentan los parámetros fisicoquímicos
medidos en cada punto de muestreo
Tabla 1. Parámetros fisicoquímicos medidos
PARÁMETROS
C. fecales (NMP/100ml)
Ortofosfatos (mg/l)
Sólidos s. totales (mg/l)
C. Totales (NMP/100ml)
Fósforo Total (mg/l)
Sólidos s. volátiles (mg/l)
Cromo (mg/l)
Nitrógeno amoniacal (mg/l)
Sulfatos (mg/l)
Plomo (mg/l)
Nitrógeno kjeldaha (mg/l)
Sulfuros (mg/l)
RAS (mg/l)
Oxigeno disuelto (mg/l)
Turbidez (UNT)
DBO (mg/l)
Sólidos totales (mg/l)
Conductividad (µs)
DQO (mg/l)
Sólidos suspendidos (mg/l)
pH
Por ser un programa de monitoreo privado y vigilado por las autoridades
ambientales existe una mayor credibilidad en los resultados de los análisis
fisicoquímicos.
Es importante resaltar que los resultados que se presentan de algunos parámetros
como el cromo y el plomo corresponden a los valores del límite de detección en
laboratorio, lo que indicaba que las concentraciones de estos eran mínimas, a
pesar de esos resultados se tomo la decisión de incluirlos en la matriz de datos
para la ejecución del proyecto.
A continuación, se presenta en la tabla No. 2 los resultados de los parámetros
fisicoquímicos medidos en la estación de muestreo No. 1. Los datos de las otras
estaciones de muestreo se encuentran en el anexo 1.
43
Tabla 2. Matriz de datos de la estación No. 1 usados en el proyecto
No. PERIODO DE
MUESTREO
ESTACIÓN
C FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
1
abr-04
1
106667
380000
0,025
24
94
3,32
3,79
23,24
28,13
0,2
2
may-04
1
60000
140000
0,040
28
68
2,22
3,73
15,25
19,19
0,2
3
jun-04
1
90000
170000
0,010
13
43
1,94
2,59
12,59
16,74
0,2
4
jul-04
1
1100000
1100000
0,010
18
96
2,17
2,85
14,09
16,77
0,2
5
ago-04
1
1600000
1600000
0,010
15
56
2,06
2,46
12,91
16,34
0,2
1
2
14000
0,010
10
91
1,80
2,92
13,48
18,84
0,2
1600000
0,010
19
73
2,16
3,73
14,93
21,13
0,2
1600000
0,010
13
58
1,15
2,89
13,03
14,21
0,2
6
sep-04
7
oct-04
1
160000
8
nov-04
1
1600000
9
dic-04
1
220000
220000
0,010
8
60
1,80
2,59
10,75
13,22
0,2
10
ene-05
1
1600000
1600000
0,010
53
122
2,64
4,54
24,37
27,28
0,2
11
feb-05
1
500000
500000
0,010
47
87
3,24
5,02
22,62
24,67
0,2
12
mar-05
1
1600000
1600000
0,010
27
90
3,22
4,99
23,66
26,34
0,2
13
abr-05
1
1100000
877000
0,010
40
104
3,75
3,80
24,20
42,00
0,2
14
may-05
1
93000
877000
0,010
36
80
3,02
3,53
22,90
33,54
0,2
15
jun-05
1
46000
915231
0,010
29
80
2,37
3,51
18,20
35,62
0,2
1
20
974864
0,010
34
42
2,52
2,88
27,90
37,80
0,2
1036777
0,010
19
78
2,73
3,49
16,70
24,49
0,2
0,7
16
jul-05
17
ago-05
1
24000
18
1
41
9500
0,006
20
72
1,03
2,24
12,27
15,85
19
sep-05
oct-05
1
93000
20400000
0,080
29
61
3,20
3,50
23,60
34,70
0,2
20
nov-05
1
4300
11000
0,080
19
64
2,75
3,60
15,30
21,00
0,2
21
dic-05
1
0,080
25
65
1,47
2,23
20,90
24,90
0,2
ene-06
1
2400000
90000
2400000
22
23000
0,080
26
135
2,82
5,42
22,60
23,90
0,2
23
feb-06
1
90
210
0,080
25
103
1,16
3,04
30,70
33,20
0,2
24
mar-06
1
70
210
0,080
43
168
3,59
3,65
33,40
34,60
0,2
25
abr-06
1
430000
7500000
0,080
32
44
3,83
4,26
33,30
37,00
0,2
26
may-06
1
3000
24000
0,011
35
67
1,43
2,66
17,47
19,80
1,2
27
jun-06
1
4500
18000
0,001
28
42
1,09
2,02
8,32
10,96
2,2
28
jul-06
1
2
500
0,001
43
81
0,88
1,09
10,53
12,22
0,8
29
ago-06
1
21
900
0,001
35
62
0,82
0,90
8,00
9,78
0,2
30
sep-06
1
80
5000
0,001
29
53
0,27
1,55
11,06
12,85
1,2
31
oct-06
1
2
500
0,001
30
66
0,96
1,84
9,19
14,80
0,5
44
No.
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
1
abr-04
1
0,013
2,7
0,1
16
0,4
0,1
21
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
8
293
12,07
3,13
13,20
458
6,91
19
238
6,90
3,55
16,00
408
6,95
2
may-04
1
0,010
3
jun-04
1
0,010
2,6
0,1
13
8
224
16,30
0,50
21,90
376
7,04
3,0
0,1
29
21
240
10,40
1,00
14,40
340
7,04
32
25
242
10,10
1,00
7,10
340
7,06
4
jul-04
1
0,010
5
ago-04
1
0,010
2,4
0,1
6
sep-04
1
0,010
2,5
0,1
9
6
201
7,80
1,00
6,90
425
6,38
7
oct-04
1
0,010
2,3
0,1
19
14
237
7,00
8,50
11,60
473
6,83
8
nov-04
1
0,050
1,9
0,1
18
8
196
11,00
3,90
10,50
400
6,66
9
dic-04
1
0,010
2,2
0,1
29
8
222
15,70
3,40
14,10
335
7,01
10
ene-05
1
0,030
2,3
0,1
33
26
329
14,60
12,60
17,30
497
6,78
11
feb-05
1
0,010
2,9
0,1
26
10
318
8,30
7,90
9,90
484
6,85
1
0,010
2,3
0,4
28
10
338
24,90
9,60
12,00
522
7,09
1
0,010
2,3
0,1
32
22
328
20,50
4,50
60,00
599
7,09
1
0,010
2,3
0,1
15
11
262
12,74
5,40
7,90
418
7,03
jun-05
1
0,010
2,4
0,1
4
2
260
12,79
3,80
1,60
433
7,14
16
jul-05
1
0,010
2,4
0,1
9
2
224
8,70
1,00
8,80
544
7,07
17
ago-05
1
0,010
2,3
0,1
12
4
259
12,49
2,30
6,30
405
6,94
18
1
0,008
2,5
0,1
11
8
217
16,76
1,18
9,80
388
6,66
19
sep-05
oct-05
1
0,160
0,9
0,1
12
9
276
6,40
3,40
13,30
520
6,78
20
nov-05
1
0,160
0,8
0,1
13
11
256
3,40
1,90
14,70
455
7,00
21
dic-05
1
0,160
2,2
0,1
18
16
251
39,40
2,70
19,10
434
6,73
22
ene-06
1
0,160
0,6
0,1
17
13
270
10,60
4,10
17,60
512
6,91
23
feb-06
1
0,160
0,3
0,1
11
9
270
34,00
5,10
13,40
574
7,01
24
mar-06
1
0,160
0,5
0,1
10
9
286
20,00
1,30
13,70
644
6,93
25
abr-06
1
0,160
1,7
0,1
14
13
265
14,50
3,70
16,00
576
6,78
26
may-06
1
0,005
2,6
0,1
18
4
269
8,98
1,20
16,62
223
6,69
27
jun-06
1
0,005
3,3
0,1
31
21
199
2,00
1,60
10,16
305
6,60
28
jul-06
1
0,005
1,2
0,1
14
5
155
6,39
2,85
13,90
254
6,89
29
ago-06
1
0,005
1,7
0,1
13
7
169
2,43
1,95
6,16
299
6,47
30
sep-06
1
0,005
2,4
0,1
13
9
232
25,71
1,36
12,70
350
6,94
31
oct-06
1
0,005
1,5
0,1
12
7
160
5,20
1,75
10,50
329
6,45
12
13
14
15
mar-05
abr-05
may-05
45
3
ANÁLISIS EXPLORATORIO DE DATOS (AED)
Antes de usar los datos en la aplicación de los métodos estadísticos y las RNA
se realizó un análisis exploratorio para poder lograr un entendimiento general
de los datos y la relación entre las variables analizadas.
El primer paso para la exploración fue la organización de los datos en una tabla
o matriz que permitiera visualizarlos de manera clara (ver tabla No. 1), no hubo
necesidad de completar datos puesto que se contó con toda la información
completa.
El paso siguiente del AED consistió en realizar un análisis estadístico básico y
gráfico, y con base en estos se realizaron los respectivos análisis generales.
3.1
ESTADÍSTICA BÁSICA
Los resultados de la estadística básica se recopilaron en tablas y gráficas, las
cuales se presentan a continuación.
3.1.1 TABLAS
Dentro del análisis estadístico básico aplicado en la exploración de los datos
encontramos, desviación estándar, el promedio, el coeficiente de variación, el
valor máximo y mínimo, la mediana, el cuartil 1 y 3.
Estos métodos estadísticos se le aplicaron a la matriz o conjunto de datos
global, donde se incluyen los datos de todas las estaciones.
46
A continuación, se presenta la tabla No. 3 donde se muestran los resultados del
análisis estadístico básico realizado a la matriz de datos.
Tabla 3. Resultados del análisis estadísticos básico
PARÁMETROS FISICOQUÍMICOS
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
PROMEDIO
2083325,759
4622386,927
0,043
47,029
125,907
2,273
3,346
D. ESTANDAR
5341731,448
19832886,764
0,064
28,189
64,224
0,907
1,062
C. VARIACIÓN
2,564
4,291
1,487
0,599
0,510
0,399
0,317
MAX
24000000,000
240000000,000
0,800
155,000
420,000
6,100
6,830
MIN
2,000
11,000
0,001
8,000
33,000
0,006
0,800
MEDIANA
260000,000
1600000,000
0,026
39,000
111,000
2,310
3,357
CUARTIL 3
1600000,000
1600000,000
0,080
64,000
156,000
2,900
3,820
CUARTIL 1
8000,000
140000,000
0,010
26,000
74,000
1,675
2,670
PARÁMETROS FISICOQUÍMICOS
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
PROMEDIO
19,206
24,039
0,337
0,051
1,939
0,449
50,228
D. ESTANDAR
6,669
8,646
0,366
0,064
0,882
1,262
56,832
C. VARIACIÓN
0,347
0,360
1,088
1,256
0,455
2,815
1,131
MAX
39,400
70,000
2,400
0,160
4,060
12,000
350,000
MIN
6,200
8,150
0,200
0,005
0,300
0,100
3,000
MEDIANA
18,200
23,320
0,200
0,010
2,300
0,100
29,000
CUARTIL 3
23,430
27,710
0,200
0,135
2,510
0,300
60,000
CUARTIL 1
14,200
18,430
0,200
0,010
1,000
0,100
15,000
PARÁMETROS FISICOQUÍMICOS
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PROMEDIO
27,655
297,221
15,857
4,659
37,151
454,547
6,877
D. ESTANDAR
30,488
85,037
8,428
3,577
36,704
90,468
0,186
C. VARIACIÓN
MAX
PH
1,102
0,286
0,531
0,768
0,988
0,199
0,027
182,000
934,000
62,700
17,900
250,000
651,000
7,440
MIN
1,000
137,000
1,960
0,500
1,600
183,500
6,350
MEDIANA
16,000
280,000
15,400
3,700
24,750
444,333
6,889
CUARTIL 3
36,000
331,000
20,100
5,800
46,800
512,000
7,020
CUARTIL 1
9,000
247,000
10,100
2,200
13,400
400,000
6,745
47
Al realizar el análisis general de los resultados se obtuvieron las siguientes
observaciones:
•
Con excepción del pH, los demás parámetros presentaron una diferencia
significativa entre el valor máximo y mínimo obtenido durante las
mediciones, esto nos muestra que las variables o elementos cambian
durante el tiempo, describiéndose como un sistema dinámico.
•
De la muestra de datos analizados también se puede decir que las
variables que se presentan a continuación: coliformes fecales, coliformes
totales, cromo, plomo, o. disuelto, SS, SST y los SSV presentan una
desviación estándar alta, siendo más significativa en los coliformes, lo
que indica que existe mucha variación entre los datos. Esta dispersión
de valores también se ve reflejado en los resultados de los coeficientes
de variación.
A continuación, se presenta la tabla número No. 4 donde se resaltan con una
línea los valores de la desviación estándar que se encuentran por encima del
valor promedio de la desviación estándar global. De esta manera, podemos
observar que tan dispersos se encuentran los valores de las variables por
estación.
Tabla 4. Promedio de la desviación estándar de los parámetros medidos
VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
1
680056
3840789
0,031
11
29
0,97
1,10
2
6333929
17439199
0,028
23
47
0,96
0,97
3
7950694
22306583
0,053
36
79
0,79
1,20
4
4364385
1721494
0,031
22
50
0,99
1,30
5
6174657
4255348
0,144
22
56
0,84
1,02
6
4331890
1249466
0,031
20
47
0,97
1,06
7
4336788
44194473
0,030
19
36
0,80
0,80
Promedio
Global D.
Estándar
5341731
19832887
0,064
28
64
0,91
1,06
48
VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES
ESTACIÓN
N. AMONIACAL
N. KJELDAHL
O. D.
PLOMO
RAS
S. S
S.S.T
1
7,28
9,15
0,44
0,06
0,82
0,05
8,15
2
6,16
7,81
0,48
0,06
0,95
0,57
44,83
3
6,51
10,54
0,41
0,07
1,01
1,47
89,04
4
7,99
9,74
0,37
0,06
0,83
2,25
29,20
5
6,01
7,99
0,40
0,06
0,86
0,20
19,14
6
7,00
9,31
0,18
0,07
0,93
1,91
27,06
7
6,15
6,20
0,23
0,07
0,86
0,24
36,69
Promedio
Global D.
Estándar
6,67
8,65
0,37
0,06
0,88
1,26
56,83
VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS POR ESTACIONES
S.S.V
S.T
1
6,58
47,27
8,76
2
24,69
51,55
11,12
3
46,89
84,61
6,79
3,86
4
21,26
136,06
5,45
5
13,76
38,76
8,00
6
16,37
57,29
7
22,76
57,91
Promedio
Global D.
Estándar
30,49
85,04
ESTACIÓN
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
2,85
9,74
104,53
0,20
4,51
26,35
91,07
0,19
54,57
90,66
0,23
2,72
20,92
107,99
0,18
3,61
14,39
78,84
0,18
7,19
3,88
30,09
79,86
0,15
6,97
3,12
22,15
79,45
0,15
8,43
3,58
36,70
90,47
0,19
Se puede observar que la estación de muestreo número tres, presenta un
mayor número de variables (14 en total) que muestran una desviación estándar
mayor que la desviación global, por tal motivo seria la estación con mayor
dispersión o fluctuaciones de datos. Situación contraria ocurre en la estación
número siete que presenta solamente dos desviaciones sobre la media, las
demás estaciones mantienen una similitud en el número de datos por encima
de la media.
Respecto a las variables, se observa un comportamiento similar en la dispersión
de los datos, presentándose en el oxigeno disuelto y en el plomo una mayor
variabilidad en los datos debido a que la desviación estándar es mayor.
49
Mediante este análisis general, se puede decir que el 63 % de los datos de las
variables obtenidas mediante el programa de muestreo son homogéneos, o
sea, los valores no son muy diferentes, mientras que el 37% restante presenta
una heterogeneidad mayor.
3.1.2 GRÁFICAS
Las gráficas también fueron una herramienta que permitió establecer otras
observaciones respecto a los datos.
Las gráficas que se elaboraron fueron la temporal y la espacial, un vistazo
general de las gráficas espaciales muestran que la temporalidad es un factor
que incide en las concentraciones de los parámetros, motivo por el cual se
presentan fluctuaciones significativas en los valores arrojados en las
mediciones.
Respecto a las gráficas espaciales, se observa que los parámetros o variables
mantienen un comportamiento distinto en cada estación,
por ejemplo, la
estación tres presenta generalmente los valores más altos de concentración de
los parámetros, mientras que en la estación uno se presenta los más bajos, y
así en cada estación.
Hay que recordar que el embalse en un sistema dinámico, el cual se ve
afectado por la temporalidad, así como los vertimientos esporádicos que
realizan para mantener el nivel del agua en él para la generación de energía.
A continuación, se presentan algunas gráficas del comportamiento temporal y
espacial de algunos parámetros fisicoquímicos, en el anexo No. 2 se muestran
algunas gráficas complementarias.
50
51
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
mg\L
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
mg\L
Gráfica 1. Análisis temporal del DBO5 en las estaciones de monitoreo
ESTACIÓN DE MONITOREO 1
60
40
20
0
DBO5
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 2
120
100
80
60
40
20
0
DBO5
52
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
mg\L
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
mg\L
ESTACIÓN DE MONITOREO 3
200
150
100
50
0
DBO5
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 4
120
100
80
60
40
20
0
DBO5
abr-04
53
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
mg\L
abr-04
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
mg\L
ESTACIÓN DE MONITOREO 5
120
100
80
60
40
20
0
DBO5
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 6
120
100
80
60
40
20
0
DBO5
abr-04
54
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
mg\L
ESTACIÓN DE MONITOREO 7
100
80
60
40
20
0
DBO5
PERIODO DE MUESTREO
Gráfica 2. Análisis temporal del pH en las estaciones de monitoreo
ESTACIÓN DE MONITOREO 1
7,20
7,00
6,80
6,60
6,40
6,20
6,00
pH
55
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
ESTACIÓN DE MONITOREO 2
7,40
7,20
7,00
6,80
6,60
6,40
6,20
6,00
5,80
pH
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 3
8,00
7,50
7,00
6,50
6,00
5,50
pH
abr-04
56
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
ESTACIÓN DE MONITOREO 4
7,50
7,00
6,50
6,00
5,50
pH
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 5
7,40
7,20
7,00
6,80
6,60
6,40
6,20
pH
57
PERIODO DE MUESTREO
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
abr-04
abr-04
oct-06
sep-06
ago-06
jul-06
jun-06
may-06
abr-06
mar-06
feb-06
ene-06
dic-05
nov-05
oct-05
sep-05
ago-05
jul-05
jun-05
may-05
abr-05
mar-05
feb-05
ene-05
dic-04
nov-04
oct-04
sep-04
ago-04
jul-04
jun-04
may-04
ESTACIÓN DE MONITOREO 6
7,40
7,20
7,00
6,80
6,60
6,40
6,20
pH
PERIODO DE MUESTREO
ESTACIÓN DE MONITOREO 7
7,40
7,20
7,00
6,80
6,60
6,40
6,20
6,00
pH
Gráfica 3. Análisis espacial de los coliformes fecales en las estaciones de monitoreo
PROMEDIO
ANÁLISIS ESPACIAL
5000000,000
4500000,000
4000000,000
3500000,000
3000000,000
2500000,000
2000000,000
1500000,000
1000000,000
500000,000
0,000
C. FECALES
1
2
3
4
5
6
7
ESTACIONES DE MONITOREO
Gráfica 4. Análisis espacial del cromo en las estaciones de monitoreo
ANÁLISIS ESPACIAL
0,080
PROMEDIO mg/l
0,070
0,060
0,050
0,040
0,030
CROMO mg/l
0,020
0,010
0,000
1
2
3
4
5
6
ESTACIONES DE MONITOREO
58
7
Gráfica 5. Análisis espacial de DBO5 en las estaciones de monitoreo
ANÁLISIS ESPACIAL
90,000
PROMEDIO mg/l
80,000
70,000
60,000
50,000
40,000
DBO5 mg/l
30,000
20,000
10,000
0,000
1
2
3
4
5
6
7
ESTACIONES DE MONITOREO
Gráfica 6. Análisis espacial del pH en las estaciones de monitoreo
ANÁLISIS ESPACIAL
6,940
PROMEDIO
6,920
6,900
6,880
pH
6,860
6,840
6,820
1
2
3
4
5
ESTACIONES DE MONITOREO
59
6
7
Gráfica 7. Análisis espacial de la turbidez en las estaciones de monitoreo
PROMEDIO
ANÁLISIS ESPACIAL
100,000
90,000
80,000
70,000
60,000
50,000
40,000
30,000
20,000
10,000
0,000
TURBIDEZ mg/l
1
2
3
4
5
6
7
ESTACIONES DE MONITOREO
Gráfica 8. Análisis espacial de los sólidos totales en las estaciones de monitoreo
ANÁLISIS ESPACIAL
450,000
400,000
PROMEDIO
350,000
300,000
250,000
200,000
SÓLIDOS TOTALES mg/l
150,000
100,000
50,000
0,000
1
2
3
4
5
6
ESTACIONES DE MONITOREO
60
7
4
APLICACIÓN DE LOS MÉTODOS
Realizado el AED se continuó con el ejercicio de emplear los métodos
estadísticos multivariados tradicionales y las RNA, se aplicaron primero los
métodos multivariados, y posteriormente las RNA. Una vez se obtuvieron los
resultados para cada metodología se realizó el análisis correspondiente de los
mismos. Las metodologías empleadas en el presente trabajo se presentan en la
tabla No. 5
Tabla 5. Metodologías empleadas en la investigación
PROBLEMA LABOR
Asociaciones entre variables
Clasificación
ANÁLISIS MULTIVARIADO
RED NEURONAL
TRADICIONAL
ARTIFICIAL
Análisis de Componentes
Principales (ACP)
Análisis Discriminante
Red Neuronal de tipo
Hebbiano
Red Neuronal tipo Perceptrón
Multicapa
En el análisis de información obtenida en los programas de monitoreo de
calidad de agua generalmente se presentan a grandes rasgos los siguientes
problemas o inquietudes:
•
Determinación de la asociación entre las variables medidas: esto es
de vital importancia, ya que le permite al analista determinar la
ocurrencia de ciertos procesos fisicoquímicos que pueden afectar de
forma significativa la calidad del agua.
61
•
Agrupamiento entre muestras: el cual consiste en determinar cuáles
son las muestras que presentan características estadísticas similares y
de esta forma definir grupos que le puedan dar pistas al analista sobre la
ocurrencia de ciertos procesos fisicoquímicos en el conjunto de datos
estudiado. Por ejemplo, si se está analizando cuerpos de agua que en
algunos de ellos se presentan procesos de eutroficación mientras que en
otros no, el análisis de agrupamiento debería poder diferenciar estos
cuerpos basado en la información colectada en cada uno de ellos. En
este caso, el método de análisis empleado realiza la definición de los
grupos de forma automática sin la intervención del analista.
•
Clasificación: procedimiento en el cual las muestras se asignan a una o
más categorías que han sido previamente definidas por el analista de la
información. La importancia de este procedimiento radica en que si se
establece el sistema de clasificación de forma confiable, este puede ser
aplicado en nuevas muestras que se vayan tomando en fases
posteriores del programa de monitoreo. Esto se puede aplicar en el caso
de los periodos hidrológicos (secos y húmedos), ya que en muchas
oportunidades las características fisicoquímicas del agua dependen de si
las mediciones se realizan en periodo seco o húmedo. En este caso
particular resultaría de interés contar con un sistema automático para la
determinación del periodo en el que fue tomada la muestra.
Todos los procedimientos computacionales de las RNA se ejecutaron en
Matlab®, con unas funciones diseñadas para tal fin durante el presente trabajo;
y los métodos multivariados tradicionales se ejecutaron con el Toolbox de
estadística de Matlab®.
El análisis de los datos se realizó de manera temporal en el análisis
discriminante (AD) y en el de análisis de agrupamiento, quiere decir, que los
62
datos se analizaron teniendo en cuenta el periodo o mes muestreado, así como
si era tiempo seco o húmedo; mientras que los componentes principales se
trabajaron de manera espacial ya que se tuvo en cuenta para el análisis de los
datos de todas las estaciones al mismo tiempo.
Recordemos que este ejercicio busca realizar una comparación de los métodos
más no un análisis de la calidad del agua del embalse.
4.1
ASOCIACIÓN ENTRE VARIABLES
Para determinar la asociación entre las variables fisicoquímicas que hacen
parte de los datos que se adquieren comúnmente en los programas de
monitoreo de calidad de agua se emplearon las técnicas de Análisis de
Componentes Principales (ACP) y las Redes Neuronales Artificiales de tipo
Hebbiano. Los resultados obtenidos en cada caso se presentan a continuación:
4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)
4.1.1.1 Procedimiento
Inicialmente, se elaboraron histogramas (ver anexo No. 3) para poder observar
que tipo de distribución presentaban las variables. Definidos los histogramas se
determinó que sólo cuatro parámetros (fósforo total, sulfatos, conductividad y
pH) presentaron una distribución simétrica o normal, los demás parámetros
presentaron asimetría en la distribución de los datos. A éstas variables se les
aplicó la transformación logarítmica (Ver anexo No. 4) para poder disminuir su
rango y evitar que algunos datos distorsionarán los resultados del análisis
estadístico.
63
Realizada la transformación logarítmica, se procedió a estandarizar los datos
como paso preliminar a la determinación de los Componentes Principales (CP).
El análisis de CP arrojó como resultados un conjunto de vectores propios que
corresponden a los ejes coordenados de un nuevo espacio en donde se
proyectan los datos originales. Con estos, fue posible calcular las coordenadas
de los datos en este nuevo espacio; las cuales se emplean para efecto de
visualización (ver anexo No. 5) y para determinar asociaciones de variables
presentes en los datos. Esto último se pudo estudiar mediante la matriz de
coeficientes de correlación entre los CP y las variables originales.
Para determinar el posible número de CP en donde se encontrarían resumidas
las variables originales se determinaron los valores propios de la matriz de
covarianza, estos valores corresponden a la contribución de cada componente
a la varianza de los datos.
A continuación, se presenta en la siguiente gráfica la varianza acumulada por
cada uno de los componentes.
Gráfica 9. Varianza acumulada por componentes
64
El número de componentes que resumen la mayor parte de la información se
determinó con base al quiebre de pendiente de la gráfica anterior, y que para
efectos del presente trabajo se tomaron siete (7) componentes, que en síntesis
son suficientes para representar las 21 variables originales.
Así mismo, con el fin de determinar las asociaciones de las variables
fisicoquímicas estudiadas se calculó la matriz de coeficientes de correlación
entre los CP obtenidos anteriormente y las variables originales que conforman
el conjunto de datos analizado (Ver tabla 6).
65
Tabla 6. Matriz de correlación - ACP método estadístico convencional
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 1
Componente 2
Componente 3
Componente 4
Componente 5
Componente 6
Componente 7
Componente 8
Componente 9
Componente 10
0.6349
0.1202
-0.4589
0.3976
-0.3270
-0.0523
0.1274
-0.0402
0.0032
-0.0382
0.0094
-0.0481
0.0392
-0.0666
0.0221
-0.0289
-0.0750
0.0592
0.2478
-0.0025
-0.0676
0.5177
0.0328
-0.4564
0.3203
-0.5091
0.1001
0.1518
-0.1017
0.1169
0.2178
-0.0170
-0.0725
0.0029
-0.0879
0.0535
-0.0226
0.0620
-0.0028
-0.1804
-0.0063
0.0571
0.5553
-0.1663
0.5738
0.2332
-0.0972
0.0152
-0.0960
-0.0870
0.1153
0.0933
-0.2623
0.3316
-0.1614
0.0902
0.1054
-0.0551
0.0062
0.0617
0.0218
-0.0212
-0.0097
0.5012
0.4096
0.3276
-0.4724
-0.0424
-0.1047
0.2656
-0.1880
-0.0603
0.2146
0.0387
0.0357
0.1267
0.0094
0.0784
-0.0088
0.1695
-0.1322
0.0989
0.0312
0.0057
0.6671
0.4228
0.1837
-0.2746
0.2115
-0.0419
0.0738
-0.1025
-0.1068
0.2739
-0.1361
-0.1614
0.0093
-0.0247
-0.0427
0.0054
-0.2375
0.1117
-0.0418
-0.0175
-0.0098
0.5556
-0.4220
-0.2417
-0.0600
0.0368
0.2401
-0.2406
-0.3326
-0.3522
-0.0078
0.1559
-0.0773
-0.2118
0.1110
0.1039
-0.0237
0.0136
-0.0210
0.0076
-0.0018
-0.0023
0.6365
-0.4013
-0.2184
-0.2676
-0.0152
-0.2455
-0.1481
-0.2228
-0.0738
-0.1276
-0.0953
0.1612
0.0192
-0.2859
-0.1530
0.1243
0.0344
0.0403
-0.0175
0.0339
0.0210
0.6615
-0.5691
0.0664
-0.2914
-0.1595
0.0425
0.0047
0.0336
0.1249
0.0303
0.1275
0.0073
0.0953
0.1182
-0.1646
0.0178
0.0315
0.0167
-0.0124
-0.1789
-0.0644
0.6821
-0.5292
-0.0138
-0.2592
-0.1049
0.2056
-0.0050
0.1117
0.1486
-0.0055
0.0335
-0.0218
0.1254
0.1877
-0.0307
0.0302
-0.0038
0.1233
0.0091
0.1709
0.0192
-0.4273
0.4899
0.2797
-0.3306
-0.3195
0.0122
0.3114
-0.1175
0.0413
-0.1719
0.2580
0.1063
-0.2095
-0.0360
-0.0257
-0.0377
-0.0477
0.1290
-0.0358
0.0135
-0.0108
66
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente
11
0.3507
-0.4491
0.6176
0.3674
-0.1408
-0.0811
0.1101
-0.0790
0.0130
-0.0267
0.1476
0.0037
0.0083
-0.0050
-0.0821
0.0658
-0.1840
-0.2088
-0.0220
0.0477
0.0097
Componente
12
-0.1449
0.3421
-0.6838
-0.4247
-0.2006
0.1874
0.0068
0.0581
-0.0106
-0.0532
-0.1352
0.2222
0.0031
0.1163
0.0058
0.0498
-0.1564
-0.1517
0.0057
-0.0144
0.0287
Componente
13
0.4646
0.5212
-0.1091
-0.0564
0.1700
0.0313
-0.4788
-0.0193
0.3584
0.1264
0.2632
0.0647
-0.0289
-0.1016
0.0155
-0.0690
-0.0380
-0.0399
0.0235
0.0153
0.0023
Componente
14
0.6866
0.6263
0.0614
0.1137
-0.0124
0.0926
-0.0717
0.0292
-0.0927
-0.1638
-0.0451
0.0236
0.0873
0.0104
0.0236
0.0307
0.0417
-0.0382
-0.1319
0.0433
-0.1874
Componente
15
0.6634
0.5160
0.2317
0.1334
-0.0413
0.0970
-0.0924
-0.0807
-0.1158
-0.2597
-0.0464
-0.0129
0.1787
0.0491
-0.1249
-0.2208
0.0071
0.0085
-0.0039
-0.0274
0.1153
67
Componente
16
0.7940
0.2186
-0.0048
-0.1368
0.0098
-0.0645
0.0558
0.1289
0.1788
-0.1158
-0.1706
-0.2355
-0.3408
0.0383
-0.1278
0.0182
0.0750
-0.0889
0.0309
0.0127
0.0132
Componente
17
0.6636
-0.0985
-0.1710
0.1432
0.2904
0.2206
0.2610
0.3621
-0.2140
0.1488
0.1195
0.1989
-0.0980
-0.1126
-0.1227
-0.0878
0.0287
-0.0087
0.0002
0.0147
0.0046
Componente
18
0.5213
0.0158
-0.3507
0.0363
0.0309
-0.7158
0.0039
0.1301
-0.0857
-0.0119
0.1120
0.0672
-0.0229
0.1859
0.0733
-0.0608
-0.0185
0.0168
-0.0616
0.0089
0.0151
Componente
19
0.6828
0.5246
0.2055
0.1829
0.0103
0.0826
-0.0365
0.1592
-0.0722
-0.0666
0.1043
0.0184
0.0161
0.0284
0.1121
0.3158
0.0244
0.0609
0.0215
-0.0527
0.0867
Componente
20
0.5808
-0.4901
0.1931
-0.3746
-0.0564
0.0308
0.0343
0.2391
0.0228
-0.1730
-0.0214
-0.0801
0.0280
-0.1956
0.3001
-0.0994
-0.0631
-0.0285
-0.0170
-0.0313
0.0069
Componente
21
0.3837
-0.1277
-0.3457
0.1582
0.5771
0.0780
0.4002
-0.2929
0.2603
-0.1614
0.0106
0.0434
0.0357
0.0412
0.0792
0.0165
-0.0137
0.0007
-0.0278
-0.0209
0.0065
Siguiendo con el análisis de la matriz de correlación, se observó que los valores
de dichos coeficientes resultaron tener valores bajos y por lo tanto no se
determinó ninguna asociación significativa. Para efectos del presente trabajo se
considera que la relación entre dos variables es significativa si el coeficiente de
correlación es mayor a 0.5 en valor absoluto. Observado esto, se tomó la
decisión de correr o determinar nuevamente los CP en dos fases donde se
eliminaron las variables que presentaron distribución anómalos para mejorar la
varianza; el primer ejercicio se realizó eliminando los coliformes fecales y en el
segundo ejercicio o fase se eliminaron los coliformes fecales, el cromo, el
plomo, oxigeno disuelto, sólidos suspendidos.
Los resultados obtenidos en los dos ejercicios fue el mismo que se obtuvo en la
primera matriz, o sea, no hubo mejora en la asociación de las variables con los
componentes, por tal motivo, se tomó la decisión de trabajar con todos los
datos. Las matrices de componentes principales (CP) de la fase uno y dos se
encuentran en el anexo No. 6
4.1.1.2 Resultados
En la tabla No. 6, se presentan las asociaciones entre variables fisicoquímicas
identificadas a partir del ACP. Como se evidencia de la inspección de dicha
tabla, no existen variables relacionadas, mientras que en los componentes 2,
12, 14, 16 y 18 solo aparece una sola variable. Así mismo los componentes
principales 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 15, 17, 19, 20, 21 no muestran
correlaciones significativas con ninguna de las variables analizadas en el
presente trabajo.
68
En conclusión, el método multivariado del ACP no pudo obtener o encontrar un
resultado coherente puesto que no logró vincular las variables fisicoquímicas
entre sí. Esto posiblemente se deba a la dinámica del embalse y su interacción
con la calidad del agua, la cual no permite que se presente correlación entre
estas variables, aunque sabemos que si debe existir puesto que hay
parámetros que de alguna manera están relacionados.
4.1.2 REDES NEURONALES ARTIFICIALES (RNA)
Hay que recordar que todo el procedimiento computacional de las redes se
realizó con las funciones diseñadas en Matlab®
4.1.2.1 Procedimiento
El tipo de red neuronal utilizada fue la red neuronal hebbiana con entrenamiento
hebbiano generalizado (aprendizaje no supervisado).
El procedimiento seguido para determinar los CP con RNA fue el siguiente:
1. Inicialmente se cargaron los datos en Matlab®,
2. seguido de esto los datos se estandarizaron
3. se realizó el entrenamiento de la red con los siguientes parámetros:
•
21 variables de entrada
•
Siete variables de salida
•
La tasa de aprendizaje fue igual a 1x10-6, se eligió este valor por ensayo
y error, y este valor fue el que dio el menor error en el entrenamiento de
la red.
•
Número de épocas de entrenamiento igual a 1000
69
A esta red no se le determinó el coeficiente de correlación puesto que es una
red de entrenamiento no supervisado, y no se contó con una salida deseada
con la cual se pudiera comparar.
La función se corrió en Matlab y en la tabla No. 7 se presenta la matriz de
correlación obtenida por este método.
Como se puede observar en la matriz de correlación, los coeficientes de
correlación obtenidos permiten identificar asociaciones significativas entre las
variables fisicoquímicas y los componentes principales no lineales obtenidos por
la red neuronal artificial de tipo hebbiano.
70
Tabla 7. Matriz de correlación obtenida con la red neuronal artificial
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 1
Componente 2
Componente 3
Componente 4
Componente 5
Componente 6
Componente 7
Componente 8
Componente 9
Componente 10
0.6349
0.5177
0.5553
0.5012
0.6671
0.5556
0.6365
0.6615
0.6821
-0.4273
0.3507
-0.1449
0.4646
0.6866
0.6634
0.7940
0.6636
0.5213
0.6828
0.5808
0.3837
0.1202
0.0328
-0.1663
0.4096
0.4228
-0.4220
-0.4013
-0.5691
-0.5292
0.4899
-0.4491
0.3421
0.5212
0.6263
0.5160
0.2186
-0.0985
0.0158
0.5246
-0.4901
-0.1277
-0.4589
-0.4564
0.5738
0.3276
0.1837
-0.2417
-0.2184
0.0664
-0.0138
0.2797
0.6176
-0.6838
-0.1091
0.0614
0.2317
-0.0048
-0.1710
-0.3507
0.2055
0.1931
-0.3457
0.3976
0.3203
0.2332
-0.4724
-0.2746
-0.0600
-0.2676
-0.2914
-0.2592
-0.3306
0.3674
-0.4247
-0.0564
0.1137
0.1334
-0.1368
0.1432
0.0363
0.1829
-0.3746
0.1582
-0.3270
-0.5091
-0.0972
-0.0424
0.2115
0.0368
-0.0152
-0.1595
-0.1049
-0.3195
-0.1408
-0.2006
0.1700
-0.0124
-0.0413
0.0098
0.2904
0.0309
0.0103
-0.0564
0.5771
-0.0523
0.1001
0.0152
-0.1047
-0.0419
0.2401
-0.2455
0.0425
0.2056
0.0122
-0.0811
0.1874
0.0313
0.0926
0.0970
-0.0645
0.2206
-0.7158
0.0826
0.0308
0.0780
0.1274
0.1518
-0.0960
0.2656
0.0738
-0.2406
-0.1481
0.0047
-0.0050
0.3114
0.1101
0.0068
-0.4788
-0.0717
-0.0924
0.0558
0.2610
0.0039
-0.0365
0.0343
0.4002
-0.0402
-0.1017
-0.0870
-0.1880
-0.1025
-0.3326
-0.2228
0.0336
0.1117
-0.1175
-0.0790
0.0581
-0.0193
0.0292
-0.0807
0.1289
0.3621
0.1301
0.1592
0.2391
-0.2929
0.0032
0.1169
0.1153
-0.0603
-0.1068
-0.3522
-0.0738
0.1249
0.1486
0.0413
0.0130
-0.0106
0.3584
-0.0927
-0.1158
0.1788
-0.2140
-0.0857
-0.0722
0.0228
0.2603
-0.0382
0.2178
0.0933
0.2146
0.2739
-0.0078
-0.1276
0.0303
-0.0055
-0.1719
-0.0267
-0.0532
0.1264
-0.1638
-0.2597
-0.1158
0.1488
-0.0119
-0.0666
-0.1730
-0.1614
71
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente
11
0.0094
-0.0170
-0.2623
0.0387
-0.1361
0.1559
-0.0953
0.1275
0.0335
0.2580
0.1476
-0.1352
0.2632
-0.0451
-0.0464
-0.1706
0.1195
0.1120
0.1043
-0.0214
0.0106
Componente
12
-0.0481
-0.0725
0.3316
0.0357
-0.1614
-0.0773
0.1612
0.0073
-0.0218
0.1063
0.0037
0.2222
0.0647
0.0236
-0.0129
-0.2355
0.1989
0.0672
0.0184
-0.0801
0.0434
Componente
13
0.0392
0.0029
-0.1614
0.1267
0.0093
-0.2118
0.0192
0.0953
0.1254
-0.2095
0.0083
0.0031
-0.0289
0.0873
0.1787
-0.3408
-0.0980
-0.0229
0.0161
0.0280
0.0357
Componente
14
-0.0666
-0.0879
0.0902
0.0094
-0.0247
0.1110
-0.2859
0.1182
0.1877
-0.0360
-0.0050
0.1163
-0.1016
0.0104
0.0491
0.0383
-0.1126
0.1859
0.0284
-0.1956
0.0412
Componente
15
0.0221
0.0535
0.1054
0.0784
-0.0427
0.1039
-0.1530
-0.1646
-0.0307
-0.0257
-0.0821
0.0058
0.0155
0.0236
-0.1249
-0.1278
-0.1227
0.0733
0.1121
0.3001
0.0792
72
Componente
16
-0.0289
-0.0226
-0.0551
-0.0088
0.0054
-0.0237
0.1243
0.0178
0.0302
-0.0377
0.0658
0.0498
-0.0690
0.0307
-0.2208
0.0182
-0.0878
-0.0608
0.3158
-0.0994
0.0165
Componente
17
-0.0750
0.0620
0.0062
0.1695
-0.2375
0.0136
0.0344
0.0315
-0.0038
-0.0477
-0.1840
-0.1564
-0.0380
0.0417
0.0071
0.0750
0.0287
-0.0185
0.0244
-0.0631
-0.0137
Componente
18
0.0592
-0.0028
0.0617
-0.1322
0.1117
-0.0210
0.0403
0.0167
0.1233
0.1290
-0.2088
-0.1517
-0.0399
-0.0382
0.0085
-0.0889
-0.0087
0.0168
0.0609
-0.0285
0.0007
Componente
19
0.2478
-0.1804
0.0218
0.0989
-0.0418
0.0076
-0.0175
-0.0124
0.0091
-0.0358
-0.0220
0.0057
0.0235
-0.1319
-0.0039
0.0309
0.0002
-0.0616
0.0215
-0.0170
-0.0278
Componente
20
-0.0025
-0.0063
-0.0212
0.0312
-0.0175
-0.0018
0.0339
-0.1789
0.1709
0.0135
0.0477
-0.0144
0.0153
0.0433
-0.0274
0.0127
0.0147
0.0089
-0.0527
-0.0313
-0.0209
Componente
21
-0.0676
0.0571
-0.0097
0.0057
-0.0098
-0.0023
0.0210
-0.0644
0.0192
-0.0108
0.0097
0.0287
0.0023
-0.1874
0.1153
0.0132
0.0046
0.0151
0.0867
0.0069
0.0065
4.1.2.2 Resultados
En la tabla No. 7 se incluye la asociación entre las variables fisicoquímicas
estudiadas y los componentes principales no lineales. De esta se puede ver
que el componente 1 agrupa las variables de Coliformes fecales y totales,
DBO5, DQO, Ortofosfatos, Fosforo, N (Amoniacal y Kendhal), SST, SSV, ST,
Sulfatos, Turbidez, Conductividad; mientras que al componente 2 se encuentran
asociadas las variables de Oxigeno disuelto + SS. En el componente 3 se
agrupan las variables relacionadas con los metales pesados Cromo, Plomo,
RAS.
El pH se encuentra asociado al componente 5 y los Sulfuros en el
componente 6.
De lo anterior se infiere que en el componente 1 se encuentran variables de tipo
físico, químico y biológico; indicando en este caso particular que los procesos
que afectan la calidad del agua del embalse tienen contribuciones de estas 3
fuentes. El componente 2 agrupa las variables de Oxígeno disuelto y Sólidos
suspendidos, las cuales se encuentran relacionadas, ya que los sólidos están
relacionados con la concentración de oxígeno. Con respecto al oxigeno es de
entender que ninguna variable depende o está relacionado con él puesto que
las concentraciones son mínimas, lo que demuestra que el embalse funciona
como un sistema anaerobio. El componente 3 agrupa los metales pesados, y
por lo tanto se infiere que la dinámica que presentan dichas variables es de
naturaleza diferente a los restantes parámetros estudiados. Esta misma
situación se presenta en el caso del pH y los Sulfuros, variables que se
encuentran asociadas a los componentes 5 y 6 respectivamente.
73
4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN
Como se observó en los resultados de cada metodología, las RNA obtuvieron
un mejor desempeño al poder asociar las variables entre sí, lo que indica que la
no linealidad de la RNA permitió encontrar asociaciones entre variables de
manera más concreta y detallada, que las metodología convencional.
Partimos del hecho que la dinámica bio-físico-química que se presenta en
embalse es compleja, y por lo tanto la identificación de procesos específicos
resulta de vital importancia. La metodología de ACP convencional no fue útil a
la hora de determinar las asociaciones entre las variables, que son las que
permiten identificar procesos fisicoquímicos; mientras que con las RNA de tipo
hebbiano las asociaciones se pudieron interpretar de una forma mucho más
clara.
4.2
CLASIFICACIÓN DE LAS VARIABLES
Para realizar este tipo de análisis usando las funciones discriminantes y las
RNA se hizo necesario etiquetar las muestras para que los métodos aplicados
pudiesen predecir la pertenencia de una variable o parámetro a un determinado
grupo. Los grupos establecidos fueron dos: periodo seco y periodo húmedo, de
acuerdo a la fecha de toma de las muestras analizadas. Esto se hizo con la
finalidad de establecer si el periodo hidrológico afectaba de forma significativa
los valores de las concentraciones de los parámetros analizados.
Para realizar el ejercicio de clasificación, no se utilizó ninguna técnica específica
para definir los grupos, el investigador lo determinó según el análisis de la
información de precipitación del área de estudio. Como herramienta de apoyo
en la selección de los periodos secos y húmedos se graficó la precipitación
74
promedio mensual, en estaciones ubicadas en el embalse del Muña, así como
otras estaciones pluviométricas y pluviográficas ubicadas en los alrededores de
la zona de estudio. A los datos de precipitación no se les realizó ningún
tratamiento estadístico para su análisis, ya que en este caso particular lo que
interesaba era el patrón de variación temporal y la determinación de la
ocurrencia de periodos secos y húmedos. Esta parte del análisis se encuentra
motivada por la alta variabilidad que han presentado los parámetros
hidrológicos en los últimos años. A continuación, se presenta el histograma de
la precipitación promedio mensual.
oct-06
sep-06
jul-06
ago-06
jun-06
abr-06
may-06
feb-06
mar-06
dic-05
ene-06
oct-05
nov-05
sep-05
jul-05
ago-05
jun-05
abr-05
may-05
feb-05
mar-05
dic-04
ene-05
oct-04
nov-04
sep-04
jul-04
ago-04
jun-04
abr-04
100,00
90,00
80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
0,00
may-04
Precipitación (mm)
PRECIPITACIÓN MENSUAL
PERIODO DE MUESTREO
Gráfica 10. Histograma de precipitación mensual
Con base a un análisis visual del histograma, se determinó, como se dijo
anteriormente, por criterio del investigador, que todos los datos por debajo de
los 40 mm de precipitación serian periodos secos y por encima de estos serian
periodos húmedos.
75
4.2.1 ANALISIS DISCRIMINANTE (AD)
Este análisis se realizó de manera temporal, esto con el fin de poder realizar un
mejor etiquetamiento para la investigación
4.2.1.1 Procedimiento
Para poder correr la función discriminante fue necesario realizar inicialmente la
estandarización de los datos, para poder compararlos entre sí.
Al correr la función, se determinaron los puntos medios y un centro a cada
periodo o grupo; los valores fueron:
PUNTO MEDIO
Centro del grupo
Centro del grupo
PERIODO SECO
PERIODO HÚMEDO
.
.
-0.47
0.44
-0.014
Este análisis se basa en la determinación de los centros para cada uno de los
grupos estudiados (en este caso periodos seco y húmedo). Con estos dos
centros definidos, se determina el punto medio entre ellos que para este caso
particular es igual a -0.014.
Si una muestra tiene un valor de coordenada
76
menor a -0.014 entonces se clasifica como periodo seco, y en caso contrario
como periodo húmedo.
Esta regla se aplicó al conjunto de datos de validación y a partir de esto se
realizó la respectiva clasificación en periodos hidrológicos.
De este
procedimiento se puede cuantificar el error de clasificación correcta e
incorrecta.
4.2.1.2 Resultados
Los resultados arrojados por la función se presentan a continuación en la tabla
No. 8, en esta matriz se comparan los datos reales con lo modelado.
77
Tabla 8. Matriz de resultado del AD - método estadístico
No.
FECHA
PERIODO
REAL
ESTACIÓN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
abr-04
may-04
jun-04
jul-04
ago-04
sep-04
oct-04
nov-04
dic-04
ene-05
feb-05
mar-05
abr-05
may-05
jun-05
jul-05
ago-05
sep-05
oct-05
nov-05
dic-05
ene-06
feb-06
mar-06
abr-06
may-06
jun-06
jul-06
ago-06
sep-06
oct-06
1
1
1
0
0
1
1
1
0
0
0
0
1
1
0
0
0
0
1
1
0
0
0
1
1
1
1
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
PERIODO
PERIODO
PERIODO
PERIODO
ESTACIÓN
ESTACIÓN
ESTACIÓN
MODELADO
MODELADO
MODELADO
MODELADO
0
1
0
0
0
1
1
1
0
0
0
0
1
0
0
0
1
1
1
1
0
1
0
1
0
0
1
0
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
0
1
1
0
0
1
1
1
0
0
0
0
1
0
0
0
0
1
1
1
0
1
0
1
1
1
1
0
1
1
1
78
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
0
1
1
0
0
1
1
1
0
0
0
0
1
0
0
1
0
1
1
1
1
1
0
1
1
0
1
1
1
1
1
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
1
1
1
0
0
1
1
1
0
0
0
0
1
0
0
0
0
1
1
1
1
0
0
1
1
1
0
0
1
1
1
No.
FECHA
PERIODO
REAL
ESTACIÓN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
abr-04
may-04
jun-04
jul-04
ago-04
sep-04
oct-04
nov-04
dic-04
ene-05
feb-05
mar-05
abr-05
may-05
jun-05
jul-05
ago-05
sep-05
oct-05
nov-05
dic-05
ene-06
feb-06
mar-06
abr-06
may-06
jun-06
jul-06
ago-06
sep-06
oct-06
1
1
1
0
0
1
1
1
0
0
0
0
1
1
0
0
0
0
1
1
0
0
0
1
1
1
1
0
0
1
1
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
PERIODO
PERIODO
PERIODO
ESTACIÓN
ESTACIÓN
MODELADO
MODELADO
MODELADO
1
1
0
0
0
0
1
0
0
0
0
0
1
0
0
1
1
1
1
1
1
0
0
1
1
1
1
0
0
1
1
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
1
1
0
0
0
1
1
1
0
0
0
0
1
0
0
1
1
1
1
1
1
1
0
1
0
1
1
1
1
1
1
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
Convenciones: 1 periodo húmedo
0 periodo seco
Estos mismos resultados se ven reflejados en la siguiente gráfica:
79
1
1
0
0
0
1
1
0
0
0
0
0
1
0
1
1
1
1
1
1
0
1
0
1
1
1
1
1
1
1
1
Gráfica
ráfica 11.. Distribución de los datos entre los periodos
De 217 datos 161 datos coincidieron en si era un periodo seco o periodo
húmedo, para poder determinar que tan eficiente fue el procedimiento de
clasificación se procedió a realizar la matriz de confusión.
4.2.1.3 Matriz
atriz de Confusión
Como se comentó anteriormente, la matriz de confusión (MC) nos permitió
determinar que tan eficaz en porcentaje fue el procedimiento estadístico para
realizar la clasificación y predecir que elemento
elemento va en que grupo. A
continuación, se presenta la matriz de confusión del método multivariado.
80
Tabla 9. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de
datos calibrados
CLASIFICADO POR
EL MODELO
PORCENTAJE
SECO
HÚMEDO
SECO
57
23
71%
29%
HÚMEDO
20
70
22%
78%
CLASIFICACIÓN
REAL
Como se puede observar en la matriz de confusión, el modelo clasificó como
seco correctamente a 57 datos de los 80 datos empleados para la calibración,
ya que los 23 restantes los clasificó como periodos húmedos; respecto al
periodo húmedo, clasificó correctamente 70 datos de 90, los otros 20 datos
restantes lo clasifico de manera incorrecta como seco. Lo que significa que el
modelo logró acertar en un 78% los periodos húmedos y en un 71% en los
periodos secos, esto nos indica que el modelo funciona de cierta manera.
Una vez realizado el procedimiento de calibración se procedió a realizar la
clasificación de un conjunto de 50 datos, que no se consideraron en el
procedimiento de calibración. Los resultados se presentan en la siguiente tabla.
Tabla 10. Matriz de confusión bayesiana para la clasificación realizada con el conjunto de
datos de validación
CLASIFICADO POR
EL MODELO
PORCENTAJE
SECO
HÚMEDO
SECO
15
10
60%
40%
HÚMEDO
6
16
28%
72%
CLASIFICACIÓN
REAL
81
Los resultados obtenidos indican que los porcentajes de clasificación correcta
en el conjunto de datos de validación aunque son mejores a los obtenidos en la
calibración,
ción, indican que el análisis discriminante convencional puede realizar
una clasificación automática satisfactoria del periodo hidrológico a partir de los
valores de las muestras.
4.2.2 REDES NEURONALES ARTIFICIALES (RNA)
Para realizar el AD se utilizó una RN
RNA
A de entrenamiento supervisado con
retropropagación de error y alimentación hacia adelante – Perceptrón multicapa.
Esta red se seleccionó debido a que es la red más sencilla para hacer un
análisis equivalente al análisis discriminante.
La red neuronal estaba
estaba conformada por una (1) capa oculta y cinco (5)
neuronas, esta estructura se seleccionó de acuerdo al criterio del factor de
compresión que dio aproximadamente 1.97.
A continuación, se presenta el
esquema de la red que se utilizó en el ejercicio.
Ilustración 11.
11 Esquema red neuronal usada en el análisis discriminante
82
La idea del factor de compresión es que los pesos sean menos que las
variables, lo que indica que si usamos cinco (5) neuronas en la capa oculta el
resultado sería 110 pesos, el número de pesos se determinó de la siguiente
manera:
Pesos = (No. de datos o variables x No. De Neuronas + No. Salidas)
Para nuestro ejercicio sería:
Pesos = (21 x 5 + 5) = 110
Y el factor de compresión sería:
FC = No. De datos / peso
Para nuestro ejercicio tendríamos:
FC = 217 / 110 = 1.97
De esta manera se puede decir que la relación entre el número de muestras y
los pesos sería de 1.97 aproximadamente.
4.2.2.1 Procedimiento
Los pasos que se efectuaron para realizar el AD con RNA fueron:
1. Se cargaron los datos
83
2. Se realizó la estandarización de los datos: esta estandarización nos
permitió llevar los datos a una distribución normal de media cero (0) y
varianza uno (1), lo que nos definir un rango de variación entre -3 y 3.
3. Se definieron los datos de calibración y validación: La calibración hace
referencia al entrenamiento de la red neuronal, se utilizó el 75% de los
datos para calibrar y entrenar la red, en total fueron 163 datos usados en
esta etapa. La validación nos permitirá saber que tan bueno fue el
modelo que se usó para el entrenamiento de la red, en la validación se
usaron el resto de datos que no se usaron en la calibración, 54 en total.
4. Entrenamiento de la red con los datos de calibración: la red se entrenó
con los datos seleccionados aleatoriamente de la muestra, como se
mencionó, fueron 163 datos seleccionados para el entrenamiento. El
criterio de clasificación utilizado fue, que todo dato mayor que 0.5 es
húmedo y si es menor a 0.5 es seco.
El entrenamiento de la red culminó después de 12 épocas, el error
obtenido fue de 2.6x10-2, este fue el error de entrenamiento después de
12 épocas. A continuación, se presenta éste resultado en la siguiente
gráfica.
84
Gráfica 12. Número de épocas
Ell resultado de la calibración se presenta en la siguiente matriz de confusión:
Tabla 11.. Matriz de confusión bayesiana para la clasificación realizada con el conjunto
de datos de calibración
CLASIFICADO POR
EL MODELO
SECO
HÚMEDO
SECO
68
10
87%
13%
HÚMEDO
11
74
13%
87%
CLASIFICACIÓN
REAL
Como se puede ver, el porcentaje de clasificación correcta fue bastante alto
(87%) en cada caso,
caso lo que indica que la red neuronal artificial se capturó la
85
relación de dependencia entre las variables físico-químicas biológicas y la
temporada hidrológica.
5. Evaluación de la confiabilidad del modelo obtenido con los datos de la
validación: La eficiencia de la validación se analizó con la matriz de
confusión, la cual se presenta a continuación:
Tabla 12. Matriz de confusión bayesiana para la clasificación realizada con el conjunto
de datos de validación
CLASIFICADO POR EL
MODELO
SECO
HÚMEDO
SECO
15
15
50%
50%
HÚMEDO
11
13
45%
55%
CLASIFICACIÓN
REAL
Con pocos datos el sistema logró un 50% de clasificación correcta para el
periodo seco, mientras que para el periodo húmero este porcentaje de
clasificación fue de 55%. Los porcentajes de clasificación incorrecta fueron de
45% y 50%. A pesar que estos valores pueden parecer altos es de aclarar que
el conjunto de datos de validación es de 54 muestras y que es de esperar que
los porcentajes en este conjunto de validación sean menores a los obtenidos en
la calibración. En este caso particular se interpreta como resultado del tamaño
de la muestra empleado en la calibración, y el procedimiento de entrenamiento
de parda temprana que se empleo con la RNA.
86
4.2.2.2 Resultados
Por último, después de aprobar el resultado de validación se prosiguió a correr
la red con todos los datos, 217 en total, los resultados de presentan en la
siguiente tabla:
Tabla 13. Resultado del AD con la RNA
No.
FECHA
PERIODO
PERIODO
ESTACIÓN
MODELADO
REAL
ESTACIÓN
PERIODO
PERIODO
ESTACIÓN
MODELADO
MODELADO
ESTACIÓN
PERIODO
MODELADO
1
abr-04
1
1
1
2
1
3
1
4
1
2
may-04
1
1
1
2
1
3
1
4
1
3
jun-04
1
1
1
2
1
3
1
4
1
4
jul-04
0
1
0
2
0
3
0
4
0
5
ago-04
0
1
0
2
0
3
0
4
0
6
sep-04
1
1
1
2
1
3
1
4
1
7
oct-04
1
1
1
2
1
3
1
4
1
8
nov-04
1
1
1
2
1
3
1
4
0
9
dic-04
0
1
1
2
0
3
0
4
0
10
ene-05
0
1
0
2
0
3
0
4
0
11
feb-05
0
1
0
2
0
3
0
4
0
12
mar-05
0
1
0
2
0
3
0
4
0
13
abr-05
1
1
1
2
1
3
1
4
1
14
may-05
1
1
1
2
0
3
0
4
1
15
jun-05
0
1
0
2
0
3
0
4
1
16
jul-05
0
1
0
2
1
3
1
4
0
17
ago-05
0
1
0
2
0
3
0
4
0
18
sep-05
0
1
1
2
1
3
1
4
1
19
oct-05
1
1
1
2
0
3
0
4
0
20
nov-05
1
1
1
2
1
3
1
4
0
21
dic-05
0
1
0
2
0
3
0
4
0
22
ene-06
0
1
0
2
0
3
0
4
0
23
feb-06
0
1
0
2
0
3
0
4
0
24
mar-06
1
1
0
2
1
3
1
4
0
25
abr-06
1
1
1
2
1
3
1
4
1
26
may-06
1
1
0
2
1
3
1
4
1
27
jun-06
1
1
1
2
1
3
1
4
1
28
jul-06
0
1
0
2
1
3
0
4
0
29
ago-06
0
1
0
2
1
3
0
4
0
30
sep-06
1
1
1
2
1
3
1
4
1
31
oct-06
1
1
0
2
1
3
1
4
1
87
PERIODO
PERIODO
PERIODO
PERIODO
ESTACIÓN
ESTACIÓN
ESTACIÓN
REAL
MODELADO
MODELADO
MODELADO
No.
FECHA
1
abr-04
1
5
1
6
0
7
1
2
may-04
1
5
1
6
1
7
1
3
jun-04
1
5
1
6
1
7
1
4
jul-04
0
5
0
6
0
7
0
5
ago-04
0
5
0
6
0
7
0
6
sep-04
1
5
1
6
1
7
1
7
oct-04
1
5
1
6
1
7
1
8
nov-04
1
5
1
6
1
7
1
9
dic-04
0
5
0
6
0
7
0
10
ene-05
0
5
0
6
0
7
0
11
feb-05
0
5
0
6
0
7
0
12
mar-05
0
5
0
6
0
7
0
13
abr-05
1
5
0
6
1
7
1
14
may-05
1
5
0
6
0
7
0
15
jun-05
0
5
0
6
0
7
0
16
jul-05
0
5
1
6
1
7
1
17
ago-05
0
5
0
6
1
7
1
18
sep-05
0
5
1
6
1
7
1
19
oct-05
1
5
0
6
1
7
1
20
nov-05
1
5
1
6
1
7
1
21
dic-05
0
5
0
6
0
7
0
22
ene-06
0
5
0
6
1
7
0
23
feb-06
0
5
0
6
0
7
0
24
mar-06
1
5
1
6
0
7
1
25
abr-06
1
5
0
6
1
7
0
26
may-06
1
5
1
6
1
7
1
27
jun-06
1
5
1
6
1
7
0
28
jul-06
0
5
0
6
0
7
0
29
ago-06
0
5
0
6
0
7
0
30
sep-06
1
5
1
6
1
7
1
31
oct-06
1
5
1
6
1
7
1
88
Para visualizar de una manera más clara y evaluar el resultado de la red
neuronal, se elaboró la matriz de confusión la cual se presenta a continuación.
Tabla 14. Matriz de confusión bayesiana para la clasificación realizada con el conjunto
de datos completos
CLASIFICADO POR EL
MODELO
SECO
HÚMEDO
SECO
83
25
77%
23%
HÚMEDO
22
87
20%
80%
CLASIFICACIÓN
REAL
Ya revisando los resultados con la MC, se observa que globalmente los
porcentajes de clasificación correcta son altos, lo que indica que el modelo
usado con la red es confiable y logró capturar la relación de dependencia
presentes en el conjunto de datos analizados. El porcentaje de clasificación
correcta para temporada seca fue de 77%, mientras que para la temporada
húmeda este valor alcanzó un 80%. Los porcentajes de clasificación errónea
fueron de 20 y 23%.
En este caso no se calculó el coeficiente de correlación puesto que los datos
eran discretos y no continuos, lo que indica que no existía la necesidad de
averiguar si los resultados estaban relacionados puesto que la respuesta estaba
definida, periodo seco o periodo húmedo.
89
4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN
Los resultados de clasificación obtenidos por los métodos son muy similares en
la calibración, lo que indica que cualquiera de los métodos puede dar un buen
resultado al utilizarse en el análisis de la información de calidad de agua.
Una ventaja que puede tener las RNA sobre el método tradicional es que este
puede aprender y mejorar poco a poco siempre y cuando existieran más datos
para utilizar en el procedimiento de aprendizaje y validación.
Los porcentajes de clasificación correcta obtenidos en los procedimientos de
validación con RNA fueron menores que los obtenidos para el análisis
discriminante debido al número de muestras empleado en el entrenamiento de
la RNA (aproximadamente 170), así como la dependencia que existe entre la
semilla del generador de números aleatorios con el cual se inicializan los pesos
de la RNA. Además, los resultados del entrenamiento de las RNA tipo
perceptrón multicapa con retro-propagación de error son muy dependientes del
número de patrones empleados, y por lo tanto los resultados del entrenamiento
pueden presentar grandes variaciones dependiendo de la selección que se
haga del conjunto de calibración vs validación.
Para el caso del análisis discriminante convencional, la clasificación realizada
con los datos de validación presentó unos porcentajes de clasificación correcta
muy similares a los obtenidos durante el procedimiento de calibración. Esto
indica que a pesar que las RNA sean modelos de regresión no-lineal, se hace
necesario contar con un conjunto de datos lo suficientemente grande, de tal
forma que se asegure un procedimiento de entrenamiento que permita obtener
valores estables de los pesos que definen dichas redes neuronales.
Esto se
podría mejorar si se emplean otras arquitecturas de RNA como la GRNN
(Specth, 1990)
90
5
CONCLUSIONES
1. Componentes principales (CP): el método tradicional o estadístico no
consiguió una reducción de dimensionalidad en la información de calidad
de agua estudiada, ya que no permitió asociar las variables en grupos
que fueran claramente interpretables. Respecto a las Redes Neuronales
Artificiales de tipo hebbiano, esta técnica permitió identificar algunas
asociaciones con sentido físico/químico entre las variables analizadas, y
además los grupos de variables encontradas se ubicaron en los primeros
seis componentes. El primer componente se asocia a variables de tipo
físico, químico y biológico, el segundo componente a variables
relacionadas con el oxígeno disuelto, el tercer componente a los metales
pesados, el componente 5 al pH y el componente 6 a los sulfuros. En
conclusión, la red neuronal artificial como método no lineal obtuvo un
mejor desempeño que la técnica multivariada convencional a la hora de
identificar asociaciones con un claro sentido para el analista de la
información.
2. Análisis discriminante (AD): tanto el método tradicional como la red
neuronal brindaron resultados similares, siendo estos muy eficientes al
dar determinar un periodo seco o húmedo. Esto es de vital importancia
en procedimientos de clasificación automática, para la temporada
hidrológica que pueden ser requeridos en programas de monitoreo de la
calidad de agua. Sin embargo hay que recordar que la red neuronal
artificial tiene la posibilidad de mejorar en los porcentajes de clasificación
si se tuviese un conjunto de datos con un mayor número de patrones
para su entrenamiento.
91
3. De
acuerdo
a
los
resultados
obtenidos
en
este
trabajo,
los
procedimientos de análisis multivariado empleados comúnmente en el
análisis de información de calidad de agua pueden brindar resultados
que pueden ser poco interpretables, o que pueden resultar muy sensibles
a la presencia de valores anómalos. Estos problemas pueden ser
resueltos con la utilización de metodologías de análisis no lineales como
las Redes Neuronales Artificiales, las cuales permiten construir
representaciones de la información que dependen de relaciones de
dependencia presentes en el conjunto de datos, y las cuales no hacen
suposiciones restrictivas con respecto a la información original. Así
mismo, estos modelos de RNA son robustos frente a la presencia de
valores anómalos.
4. Las redes neuronales de aprendizaje supervisado, presenta cierta
desventaja al usarlas en el análisis de datos de calidad de agua, puesto
que, es necesario contar con un número grande de patrones
que
aseguren que los procedimientos de calibración (entrenamiento) sean
satisfactorios. Esto representa una restricción a la hora de usar este tipo
de metodologías en situaciones en donde se poseen pocos datos
medidos.
5. Es necesario realizar más investigaciones o trabajos utilizando los
métodos convencionales y las redes neuronales artificiales para poder
determinar con propiedad que herramienta es más eficiente en asociar y
clasificar datos, teniendo en cuenta, que en este último existen una
variedad de redes por aplicar.
92
6
RECOMENDACIONES
1. Se recomienda que para realizar análisis de datos de calidad de agua
con componentes principales (CP), es recomendable utilizar las redes
neuronales de tipo hebbiano, puesto que así como en este ejercicio,
se pudo encontrar que en otras experiencias donde se aplicó la
técnica convencional en datos de agua también se obtuvieron
resultados no muy satisfactorios.
2. En la clasificación de datos de calidad de agua puede usarse
cualquier de los dos métodos usados en este trabajo, puesto que, los
dos presentaron un resultado similar y satisfactorio en la clasificación
de los datos.
3. Como futuro estudios de investigación, se recomendable realizar este
mismo ejercicio con datos de calidad de agua proveniente de
sistemas lóticos, puesto que estos presentan una dinámica de las
características fisicoquímicas distinta a los sistemas lénticos.
4. En general, hay que realizar otras investigaciones aplicando otros
tipos de redes para poder conocer que tan eficientes son en el
análisis de datos de calidad de agua.
93
7
BIBLIOGRAFÍA
Kottegoda, N y Rozzo, R. (1993). Statistics, probability and reliability for Civil
and Environmental Engineers. McGraw Hill, 585 pp.
Moreno-Sánchez, G. y García-Cabrejo, O. (2003). Metodologías Cuantitativas
en el Análisis de Datos Estratigráficos. Notas de Clase (Material No Publicado).
105 pp.
Oja, E. (1982). A simplified neuron model as a principal component analyzer.
Journal of Mathematical Biology 15 (2), 267-273.
Ouyang, Y. (2005). evaluation of river water quality monitoring stations by
principal component analysis. Water Research, Vol 39, Nro 4. pp 2621-2635.
Specth, A. (1990). A General Regression Neural Network.
Tagliaferri, R., Ciaramella A, Milano L., Barone F. & Longo, G. (1999). Spectral
analysis of stellar light curves by means of neural networks.
Astronomy &
Astrophysics Supplement Series 137 (2), 391 – 405
Vega, M., Pardo, R., Barrado, E. y Debaan, L. (1998). Assessment of seasonal
and polluting effects on the quality of river water by exploratory data analysis.
Water Research, Vol 32 Nro. 12, pp 3581-3592.
Wunderlin, D., Díaz, MP., Ame, M., Pesce, S., Hued,A., y Bistoni, M. (2001).
Pattern recognition techniques for the evaluation of spatial and temporal
94
variations in water quality. a case study: suquia river basin (Cordoba–
Argentina). Water Research, Vol 35, Nro. 12, pp 2881-2894.
Díaz M. Luis G. Estadística Multivariada: inferencia y método (2002). Facultad
de Ciencia, Universidad Nacional de Colombia
Giarratano Joseph, Riley Gary . Sistemas expertos: principios y programación.
Tercera edición. Thomson editores
Hilera José, Martínez Víctor. Redes Neuronales Artificiales: fundamentos,
modelos y aplicaciones. Addison-Wesley Iberoamerica
Martín Bonifacio, Sanz Alfredo. Redes Neuronales y Sistemas Difusos.
Alfaomega, 2da Edición
Isasi Pedro, Galvan Inés. Redes Neuronales Artificiales. Un enfoque práctico.
Editorial Person
95
8
ANEXOS
96
ANEXO 1
MATRIZ DE DATOS DE LAS ESTACIONES DE MONITOREO 2 AL 7
97
Tabla 15. Matriz de datos medidos en la estación de monitoreo No. 2
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
32
abr-04
2
1600000
1600000
0.040
40
131
1.98
3.01
20.89
27.71
0.2
33
may-04
2
1600000
1600000
0.040
34
105
2.07
2.93
16.66
19.58
0.2
34
jun-04
2
90000
140000
0.030
19
74
2.25
2.90
15.00
18.55
0.2
35
jul-04
2
1600000
1600000
0.020
36
178
2.59
3.03
16.66
21.20
0.2
36
ago-04
2
260000
1600000
0.030
47
118
2.28
2.73
16.76
21.55
0.2
37
sep-04
2
4000
1600000
0.040
65
183
1.87
4.09
16.93
26.13
0.2
38
oct-04
2
1600000
1600000
0.070
33
118
0.79
1.72
8.25
16.24
0.2
39
nov-04
2
1600000
1600000
0.010
44
159
1.14
3.49
12.58
18.22
0.2
40
dic-04
2
1600000
1600000
0.030
75
202
2.98
3.08
19.36
25.35
0.2
41
ene-05
2
1600000
1600000
0.030
59
146
2.32
5.13
25.43
28.63
0.2
42
feb-05
2
1600000
1600000
0.060
77
156
2.40
4.23
22.32
24.05
0.2
43
mar-05
2
1600000
1600000
0.120
64
136
2.94
5.24
24.44
25.92
0.2
44
abr-05
2
1600000
1600000
0.043
57
209
0.65
3.66
24.50
42.00
0.2
45
may-05
2
1100000
1600000
0.044
37
147
1.61
3.48
14.30
24.24
0.2
46
jun-05
2
460000
1600000
0.044
83
149
3.93
3.52
23.00
23.97
0.2
47
jul-05
2
9000000
24000000
0.045
82
203
4.20
4.21
24.10
44.80
0.2
48
ago-05
2
11000000
1600000
0.047
87
151
2.58
3.53
18.40
25.51
0.2
49
sep-05
oct-05
2
32000
1600000
0.030
86
182
1.21
3.69
18.12
24.75
0.5
50
2
90000
430000
0.080
51
76
2.10
2.19
15.80
19.60
0.2
51
nov-05
2
11000000
24000000
0.080
66
176
2.60
2.85
16.30
24.10
0.2
52
dic-05
2
24000000
24000000
0.080
54
111
2.44
5.08
21.30
25.00
0.2
53
ene-06
2
230000
1500000
0.080
41
138
1.86
4.83
18.20
20.70
0.2
54
feb-06
2
400
1400
0.080
93
205
1.26
3.94
35.90
39.20
0.2
55
mar-06
2
300
900
0.080
93
255
3.76
4.21
25.20
28.60
0.2
56
abr-06
2
2100000
93000000
0.080
63
266
3.68
3.46
33.70
38.30
0.2
57
may-06
2
2600000
9000000
0.009
48
67
1.15
1.32
14.20
16.14
0.9
58
jun-06
2
2800000
8500000
0.015
98
148
1.95
2.93
12.75
15.60
2.0
59
jul-06
2
4000
70000
0.010
98
162
1.71
3.35
14.41
17.59
0.5
60
ago-06
2
17000
350000
0.032
79
155
0.74
1.73
16.73
18.83
2.1
61
sep-06
2
60000
1600000
0.019
106
180
0.56
3.30
19.31
23.37
0.8
62
oct-06
2
8000
13000
0.007
83
160
1.60
3.15
10.26
12.80
0.5
No.
98
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
32
abr-04
2
0.010
2.5
0.4
58
30
344
10.53
6.43
64.20
419
6.76
33
may-04
2
0.010
0.3
1.5
69
60
305
10.20
6.62
37.50
421
6.72
34
jun-04
2
0.010
2.3
0.1
15
5
260
19.10
5.90
23.90
404
6.74
No.
35
jul-04
2
0.010
3.8
0.2
32
18
273
6.60
11.30
45.30
365
6.89
36
ago-04
2
0.010
2.4
2.5
190
116
335
22.00
1.40
87.00
400
7.00
37
sep-04
2
0.010
2.5
0.1
49
39
275
12.30
1.00
29.00
484
6.67
38
oct-04
2
0.010
1.9
0.3
173
53
368
33.60
9.80
129.00
400
6.81
39
nov-04
2
0.050
1.9
0.2
167
17
310
16.00
5.40
40.60
450
7.03
40
dic-04
2
0.010
2.8
0.7
115
40
356
31.70
14.10
69.20
463
7.16
41
ene-05
2
0.030
2.2
0.1
46
16
347
18.70
16.60
27.30
507
6.92
42
feb-05
2
0.010
2.6
0.3
90
40
394
20.50
11.30
46.80
489
6.97
43
mar-05
2
0.010
2.5
0.1
31
21
332
20.60
17.80
23.60
548
7.12
44
abr-05
2
0.015
2.6
0.4
116
80
432
31.20
6.10
83.00
631
6.77
45
may-05
2
0.015
2.6
0.1
87
36
333
19.46
4.40
74.00
301
7.10
46
jun-05
2
0.016
2.7
1.4
65
51
332
20.15
6.40
65.00
391
7.12
47
jul-05
2
0.017
2.7
0.2
94
66
357
18.90
7.80
49.60
642
7.18
48
ago-05
2
0.016
2.8
1.4
100
64
335
19.47
2.10
72.90
405
7.05
49
sep-05
2
0.008
2.7
0.3
67
52
328
9.53
2.85
28.65
481
6.51
50
oct-05
2
0.160
0.4
0.2
115
62
303
12.40
2.00
98.40
353
6.86
51
nov-05
2
0.160
0.6
0.1
49
41
311
62.70
2.90
35.80
490
7.12
52
dic-05
2
0.160
0.4
0.1
67
59
250
31.10
3.80
40.00
466
6.95
53
ene-06
2
0.160
0.6
0.1
74
35
273
17.00
3.00
86.70
390
6.74
54
feb-06
2
0.160
0.8
0.1
43
37
356
28.00
2.10
44.20
579
6.96
55
mar-06
2
0.160
0.6
0.1
96
72
441
21.00
3.70
103.00
614
6.93
56
abr-06
2
0.160
1.6
0.3
45
31
334
11.30
4.00
44.10
609
6.62
57
may-06
2
0.050
2.5
0.1
29
10
247
13.69
3.00
53.00
425
6.75
58
jun-06
2
0.006
3.3
0.1
60
50
306
31.73
2.20
40.90
436
6.72
59
jul-06
2
0.005
1.6
0.1
19
8
223
12.95
2.85
40.10
373
6.85
60
ago-06
2
0.005
2.0
0.1
58
35
304
10.36
1.35
32.30
425
6.67
61
sep-06
2
0.005
2.9
0.5
84
64
380
6.76
4.70
28.30
477
6.35
62
oct-06
2
0.005
1.7
0.1
25
15
280
13.56
2.10
50.55
614
6.82
99
Tabla 16. Matriz de datos medidos en la estación de monitoreo No. 3
No.
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
63
abr-04
3
1600000
1600000
0.060
63
188
1.86
2.42
19.36
21.24
0.2
64
may-04
3
1600000
1600000
0.070
57
173
1.66
2.01
14.09
14.12
0.2
65
jun-04
3
70000
70000
0.020
34
92
2.20
2.38
15.75
20.94
0.2
66
jul-04
3
1600000
1600000
0.060
29
230
2.71
3.13
15.57
23.76
0.2
67
ago-04
3
1600000
1600000
0.040
65
206
2.47
2.83
18.40
25.40
0.2
68
sep-04
3
4000
1600000
0.210
116
338
2.52
3.69
22.34
31.65
0.2
69
oct-04
3
900000
1600000
0.060
41
142
0.68
1.63
7.54
15.20
0.2
70
nov-04
3
1600000
1600000
0.010
53
156
1.57
3.43
15.56
18.53
0.2
71
dic-04
3
1600000
1600000
0.180
143
420
3.96
6.83
20.37
25.45
0.2
72
ene-05
3
1600000
1600000
0.040
92
210
2.78
5.95
31.00
33.94
0.2
73
feb-05
3
1600000
1600000
0.060
81
184
2.16
4.38
22.22
23.32
0.2
74
mar-05
3
1600000
1600000
0.040
69
138
3.13
5.18
23.94
24.36
0.2
75
abr-05
3
24000000
1600000
0.040
71
321
3.79
4.24
25.50
70.00
0.2
76
may-05
3
24000000
1600000
0.180
43
215
1.40
3.70
13.10
26.76
0.2
77
jun-05
3
1100000
1600000
0.040
41
217
2.94
3.80
18.10
27.19
0.2
78
jul-05
3
300
1600000
0.060
27
62
2.93
3.29
19.50
25.20
0.4
79
ago-05
3
24000000
1600000
0.060
124
206
2.86
3.68
18.40
26.69
0.2
80
3
22000
1050000
0.118
98
237
2.29
3.35
21.01
27.51
0.5
81
sep-05
oct-05
3
24000000
24000000
0.080
52
108
1.70
1.81
12.40
14.50
0.2
82
nov-05
3
1500000
9300000
0.080
55
152
2.92
3.09
14.90
21.50
0.2
83
dic-05
3
9300000
24000000
0.080
109
240
2.70
4.84
25.40
30.20
0.2
84
ene-06
3
930000
11000000
0.210
99
299
1.96
2.42
18.60
21.30
0.2
85
feb-06
3
110000
210000
0.080
117
237
1.47
4.15
39.40
42.50
0.2
86
mar-06
3
110000
280000
0.080
95
256
3.54
4.03
26.90
29.70
0.2
87
abr-06
3
1100000
120000000
0.080
71
250
3.54
3.79
30.20
35.90
0.2
88
may-06
3
2200000
2400000
0.011
49
73
1.49
2.29
19.47
21.60
0.4
89
jun-06
3
1800000
2200000
0.033
149
222
1.68
1.93
11.09
13.42
2.4
90
jul-06
3
4561111
21487778
0.082
88
204
2.33
3.15
22.04
25.62
0.5
91
ago-06
3
2401235
21208642
0.082
92
215
2.40
3.30
23.11
26.86
0.5
92
sep-06
3
40000
500000
0.026
79
136
2.06
3.02
19.68
23.36
0.7
93
oct-06
3
5000
24000
0.055
155
280
1.76
2.56
16.88
19.15
0.5
100
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
63
abr-04
3
0.010
2.5
1.0
123
39
388
16.47
7.37
111.07
388
6.74
64
may-04
3
0.010
0.3
1.0
136
70
415
21.90
6.16
94.70
395
7.03
65
jun-04
3
0.010
2.2
0.3
46
22
319
20.80
7.90
68.20
437
6.68
66
jul-04
3
0.010
3.3
0.5
57
40
331
13.30
9.80
66.40
373
6.95
67
ago-04
3
0.010
2.6
1.5
153
133
267
23.80
2.40
49.00
409
7.13
68
sep-04
3
0.010
3.0
1.1
177
14
481
20.40
1.00
94.30
600
6.71
69
oct-04
3
0.010
1.9
0.3
325
140
449
30.70
8.50
177.00
398
6.98
70
nov-04
3
0.050
2.1
0.1
63
17
314
27.00
5.60
36.80
499
6.94
71
dic-04
3
0.010
3.0
2.0
324
182
660
29.80
10.80
112.00
543
7.31
72
ene-05
3
0.030
2.5
0.2
89
42
408
19.20
17.90
48.50
568
7.06
73
feb-05
3
0.010
2.4
0.4
90
26
409
34.30
11.00
44.90
475
7.28
74
mar-05
3
0.010
2.6
0.3
57
26
334
19.90
12.10
31.60
555
7.10
75
abr-05
3
0.010
2.4
0.8
160
104
472
28.40
3.60
105.00
642
6.78
76
may-05
3
0.010
2.4
0.1
92
36
404
23.54
4.30
76.00
291
7.10
77
jun-05
3
0.010
2.5
8.0
350
126
405
24.08
4.30
85.00
403
7.44
78
jul-05
3
0.010
2.4
0.1
12
6
244
11.00
0.60
10.50
573
6.99
79
ago-05
3
0.010
2.4
2.5
178
92
394
22.79
3.70
75.20
399
6.90
80
sep-05
3
0.008
3.1
1.0
127
25
425
12.61
3.00
61.80
506
6.58
81
oct-05
3
0.160
0.4
0.1
119
58
311
8.70
1.60
107.00
349
6.69
No.
82
nov-05
3
0.160
0.7
0.1
50
43
307
23.60
3.20
32.00
485
7.10
83
dic-05
3
0.160
0.4
0.6
217
119
441
24.90
8.90
250.00
505
7.07
84
ene-06
3
0.160
0.5
0.5
270
93
478
27.40
2.30
228.00
415
7.02
85
feb-06
3
0.160
0.5
0.1
66
64
400
31.20
8.40
67.00
567
6.98
86
mar-06
3
0.160
0.5
0.8
142
106
497
23.00
4.60
136.00
614
6.87
87
abr-06
3
0.160
1.6
0.5
109
56
393
16.20
7.50
61.00
607
6.73
88
may-06
3
0.050
2.5
0.1
24
12
265
13.43
3.20
79.00
434
6.79
89
jun-06
3
0.005
4.1
0.3
165
149
451
21.04
2.87
64.00
437
6.75
90
jul-06
3
0.131
1.2
0.3
129
78
394
21.05
4.73
113.78
490
6.89
91
ago-06
3
0.010
1.3
0.4
130
80
403
22.42
5.08
114.53
506
6.91
92
sep-06
3
0.005
3.3
0.8
76
36
369
4.82
5.00
29.30
412
6.44
93
oct-06
3
0.005
1.8
0.5
56
32
315
16.25
2.15
60.82
577
6.49
101
Tabla 17. Matriz de datos medidos en la estación de monitoreo No. 4
No.
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
94
abr-04
4
350000
626667
0.017
19
79
3.45
3.90
23.44
28.64
0.2
95
may-04
4
130000
220000
0.010
27
198
2.53
4.11
14.58
18.43
0.2
96
jun-04
4
20000
20000
0.010
23
144
2.34
2.63
14.00
16.92
0.2
97
jul-04
4
1600000
1600000
0.010
19
63
2.12
2.64
13.92
16.83
0.2
98
ago-04
4
1600000
1600000
0.010
18
204
1.90
2.22
13.89
20.30
0.2
99
sep-04
4
2700
17000
0.020
12
57
1.62
2.71
13.40
19.88
0.2
100
oct-04
4
8000
1600000
0.020
19
84
2.04
2.94
13.61
18.84
0.2
101
nov-04
4
110000
110000
0.010
15
50
1.13
2.96
11.56
12.18
0.2
102
dic-04
4
260000
260000
0.010
10
157
1.73
2.34
11.66
13.33
0.2
103
ene-05
4
1600000
1600000
0.010
43
109
2.51
4.82
25.68
28.11
0.2
104
feb-05
4
300000
300000
0.010
54
97
3.17
5.09
23.33
25.19
0.2
105
mar-05
4
700000
700000
0.010
32
92
3.27
4.90
23.33
24.46
0.2
106
abr-05
4
24000000
721139
0.010
29
99
3.68
3.69
17.50
42.00
0.2
107
may-05
4
15000
729012
0.010
29
110
3.13
3.46
22.20
21.93
0.2
108
jun-05
4
9300
771429
0.010
22
113
2.52
3.42
17.00
21.42
0.2
109
jul-05
4
1700
834048
0.010
27
53
2.47
2.80
28.70
44.20
0.2
110
ago-05
4
4600
770219
0.010
54
107
2.64
3.41
17.90
23.29
0.2
111
sep-05
oct-05
4
1550
19500
0.011
18
50
0.81
2.11
11.94
15.90
0.4
112
4
150000
1100000
0.080
31
68
2.90
3.12
25.00
30.10
0.2
113
nov-05
4
1500
2100
0.080
16
53
2.47
2.54
14.20
22.50
0.2
114
dic-05
4
2400000
2400000
0.080
15
54
2.18
2.61
20.00
23.30
0.2
115
ene-06
4
90000
230000
0.080
30
113
2.61
5.90
21.20
24.10
0.2
116
feb-06
4
1500
2100
0.080
28
52
2.90
3.02
36.40
39.80
0.2
117
mar-06
4
900
2000
0.080
45
164
3.48
5.22
34.00
36.10
0.2
118
abr-06
4
430000
9300000
0.080
26
33
3.76
4.53
33.40
36.90
0.2
119
may-06
4
2600
22000
0.007
70
164
1.34
2.43
16.93
19.23
0.9
120
jun-06
4
5600
38000
0.001
86
138
1.06
1.92
8.32
11.51
2.1
121
jul-06
4
30
1600
0.001
96
194
0.64
0.80
7.76
9.50
0.5
122
ago-06
4
110
1600
0.001
34
60
0.67
0.83
8.65
10.09
0.6
123
sep-06
4
400
22000
0.001
24
42
0.01
1.50
10.48
11.91
0.6
124
oct-06
4
2
1600
0.001
80
155
0.60
0.95
6.20
8.15
0.3
102
No.
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
94
abr-04
4
0.010
2.7
0.1
8
3
280
9.03
2.87
13.33
444
6.67
95
may-04
4
0.010
0.4
4.0
81
68
934
18.40
5.24
101.00
406
6.92
96
jun-04
4
0.010
2.4
0.4
23
7
301
17.70
4.10
40.30
370
6.93
97
jul-04
4
0.010
3.0
0.5
6
3
227
13.90
9.70
14.10
342
6.83
98
ago-04
4
0.010
2.3
12.0
156
104
342
16.90
5.00
80.90
337
7.02
99
sep-04
4
0.010
2.4
0.1
11
3
186
12.40
1.00
8.80
424
6.75
100
oct-04
4
0.010
2.2
0.1
36
9
239
5.60
7.90
15.60
459
6.65
101
nov-04
4
0.050
1.7
0.1
16
10
200
15.60
3.70
11.70
350
6.58
102
dic-04
4
0.010
2.1
0.1
27
11
217
16.50
3.90
22.50
305
7.01
103
ene-05
4
0.070
2.3
0.2
22
17
337
13.70
11.00
13.30
504
6.95
104
feb-05
4
0.010
3.0
0.1
28
11
272
8.40
9.00
11.30
522
6.72
105
mar-05
4
0.010
2.2
0.5
24
9
306
22.00
9.30
13.30
508
7.09
106
abr-05
4
0.010
2.2
0.1
26
16
378
19.90
3.40
29.00
603
7.21
107
may-05
4
0.010
2.2
0.1
20
15
325
14.62
4.00
6.20
418
7.05
7.09
108
jun-05
4
0.010
2.3
0.1
4
3
328
15.05
3.60
1.90
441
109
jul-05
4
0.010
2.3
0.1
11
3
196
10.80
1.50
10.60
525
7.03
110
ago-05
4
0.010
2.3
0.1
8
4
317
14.41
2.40
6.60
383
6.89
111
sep-05
4
0.008
2.4
0.1
8
3
206
7.20
1.41
7.46
388
6.75
112
oct-05
4
0.160
0.7
0.1
11
9
256
5.90
2.70
15.40
517
6.82
113
nov-05
4
0.160
0.8
0.1
16
13
243
15.20
2.20
13.90
433
7.04
114
dic-05
4
0.160
0.5
0.1
16
13
257
5.80
2.90
21.10
434
6.79
115
ene-06
4
0.160
0.8
0.1
17
15
273
8.30
5.10
17.80
490
6.91
116
feb-06
4
0.160
0.8
0.1
11
10
280
17.00
2.50
14.30
567
7.04
117
mar-06
4
0.160
0.7
0.1
15
12
286
10.10
1.40
18.40
638
6.80
118
abr-06
4
0.160
1.7
0.1
15
12
268
15.00
4.20
16.60
559
6.64
119
may-06
4
0.005
2.7
0.1
49
42
295
9.73
1.00
20.20
452
6.83
120
jun-06
4
0.005
3.3
0.1
37
32
184
2.06
1.55
10.06
184
6.74
121
jul-06
4
0.005
1.0
0.1
15
12
137
6.70
3.10
16.40
226
6.91
122
ago-06
4
0.005
1.8
0.3
15
12
166
2.92
2.53
6.20
273
6.37
123
sep-06
4
0.005
2.4
0.1
4
2
225
1.99
1.81
6.12
351
6.74
124
oct-06
4
0.005
0.9
0.1
10
5
200
6.80
2.20
11.40
331
6.74
103
Tabla 18. Matriz de datos medidos en la estación de monitoreo No. 5
No.
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
125
abr-04
5
620000
1600000
0.013
37
108
3.18
3.40
24.77
29.23
0.2
126
may-04
5
1600000
1600000
0.010
23
140
2.07
3.59
15.08
16.10
0.2
127
jun-04
5
200000
360000
0.010
16
74
2.08
3.05
12.92
18.78
0.2
128
jul-04
5
1600000
1600000
0.010
41
94
2.47
3.02
16.24
18.64
0.2
129
ago-04
5
260000
1600000
0.010
22
72
2.26
2.81
14.30
17.75
0.2
130
sep-04
5
23000
1600000
0.070
72
349
2.31
4.16
18.16
26.96
0.2
131
oct-04
5
1600000
1600000
0.020
23
84
1.79
3.82
15.03
21.34
0.2
132
nov-04
5
1100000
1600000
0.010
15
71
1.48
2.87
9.64
14.89
0.2
133
dic-04
5
1600000
1600000
0.010
58
144
2.71
4.11
18.04
21.81
0.2
134
ene-05
5
1600000
1600000
0.010
39
99
1.72
4.89
24.17
24.46
0.2
135
feb-05
5
1600000
1600000
0.010
41
100
3.19
5.18
22.11
23.84
0.2
136
mar-05
5
1600000
1600000
0.020
69
116
2.80
5.00
23.73
24.36
0.2
137
abr-05
5
24000000
1600000
0.010
49
150
3.14
3.54
21.80
42.00
0.2
138
may-05
5
15000
1600000
0.010
43
123
2.97
3.80
17.10
23.09
0.2
139
jun-05
5
24000
1600000
0.010
35
124
2.73
3.83
19.70
22.62
0.2
140
jul-05
5
500
1600000
0.020
28
69
3.06
3.19
26.70
43.40
0.2
141
ago-05
5
11000000
1600000
0.020
43
120
3.16
3.77
18.60
24.33
0.2
142
5
13500
830000
0.036
52
202
1.31
3.27
15.42
20.78
0.6
143
sep-05
oct-05
5
24000000
24000000
0.080
30
66
3.10
3.48
23.90
30.80
0.2
144
nov-05
5
930
4600
0.080
35
79
2.24
2.92
12.30
19.20
0.2
145
dic-05
5
2400000
2400000
0.080
25
66
1.69
2.10
20.30
23.00
0.2
146
ene-06
5
430000
930000
0.800
24
91
2.40
5.29
21.40
24.30
0.2
147
feb-06
5
9000
28000
0.080
73
140
2.83
3.37
29.20
32.20
0.2
148
mar-06
5
9000
21000
0.080
50
174
3.49
4.84
30.40
32.30
0.2
149
abr-06
5
930000
2400000
0.080
37
77
3.42
4.02
32.90
38.30
0.2
150
may-06
5
2300
13000
0.010
80
183
2.15
3.65
16.38
18.87
1.0
151
jun-06
5
5600
25000
0.005
98
158
1.60
2.72
12.75
14.81
2.0
152
jul-06
5
900
30000
0.001
73
140
1.35
1.85
14.41
18.36
0.9
153
ago-06
5
1100
30000
0.001
86
155
0.46
1.05
12.00
13.66
0.4
154
sep-06
5
4000
60000
0.001
32
55
0.31
2.38
12.68
14.60
1.1
155
oct-06
5
8000
50000
0.001
63
138
0.95
1.93
12.80
13.20
0.4
104
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
125
abr-04
5
0.010
2.6
0.1
30
11
290
12.23
2.73
26.30
434
6.69
126
may-04
5
0.010
0.4
0.7
14
8
270
9.60
3.09
32.90
405
6.89
127
jun-04
5
0.010
2.4
0.1
23
10
238
19.10
3.80
25.20
384
7.00
No.
128
jul-04
5
0.010
3.5
0.1
20
8
261
8.30
2.40
28.30
367
6.85
129
ago-04
5
0.010
2.4
0.1
33
23
195
15.50
1.00
14.70
357
7.09
130
sep-04
5
0.010
2.6
1.0
107
72
303
10.60
1.00
39.10
498
6.88
131
oct-04
5
0.010
2.3
0.1
39
36
251
12.20
11.70
27.10
473
6.71
132
nov-04
5
0.050
1.9
0.1
40
26
230
14.50
6.30
30.90
424
7.13
133
dic-04
5
0.010
2.7
0.1
28
6
319
32.70
10.60
60.10
422
7.14
134
ene-05
5
0.040
2.2
0.1
22
11
310
10.10
12.30
13.10
478
7.20
6.87
135
feb-05
5
0.010
2.8
0.1
38
12
318
13.00
13.00
16.80
490
136
mar-05
5
0.010
2.6
0.4
36
16
214
25.50
11.70
17.20
533
7.05
137
abr-05
5
0.050
1.9
0.1
33
32
380
20.10
3.70
40.00
587
7.30
138
may-05
5
0.010
2.7
0.1
15
11
275
15.65
3.80
12.00
423
7.04
139
jun-05
5
0.040
2.2
0.1
3
1
274
15.91
4.10
3.40
453
6.94
140
jul-05
5
0.010
2.8
0.1
11
5
246
17.00
1.50
20.08
603
6.78
141
ago-05
5
0.010
2.6
0.1
24
16
273
15.75
5.60
14.90
439
6.71
142
sep-05
5
0.008
2.5
0.6
59
40
288
6.46
1.06
24.75
449
6.78
143
oct-05
5
0.160
0.8
0.1
17
11
279
19.70
4.90
9.72
503
6.87
144
nov-05
5
0.160
0.8
0.3
20
17
231
5.30
2.70
27.40
440
6.72
145
dic-05
5
0.160
0.4
0.1
22
16
243
16.90
2.50
22.40
458
6.90
146
ene-06
5
0.160
0.6
0.1
26
21
277
9.70
7.40
31.70
486
6.97
147
feb-06
5
0.160
0.5
0.1
22
21
300
29.60
2.50
23.40
617
7.04
148
mar-06
5
0.160
0.6
0.1
19
17
277
17.70
3.10
22.30
651
6.88
149
abr-06
5
0.160
1.6
0.1
28
21
278
30.10
5.20
21.80
573
6.61
150
may-06
5
0.005
2.3
0.4
57
12
306
21.17
3.50
70.00
449
6.69
151
jun-06
5
0.005
2.6
0.1
52
42
276
3.22
2.85
40.00
401
7.03
152
jul-06
5
0.005
1.8
0.1
14
12
211
6.05
2.45
14.90
361
6.93
153
ago-06
5
0.005
1.9
0.1
15
13
216
3.03
1.78
13.70
380
6.60
154
sep-06
5
0.005
2.5
0.1
11
8
272
2.32
1.12
10.40
400
6.67
155
oct-06
5
0.005
1.9
0.1
20
10
260
5.20
1.80
15.20
412
6.81
105
Tabla 19. Matriz de datos medidos en la estación de monitoreo No. 6
No.
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
156
abr-04
6
846667
1233333
0.017
32
169
2.55
4.58
24.77
27.33
0.2
157
may-04
6
140000
140000
0.010
21
106
2.30
3.39
15.66
16.20
0.2
158
jun-04
6
330000
330000
0.010
12
43
2.07
2.86
13.17
17.32
0.2
159
jul-04
6
1600000
1600000
0.010
35
86
2.24
2.73
14.67
18.00
0.2
160
ago-04
6
400000
800000
0.010
22
72
2.10
2.55
13.97
15.77
0.2
161
sep-04
6
4
1600
0.020
18
63
1.82
3.16
14.63
19.99
0.2
162
oct-04
6
1600000
1600000
0.020
18
86
1.69
2.27
11.69
21.45
0.2
163
nov-04
6
1600000
1600000
0.010
12
61
1.55
2.98
15.05
15.98
0.2
164
dic-04
6
1600000
1600000
0.010
23
117
2.36
3.50
15.71
18.58
0.2
165
ene-05
6
1600000
1600000
0.030
82
151
2.57
5.46
25.43
28.21
0.2
166
feb-05
6
1600000
1600000
0.010
53
102
3.16
4.84
22.11
24.99
0.2
167
mar-05
6
1600000
1600000
0.040
98
220
3.35
6.17
23.43
27.90
0.2
168
abr-05
6
24000000
1600000
0.010
52
151
3.34
3.83
25.90
56.00
0.2
169
may-05
6
23000
1600000
0.010
38
110
3.22
3.72
23.20
23.67
0.2
170
jun-05
6
15000
1600000
0.030
23
105
2.36
3.65
19.00
23.39
0.2
171
jul-05
6
2400
1600000
0.010
28
60
3.11
3.33
29.80
39.70
0.2
172
ago-05
6
24000
1600000
0.040
27
106
2.82
3.69
17.60
24.66
0.2
173
sep-05
oct-05
6
202
8800
0.011
26
62
1.26
2.50
13.11
16.63
0.6
174
6
40000
150000
0.080
28
54
6.10
6.46
21.50
27.20
0.2
175
nov-05
6
1500
4600
0.080
34
82
2.26
3.08
13.30
18.60
0.2
176
dic-05
6
2400000
2400000
0.080
29
100
2.16
3.27
21.20
24.50
0.2
177
ene-06
6
430000
2400000
0.080
39
111
2.25
3.06
19.60
25.30
0.2
178
feb-06
6
4000
7000
0.080
48
120
1.09
3.24
34.80
37.60
0.2
179
mar-06
6
4000
9000
0.080
77
248
3.55
3.59
34.90
36.00
0.2
180
abr-06
6
280000
6400000
0.080
23
61
3.61
4.24
33.30
38.90
0.2
181
may-06
6
8000
50000
0.007
22
79
1.87
2.67
17.47
19.88
0.9
182
jun-06
6
395938
1427575
0.071
38
107
2.86
3.70
24.51
28.50
0.3
183
jul-06
6
440430
1587272
0.070
39
113
2.46
3.36
24.88
28.66
0.3
184
ago-06
6
495296
1785106
0.068
39
117
2.48
3.39
26.33
29.92
0.3
185
sep-06
6
400
16000
0.001
34
60
0.70
1.85
11.58
13.26
1.0
186
oct-06
6
2
11
0.001
55
68
1.67
2.26
9.15
12.80
0.5
106
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
156
abr-04
6
0.010
3.3
1.1
134
74
405
157
may-04
6
0.010
0.4
0.1
24
18
246
158
jun-04
6
0.010
2.3
0.1
15
6
230
159
jul-04
6
0.010
3.0
0.1
18
13
160
ago-04
6
0.010
2.5
0.1
17
13
161
sep-04
6
0.010
2.4
0.1
30
14
218
16.20
1.00
10.60
450
6.71
162
oct-04
6
0.010
2.3
0.1
60
3
245
24.70
6.90
33.90
455
7.03
163
nov-04
6
0.050
2.0
0.1
40
16
233
13.40
5.90
26.80
435
6.67
164
dic-04
6
0.010
2.6
1.3
24
8
312
27.20
15.90
41.60
369
7.05
165
ene-05
6
0.010
2.3
4.0
60
26
391
8.20
15.50
26.40
517
7.17
6.94
No.
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
12.63
7.77
147.07
436
6.66
10.60
8.15
16.90
416
6.83
16.60
2.20
19.10
371
7.00
250
13.50
2.30
27.90
333
6.87
192
13.70
1.00
7.90
339
7.17
166
feb-05
6
0.010
2.7
0.2
58
10
318
11.50
13.30
16.90
482
167
mar-05
6
0.010
2.7
10.0
88
60
166
29.40
4.20
109.00
530
6.70
168
abr-05
6
0.010
2.4
0.5
47
30
360
21.40
3.90
50.00
581
6.98
169
may-05
6
0.010
2.3
0.1
22
10
274
16.85
4.40
5.70
422
6.95
170
jun-05
6
0.010
2.5
0.1
4
2
264
17.17
4.40
2.80
440
6.95
171
jul-05
6
0.010
2.5
0.1
10
6
249
17.30
2.60
14.40
612
6.88
172
ago-05
6
0.010
2.4
0.1
12
6
272
16.90
2.20
8.70
438
6.77
173
sep-05
6
0.008
2.5
0.6
26
13
235
9.08
1.63
12.30
412
6.65
174
oct-05
6
0.160
0.8
0.1
13
11
256
10.40
2.70
9.50
514
6.82
175
nov-05
6
0.160
0.6
0.1
22
19
223
15.30
1.80
30.60
456
6.76
176
dic-05
6
0.160
0.4
1.0
64
44
281
18.20
5.60
57.30
445
6.86
177
ene-06
6
0.160
0.3
0.1
23
21
286
6.30
3.60
26.90
487
7.00
178
feb-06
6
0.160
0.4
0.1
13
12
310
35.60
5.20
18.30
565
6.93
179
mar-06
6
0.160
0.5
0.1
36
20
374
22.20
4.20
41.10
651
6.95
180
abr-06
6
0.160
1.7
0.1
40
37
274
15.40
4.80
28.90
575
6.85
181
may-06
6
0.005
2.6
0.1
15
10
264
7.09
1.50
10.15
457
6.66
182
jun-06
6
0.141
0.9
0.1
28
22
284
16.31
3.68
27.84
519
6.85
183
jul-06
6
0.138
0.9
0.1
30
23
287
17.05
3.80
30.14
519
6.86
184
ago-06
6
0.135
1.0
0.1
31
24
295
17.27
4.05
30.08
527
6.87
185
sep-06
6
0.005
2.6
1.0
21
11
251
1.96
2.25
14.00
374
6.59
186
oct-06
6
0.005
1.6
0.1
15
5
175
5.35
1.60
12.80
386
6.62
107
Tabla 20. Matriz de datos medidos en la estación de monitoreo No. 7
No.
PERIODO DE
MUESTREO
ESTACIÓN
C. FECALES
C. TOTALES
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
187
abr-04
7
1366667
1600000
0.047
50
127
2.70
3.67
22.78
26.70
0.2
188
may-04
7
1600000
1600000
0.010
18
103
2.13
3.19
15.33
20.12
0.2
189
jun-04
7
40000
70000
0.020
16
46
2.15
2.67
13.92
17.62
0.2
190
jul-04
7
1600000
1600000
0.010
31
109
2.51
2.60
15.58
19.45
0.2
191
ago-04
7
400000
1600000
0.010
15
78
2.19
2.59
14.05
17.02
0.2
192
sep-04
7
11000
900000
0.020
26
79
1.78
3.37
15.78
21.45
0.2
193
oct-04
7
1600000
1600000
0.030
25
92
1.51
2.08
10.98
20.09
0.2
194
nov-04
7
1600000
1600000
0.030
44
121
1.48
2.86
14.50
18.32
0.2
195
dic-04
7
1600000
1600000
0.010
64
148
2.70
4.16
17.58
23.06
0.2
196
ene-05
7
1600000
1600000
0.030
86
153
2.49
5.25
26.70
28.42
0.2
197
feb-05
7
1600000
1600000
0.010
73
143
2.66
4.59
19.41
23.53
0.2
198
mar-05
7
1600000
1600000
0.010
66
116
2.98
5.07
25.25
27.48
0.2
199
abr-05
7
24000000
1600000
0.030
36
139
3.78
3.85
26.80
28.00
0.2
200
may-05
7
24000
1600000
0.010
47
112
2.65
3.53
20.40
22.40
0.2
201
jun-05
7
46000
1600000
0.030
32
111
2.64
3.52
19.50
22.07
0.2
202
jul-05
7
110000
1600000
0.010
23
61
2.90
3.25
19.50
29.40
0.3
203
ago-05
7
93000
1600000
0.010
35
109
3.01
3.52
20.30
22.82
0.2
204
7
6150
495000
0.044
32
71
1.35
2.73
13.96
17.90
0.7
205
sep-05
oct-05
7
93000
240000
0.080
21
80
3.10
3.36
21.80
25.00
0.2
206
nov-05
7
150
1500
0.080
26
131
2.58
2.63
15.60
22.80
0.2
207
dic-05
7
1500000
9300000
0.080
44
95
2.20
3.96
20.40
22.30
0.2
208
ene-06
7
230000
430000
0.080
36
149
1.99
2.83
17.30
23.50
0.2
209
feb-06
7
7000
28000
0.080
76
175
1.19
3.66
36.80
40.10
0.2
210
mar-06
7
4000
21000
0.080
54
204
4.01
4.46
26.70
28.50
0.2
211
abr-06
7
4300000
240000000
0.080
65
149
3.58
3.90
31.90
38.00
0.2
212
may-06
7
26000
1400000
0.012
46
101
1.02
2.38
14.20
16.22
1.1
213
jun-06
7
770019
31427563
0.072
46
136
2.46
3.40
23.09
27.05
0.3
214
jul-06
7
854646
35326008
0.070
49
142
2.38
3.40
23.25
27.31
0.3
215
ago-06
7
961458
39741571
0.069
52
144
2.35
3.50
24.20
27.87
0.3
216
sep-06
7
1300
90000
0.068
37
63
0.91
2.09
12.14
14.34
1.1
217
oct-06
7
170000
500000
0.066
40
70
0.74
2.60
10.53
10.80
0.5
108
PERIODO DE
MUESTREO
ESTACIÓN
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
187
abr-04
7
0.013
2.6
0.7
62
32
335
14.53
4.97
67.73
415
6.58
188
may-04
7
0.010
0.4
0.1
22
18
264
11.50
5.24
23.40
410
6.88
7.05
No.
PH
189
jun-04
7
0.010
2.4
0.1
11
7
242
14.70
7.40
19.90
407
190
jul-04
7
0.010
3.1
0.3
60
47
244
14.40
0.70
22.70
350
6.93
191
ago-04
7
0.010
2.4
0.1
20
8
196
13.70
1.00
7.40
334
7.11
192
sep-04
7
0.010
2.5
0.1
16
2
228
15.80
1.00
12.70
461
6.87
193
oct-04
7
0.010
2.2
0.2
66
4
274
26.60
8.20
43.40
445
6.86
194
nov-04
7
0.050
1.9
0.1
62
30
286
9.70
5.80
40.10
436
7.01
195
dic-04
7
0.010
2.8
1.0
40
33
342
31.20
8.50
56.20
406
7.14
196
ene-05
7
0.030
2.3
0.6
42
4
372
7.10
12.20
22.90
524
7.21
197
feb-05
7
0.010
2.6
0.6
62
24
368
19.50
11.10
31.50
491
7.05
198
mar-05
7
0.010
2.6
0.1
40
19
308
20.00
11.00
19.90
542
6.79
199
abr-05
7
0.050
2.3
0.1
210
124
504
22.60
4.30
57.00
620
6.77
200
may-05
7
0.010
2.3
0.1
32
25
305
17.03
4.40
18.00
375
7.03
201
jun-05
7
0.030
2.5
0.1
4
3
303
17.22
4.60
3.40
456
6.84
202
jul-05
7
0.010
2.5
0.1
13
3
250
10.30
1.10
12.20
586
6.90
203
ago-05
7
0.010
2.4
0.1
40
15
301
16.62
4.20
15.10
432
6.80
204
sep-05
7
0.008
2.5
0.1
14
5
241
8.93
1.08
11.01
422
6.68
205
oct-05
7
0.160
0.8
0.1
15
14
270
12.90
4.80
13.40
506
6.80
206
nov-05
7
0.160
0.7
0.5
25
23
256
4.20
1.50
20.50
460
7.04
207
dic-05
7
0.160
0.5
0.1
32
30
276
20.70
2.80
34.00
410
6.91
208
ene-06
7
0.160
0.4
0.3
38
27
264
16.00
2.30
56.90
390
6.87
209
feb-06
7
0.160
0.6
0.1
28
23
327
31.70
6.20
28.70
537
6.99
210
mar-06
7
0.160
0.7
0.1
26
19
386
18.30
3.90
27.90
648
6.84
211
abr-06
7
0.160
1.6
0.1
46
38
313
12.00
3.60
42.30
300
6.77
212
may-06
7
0.050
2.4
0.6
64
8
304
13.92
2.50
107.00
414
6.91
213
jun-06
7
0.146
1.0
0.2
34
9
300
16.22
3.45
41.34
458
6.89
214
jul-06
7
0.145
1.0
0.3
37
8
303
16.63
3.28
44.83
452
6.90
215
ago-06
7
0.143
1.0
0.2
38
13
309
18.18
3.50
47.87
451
6.89
216
sep-06
7
0.005
2.5
0.1
11
7
254
2.05
1.16
9.32
382
6.48
217
oct-06
7
0.005
1.8
0.1
15
8
280
3.00
2.10
10.55
447
6.72
109
ANEXO 2
GRÁFICAS. ANÁLISIS TEMPORAL Y ESPACIAL DE ALGUNOS PARÁMETROS
FISICOQUÍMICOS
110
Gráfica 13. Comportamiento temporal de los Coliformes fecales por estación de monitoreo
ESTACION DE MONITOREO 3
3000000
30000000
2500000
25000000
NMP/100ml
2000000
1500000
1000000
C. FECALES
500000
15000000
10000000
C. FECALES
5000000
PERIODO DE MUESTREO
PERIODO DE MUESTREO
ESTACION DE MONITOREO 2
ESTACION DE MONITOREO 4
30000000
25000000
25000000
NMP/100ml
30000000
20000000
15000000
10000000
C. FECALES
5000000
jul-06
oct-06
abr-06
ene-06
jul-05
oct-05
abr-05
ene-05
jul-04
oct-04
abr-04
jul-06
oct-06
abr-06
oct-05
ene-06
jul-05
abr-05
ene-05
jul-04
oct-04
0
abr-04
0
20000000
15000000
10000000
C. FECALES
5000000
PERIODO DE MUESTREO
PERIODO DE MUESTREO
111
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
abr-04
jul-06
oct-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
0
jul-04
0
abr-04
NMP/100ml
20000000
jul-04
NMP/100ml
ESTACION DE MONITOREO 1
ESTACION DE MONITOREO 7
30000000
30000000
25000000
25000000
NMP/100ml
20000000
15000000
10000000
C. FECALES
5000000
15000000
10000000
C. FECALES
5000000
PERIODO DE MUESTREO
30000000
25000000
20000000
15000000
10000000
C. FECALES
5000000
jul-06
oct-06
abr-06
oct-05
ene-06
jul-05
abr-05
oct-04
ene-05
0
jul-04
PERIODO DE MUESTREO
112
oct-06
jul-06
abr-06
ene-06
jul-05
oct-05
abr-05
ene-05
PERIODO DE MUESTREO
ESTACION DE MONITOREO 6
abr-04
jul-04
abr-04
jul-06
oct-06
abr-06
oct-05
ene-06
jul-05
abr-05
oct-04
ene-05
jul-04
0
abr-04
0
NMP/100ml
20000000
oct-04
NMP/100ml
ESTACION DE MONITOREO 5
Gráfica 14. Comportamiento temporal del DQO por estación de monitoreo
ESTACION DE MONITOREO 1
ESTACION DE MONITOREO 2
PERIODO DE MUESTREO
ESTACION DE MONITOREO 3
ESTACION DE MONITOREO 4
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
oct-04
jul-04
abr-04
ene-05
PERIODO DE MUESTREO
300
mg\L
PERIODO DE MUESTREO
PERIODO DE MUESTREO
113
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
DQO
abr-04
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
100
0
DQO
jul-04
200
jul-04
500
400
300
200
100
0
abr-04
mg\L
DQO
abr-04
DQO
0
abr-05
50
ene-05
100
oct-04
mg\L
mg\L
150
300
250
200
150
100
50
0
jul-04
200
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
jul-04
abr-04
mg\L
PERIODO DE MUESTREO
ESTACION DE MONITOREO 7
300
200
100
0
DQO
PERIODO DE MUESTREO
114
PERIODO DE MUESTREO
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
DQO
jul-04
mg\L
400
300
200
100
0
abr-04
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
jul-04
abr-04
mg\L
ESTACION DE MONITOREO 5
ESTACION DE MONITOREO 6
300
200
100
0
DQO
Gráfica 15. Comportamiento temporal del Oxígeno disuelto por estación de monitoreo
ESTACION DE MONITOREO 2
2,5
2,5
2,0
2,0
1,5
1,5
mg\L
1,0
0,5
1,0
0,5
O. DISUELTO
O. DISUELTO
PERIODO DE MUESTREO
oct-06
jul-06
abr-06
ene-06
jul-05
oct-05
abr-05
PERIODO DE MUESTREO
ESTACION DE MONITOREO 3
ESTACION DE MONITOREO 4
3,0
2,5
2,5
2,0
mg\L
2,0
1,5
1,0
1,5
1,0
0,5
O. DISUELTO
0,5
O. DISUELTO
PERIODO DE MUESTREO
PERIODO DE MUESTREO
115
oct-06
jul-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
oct-04
jul-04
abr-04
oct-06
jul-06
abr-06
oct-05
ene-06
jul-05
abr-05
ene-05
oct-04
0,0
jul-04
0,0
abr-04
mg\L
ene-05
oct-04
abr-04
oct-06
jul-06
abr-06
oct-05
ene-06
jul-05
abr-05
ene-05
oct-04
jul-04
0,0
abr-04
0,0
jul-04
mg\L
ESTACION DE MONITOREO 1
ESTACION DE MONITOREO 6
2,5
1,2
2,0
1,0
0,8
1,5
mg\L
1,0
0,4
0,5
O. DISUELTO
O. DISUELTO
0,2
PERIODO DE MUESTREO
1,2
1,0
0,8
0,6
0,4
O. DISUELTO
0,2
oct-06
jul-06
abr-06
oct-05
ene-06
jul-05
abr-05
ene-05
oct-04
0,0
jul-04
PERIODO DE MUESTREO
116
jul-06
oct-06
abr-06
ene-06
oct-05
jul-05
abr-05
ene-05
PERIODO DE MUESTREO
ESTACION DE MONITOREO 7
abr-04
oct-04
abr-04
oct-06
jul-06
abr-06
oct-05
ene-06
jul-05
abr-05
ene-05
oct-04
jul-04
0,0
abr-04
0,0
mg\L
0,6
jul-04
mg\L
ESTACION DE MONITOREO 5
Gráfica 16. Análisis espacial – comportamiento de los parámetros fisicoquímicos por estación de monitoreo
ANÁLISIS ESPACIAL
ANÁLISIS ESPACIAL
25,000
2,050
2,000
PROMEDIO
PROMEDIO
20,000
15,000
10,000
SULFATOS mg/L
5,000
1,950
1,900
1,850
RAS mg/l
1,800
1,750
0,000
1,700
1
2
3
4
5
6
7
1
2
ESTACIONES DE MONITOREO
3
PROMEDIO
PROMEDIO ms
CONDUCTIVIDAD
3
4
5
6
6
7
ANÁLISIS ESPACIAL
490,000
480,000
470,000
460,000
450,000
440,000
430,000
420,000
410,000
400,000
2
5
ESTACIONES DE MONITOREO
ANÁLISIS ESPACIAL
1
4
7
3,600
3,500
3,400
3,300
3,200
3,100
3,000
2,900
2,800
FÓSFORO TOTAL mg/l
1
ESTACIONES DE MONITOREO
2
3
4
5
6
ESTACIONES DE MONITOREO
117
7
ANÁLISIS ESPACIAL
ANÁLISIS ESPACIAL
2,600
2,400
PROMEDIO
PROMEDIO
2,500
2,300
2,200
ORTOFOSFATO mg/l
2,100
2,000
1,900
1
2
3
4
5
6
21,000
20,500
20,000
19,500
19,000
18,500
18,000
17,500
17,000
7
N. AMONIACAL mg/l
1
ESTACIONES DE MONITOREO
2
6,000
26,000
5,000
25,000
PROMEDIO
PROMEDIO
27,000
4,000
3,000
SULFUROS mg/l
2,000
20,000
6
7
N. KJELDAHL mg/l
22,000
0,000
5
7
23,000
21,000
4
6
24,000
1,000
3
5
ANÁLISIS ESPACIAL
7,000
2
4
ESTACIONES DE MONITOREO
ANÁLISIS ESPACIAL
1
3
1
ESTACIONES DE MONITOREO
2
3
4
5
6
ESTACIONES DE MONITOREO
118
7
ANEXO 3
HISTOGRAMAS DE LOS PARÁMETROS FISICOQUÍMICO
SIN TRANSFORMACIÓN LOGARITMICA
119
120
ANEXO 4
HISTOGRAMAS CON TRANSFORMACIÓN LOGARITMICA
121
122
ANEXO 5
GRAFICA. COMPONENTES vs COMPONENTES
123
124
ANEXO 6
MATRIZ DE CORRELACIÓN DEL ACP DE LA FASE 2 Y 3
125
Tabla 21. Fase 2: Matriz de correlación - ACP método estadístico convencional - se retiró los coliformes fecales y totales
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 1
Componente 2
Componente 3
Componente 4
Componente 5
Componente 6
Componente 7
Componente 8
Componente 9
Componente 10
-0.5916
0.1363
0.5906
-0.0798
0.0993
-0.0611
0.0829
-0.0444
0.0793
-0.2269
0.3828
-0.1229
0.0697
-0.146
0.0632
-0.0243
0.0563
0.0014
0.0215
-0.5383
-0.4399
0.1427
0.4859
-0.222
0.2402
0.1736
0.0588
-0.1652
0.0526
0.1062
0.1078
-0.0542
-0.0658
-0.0103
-0.1615
-0.1788
-0.0165
-0.0334
-0.6944
-0.4499
0.0047
0.1487
-0.1676
0.1281
0.1869
-0.0208
-0.3384
-0.1344
-0.0396
-0.0432
-0.081
0.0579
-0.0146
0.2181
0.1387
0.0106
0.0167
-0.547
0.4191
-0.2798
-0.0445
0.0658
-0.3192
0.2797
0.3905
-0.0993
0.1519
-0.0742
-0.2194
-0.034
-0.137
0.0269
-0.0128
-0.0206
0.0002
0.0029
-0.6374
0.3938
-0.3156
0.1702
0.2233
0.1448
0.2137
0.1375
0.0801
-0.0993
0.0423
0.0894
0.2799
0.2245
-0.123
-0.0359
0.0446
-0.0123
-0.0359
-0.6845
0.5495
-0.0212
0.3178
0.0099
-0.0518
-0.0371
-0.0918
0.0712
0.1362
0.0587
0.0637
-0.171
0.1255
0.0084
-0.0385
0.0279
0.0425
0.1875
-0.6976
0.5126
-0.0986
0.2464
-0.0686
-0.1968
-0.1006
-0.1385
0.0822
0.0376
0.0297
0.0861
-0.2088
-0.0231
-0.0071
-0.023
0.1281
-0.0021
-0.1728
0.4117
-0.4947
0.241
0.5188
-0.184
0.0947
-0.0142
0.1203
0.2538
0.2592
0.0309
-0.1673
0.1308
0.0189
0.049
0.0332
0.1383
0.0175
-0.0131
-0.3848
0.4254
0.7106
-0.133
0.0142
0.0989
-0.0029
0.0846
0.1103
0.1524
0.0176
-0.0007
-0.049
0.0948
-0.0795
0.2146
-0.1721
-0.0028
-0.0452
0.202
-0.3158
-0.7353
0.3258
-0.0038
-0.2037
-0.1465
0.0945
0.1494
-0.115
0.2363
0.0194
-0.0458
-0.0411
-0.0471
0.1682
-0.1142
-0.0377
0.0142
126
CROMO
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
O. DISUELTO
PLOMO
RAS
S. S
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 11
Componente 12
Componente 13
Componente 14
Componente 15
Componente 16
Componente 17
Componente 18
Componente 19
-0.4565
-0.5294
-0.2081
-0.1111
0.2775
-0.2027
0.2366
-0.4307
-0.0248
0.27
0.0655
-0.015
0.1042
0.0109
0.0525
0.0407
-0.0498
-0.0051
-0.0167
-0.6669
-0.6387
0.0256
-0.1337
0.0592
-0.1323
-0.084
0.1354
0.1106
-0.0535
-0.0539
0.1098
0.0139
-0.0245
-0.0262
-0.0088
-0.0203
0.224
-0.0144
-0.6599
-0.534
0.2001
-0.0998
0.0668
-0.1508
0.0158
0.1918
0.1658
-0.0646
-0.1169
0.191
-0.0397
0.0866
0.2443
0.0037
0.0142
-0.1191
0.0132
-0.7902
-0.2351
-0.1028
0.0759
-0.0046
0.08
-0.1195
-0.1517
0.1534
-0.1819
-0.1745
-0.3764
-0.0659
0.1158
-0.0081
-0.0672
-0.0935
-0.0163
-0.0127
-0.6506
0.093
-0.2012
-0.3093
-0.3448
-0.0555
-0.3871
0.0683
-0.2232
0.1353
0.173
-0.0523
0.1635
0.1332
0.0957
-0.0245
-0.0124
-0.0019
-0.0146
-0.4856
-0.0089
-0.3635
-0.1373
0.3923
0.6082
-0.1705
0.0886
0.0193
0.1197
0.0499
-0.0148
-0.0887
-0.1344
0.0805
0.0299
0.04
-0.0014
-0.0078
-0.6762
-0.5419
0.181
-0.1728
0.029
-0.1055
-0.1831
0.0482
0.0179
0.1004
-0.0284
0.0289
0.0067
-0.105
-0.3093
-0.0467
0.0782
-0.0996
0.0422
-0.6262
0.4642
0.0542
0.3697
-0.061
-0.0196
-0.1762
-0.1356
-0.0161
-0.0534
-0.2324
0.076
0.2604
-0.2372
0.0552
0.0815
-0.0418
-0.0059
0.028
-0.3648
0.1333
-0.3739
-0.443
-0.5384
0.2035
0.2756
-0.0879
0.2936
0.0084
-0.0017
0.0507
0.0025
-0.0892
-0.0157
0.0199
0.0107
-0.0032
0.021
127
Tabla 22. Fase 3: Matriz de correlación - ACP método estadístico convencional - se retiró el cromo, plomo, los coliformes, oxigeno disuelto,
sólidos suspendido
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
RAS
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 1
Componente 2
Componente 3
Componente 4
Componente 5
Componente 6
Componente 7
Componente 8
Componente 9
0.5852
0.3829
0.3090
-0.3230
0.0335
-0.4276
0.1188
-0.1615
0.1639
-0.0577
-0.0666
0.0311
0.2214
-0.0420
0.0221
0.7251
0.4094
0.0943
-0.1218
0.0022
-0.3058
0.1439
-0.1896
-0.1913
-0.0032
0.0714
-0.0534
-0.2952
0.0276
-0.0143
0.5392
-0.4810
-0.1644
0.0489
-0.2425
0.2740
0.4464
-0.2229
-0.1410
-0.1060
-0.1713
-0.0151
0.0704
0.0047
-0.0006
0.6414
-0.4879
-0.1281
-0.2325
0.1906
0.0781
0.2563
0.0520
0.0621
0.3049
0.2266
0.1401
0.0065
-0.0265
0.0296
0.6682
-0.6054
0.2411
-0.0737
-0.0257
0.0019
-0.0711
0.0567
0.1220
-0.2002
0.1433
0.0074
0.0183
0.1572
-0.1178
0.6855
-0.5739
0.1679
-0.0295
-0.1865
0.0221
-0.1424
0.1137
0.0932
-0.2074
0.0309
0.0053
-0.1249
-0.1668
0.0843
-0.1046
0.1173
-0.4970
-0.7294
-0.4017
0.0426
-0.1583
0.0329
0.0459
0.0147
-0.0380
-0.0083
-0.0279
0.0456
0.0173
0.6864
0.6287
-0.0715
0.0284
-0.0956
0.2124
0.0191
0.0963
0.0884
0.0569
-0.0330
0.0086
-0.0123
-0.1112
-0.1978
0.6628
0.5588
0.0977
0.1116
-0.0763
0.2253
0.1474
0.1671
0.1631
0.0403
0.0655
-0.2694
0.0171
0.0621
0.1045
128
DBO5
DQO
ORTOFOSFATOS
F. TOTAL
N. AMONIACAL
N. KJELDAHL
RAS
S.S.T
S.S.V
S.T
SULFATOS
SULFUROS
TURBIDEZ
CONDUCTIVIDAD
PH
Componente 10
Componente 11
Componente 12
Componente 13
Componente 14
Componente 15
0.8130
0.1737
-0.0414
-0.0782
0.0546
-0.0133
-0.1548
0.2456
-0.4209
-0.0545
0.0691
0.0005
0.1685
-0.0070
0.0177
0.6569
-0.0990
-0.3053
0.3406
-0.1783
-0.0301
-0.3559
-0.3848
0.0269
0.1119
0.1327
-0.0642
0.0834
-0.0096
0.0080
0.5061
-0.0476
-0.4215
-0.1815
0.6691
0.1374
-0.1106
-0.0931
0.0682
-0.1326
-0.1189
-0.0765
-0.0334
-0.0050
0.0078
0.6762
0.5672
0.0494
0.1807
-0.0385
0.1979
-0.1040
-0.0150
0.0609
-0.0386
-0.0995
0.3225
-0.0536
0.0782
0.0784
0.6208
-0.5057
0.3531
-0.0500
-0.0071
-0.0494
-0.2015
0.0677
-0.0248
0.2864
-0.3062
-0.0693
-0.0393
0.0336
-0.0107
0.3757
-0.1650
-0.6053
0.3736
-0.0773
-0.4659
0.1324
0.2606
0.0898
-0.0117
-0.0886
0.0202
-0.0113
0.0240
-0.0051
129
Descargar