ESTIMACIÓN DE EROSIÓN CON EL MODELO RUSLE SIN SOBREESTIMAR EL FACTOR DE COBERTURA USANDO INDICES DE VEGETACIÓN GENERADOS ARTIFICIALMENTE. Cesar Augusto PUENTE-MONTEJANOa, Gustavo OLAGUE-CABALLEROb a Universidad Autónoma de San Luis Potosí, Dr. Manuel Nava 8, C.P. 78290, San Luis Potosí, S.L.P. email: cesar.puente@uaslp.mx b Centro de Investigación Científica y de Educación Superior de Ensenada, Carr. Ensenada-Tijuana 3918, C.P. 22860, Ensenada, B.C. RESUMEN Los índices de vegetación (IVs) son el método más utilizado para extraer información de la vegetación mediante imágenes satelitales. En particular, los modelos de erosión, como la “Ecuación Universal Revisada de la Pérdida de Suelo” (RUSLE), usan IVs como insumo para estimar uno de los factores que lo componen: el factor de cobertura vegetal (C). Sin embargo, no existen en el estado del arte IVs diseñados específicamente para detectar la cobertura vegetal en el contexto de la erosión. Esto genera una sobre-estimación del factor C afectando el resultado del modelo. En este trabajo se revisita una técnica basada en inteligencia artificial previamente publicada en este congreso, la cual demostró que podía sintetizar IVs que están mejor correlacionados con el factor C que los IVs del estado del arte. Ahora se va más allá de la generación del mapa del factor C y se generan estimaciones de tasas de erosión en una cuenca hidrográfica del norte de Baja California. Los resultados ilustran una mayor precisión en el cálculo final de la tasa de erosión usando los índices sintetizados por la técnica de aprendizaje artificial contra los IVs convencionales. Estos resultados permiten pensar en la aplicación de la metodología en problemas similares dentro del campo de la percepción remota. Palabras clave: Índices de vegetación, erosión, RUSLE, Programación genética, cómputo evolutivo. 1 INTRODUCCIÓN Actualmente se busca un mayor entendimiento de los procesos claves en la dinámica ambiental, para lo cual se necesitan herramientas más adecuadas para la modelación y predicción de estos cambios. Uno de estos procesos claves es la erosión del suelo. La cobertura del suelo es uno de los factores cruciales para reducir la erosión; ya que lo protege contra la acción destructiva de las gotas de lluvia al caer. En general, mientras mayor sea la cobertura del suelo, la erosión tiende a ser menor. Es por esto que la estimación confiable de la cobertura vegetal es esencial para una certera estimación de la erosión. En trabajos previos se ha utilizado la percepción remota para estimar el factor C del modelo RUSLE (Asis y Omasa, 2007; Smith et al. 2007). Sin embargo, los índices utilizados en dichos trabajos no han tenido un desempeño óptimo debido principalmente a que éstos se diseñan para detectar la vegetación sana. La cobertura vegetal, sea sana, seca, o muerta, sirve por igual como escudo para el suelo contra la fuerza destructora de las gotas de lluvia al caer. Este documento es la continuación de un trabajo expuesto anteriormente en esta conferencia en el 2009 y en la revista de la ASPRS (Puente et al. 2011) en el cual se propuso un algoritmo para sintetizar índices de vegetación exclusivos para detectar el factor C, basado en programación genética (PG). Para ello se planteó el problema como un problema de optimización; donde el objetivo fue encontrar el índice de vegetación que muestre una mejor correlación con datos de campo del factor C. De esta forma, se desarrolló un algoritmo basado en PG, el cual construye nuevos índices de vegetación mediante la recombinación iterativa de un conjunto de operadores numéricos y bandas espectrales, pertenecientes a imágenes Landsat. En esta ocasión se presenta el trabajo anterior integrado en una metodología para la estimación más certera de erosión basada en el modelo RUSLE. 2 MOTIVACIÓN El método de estimación de erosión más utilizado en el de la Ecuación Universal de Pérdida de Suelo (USLE, por sus siglas en inglés), el cual es un modelo empírico que calcula promedios anuales de erosión USLE, y su versión revisada RUSLE (Renard et al., 1997) han sido aplicados a variadas escalas espaciales en diferentes ambientes alrededor del mundo con buenos resultados. USLE y RUSLE son modelos estadísticos compuestos por seis factores: A = R * K * L * S * C * P , (1) donde A es el promedio de pérdida de suelo en Mg · ha−1 · year−1; R es el factor de lluviaescurrimiento que representa la energía erosiva medida en MJ · mm · ha−1 · h−1 · year−1; K es la tendencia del suelo a erosionarse (t · h ·MJ−1 ·mm−1). Los demás factores son factores de escalamiento adimensionales. L es el factor de longitud de la pendiente; S es el factor de inclinación de la pendiente; C es el factor de cobertura; y P es el factor de soporte a la conservación de suelos. El factor C es esencial porque el cambio de uso de suelo que define la reducción o incremento de la erosión se representa por este factor (Khana et al., 2007). Uno de los métodos para extraer el factor C de imágenes satelitales y que ha sido ampliamente utilizado es el de los índices de vegetación (IVs). Un IV aplica un operador matemático a los diferentes canales de una imagen satelital (generalmente cocientes y diferencias entre bandas, análisis de componentes principales o cualquier otro operador lineal o no lineal) para realzar la señal de la vegetación presente en la superficie terrestre. Los índices de vegetación se diseñan generalmente a partir de evidencia empírica y de la experiencia del diseñador. En el contexto del modelo RUSLE, los IVs se correlacionan con el factor C usando un análisis de regresión (principalmente regresión lineal). Sin embargo, muchos estudios reportan baja correlación entre los IVs disponibles en la literatura y el factor C (Asis and Omasa, 2007; and Smith et al., 2007). La razón es que dichos índices están diseñados para realzar la señal de la vegetación saludable (verde) y no la de la vegetación seca o muerta; la cual es de igual importancia para estimar C. Este hecho es irrelevante en áreas de estudio con abundantes lluvias, pues la cobertura vegetal verde representa la gran mayoría de la cobertura vegetal. Sin embargo, en zonas desérticas y semi-desérticas la vegetación verde es una mínoría, lo que provoca una sub-estimación en las predicciones de la cobertura y en consecuencia, una sobre-estimación en las tasas de erosión. Los IVs son usados ampliamente por ser fáciles de entender y de implementar. Sin embargo, sólo unos cuantos han sido usados para estimar el factor C de RUSLE (Asis and Omasa, 2007; Smith et al., 2007). Además, existen una gran cantidad de posibles combinaciones de bandas y operadores que no han sido exploradas para el diseño de un IV que funcione para realzar la señal que se requiere para estimar el factor C. Esto abre una prometedora área de investigación para encontrar nuevas soluciones óptimas. En este trabajo, se utiliza el enfoque basado en programación genética publicado en (Puente et al. 2011) con el fin de demostrar su efectividad en la estimación de erosión usando el modelo RUSLE. En la siguiente sección se describe brevemente la metodología desarrollada para sintetizar nuevos índices de vegetación que tengan una mejor correlación con el factor C. 3 MATERIALES Y MÉTODO Estudios previos muestran la manera de diseñar IVs para detectar la cobertura vegetal (Khana et al., 2007). Sin embargo las posibilidades combinatorias de la información que brinda una imagen multiespectral no ha sido completamente explorada. 3.1 PROGRAMACIÓN GENÉTICA En la Tabla 1 se presenta el algoritmo de Programación Genética (PG) el cual fue la base del trabajo previo para crear automáticamente IVs a partir de las diferentes combinaciones posibles de la información disponible (Puente et al. 2011). La formalización de esta técnica evolutiva se llevó a cabo en los años 90’s por Koza (1992). Favor de revisar la referencia mencionada para conocer más detalles sobre la PG. Tabla 1. Algoritmo de programación genética. 1: Crear aleatoriamente una población inicial de programas a partir de las primitivas disponibles 2: Repetir: 2.1: Ejecutar cada programa y calcular su función de aptitud 2.2: Seleccionar, basado en la función de aptitud, uno o dos programas (padres) de la población para participar en la recombinación genética 2.3: Crear nuevos programas (hijos) mediante la aplicación de los operadores genéticos 3: Hasta que se encuentra una solución aceptable o se llega a alguna otra condición de paro (por ej., cuando se alcance un número máximo de generaciones). 4: Regresar la mejor solución hasta este punto. Figura 1. Árbol sintáctico usado en la PG para representar al índice NDVI: (RNIR - Rred) / (RNIR + Rred) En la PG, la población de soluciones es codificada con una representación de árbol sintáctico. Estos árboles están formados por nodos internos y hojas llamadas conjunto de funciones (F) y conjunto de terminales (T), respectivamente. T contiene las variables o datos de los que se desea obtener algo; mientras que F representa el conjunto de posibles operaciones que se pueden llevar a cabo con los elementos del conjunto T. Por ejemplo, la Figura 1 muestra la representación en árbol sintáctico del ampliamente conocido índice NDVI: (RNIR - Rred) / (RNIR + Rred). Las variables o constantes dentro del programa (en este caso RNIR y Rred) se colocan en las hojas del árbol. Esto implica que RNIR y Rred forman el conjunto de Terminales; mientras que los operadores aritméticos (+, -, /) se colocan en los nodos internos del árbol, es decir, que forman parte del conjunto de Funciones. 3.2 METODOLOGÍA El objetivo de esta metodología es obtener una estimación precisa de la tasa de erosión. Su principal aporte está en el hecho de que utiliza un enfoque automático para crear IVs. Básicamente, se compone de los siguientes pasos: 1. Seleccionar un área de estudio. Es necesario definir el lugar de trabajo. 2. Llevar a cabo un muestreo de campo. Aplicar el protocolo de RUSLE en diversos sitios dentro de la cuenca de estudio, para obtener los valores del factor C que servirán para el diseño y prueba de los nuevos IVs. 3. Pre-procesamiento de la imagen satelital. Consiste en realizar las correcciones pertinentes (geométricas, radiométricas, metodología. etc.) sobre la imagen satelital del área de estudio. 4. Revisión e implementación de la literatura sobre IVs existentes. Aquí se recopilan IVs con el fin de compararlos posteriormente con los generados por la 5. Relación entre la imagen y los datos de campo. Aquí se identifica el vecindario de pixeles que corresponden a cada sitio de muestreo con el fin de comparar el desempeño de los IVs generados, con los datos de campo. 6. Ejecución del algoritmo basado en programación genética. Se utiliza una parte de los sitios y pixeles del paso anterior como entrada para el algoritmo con el cual será posible generar nuevos IVs siguiendo los pasos de la Tabla 1. Para conocer más detalles sobre las características del algoritmo favor de revisar [ref]. 7. Evaluación de la solución. Cuando el algoritmo entrega un IV, ésta se evalúa sobre la otra parte de los sitios y pixeles muestreados y se compara con un criterio previamente establecido para definir si dicha solución es aceptable. 8. Generación del mapa de C. Cuando el nuevo IV satisface el criterio del paso anterior, se procede a la aplicación del IV sobre la imagen original. Posteriormente se construye un mapa del factor C mediante una regresión lineal que mapea la escala numérica del IV con la del factor C. 9. Mapa de erosión. Se utiliza el nuevo mapa del factor C como entrada al modelo RUSLE, obteniendo así la estimación de erosión en unidades de Mg · ha−1 · year−1 3.3 ÁREA DE ESTUDIO, PROCESO DE MUESTREO Y PRE-PROCESAMIENTO DE LA IMAGEN Para llevar a cabo el paso 1 de la metodología se eligió la cuenca Todos Santos. Esta cuenca ha sido definida en el trabajo de Smith et al. (2007) y se localiza al noroeste de la península de Baja California, México (Figura 2). Para satisfacer el paso 2 de la metodología se llevó a cabo una campaña de recolección de datos en la cuenca hidrográfica Todos Santos (Figura 2) durante la primavera del 2007. En dicha recolección se realizaron maniobras para deducir el factor C del modelo RUSLE siguiendo el protocolo indicado en el manual de RUSLE (Renard et al., 1997). En total se recolectaron 67 localidades; de las cuales 47 se usan para el paso 6 de la metodología y 20 para el paso 7. Cada localidad representa un transecto de 30 m. Sin embargo, se cuidó de elegir sitios que conservaran las mismas características en un radio de 100 m. Figura 2. Mapa de Baja California, México que muestra la localización de la Cuenca Todos Santos; además de la localización de los sitios de muestreo de campo. La imagen del área de estudio fue obtenida del portal web del servicio geológico de los Estados Unidos de América (USGS, 2008) y pertenece al satelite Landsat 5; path 39, row 37-38 tomada el día 13 de abril de 2007. Dicha imagen se sometió a un proceso de corrección atmosférica y posteriormente a una corrección radiométrica, que consiste en la conversión de los valores crudos de la imagen a valores de reflectancia. Todo esto como paso 3 de la metodología. Para el paso 4 se extrajeron 30 IVs de la literatura y se aplicó un análisis de regresión lineal para calcular su relación con los muestreos de campo. La Tabla 3 muestra el coeficiente de correlación (ρ) para los cinco IVs de la literatura mejor correlacionados con C. Finalmente, de acuerdo con el paso 5, se procedió a asociar cada sitio de muestreo con un vecindario de 3x3 píxeles de la imagen Landsat, es decir 90x90 metros. 4 RESULTADOS Y DISCUSIÓN Los resultados experimentales que se presentan provienen de los pasos 6, 7, 8 y 9 de la metodología propuesta. Los parámetros necesarios para la ejecución del algoritmo PG son los mismos que en (Puente et al. 2011). Los conjuntos F y T se componen de los siguientes elementos: F = {+,−, *, /} T = {Rred, Rgreen, Rblue, RNIR, RSWIR1, RSWIR2, a, b, aG, aR, aNIR, aSWIR1, NDVI, EVI, GEMI, RVI4, RVI5, SASI} donde Rred, Rgreen, Rblue, RNIR, RSWIR1, RSWIR2 son las bandas de la imagen LANDSAT5 después de las correcciones atmosféricas y radiométricas. Además, aG, aR, aNIR, y aSWIR1 son cada uno el ángulo entre tres bandas consecutivas de acuerdo al método para obtener índices angulares detallado en (Khana, et al, 2007). Los terminales a y b representan los parámetros de la línea del suelo. Finalmente, NDVI, EVI, GEMI, RVI4 y RVI5 son los mejores IVs convencionales para el área de estudio. El criterio para seleccionar las mejores soluciones fue la aplicación del coeficiente de correlación (ρ) entre el factor C obtenido en los sitios de campo y el factor C obtenido en la imagen satelital usando el índice para generarlo. Se realizaron 30 ejecuciones del algoritmo generando igual número de IVs. De los 30 IV-PGs se seleccionaron los mejores 3. En la Tabla 3 se aprecia el ρ obtenido por los 5 mejores IVs tanto en el paso 6 como en el paso 7. Para distinguirlos de los IVs convencionales, los IVs generados con el algoritmo han sido nombrados IV-PGx donde x representa el número de ejecución en la que se obtuvo dicho índice. Obsérvese que todos los índices obtienen una mejor correlación con el factor C de RUSLE que los 3 mejores IVs del estado del arte. exhibe una menor diferencia se considera el más congruente con los dos conjuntos de datos disponibles, y por lo tanto, el que obtiene una mejor generalización de la cuenca entera. Los mejores 3 índices que satisfacen el criterio son los IV-PG17, 27, 19. Para un análisis y discusión detallados sobre los elementos que componen los IV-PGs véase el trabajo previo publicado en (Puente et al. 2011) . En la Figura 3 y 4 se muestran sendas gráficas con los resultados de la regresión lineal del IV-PG17 y el índice convencional que mejor respuesta presentó: el RVI4 respectivamente. La regresión lineal de cada uno de los índices se muestra en línea punteada, mientras que en línea sólida se muestra el valor que debería haberse generado con un factor de correlación de 1 con respecto a los valores del factor C medidos en campo. Obsérvese que para los valores más bajos el IV-PG17 presenta mayor coincidencia con los valores reales. Mientras que para los valores más altos se va presentando una sub-estimación gradual con respecto a los valores reales. Tabla 3. El Top 3 de los índices convencionales y sintéticos para la cuenca Todos Santos. Índice Fórmula ρ6 Convencionales RVI4 RSWIR1 / RSWIR2 0.51 RVI5 RSWIR1 / Rred 0.38 η (1 - 0.25η) - (Rred GEMI 0.33 ρ7 Dif. N/A N/A N/A N/A N/A N/A 0.65 0.65 0.002 0.64 0.64 0.003 0.62 0.63 0.008 0.125) / (1 - Rred) Sintéticos IVPG17 IVPG27 IVPG19 (RNIR /(aR/aG)) + (RVI4/a) /(GEMI - RVI4) GEMI / (RVI4 - RNIR) RNIR GEMI * aSWIR1 - GEMI RVI4 Para llevar a cabo el paso 8 se calculó la diferencia absoluta entre la correlación obtenida en el paso 6 (ρ6) y la obtenida en el paso 7 (ρ7). El índice que Figura 3. Comparación del factor C medido en campo contra el factor C obtenido por el IV-PG17. Por otro lado, la gráfica del RVI4 muestra una sobre-estimación para los valores pequeños de C; mientras que para los valores grandes la tendencia de sub-estimar es mayor a la del IV-PG17. La descripción del párrafo anterior queda patente al observar la Tabla 4. Esta tabla contiene la tasa de erosión sobre la cuenca Todos Santos aplicando el modelo de erosión RUSLE. Cada uno de los factores del modelo se obtuvo siguiendo el procedimiento de (Smith et al. 2007) excepto el factor C; el cual fue sustituido por un mapa obtenido con base en los índices que se indican en la tabla. También se presenta la tasa de erosión utilizando el factor C medido en campo. Esta medida se usa como criterio de evaluación. índices matemáticos que realcen la señal de diferentes rasgos en la superficie terrestre. AGRADECIMIENTOS El primer autor agradece al PROMEP por el apoyo económico otorgado mediante el proyecto PROMEP/103.5/12/3953 con el cual se realizó parte de esta investigación. REFERENCES Asis, A. M. y Omasa, K. (2007). Estimation of vegetation parameter for modeling soil erosion using linear spectral mixture analysis of landsat etm data. ISPRS Journal of Photogrammetry & Remote Sensing, (62): 309–324. Figura 4. Comparación del factor C medido en campo contra el factor C obtenido por el RVI4. Tabla 4. Media y desviaciación estándar de la tasa de erosión obtenida para los sitios de muestreo. Método para obtener Erosión(Mg · ha−1 · C year−1) Datos de campo 76.6 ± 153.6 IV-PG17 67.1 ± 97 RVI4 119.7 ± 184.4 Obsérvese que el IV-PG17 resultó los más certero, al estimar una tasa promedio bastante similar a la tasa obtenida a partir de los datos de campo de C. La diferencia entre la tasa obtenida con datos de campo y la tasa obtenida con el IV-PG17 es de sólo 9.5 Mg · ha−1 · year−1. En contraste el RVI4 presenta una sobre-estimación de 43.1 Mg · ha−1 · year−1. 5 CONCLUSIONES Este trabajo muestra una nueva metodología basada en la síntesis automática de índices de vegetación para obtener una estimación de la tasa de erosión más precisa que usando los IVs convencionales. Los resultados obtenidos sugieren que la PG es una herramienta útil para realizar análisis multi-espectral y otras aplicaciones de la percepción remota; tales como clasificadores e Smith, S. V., Bullock, S. H., Hinojosa-Corona, A., Franco-Vizca´ıno, E., Escoto-Rodr´ıguez, M., Kretzschmar, T. G., Farf´an, L. M., y SalazarCeseña, J. M. (2007). Soil erosion and significance for carbon fluxes in a mountainous mediterraneanclimate watershed. Ecological Applications, 17(5): 1379–1387. Puente, C., Olague, G., Smith, S. V., Bullock, S. H., González-Botello, M. A., y Hinojosa-Corona, A. (2011). A genetic programming approach to estimate vegetation cover in the context of soil erosion assessment. Photogrammetric Engineering & Remote Sensing 77 (4), 363-376 Renard, K., Foster, G., yWeesies, G. (1996). Predicting Soil Erosion by Water: A Guide to Conservation Planning With the Revised Universal Soil Loss Equation (RUSLE), Vol. 703. U.S. Department of Agriculture, U.S.A. Khana, S., Palacios-Orueta, A., Whiting, M. L., Ustin, S. L., Ria˜no, D., y Litago, J. (2007). Develoment of angle indexes for soil moisture estimation, dry matter detection and land-cover discrimination. Remote Sensing of Environment, (109): 154–165. Koza, J. R. (1992). Genetic programing: On the programming of computers by means of natural selection. MIT press, Cambridge, MA. USA. USGS. http://www.glovis.usgs.gov. Accesado en Junio de 2008