DOCUMENTO TÉCNICO No. 5 - 2009 / FOMABO Ajuste y selección de modelos de regresión para estimar el volumen total de árboles Autores: Thiago Augusto da Cunha a Julio Orlando Vargas Muñoz b Mario Escalier Hinojosa c a. Estudiante de maestria en la Universidade Federal de Santa Maria (UFSM), Programa de pos graduação em engenharia florestal, Avenida Roraima, 1000, Cidade universitaria, Bairro Camobi, Rs, Brasil. E-mail: etsfor@yahoo.com, fono: 0055 55 3220. b. Profesor en la Universidad Mayor de San Simon, Facultad de Ciencias Agrícolas y Pecuarias, Carrera de Ingeniería Forestal. Avenida Atahualpa. Cochabamba, Bolivia, Telf.: +591 4 42 92343, Fax: +591 4 4456187 - 4451203. c. Profesor en la Universidad Mayor de San Simón, Facultad de Ciencias Agrícolas y Pecuarias, Carrera de Ingeniería Forestal. Avenida Atahualpa. Cochabamba, Bolivia, Telf.: +591 4 42 92343, Fax: +591 4 4456187. Cochabamba - Bolivia Editorial Proyecto FOMABO/ESFOR-UMSS Escuela de Ciencias Forestales de la Universidad Mayor de San Simón Av. Atahuallpa (final), Zona Temporal, Barrio Prefectural s/n, Casilla 447, Telf./fax: +591-4-4451203 Web: www.esfor.umss.edu.bo E-mail: esfor@umss.edu.bo Cochabamba, Bolivia Responsable de edición: Ruth López Escuela de Ciencias Forestales (ESFOR) Av. Atahuallpa (Final), Zona Temporal, Barrio Prefectural Casilla 447, Cochabamba, Bolivia Telf./fax: +591-4 4451203 Web: www.esfor.ums.edu.bo/biblioesfor/ E-mail: ruthlopez@umss.edu.bo Cochabamba, Bolivia Todos los Derechos Reservados ISBN: ¿¿¿¿¿¿¿¿???????????? Deposito legal: ¿¿¿¿¿¿¿¿¿????????? Tiraje 500 ejemplares Impresión Impresiones Poligraf Reservados todos los derechos. Ninguna parte de esta publicación se puede reproducir, almacenar en sistema de recuperación ni transmitir en forma alguna por medios electrónicos, mecanismos, fotocopia o cualquier otro medio, sin una adecuada referencia a la fuente. INDICE ABSTRACT ....................................................................................................................5 RESUMEN .....................................................................................................................6 1. INTRODUCCIóN .....................................................................................................7 1.1 ANTECEDENTES gENERALES ........................................................................................7 1.2 OBjETIvO DE LA INvESTIgACIóN .................................................................................7 2. MÉTODOS y MATERIAlES ........................................................................................8 2.1 ÁREA DEL ESTUDIO ..................................................................................................8 2.2 OBTENCIóN DE LOS DATOS .......................................................................................8 2.3 CRITERIOS DE SELECCIóN DE LOS MODELOS DE REgRESIóN y ANÁLISIS ESTADíSTICA .............10 Valor de la distribución F de Snedecor .................................................................11 Coeficiente de determinación ajustado (R2 aij.) ....................................................11 Desvío estándar de la estimación .........................................................................12 2.4 vALOR PONDERADO (vP) .......................................................................................13 2.5 DISTRIBUCIóN gRÁFICA DE LOS RESIDUOS ..................................................................13 2.6 vALIDACIóN DE LA ECUACIóN SELECCIONADA .............................................................14 Homogeneidad de varianzas de los residuos........................................................14 Independencia de los residuos .............................................................................15 Normalidad de los residuos..................................................................................16 3. RESUlTADOS y DISCUSIóN ..................................................................................16 3.1 CRITERIOS DE SELECCIóN DE LOS MODELOS y ANÁLISIS ESTADíSTICO ................................16 3.2 DISTRIBUCIóN gRÁFICA DE LOS RESIDUOS ..................................................................19 3.3 vALIDACIóN DE LA FUNCIóN DE vOLUMEN .................................................................20 4. CONClUSIONES ....................................................................................................22 5. REFERENCIAS..........................................................................................................22 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES ABSTRACT The objective of the work was selected the mathematical pattern of lineal regression that but it adjusts to the data of total volume with measured bark. The database for the development of the study was extracted from a community of Pinus taeda L. in the State of Rio grande do Sul, Brazil in the Universidade Federal de Santa Maria, city of Santa Maria. The total volume with bark was calculate in 40 trees with diameter data along the shaft were obtained by means of readings of the mirror relascópic of model Bitterlich Wide Scale. Was proven 15 models of regression, having as approach of selection of the best model, the smallest Pondered value Statistical Parameters and graphic analysis of the residuals. The result revealed that all the proven models presented good adjustment presenting coefficient of determination adjusting varying among 0,982 at 0,996 with graphical analysis of the residues revealing that any models proved can be using to estimated a total volume with bark to P. taeda trees. Therefore the models proposed by Spurr (combined variable) it was the one selected to present bigger use easiness and generability. Keywords: Regression Analysis, Bitterlich relascop, total volume with bark. 5 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES RESUMEN El objetivo del trabajo fue seleccionar un modelo matemático de regresión lineal que más ajuste a los datos de volumen total con corteza. La base de datos para el desarrollo del estudio fue extraída de un rodal de Pinus taeda L. en el Estado de Rio grande do Sul, Brasil en la Universidad Federal de Santa Maria, ciudad de Santa Maria. Fue calculado el volumen total riguroso con corteza de 40 árboles mediante la suma del volumen de las secciones formadas con datos de diámetros tomados a cada dos metros con el relascópio de espejo de Bitterlich modelo de banda ancha. Fueron probados 15 modelos de regresión para estimar el volumen, teniendo como criterio de selección, el menor valor ponderado de los parámetros estadísticos y el análisis gráfico de los residuos. El resultado mostró que todos los modelos presentaron buen ajuste, los coeficientes de determinación ajustados, variaron entre 0,982 a 0,996 y los gráficos de los residuos revelaron que cualquiera de los modelos probados puede ser utilizado para estimar el volumen total con corteza de árboles de P. taeda en el rodal. Por lo tanto, el modelo propuesto por Spurr (variable combinada) fue el utilizado por presentar mayor facilidad de uso y mejor generabilidad. Palabras claves: Análisis de Regresión, Relascópio de Bitterlich, volumen total con corteza. 6 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES 1. INTRODUCCIóN 1.1 Antecedentes generales El volumen ha sido y sigue siendo la forma de expresión de la cantidad de madera, contenida en árboles y rodales, más ampliamente utilizada a escala mundial. Tratandose del rodal, el mismo puede considerarse como la suma de los volúmenes de los árboles en pié comprendidos en él. En consecuencia, una forma de acceder a su conocimiento es por medio de la estimación del volumen de sus árboles individuales. La estimación de este atributo es un problema relevante en dendrometría e inventarios forestales. La dificultad en la determinación directa del volumen mediante la cubicación de secciones, hace conveniente contar con expresiones matemáticas que, basadas en una muestra objetivamente seleccionada y cuidadosamente medida, permitirá estimar el volumen de los árboles sobre la base de mediciones simples (PRODAN et al., 1968). Una herramienta de gran utilidad para determinar este volumen son las funciones de volumen que originan ecuaciones, con las cuales se formulan tablas de volumen. De acuerdo con Prodan et al., (1968), el término “tabla de volumen”, se ha utilizado frecuentemente para referirse a un modelo matemático para predecir el volumen de los árboles. Desde su aparición las tablas de volumen han constituido una herramienta importante, en el momento de cuantificar la producción y rendimiento de una superficie en cuanto a volumen de madera, para una o más especies y, por lo tanto, útil para valorar económicamente un área boscosa (vILLARROEL, 1994), la cual es una presentación en forma tabular, que muestra el volumen promedio de árboles en pié de distintas dimensiones, obtenido a partir de relaciones previamente establecidas. El diámetro, altura y la forma, son las características del árbol utilizadas en un modelo para la predicción del volumen (DAUBER, 2002). Esta forma tabular, ha sido hoy reemplazada por las ecuaciones de volumen, esto es, por modelos matemáticos capaces de representar el volumen medio de madera por árbol en función de variables independientes de fácil medición. varios investigadores ajustaron y compararon diversos modelos matemáticos que expresan el volumen, para diferentes especies, sitios y régimen de manejo, entre ellos Silva et al., (1977), que construyó tablas de volumen comercial para Eucalyptus spp.; Schneider (1984), modeló el volumen de Pinus oocarpa Schiede ex Schltdl, en diferentes edades y régimen de raleo; Santana et al., (2004), desarrollaron ecuaciones de volumen para Pinus taeda L., entre otros. 7 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES 1.2 Objetivo de la investigación Desarrollar un ejemplo de ajuste y selección del modelo de regresión apropiado para estimar el volumen total de árboles de Pinus taeda L. buscando brindar aporte teórico y práctico en el estudio de la técnica de regresión lineal la cual es ampliamente utilizada en el manejo de rodales forestales. 2. MÉTODOS 2.1 Área de estudio El rodal muestreado esta ubicado en la estación experimental de la Universidad Federal de Santa Maria, Estado de Rio grande do Sul, Brasil, entre las coordenadas 29° 43’ 11” de latitud Sur y 53° 43’ 02” de longitud Oeste. Tiene a una superficie, total de 2 ha, cuya plantación fue efectuada en el año de 1996, con un espaciamiento inicial de 3 metros entre líneas y 2 metros entre plantas, en un suelo originalmente degradado de topografía plana. La región de Santa Maria pertenece a la provincia geomorfológica del escudo sul-riograndense, que en términos climáticos se clasifica como del tipo “Cfa 2”, subtropical húmedo, según la clasificación de Köppen, caracterizado por presentar una temperatura superior a 22 °C, durante el mes más caliente, siendo que la temperatura del mes más frio varia de -3 °C a 18 °C, con una precipitación media anual de 1691 mm (MORENO, 1961). 2.2 Obtención de los datos El ajuste y selección de las funciones de volumen fue realizada en tres fases siguiendo la metodología propuesta por Loetsch et al.,1973: a) Selección de un número de árboles muestra suficiente y representativa del rodal de estudio; b) medición de variables dependientes (variables que serán estimada por el modelo, ejemplo h, v) e independientes (variables de entrada en el modelo, ejemplo d, h, hc); c) selección de la ecuación de regresión apropiada. Los árboles muestra, fueron seleccionados de forma aleatoria dentro del rodal los cuales fueron distribuidos en cuatro clases de diámetro (calculadas mediante la fórmula propuesta 8 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES por Stuges, con el objetivo de representar la distribución diamétrica del rodal, totalizando una muestra de 40 observaciones (individuos). Por razones lógicas, fue desconsiderada la mensuración de árboles muestra ubicados en la orilla del rodal que pudiera posteriormente conducir a sesgos en el ajuste. En cada árbol seleccionada, fue realizado la medición directa del diámetro a 0,2 m sobre nivel del suelo (d0,2), diámetro a altura del pecho (d1,3) ambos con cinta diamétrica, y los demás diámetros fueron estimados de forma indirecta a cada dos metros (d2, d4, d6, d8, d10, d12, d14) utilizando el Relascópio de espejo de Bitterlich modelo de Banda Ancha, instalado sobre un trípode a una distancia horizontal de 8 metros desde el centro del árbol hasta el ocular del relascópio (FIgURA 1). La distancia fue controlada mediante la utilización del hipsómetro vertex III utilizando la opción DME (Distance Mensure Estimate) con el transponder fijado al árbol. FUENTE: Elaboración propia. FIGURA 1. Procedimiento para obtención de datos para la estimación de diámetros superiores utilizando el relascópio de espejo de Bitterlich modelo banda ancha en árboles de P. taeda, en Santa Maria, BRA. Cada diámetro superior (di), fue estimado con la siguiente fórmula: di = ai .UR 50 Donde: di = diámetro superior en cm; a = distancia horizontal entre el centro del árbol “i” y el ocular del relascópio equivale a 8 metros; U.R.= unidad relascópica (número de bandas que cubre el diámetro). 9 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES De esta manera se formó secciones de dos metros de largo, con diámetro menor y mayor conocidos, con lo cual fue calculado el volumen por el método de Smalian (Ecuación 1) citado por Finger (1992),. n g + gi+1 . Li v i =∑ i 2 i=1 Ec. 1 Donde: vi = volumen de las secciones intermediarias (m3); gi = área basal en la i-ésima posición (m2); Li = largo de la sección en la i-ésima posición (2 metros). Para la obtención del volumen total con corteza individual fue sumado el volumen de cada sección (Ecuación 2), mas el volumen de cono (Ecuación 3) formado por la última sección. n V = v0 + ∑vi + vc Ec. 2 i=1 Donde: = volumen total con corteza (m3); vo = volumen del tocón (m3) hasta 0,2 metros desde el nivel del suelo, constituyendo el volumen del cilindro; vc = volumen de la punta superior del árbol (m3) calculado por la formula del cono, de largo igual a la sección considerada, donde: v c = gn .Ln . 1 3 Ec. 3 Donde: gn = área basal del cono (m2); Ln = largo del cono (m): –1– = constante utilizada para el volumen del cono. 3 Con esta metodología fue posible calcular, cuidadosamente, el volumen preciso de cada árbol muestreado, para posterior ajuste de los modelos de regresión. Fueron probados un total de 15 funciones de volumen para seleccionar la que mejor se ajuste a los datos observados. En el anexo 1, cuadro 1, se observan siete modelos utilizando el diámetro a altura del pecho (d) como variable de entrada bien como ocho modelos que utilizan el diámetro y altura total, los cuales fueron ajustados utilizando el paquete estadístico SAS versión 9.1. 10 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES 2.3 Criterios de selección de los modelos de regresión y análisis estadística La secuencia de procedimientos para la selección de las ecuaciones ajustadas, siguió los pasos propuestos por Couto et al.,1999, los cuales consistieron en: 1. Examen del cuadro de análisis de varianza: suma de los cuadrados de los residuos (SCRes), cuadrado medio de los residuos (CMRes), test de F para el modelo completo; 2. Análisis de los criterios estadísticos: coeficiente de determinación ajustado (R 2aj), desvío estándar de la estimación absoluto (Syx) y relativo (Syx% ) este último también conocido como coeficiente de variación (Cv%) y el índice de Furnival (IF); 3. Distribución gráfica de los residuos; 4. Prueba de hipótesis de los coeficientes estimados, por medio del test de t. En una segunda fase fueron realizados los test de condicionantes de regresión para determinar la validez del modelo, previamente seleccionado como el apropriado. Valor de la distribución F de Snedecor El valor de F calculado en el análisis de variancia, es obtenido por la relación entre el cuadrado medio de la regresión y el cuadrado medio del error (ec 4). Cuanto mayor es la variación explicada por el modelo (SQReg) y menor es la variación no explicada (SQRes) por el modelo, mayor será el valor de F indicando que el modelo tiene buen ajuste. El valor F es utilizado como un estadístico en la determinación del valor ponderado, para la selección de la ecuación mas apropiada. Fcalculado = CM Re g CM Re s Ec. 4 Donde: CMReg = Cuadrado medio de la regresión; CMRes = Cuadrado medio del error. Coeficiente de determinación ajustado (R2 aj.) El coeficiente de determinación (R2 ) expresa la cantidad de variación total explicada por el modelo ajustado. Como el coeficiente de determinación aumenta a medida que se incluye una nueva variable independiente al modelo, fue utilizado el coeficiente de determinación ajustado (ec. 5), para la comparación de modelos con diferentes número de coeficientes de regresión, obtenido por la expresión (SAS Institute, 1999): 11 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES ⎡ K -1 ⎤ .(1- R 2 ) R 2 aj . = R 2 − ⎢ ⎥ ⎣N - K ⎦ Ec. 5 Donde: R2 aj. = coeficiente de determinación ajustado; R2 = coeficiente de determinación; K = número de coeficientes de regresión del modelo; N = número de observaciones. Cuanto mas cerca al valor 1 sean los valores del coeficiente de determinación, mejor será el ajuste de la línea de regresión a los datos observados. Desvío estándar de la estimación El desvío estándar de la estimación (ec. 6), es un escalar que indica la dispersión entre los valores estimados por la regresión con referencia a la media de la variable dependiente, siendo deseable aquel que posee el menor valor. Este criterio también mide la precisión del ajuste del modelo y debe ser utilizado como comparador entre dos modelo cuando la variable dependiente (y) presente la misma unidad de medida. Furnival (1961) presentó un desvío estándar de la estimación relativo (ec. 7), también conocido como coeficiente de varianza (CV%), como una alternativa para la comparación de modelos con variables dependientes con diferentes unidades: Syx = CM res. Ec. 6 Syx % = Syx Y .100 Ec. 7 Donde: Syx = error estándar absoluto de la estimación; CMres.= cuadrado medio del residuo, obtenido en el cuadro de análisis de varianza; Syx% = error estándar en porcentaje o coeficiente de varianza (Cv%); = media aritmética de la variable dependiente. Así, cuanto menor sea el error estándar de la estimación, mejor serán las estimativas obtenidas por el modelo matemático el cual presenta indicios para ser seleccionado. Para los modelos logarítmicos, o sea, modelos con la variable dependiente transformada, el desvío estándar de la estimación fue corregido en la escala original de la variable dependiente, para posibilitar la comparación con los modelos aritméticos por el índice de Furnival (ec. 8), el cual es dado por la ecuación: ⎡n ⎤ ⎢∑ Ln(Vreal i ) ⎥ ⎥.S IF = EXP⎢⎢ i=1 ⎥ yx n ⎢ ⎥ ⎣ ⎦ 12 Ec. 8 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES Donde: IF = índice de Furnival; Vreal = volumen individual real en m3; Syx = error estándar de la estimación; n = número de árboles muestreados (muestra); Ln = logaritmo natural. Así, el índice de Furnival de un modelo logarítmico debe ser comparado con el error estándar de la estimación del modelo aritmético. El índice de Furnival relativo (ec. 9) del modelo logarítmico debe ser comparado con el coeficiente de varianza del modelo aritmético. IF% = IF .100 Y Ec. 9 Donde: IF% = índice de Furnival en porcentaje; y IF= media aritmética de la variable dependiente. Sit (1994), recomienda que la comparación de ecuaciones logarítmicas con funciones lineares y con funciones no-lineares sea realizada por la variable dendrométrica estimada y no por medio de la variable dependiente transformada. El motivo es que las variables transformadas resultan en proporciones diferentes cuando se calculan las estadísticas, siendo válidas para usos de los testes F y t y para la comparación entre modelos de misma clase, pero no para la comparación entre modelos de tipos diferentes. La media es igual a la razón de la suma de los valores de un conjunto de datos y la cantidad de elementos del conjunto; cuando los datos son transformados, como en el caso de la linearización por propiedad logarítmica, se altera la estructura del modelo matemático que expresa la media de las observaciones, o sea, la estructura de la media. Por lo tanto, para la comparación de modelos matemáticos, es necesario que las variables dependientes sean una misma clase y dimensión, conestructura semejante de medias (Zimmermann & Núñez-Antón, 2001). 2.4 Valor ponderado (VP) Para facilitar el proceso de selección de la ecuación resultante, fue utilizado este criterio, el cual toma en consideración todas los estadísticos de selección de las ecuaciones. El valor Ponderado (ec. 10) fue determinado atribuyéndose valores o pesos a las estadísticas calculadas. 13 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES n VP = ∑ Nri .Pi Ec. 10 i=1 Donde: VP = valor ponderado de la ecuación; Nri = números de registro que obtuvieron el i-ésimo puesto; Pi = peso del i-ésimo puesto. En este proceso, las estadísticas fueron ordenadas de acuerdo con su eficiencia, siendo atribuido peso 1 para la ecuación más eficiente y pesos crecientes para las demás ecuaciones (ranking), conforme metodología definida por Thiersch (1997). El valor ponderado de una ecuación fue obtenido por la multiplicación del número de veces cuantificado para cada puesto por su respectivo peso, donde la ecuación seleccionada fue la que presentó el menor valor ponderado de los criterios estadísticos determinados. 2.5 Distribución gráfica de los residuos Este es el más importante elemento para visualizar el desempeño de la ecuación de regresión, a partir del cual es posible observar tendencias en las estimaciones propiciadas por las mismas. El análisis gráfico de los residuos fue realizada observándose la distribución del residuo contra los valores de las estimaciones conforme Bussab (1986). En este método, los desvíos (ec. 11) fueron gráficamente distribuidos en un sistema de ejes ortogonales, siendo que en el eje de la ordenada, los desvíos fueron centrados en cero y en el eje de la abscisa por la variable dependiente estimada. eˆi y i − yˆ i Ec. 11 Donde: eˆ i = residuo de la i-ésima observación; yi = variable dependiente observada; ŷ i = variable dependiente estimada por la ecuación ajustada. El análisis permite detectar posibles tendencias de ajuste a lo largo de la línea de regresión para toma de decisión en cuanto al uso o no de la ecuación ajustada. Se considera como una distribución desfavorable cuando ocurre formación de patrones de distribución (transgresiones), la concentración de los residuos arriba o abajo del eje de las estimativas o su concentración en hasta dos quintos de la amplitud del mismo eje. Fue considerada favorable: la distribución de los residuos en 3 a 4 quintos de la amplitud del 14 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES eje de la estimativa de forma equitativa arriba y abajo del mismo eje y sin formación de patrones. Solamente fue considerada óptima la distribución de los residuos en más de cuatro quintos de la amplitud del eje de la estimativa, equitativamente arriba y abajo del eje y sin formación de patrones (Floriano, 2004). 2.6 Validación de la ecuación seleccionada Cuando las varianzas de la frecuencia de los residuos son heterogéneas (heterocedasticidad) o cuando los residuos están autocorrelacionados, las estimaciones de los coeficientes de regresión por el método de los mínimos cuadrados ordinarios (OLS) son adversamente afectadas y la estimación del error estándar es tendenciosa. Esto justifica la validación de la ecuación seleccionada para la verificación de dichos supuestos el cual indica la calidad de la predicción. Los testes fueron realizadas en el paquete estadístico SAS System, conforme procedimientos descritos por SAS Institute (2004), en el anexo 3.2 se observa el programa SAS para la validación determinándose: • La homogeneidad de varianzas por medio del test de de White; • La independencia de la frecuencia de los residuos por medio del test de DurbinWatson; • La normalidad de la frecuencia de los residuos por medio del test de Shapiro-Wilk. Homogeneidad de varianzas de los residuos Una de las principales presuposiciones para los mínimos cuadrados de la regresión usual es la homogeneidad de varianza (homoscedasticidad). Si el modelo es bien ajustado, no debería haber ningún patrón para los residuos delineados (plotado) contra los valores ajustados. Si, la varianza de los residuos no es constante, entonces es dicho que hay “heteroscedasticidad” de los datos. Hay métodos gráficos y no gráficos para detectar heteroscedasticidad. Un método gráfico generalmente utilizado es delinear (plotar) los residuos contra los valores ajustados. El SAS System calcula los residuos y los valores ajustados por medio de los Procedimientos gLM, REg, MODEL y NLIN, que pueden ser presentados en un gráfico. Cuando los residuos son distribuidos sin ningún patrón, no hay heteroscedasticidad. El método matemático para determinar se hay homogeneidad de varianza de los residuos y que es posible ser ejecutado por el SAS System es el Test de White (SAS Institute, 2004). Esta estadística es distribuida asintóticamente como Chi-cuadrado () con K-1 grados de 15 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES libertad, donde K es el número de coeficientes de regresión. El método, prueba la hipótesis nula y demuestra que la varianza residual es homogénea. Entonces, si el valor “p” es muy pequeño, la hipótesis es rechazada y se acepta la hipótesis alternativa de que la varianza no es homogénea. Para eso fue utilizada la opción “SPEC” en la declaración del modelo como se observa abajo: PROC REg; MODEL y = X / SPEC; El test también puede ser ejecutado por medio de la opción WHITE de la declaración FIT del procedimiento MODEL en el SAS System: PROC MODEL; PARAMETERS b0 b1 b2; y = b0 + b1 * X1 + b2 * X2; FIT y / WHITE; RUN; QUIT; Independencia de los residuos El valor de la estadística “d” de Durbin-Watson (SAS Institute, 2004), es obtenido por medio de la opción DW de la declaración MODEL del procedimiento REg del SAS System: PROC REg; MODEL y=X1 X2 / DW; Es esperado que la estadística “d” (ec. 12), sea aproximadamente igual a 2, si los residuos son independientes. Caso contrario, si los residuos son correlacionados positivamente, tenderán a ser próximos de 0 (cero), ó próximos a 4, si los residuos son correlacionados negativamente (NEMEC, 1996). El valor de d será dado por: n d= ∑ (E i= 2 i − E i−1 ) 2 n ∑E i=1 i 2 Donde: d = estadística “d” de Durbin-Watson; n = número de observaciones; 16 Ec. 12 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES E i = error estocástico = , yi = ŷ i , ŷ i = valor estimado; y i = valor observado. Normalidad de los residuos El principio de este test se basa en la comparación de la curva de la frecuencia acumulativa de los datos con la función de distribución teórica en hipótesis. Cuando las dos curvas se sobreponen la estadística de test es calculada por medio de la máxima diferencia entre ambas. La magnitud de la diferencia es establecida según la distribución de probabilidad de esta estadística, que se encuentra en tabla. Así, si los datos de la investigación se desplazan significativamente de lo esperado de la distribución en hipótesis, entonces las curvas obtenidas deben encontrarse igualmente desplazadas y, por un raciocinio análogo, si el ajuste al modelo hipotético es admisible, entonces las curvas tienen un desarrollo próximo. El SAS System calcula la estadística de Shapiro-Wilk para muestra pequeña de 7 hasta 2000 observaciones. En el procedimiento MODEL el test de normalidad fue obtenido por la opción NORMAL de la declaración FIT como muestra el programa abajo: PROC MODEL; PARMS B0 P1 B2 ; y= Ba + Bi • X1 + B2 + X2 FIT y / NORMAL; RUN; QUIT; 3. RESUlTADOS y DISCUSIóN 3.1 Criterios de selección de los modelos y análisis estadística En la tabla 2, anexo 1, se observa el resultado para los 15 modelos probados juntamente con sus coeficientes de regresión estimados y las estadísticas para selección del mejor modelo. Analizando los modelos, a primera vista se observa que todos son significativos a un nivel de 95% de probabilidad (p0,05), presentando elevados valores para el coeficiente de determinación ajustado (R2) variando de 0,982 a 0,996 bien como bajos valores para el desvío estándar de la estimación, entre 0,013 a 0,045. 17 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES Un primer criterio nos revela que el R2 básicamente no varió. Lo que era de esperar es que a medida que se aumenta una variable independiente al modelo, el ajuste sufre un aumento, pero en este caso el ajuste fue casi semejante para ambos grupos. Este valor similar era esperado ya que la funciones con una variable independiente (v = f (d)), asumen que árboles del mismo diámetro tienen la misma altura, lo que ocurre en el rodal de estudio, o sea, la variación entre las unidades de muestreo (árboles) para la altura total es baja (Coeficiente de variación = 12,1%). Con relación al desvío estándar de la estimación () los valores variaron de 0,013 a 0,045 para los modelos 4 y 8, respectivamente, ya el coeficiente de variación (CV%), varió entre 0,011% a 7,00% para el modelo 2 pero al mismo tiempo altamente significativo con un valor F de 5182,48. La performance del ajuste es prácticamente igual, debido en parte, posiblemente, a la corta amplitud de clase de diámetro muestreado entre 10 a 30 cm. El procedimiento de cálculo de los modelos asumen lo que se observa en los datos de volumen, que la forma de los árboles no cambia tal que no afecta el resultado estimado. Debido a no haber una definición clara sobre cual ecuación presenta mejor ajuste (valores de ajuste semejantes), fue determinado el valor Ponderado (vP) para seleccionar la ecuación conforme presentado en la tabla 3 en el anexo 2, el cual es utilizada como un auxilio para entender mejor los valores obtenidos y con esto seleccionar la mejor ecuación de regresión. El ranking (valor Ponderado) atribuyo valores de 1 a 15 para cada parámetro estadístico estimado, considerando (R2 aj Syx, CV%, ), siendo el modelo de regresión número 10 el mejor modelo definido por Näslund con el menor valor ponderado, equivalente a 9 puntos. Este modelo es considerado de compleja geometría por presentar 4 coeficientes de regresión, envolviendo más cálculos para las estimaciones. Myung et al., (2003) indica que cuanto menor el número de parámetros, cuanto menos cálculos envolver y cuanto menor su complejidad geométrica, menor su complejidad general y mejor será el modelo considerado. Por lo tanto, considerando que todos los modelos ajustaron a los datos de la población estudiada, se decidió utilizar el modelo número 7 de Spurr con variable combinada el cual presentó un valor ponderado 13 con un error estándar de la estimación de 0,014 m3 y 6,81% de variación del volumen total con corteza disperso en relación a la media, es más, el modelo nos indica que el 98,3% del producto de los datos del diámetro elevado a la potencia 2 (diámetro cuadrático), combinado con la altura total (m) explican la variación total del volumen de los árboles de P. taeda en este rodal. 18 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES Los modelos de una variable independiente quedan limitados de forma intrínseca al cambio de las características físicas del rodal, o sea, presentan poca generabilidad que indica la capacidad en describir no solamente los datos muestrales, si no a la población, de forma que su uso es recomendable, su uso solamente dentro rodal por incluir una única variable independiente que es el diámetro. Esta es la razón para la utilización del modelo 7 por ser un modelo sencillo y con buen comportamiento tornándose generalizable para ser utilizado en la estimaciones para otros sitios pero, con características del rodal (edad especie y espaciamiento) similares al del estudio. El gráfico 1 demuestra el desarrollo de siete ecuaciones ajustadas para el conjunto de datos. La simple observación de esta figura permite verificar la importancia de seleccionar la ecuación adecuada, se demuestra que la línea en función del área basal (modelo 5) presenta falta de ajuste (línea dispersa de las demás). Otro criterio, a primera vista, es hacer las estimaciones solamente para el espacio muestral, evitando extrapolaciones. GRAFICO 1. Representación gráfica de los volúmenes estimados por seis modelos con solamente el diámetro (dap) como variable independiente para el mismo conjunto de datos observados en árboles de P. taeda, en Santa Maria, BRA. Donde: Ec 1 = ecuación 1;…; Ec 6= ecuación 6. La superficie de respuesta en tres dimensiones para el modelo propuesto por Spurr se muestra en el gráfico 2. Esta superficie es utilizada para estudiar el efecto del diámetro y la altura total sobre el volumen total de los árboles en el cual, se observa la dependencia de las variables de entrada sobre la variable de respuesta, indicando que, cuan mayores los diámetros y la altura total, mayor será el volumen total. 19 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES GRAFICO 2. Representación gráfica de la superficie del volumen estimado por la ecuación generada por el modelo de regresión propuesto por Spurr para árboles de P. taeda, en Santa Maria, BRA. 3.2 Distribución gráfica de los residuos El comportamiento de los residuos estandarizados del volumen total con corteza estimados por la ecuación seleccionada demuestra que no existe una tendenciosidad de los puntos de la variable dependiente indicando un cierto equilibrio tanto abajo como arriba de la línea de referencia presentando una buena distribución del error a lo largo del eje de la variable estimada (gRAFICO 3). GRAFICO 3. Distribución de residuos estandarizados de la ecuación de Spurr ajustada para el volumen total con corteza para P. taeda, en Santa Maria, BRA. 20 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES Por el análisis de la distribución de los residuos, se observa que esta distribución no presenta una tendencia de estimativa (subestimación ó superstimación) demostrando una distribución homogénea de los datos. Este requisito es decisivo y de gran importancia para la confiabilidad de las estimaciones, ya que en estas condiciones, las mismas no serán tendenciosas para la amplitud de los datos recabados. Por otro lado, a través de la normalización de los residuos (residuos estandarizados obtenidos por el cociente entre el residuo y el error estándar de la estimación), hace posible trabajar con la distribución normal estandarizada (z) la cual con 39 grados de libertad y 95 % de probabilidad de confianza el valor t equivale a 2,704 siendo posible delimitar la región de rechazo en el área del gráfico la cual nos indica que 95% del conjunto de datos se espera que estén comprendidos entre + 2,704 y – 2,704. Como se observa, existe 2 individuos que sus estimaciones presentan valores extraños, posiblemente Outlie, los cuales estadísticamente se deben excluir de la base de datos ocasionado un mejor ajuste. 3.3 Validación de la función de volumen Para el test de chi-cuadrado (X2) de White, se obtuvo un valor de igual a 2,79 el cual es menor si comparado con el valor de X2 tabular equivalente a 55,76, concluyendo que no hay diferencia significativa (p = 0,2482), llevando a la aceptación de la hipótesis nula, la cual indica que las varianzas del volumen observado por clase de D2H (ecuación seleccionada) son homogéneas (Homocedasticidad) a un nivel de 95% de probabilidad de confianza. El test para la normalidad de la frecuencia de los residuos por Kolmogorov-Smirnov, nos indica que no hay requisitos para rechazar la hipótesis de nulidad debiendo ser aceptada (p = 0,0574). Por lo tanto, la distribución de F de Snedecor es usual en los procedimientos estadísticos de análisis, dándonos indicios de que, las estimaciones del volumen no serán tendenciosas (gRAFICO 4). 21 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES GRAFICO 4. Histograma de la distribución de los residuos comparando con la distribución normal gaussiana para P. taeda, en Santa Maria, BRA. Floriano (2004), estudiando el efecto del raleo en plantaciones de P. elliote Engelm, encontró normalidad de los datos de frecuencia de los residuos para individuos con 15 anos de edad en Piratini, RS – Brasil, indicando que el test “t de student” y el test de “F de Snedecor” tendrá efecto en los análisis correspondientes. La prueba de Durbin-Watson nos indica que, no existe correlación entre los residuos, o sea, los residuos son independientemente distribuidos, con valor de d = 2,49 y probabilidades de 0,9249 para residuos positivos y 0,0751 para residuos negativos. Tomando los valores de dl y du de Durbin & Watson para a = 0,05 y K’ = 1, se tiene que dl = 1,43; du = 1,54. En este caso, du<d<4 - du lo que nos lleva a aceptar la hipótesis de nulidad de que no existe correlación en serie y, por lo tanto los residuos son considerados independientes. TABlA 4. validación del modelo matemático de regresión propuesto por. ns = no significativo a 95% de probabilidad de confianza tanto para residuos positivos como negativos. Por lo tanto, la ecuación generada a partir del modelo propuesto por Spurr con variable combinada de diámetro cuadrático en centímetro y altura total en metros es: 22 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES vi = 0,02355 + 0,0000320 di bj + ei Donde: i = 1, 2, 3,…, n árboles; Vi = se refiere al volumen total en m3 observado en el i-ésimo árbol; b0 = intercepto, volumen total en m3 promedio de la población de árboles = 0,02355; b1 = cambio que ocurre en el volumen total en m3 debido a un cambio en una unidad del producto del diámetro a la potencia 2 en centímetros cuadrado por altura total en metros = 0,0000320; di2hj= producto del diámetro elevado a la potencia 2 (cm.) del i-ésimo árbol por la altura total (m) del j-ésimo árbol; ei = efecto aleatorio asociado con la í-ésima observación @ NIID(0,s 2). 4. CONClUSIONES Todos los 15 modelos probados presentaron ajuste favorable. La ecuación propuesta por Näslund fue la que presentó mejores resultados para estimar el volumen total con corteza de los árboles de P. taeda L. en el rodal, tomando como criterio el valor Ponderado de las variables estadísticas, pero la ecuación de Spurr fue utilizada y validada en el estudio por presentar menor número de variables independientes facilitando el cálculo del volumen total con corteza en campo. 5. REFERENCIAS 1. Bussab, W. O., 1986. Análise de variância e de regressão. São Paulo. Atual. 147 p. 2. Couto, H. T; vettorazzo, S. C. 1999. Seleção de equações de volume e peso seco comercial para Pinus taeda. Cerne, v.5, n.1 p. 69-080. 3. Finger, C.A.g. 1992. FATEC Fundamentos de Biometría Florestal. Universidade Federal de Santa Maria, Brasil. 269 p. 4. Floriano, Eduardo P., 2004. Efeito da Desrrama Sobre o Crescimento e a Forma de Pinus elliottii Engelm. Tesis de Maestria. Universidade Federal de Santa Maria. Brasil. 114 p. 5. Furnival, g.M. 1961. An index for comparing equations used in constructing volume tables. Forest Science, Madison, United States v. 7, p. 337 – 341. 23 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES 6. Loetsch, F; Zöhrer, F.; Haller, K.E. 1973. Forest inventory. München, BLv verlagsgesellchaft. v.2, 469 p. 7. Moreno, j. A., 1961. Clima do Rio grande do Sul”. Secretaria da agricultura. Porto Alegre, Brasil. 42 p. 8. Myung, j.; Pitt, M. A.; Kim, W., 2003. Model evaluation, testing and selection. Columbus : Ohio State University, Department of Psychology, 2003. 45p. 9. Prodan, M.; Peters, R.; Cox, F. 1968. Mensura Forestal. San josé, Costa Rica IICA, 586 p. Dauber, E. 2002. BOLFOR Tablas volumétricas del fuste aprovechable de diferentes especies con base en mediciones de trozas en el rodeo y aserradero. Santa Cruz, Bolivia. 32 p. 10. SAS Institute. 2004. A simple regression model with correction of heteroscedasticity. Cary: SAS Institute. Consultado en Septiembre, 2007 disponible em: http://suport.sas.com/rnd/app/examples. 11. ____. SAS/STAT® User’s guide, version 8. Cary : SAS Institute, 1999b. 3365p. 12. Santana, O. A.; Encinas, j. I. 2004. Equações volumétricas para uma plantação de Eucalyptus urophylla destinada à produção de lenha. 3º SIMPóSIO LATINO- AMERICANO SOBRE MANEjO FLORESTAL. Anais Santa Maria: UFSM/PPgEF. p.107 – 111. 13. Schneider, P. R. 1984. Analise de Regressão Aplicada a Engenharia Florestal. Santa Maria, Brasil. Universidade Federal Santa Maria 237 p. 14. Silva, j.A. 1977. A Relascopia como instrumento básico para inventários florestais e cubagem de árvores individuais”. SIMPOSIO SOBRE INvENTARIO FLORESTAL, Piracicaba, Brasil, p. 81 – 91. 15. Sit, v., 1994 Catalog of curves for curve fitting - Handbook 4. victoria: Ministry of Forests, Forest Science Research Branch, Biometrics information, 1994. 110p. 16. Thiersch, A. 1997. Eficiência das distribuições diamétricas para prognose da produção de Eucalyptus camaldulensis. Tesis de maestria. Universidade Federal de Lavras. Brasil. 155p. 17. villarroel, L. 1994. PROFOR Aplicación de la regresión ponderada en la construcción de tablas de volumen (Eucalyptus globulus y Pinus radiata). Cochabamba, Bolivia, 20 p. 18. Zimmerman, D. L.; Núñez, A. v., 2001. Parametric modelling of growth curve data: An overview, p.1-41. In: Modelling curve data. Test, Sociedad de Estadística e Investigación Operativa, v. 10, n. 1, p. 111-999, 2001. 24 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES ANEXO 1: Modelos de regresión probados para el ajuste del volumen total con corteza y sus debidos coeficientes estimados. TABlA 1. Modelos de volumen ajustados para la estimación del volumen total con corteza para en base a cubicación rigurosa, para P. taeda, en Santa Maria, BRA. Donde: v = volumen total con corteza; d = diámetro de referencia (DAP); h = altura total; g = área basal; b0 ; b1 ; b2 ; b3 ; b4 ; bn ;= coeficientes de regresión paramétrico; e = error o variación no explicada por la regresión NIID (0,); ln = logaritmo natural de base e. Fuente: Prodan (1968); Loetsch et al. (1973); Schneider (1984). 25 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES TABlA 2. Coeficientes de regresión estimados y criterios utilizados para determinar el volumen total con corteza para P. taeda, en Santa Maria, BRA. Donde: R2 Aj. = Coeficiente de determinación ajustado; Syx = Error estándar de la estimación; Cv% = Coeficiente de varianza; F = valor de F de la distribución de Snedecor; * = valores del índice de Furnival debido a que la variable dependiente en estos modelos son transformadas al Logaritmo natural. 26 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES ANEXO 2: valores ponderados de las ecuaciones ajustadas TABlA 3. valor ponderado de los Criterios de los Parámetros Estadísticos resultado del ajuste de los modelos de volumen para P. taeda, en Santa Maria, BRA. Donde: R2 aj. = Coeficiente de determinación ajustado; Syx = Error estándar de la estimación; Cv% = Coeficiente de varianza; F = valor de F de la distribución de Snedecor. ANEXO 3: Programas SAS para el análisis de regresión. 3.1: Programas para los 6 primeros modelos probados. DATA REgRESION1; INFILE ‘C:\DATOS FAB\MEDICIóN_FAB.DAT’; INPUT D v; D2=D**2; D3=1/D; LOgD=LOg(D); LOgv=LOg(v); g=D2*3.1416/40000; 27 FOMABO AjUSTE y SELECCIóN DE MODELOS DE REgRESIóN PARA ESTIMAR EL vOLUMEN TOTAL DE ÁRBOLES PROC REg; TITLE ‘AjUSTE DEL MODELO 1 v = BO + B1D^2’; MODEL v=D2; PLOT R.*P. /vREF=0; PLOT v*P.; PROC REg; TITLE ‘AjUSTE DEL MODELO 2 v = B1D + B2D^2’; MODEL v=D D2/NOINT; PLOT R.*P. /vREF=0; PLOT v*D P.*D/ OvERLAy; PROC REg; TITLE ‘AjUSTE DEL MODELO 3 v = BO + B1D + B2D^2’; MODEL v=D D2; PLOT R.*P. /vREF=0; PLOT v*D P.*D/ OvERLAy; PROC REg; TITLE ‘AjUSTE DEL MODELO 4 LOg v = BO + B1LOgD’; vAR D; MODEL LOgv=LOgD; PLOT R.*P. /vREF=0; PLOT LOgv*D P.*D/ OvERLAy; PROC REg; TITLE ‘AjUSTE DEL MODELO 5 v = BO + B1g’; vAR D; MODEL v=g; PLOT R.*P. /vREF=0; PLOT v*D P.*D/ OvERLAy; PROC REg; TITLE ‘AjUSTE DEL MODELO 6 LOg v = BO + B1LOgD + B2(1/D)’; vAR D; MODEL LOgv=LOgD D3; PLOT R.*P. /vREF=0; PLOT LOgv*D P.*D/ OvERLAy; RUN; QUIT; 3.2: Programas para la validación de la ecuación seleccionada. PROC MODEL; TITLE ‘vALIDACION DE LA ECUACIóN DE SPURR‘; PARAMETERS Bo B1; v = Bo+B1*D2H; FIT v / NORMAL WHITE DW DWPROB; RUN; QUIT; 28