Se observa la variable “Porcentaje de masa boscosa perdida anualmente” en 10 provincias elegidas al azar en cada una de las siguientes regiones del mundo: Centroamérica, Europa y sudeste de Asia. En cada región la mitad de las provincias observadas tienen una localización continental y la otra mitad son islas. Se desea saber si el deterioro de los bosques de una provincia depende de su localización y/o de la región donde se sitúa. A continuación presentamos los datos y algunos estadísticos resumen de los mismos (que se han redondeado a 2 decimales): Región Continental Media Localización y ij • Isla Media y ij • Media por columnas y • j• Centroamérica Sudeste de Asia Europa 3,1 3,2 2,0 2,3 2,7 1,0 1,5 2,5 1,7 0,2 0,0 0,5 0,9 1,3 0,7 2,66 1,38 0,68 0,1 0,6 3,8 3,0 0,4 0,1 0,1 0,2 1,5 0,8 1,5 1,0 0,2 0,4 0,9 1,58 0,54 0,80 2,12 0,96 0,74 Media por filas y i •• 1,57 0,97 y ••• =1,27 Media global (a) Indica qué modelo utilizarías para analizar estos datos, incluyendo todas las hipótesis necesarias y explicando muy brevemente qué representa cada parámetro. (b) Al analizar los datos con SPSS obtenemos la siguiente tabla: Pruebas de los efectos inter-sujetos Variable dependiente: Porcentaje Perdido Origen Suma de cuadrados gl Media cuadrática Localizacion Region Localizacion * Region Error 18,93 Total 34,64 F Sig. ,077 ,004 ,297 2 Rellena las celdas vacías con los valores apropiados. Después calcula el coeficiente de determinación R . ¿Cómo interpretarías el valor de éste? (c) Utilizando la información contenida en la tabla de (b) determina razonadamente si la localización o la región influyen sobre la cantidad de masa boscosa desaparecida. Indica si existe interacción entre localización y región. (d) A continuación reproducimos algunos gráficos que también hemos obtenido con SPSS. ¿Para qué se utiliza este tipo de gráficos? ¿Qué información nos proporcionan en este caso concreto? Solución: (a) Se utilizaría un modelo de análisis de la varianza con dos factores (región y localización) e interacción: Yijk = μ + α i + β j + (αβ )ij + U ijk , para i = 1,2 , j = 1,2,3 , k = 1,...,5 , α1 + α 2 = 0 , β1 + β 2 + β 3 = 0 , (αβ )1 j + (αβ ) 2 j = 0 Aquí para j = 1,2,3 donde las y U ijk ~ N (0,σ 2 ) son independientes, (αβ )i1 + (αβ )i 2 + (αβ )i 3 = 0 para i = 1,2 . Y representa el porcentaje de masa boscosa perdida anualmente, μ es el nivel medio global de este porcentaje, α i β j son efectos incrementales de la localización y de la región respectivamente y (αβ )ij y son términos de interacción entre los dos factores. (b) Pruebas de los efectos inter-sujetos Variable dependiente: Porcentaje Perdido Origen Suma de cuadrados gl Media cuadrática Localizacion 2,70 1 2,70 F 3,42 Sig. ,077 Region 11,00 2 5,50 6,97 ,004 Localizacion * Region 2,02 2 1,01 1,28 ,297 Error Variabilidad residual = 24 0,79 Total Suma de cuadrados total (variabilidad total) = 29 VNE = 18,93 VT = 34,64 R2 = 18,93 VE VNE =1− =1− = 0,45 . Sólo un 45% de la variabilidad total de los datos está explicada por el modelo 34,64 VT VT con dos factores e interacción, así que este modelo no es demasiado satisfactorio. Algunas cuentas detalladas: α1 = 1,57 - 1,27 = 0,30 β 3 = 0,74 - 1,27 = −0,53 , Variabilidad debida a la localización = Variabilidad debida a la región = α 2 = −0,30 , β1 = 2,12 - 1,27 = 0,85 , β 2 = 0,96 - 1,27 = −0,31 , VE (α ) = J ⋅ K ⋅ (α1 + α 2 ) = 2,70 2 2 VE ( β ) = I ⋅ K ⋅ ( β1 + β 2 + β 3 ) = 11,00 Variabilidad debida a la interacción = 2 2 2 VE (αβ ) = VT − VE (α ) − VE ( β ) − VNE = 2,02 (c) El p-valor del contraste H 0 : α1 = α 2 = 0 es 0,077, luego no parece que haya mucha evidencia para rechazar la hipótesis nula. El factor localización no influye significativamente sobre la masa boscosa perdida. El p-valor del contraste H 0 : β1 = β 2 = β 3 = 0 es 0,004, por lo que rechazamos H 0 , es decir, el factor región sí influye sobre el porcentaje de masa boscosa perdida cada año. El p-valor del contraste H 0 : αβ ij = 0 , i = 1,2, j = 1,2,3 es 0,297. No hay evidencia de interacción entre los dos factores. (d) El análisis gráfico de los residuos sirve para analizar si se cumplen las hipótesis del modelo que indicamos en el apartado (a). Por ejemplo, en este caso la figura de la izquierda indica que no se cumple la hipótesis de homocedasticidad. También aparecen tres observaciones que pueden causar esta heterocedasticidad y un mal ajuste del modelo (observar la curvatura de los residuos si quitamos estos tres puntos). La figura de la derecha nos ayuda a estudiar si la distribución de los residuos es normal: aunque el histograma parece más apuntado (mayor curtosis) que lo correspondiente a la densidad normal (línea continua negra), en principio parece razonable aceptar la hipótesis de normalidad.