y y y Pruebas de los efectos inter

Anuncio
Se observa la variable “Porcentaje de masa boscosa perdida anualmente” en 10 provincias elegidas al azar en cada una
de las siguientes regiones del mundo: Centroamérica, Europa y sudeste de Asia. En cada región la mitad de las
provincias observadas tienen una localización continental y la otra mitad son islas. Se desea saber si el deterioro de los
bosques de una provincia depende de su localización y/o de la región donde se sitúa. A continuación presentamos los
datos y algunos estadísticos resumen de los mismos (que se han redondeado a 2 decimales):
Región
Continental
Media
Localización
y ij •
Isla
Media
y ij •
Media por columnas
y • j•
Centroamérica
Sudeste de Asia
Europa
3,1
3,2
2,0
2,3
2,7
1,0
1,5
2,5
1,7
0,2
0,0
0,5
0,9
1,3
0,7
2,66
1,38
0,68
0,1
0,6
3,8
3,0
0,4
0,1
0,1
0,2
1,5
0,8
1,5
1,0
0,2
0,4
0,9
1,58
0,54
0,80
2,12
0,96
0,74
Media por filas
y i ••
1,57
0,97
y ••• =1,27
Media global
(a) Indica qué modelo utilizarías para analizar estos datos, incluyendo todas las hipótesis necesarias y explicando muy
brevemente qué representa cada parámetro.
(b) Al analizar los datos con SPSS obtenemos la siguiente tabla:
Pruebas de los efectos inter-sujetos
Variable dependiente: Porcentaje Perdido
Origen
Suma de cuadrados
gl
Media cuadrática
Localizacion
Region
Localizacion * Region
Error
18,93
Total
34,64
F
Sig.
,077
,004
,297
2
Rellena las celdas vacías con los valores apropiados. Después calcula el coeficiente de determinación R . ¿Cómo
interpretarías el valor de éste?
(c) Utilizando la información contenida en la tabla de (b) determina razonadamente si la localización o la región influyen
sobre la cantidad de masa boscosa desaparecida. Indica si existe interacción entre localización y región.
(d) A continuación reproducimos algunos gráficos que también hemos obtenido con SPSS.
¿Para qué se utiliza este tipo de gráficos? ¿Qué información nos proporcionan en este caso concreto?
Solución:
(a) Se utilizaría un modelo de análisis de la varianza con dos factores (región y localización) e interacción:
Yijk = μ + α i + β j + (αβ )ij + U ijk ,
para
i = 1,2 , j = 1,2,3 , k = 1,...,5 ,
α1 + α 2 = 0 , β1 + β 2 + β 3 = 0 , (αβ )1 j + (αβ ) 2 j = 0
Aquí
para
j = 1,2,3
donde las
y
U ijk ~ N (0,σ 2 ) son
independientes,
(αβ )i1 + (αβ )i 2 + (αβ )i 3 = 0
para
i = 1,2 .
Y representa el porcentaje de masa boscosa perdida anualmente, μ es el nivel medio global de este porcentaje, α i
β j son efectos incrementales de la localización y de la región respectivamente y (αβ )ij
y
son términos de interacción entre los
dos factores.
(b)
Pruebas de los efectos inter-sujetos
Variable dependiente: Porcentaje Perdido
Origen
Suma de cuadrados
gl
Media cuadrática
Localizacion
2,70
1
2,70
F
3,42
Sig.
,077
Region
11,00
2
5,50
6,97
,004
Localizacion * Region
2,02
2
1,01
1,28
,297
Error
Variabilidad residual =
24
0,79
Total
Suma de cuadrados total
(variabilidad total) =
29
VNE = 18,93
VT = 34,64
R2 =
18,93
VE
VNE
=1−
=1−
= 0,45 . Sólo un 45% de la variabilidad total de los datos está explicada por el modelo
34,64
VT
VT
con dos factores e interacción, así que este modelo no es demasiado satisfactorio.
Algunas cuentas detalladas:
α1 = 1,57 - 1,27 = 0,30
β 3 = 0,74 - 1,27 = −0,53
,
Variabilidad debida a la localización =
Variabilidad debida a la región =
α 2 = −0,30 ,
β1 = 2,12 - 1,27 = 0,85 ,
β 2 = 0,96 - 1,27 = −0,31 ,
VE (α ) = J ⋅ K ⋅ (α1 + α 2 ) = 2,70
2
2
VE ( β ) = I ⋅ K ⋅ ( β1 + β 2 + β 3 ) = 11,00
Variabilidad debida a la interacción =
2
2
2
VE (αβ ) = VT − VE (α ) − VE ( β ) − VNE = 2,02
(c) El p-valor del contraste H 0 : α1 = α 2 = 0 es 0,077, luego no parece que haya mucha evidencia para rechazar la hipótesis
nula. El factor localización no influye significativamente sobre la masa boscosa perdida.
El p-valor del contraste
H 0 : β1 = β 2 = β 3 = 0 es 0,004, por lo que rechazamos H 0 , es decir, el factor región sí influye
sobre el porcentaje de masa boscosa perdida cada año.
El p-valor del contraste
H 0 : αβ ij = 0 , i = 1,2, j = 1,2,3 es 0,297. No hay evidencia de interacción entre los dos factores.
(d) El análisis gráfico de los residuos sirve para analizar si se cumplen las hipótesis del modelo que indicamos en el apartado
(a). Por ejemplo, en este caso la figura de la izquierda indica que no se cumple la hipótesis de homocedasticidad. También
aparecen tres observaciones que pueden causar esta heterocedasticidad y un mal ajuste del modelo (observar la curvatura de
los residuos si quitamos estos tres puntos). La figura de la derecha nos ayuda a estudiar si la distribución de los residuos es
normal: aunque el histograma parece más apuntado (mayor curtosis) que lo correspondiente a la densidad normal (línea
continua negra), en principio parece razonable aceptar la hipótesis de normalidad.
Descargar