lab12 - Uprm

Anuncio
Revisado_Abril_2015_LW B
CLAVE - LAB 12 - Regresión Múltiple y Selección de Variables
Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (g) de una planta
forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (g)
y se registraron las características del suelo en el que crecía. Los datos están en el archivo Salinidad en InfoStat
(Archivo>Abrir datos de prueba).
a. Ajuste un modelo de regresión lineal múltiple (modelo 1) usando biomasa como variable dependiente, y
pH, salinidad, zinc y potasio como variables independientes. Guarde los valores predichos y los residuos
estudentizados.
Análisis de regresión lineal
Variable
Biomass
N
45
R²
0.92
R² Aj
ECMP
0.92 33301.86
AIC
590.55
BIC
601.39
Coeficientes de regresión y estadísticos asociados
Coef
const
pH
Salinity
Zinc
Potassium
Est.
E.E. LI(95%) LS(95%) T
1492.81 453.60 576.05 2409.57 3.29
262.88 33.73 194.71 331.05 7.79
-33.50 8.65 -50.99 -16.01 -3.87
-28.97 5.66 -40.42 -17.52 -5.11
-0.12 0.08
-0.28
0.05 -1.40
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo.
12120944.19
4
3030236.05
pH
1533665.03
1
1533665.03
Salinity
378485.90
1
378485.90
Zinc
660588.37
1
660588.37
Potassium
49785.48
1
49785.48
Error
1009974.02
40
25249.35
Total
13130918.21
44
p-valor CpMallows
0.0021
<0.0001
63.28
0.0004
18.65
<0.0001
29.55
0.1680
5.95
F
120.01
60.74
14.99
26.16
1.97
p-valor
<0.0001
<0.0001
0.0004
<0.0001
0.1680
b. Obtenga la ecuación estimada de regresión y el valor del coeficiente de determinación. Interprete los
coeficientes de regresión parciales en términos de este problema.
Biomasa = 1492.81 + 262.9 (pH) – 33.5(salinidad) – 28.97(Zn) – 0.12(K)
Coeficiente de determinación = R2 = 0.92 (el modelo explica 92% de la variabilidad en biomasa)
β1 = Por cada aumento en una unidad de pH, y manteniendo constantes Zn, salinidad y K, la biomasa
promedio aumentará 262.9 g,
β2 = Por cada aumento en una unidad de salinidad, y manteniendo constantes Zn, pH y K, la biomasa
promedio disminuirá 33.5 g,
β3 = Por cada aumento en una unidad de Zn, y manteniendo constante salinidad, pH, y K, la biomasa
promedio disminuirá 28.97 g,
β4 = Por cada aumento en una unidad de K, y manteniendo constantes Zn, pH, y salinidad, la
biomasa promedio disminuirá 0.12g,
AGRO 6600 – LAB 12 - CLAVE
Page 1
c. Para verificar validez del modelo, construya gráficos de dispersión de residuos estudentizados versus
cada una de las variables independientes. ¿Qué información obtenemos con estos gráficos? Observe con
cuidado el gráfico residuos vs. salinidad.
Los gráficos de residuos estudentizados vs. las variables independientes reflejan la linealidad del modelo.
Una curva notable en alguno de los gráficos refleja una relación curva de la Y con esa variable X,
indicando la necesidad de utilizar una fórmula matemática diferente para mejorar el valor predictivo del
modelo. Este tipo de curvatura puede observarse en el gráfico residuos vs. salinidad.
d. Ajuste un modelo (modelo 2) que incluya todas las variables independientes usadas anteriormente y un
término cuadrático para salinidad (use la opción polinomios). Guarde nuevamente los residuos
estudentizados y valores predichos.
Análisis de regresión lineal
Variable
Biomass
N
45
R²
0.97
R² Aj
0.96
ECMP
15382.90
AIC
BIC
556.48 569.12
No se puede interpretar los coeficientes parciales
de salinidad y salinidad2 porque es imposible
cambiar el nivel de salinidad y a la misma vez
mantener la variable salinidad2 constante
Coeficientes de regresión y estadísticos asociados
Coef
const
pH
Zinc
Potassium
Salinity
Salinity^2
Est.
10430.36
224.02
-36.39
-0.17
-590.47
8.90
E.E. LI(95%) LS(95%)
1327.07 7746.11 13114.61
23.56 176.37 271.68
3.99 -44.46 -28.32
0.06 -0.28
-0.06
80.66 -753.62 -427.32
1.29
6.30
11.50
T
7.86
9.51
-9.12
-3.02
-7.32
6.92
p-valor CpMallows
<0.0001
<0.0001
93.19
<0.0001
86.17
0.0044
13.94
<0.0001
57.27
<0.0001
51.76
Revisado_Abril_2015_LW B
Cuadro de Análisis de la Varianza (SC tipo I)
F.V.
SC
gl
CM
Modelo.
12677829.81
5
2535565.96
pH
11310631.13
1
11310631.13
Zinc
347360.98
1
347360.98
Potassium
84466.18
1
84466.18
Salinity
378485.90
1
378485.90
Salinity^2
556885.62
1
556885.62
Error
453088.40
39
11617.65
Total
13130918.21
44
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo.
12677829.81
5
2535565.96
pH
1050548.66
1
1050548.66
Zinc
966936.57
1
966936.57
Potassium
106199.51
1
106199.51
Salinity
935371.52
2
467685.76
Error
453088.40
39
11617.65
Total
13130918.21
44
F
218.25
973.57
29.90
7.27
32.58
47.93
F
218.25
90.43
83.23
9.14
40.26
p-valor
<0.0001
<0.0001
<0.0001
0.0103
<0.0001
<0.0001
p-valor
<0.0001
<0.0001
<0.0001
0.0044
<0.0001
Solamente hace sentido considerar las SC
tipo I (secuenciales) para términos
polinomiales (salinidad lineal y cuadrática en
este ejemplo)
Considerando las SC tipo I (secuenciales):
vemos que, en un modelo que ya incluye
2
pH, Zn, K y salinidad, el término salinidad
explique una parte adicional (significativa)
de la variación en biomasa (justificando su
inclusión en el modelo)
Biomasa = 10430.36 + 224(pH) – 36.4(Zn) – 0.17(K) -590.5(salinidad) + 8.9(salinidad)2
e. Para verificar validez del modelo, construya gráficos de dispersión de residuos estudentizados versus
cada una de las variables independientes.
Modelo 2 (con salinidad2): En estos gráficos no se observan tendencias curvilíneas respecto a
ninguna de las variables (al contrario de lo que vimos en el modelo 1).
AGRO 6600 – LAB 12 - CLAVE
Page 3
f. Para este modelo, interprete los coeficientes de regresión parciales asociados con pH, potasio y zinc.
¿Por qué no se puede interpretar el coeficiente asociado a salinidad?
β1 = Por cada aumento en una unidad de pH, y manteniendo constantes Zn, salinidad y K, la biomasa
promedio aumentará en 224.02 g
β2 = Por cada aumento en una unidad de Zn, y manteniendo constantes salinidad, pH y K, la biomasa
promedio disminuirá por 36.4 g,
β3 = Por cada aumento en una unidad de K, y manteniendo constante salinidad, pH y Zn, la biomasa
promedio disminuirá 0.17 g,
Los coeficientes asociados a salinidad no se puede interpretar porque no es posible mantener
constante salinidad2 y al mismo tiempo aumentar salinidad una unidad!
g. Ajuste un modelo que no incluya potasio (modelo 3). Incluya solamente ph, zinc, salinidad y salinidad al
cuadrado (use polinomios), guarde los residuos estudentizados y grafíquelos versus cada una de las
variables independientes (incluyendo potasio).
Análisis de regresión lineal
Variable
Biomass
N
45
R²
0.96
R² Aj
0.95
ECMP
17163.88
AIC
BIC
563.95 574.79
Coeficientes de regresión y estadísticos asociados
Coef
const
pH
Zinc
Salinity
Salinity^2
Est.
E.E. LI(95%) LS(95%)
9895.13 1442.86 6979.01 12811.25
215.02 25.64 163.21 266.84
-38.01
4.34 -46.77 -29.25
-558.14 87.71 -735.40 -380.87
8.35
1.40
5.53
11.18
Cuadro de Análisis de la Varianza (SC tipo I)
F.V.
SC
gl
CM
Modelo.
12571630.30
4
3142907.58
pH
11310631.13
1
11310631.13
Zinc
347360.98
1
347360.98
Salinity
413166.61
1
413166.61
Salinity^2
500471.59
1
500471.59
Error
559287.91
40
13982.20
Total
13130918.21
44
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo.
12571630.30
4
3142907.58
pH
983536.25
1
983536.25
Zinc
1074346.89
1
1074346.89
Salinity
913638.19
2
456819.10
Error
559287.91
40
13982.20
Total
13130918.21
44
T
6.86
8.39
-8.77
-6.36
5.98
p-valor CpMallows
<0.0001
<0.0001
72.65
<0.0001
78.99
<0.0001
43.53
<0.0001
38.94
F
224.78
808.93
24.84
29.55
35.79
p-valor
<0.0001
<0.0001
<0.0001
<0.0001
<0.0001
F
224.78
70.34
76.84
32.67
p-valor
<0.0001
<0.0001
<0.0001
<0.0001
Biomasa = 9895.1 + 215(pH) – 38.0(Zn) – 558.1(salinidad) + 8.35(salinidad)2
Revisado_Abril_2015_LW B
Título
Título
2.50
2.50
1.25
RE_Biomasa
RE_Biomasa
1.25
0.00
-1.25
0.00
-1.25
-2.50
-2.50
3.00
4.25
5.50
6.75
20.00
8.00
25.00
30.00
35.00
40.00
Salinidad
pH
Título
Título
2.50
2.50
1.25
RE_Biomasa
RE_Biomasa
1.25
0.00
-1.25
0.00
-1.25
-2.50
-2.50
0.00
8.75
17.50
26.25
35.00
Zinc
300
600
900
1200
1500
Potasio
Modelo 2 (eliminando potasio del modelo): En estos gráficos una tendencia lineal entre
RE_biomasa y potasio, sugiriendo que no fue conveniente remover potasio del modelo
h. ¿Cuál de los tres modelos seleccionaría? Justifique su respuesta e indique la ecuación del modelo
estimado.
El modelo más apropiado parece ser el Modelo 2.
En el modelo 1 hay una relación curvilínea entre los residuos y la variable independiente salinidad.
Esto significa que agregando un término cuadrático para salinidad el modelo mejorará su valor
predictivo.
En el modelo 3 hay una relación lineal entre los residuos (que es la parte no explicada por el modelo) y
la variable independiente K. Esto indica que K explica (linealmente) una parte de lo que falta por
explicar de las observaciones, y por lo tanto aporta a la predicción de la biomasa, lo cual indica que
NO es conveniente sacarlo (recordemos que K no se incluyó en el modelo 3).
AGRO 6600 – LAB 12 - CLAVE
Page 5
El modelo 2 parece tener un comportamiento apropiado de residuos, y por lo tanto lo elegimos:
Biomasa = 10430.36 + 224(pH) – 36.4(Zn) – 0.17(K) -590.5(salinidad) + 8.9(salinidad)2
i. Para el modelo seleccionado verifique los supuestos de normalidad y homogeneidad de varianzas
mediante gráficos y/o pruebas adecuadas.
Shapiro-Wilks (modificado)
Variable
RE_Biomass
n
45
Media
7.4E-04
D.E.
1.01
W*
0.94
p(Unilateral D)
0.1466
Ambas pruebas confirman Normalidad en los residuos y Homogeneidad de Varianza
j. Prediga, si es posible, la biomasa producida en suelo de pH 6, con una salinidad de 35, un contenido de
zinc de 20 y un contenido de potasio de 900.
Si es posible, ya que todas las variables están en los rangos estudiados
Biomasa = 10430.36 + 224(6) – 36.4(20) – 0.17(900) -590.5(35) + 8.9(35)2 = 1,128.36 (g)
2. Los datos adjuntos (gansos) se tomaron para estudiar el efecto de varias variables ambientales sobre el
tiempo en el que una especie de ganso migratorio deja su nido a la mañana para ir a buscar alimento.
Estos datos se tomaron durante varios días en un refugio de vida silvestre cerca de la costa de Texas en
el invierno de 1987/88. La variable TIEMPO se indica en minutos antes (-) o después (+) del amanecer.
La variable TEMP es la temperatura del aire en C, HUM es la humedad relativa ambiente, LUZ es la
intensidad lumínica y NUBES es el porcentaje del cielo cubierto por nubes.
Fecha
10-Nov-87
13-Nov-87
14-Nov-87
Tiempo
11
2
-2
Temp
11
11
11
Hum
78
88
100
Luz
12.6
10.8
9.7
Nubes
100
80
30
Revisado_Abril_2015_LW B
15-Nov-87
17-Nov-87
18-Nov-87
21-Nov-87
22-Nov-87
23-Nov-87
25-Nov-87
30-Nov-87
5-Dic-87
14-Dic-87
18-Dic-87
24-Dic-87
26-Dic-87
27-Dic-87
28-Dic-87
30-Dic-87
31-Dic-87
2-Ene-88
3-Ene-88
4-Ene-88
5-Ene-88
6-Ene-88
7-Ene-88
8-Ene-88
10-Ene-88
11-Ene-88
12-Ene-88
14-Ene-88
15-Ene-88
16-Ene-88
20-Ene-88
21-Ene-88
22-Ene-88
23-Ene-88
24-Ene-88
AGRO 6600 – LAB 12 - CLAVE
-11
-5
2
-6
22
22
21
8
25
9
7
8
18
-14
-21
-26
-7
-15
-6
-23
-14
-6
-8
-19
-23
-11
5
-23
-7
9
-27
-24
-29
-19
-9
20
8
12
6
18
19
21
10
18
20
14
19
13
3
4
3
15
15
6
5
2
10
2
0
-4
-2
5
5
8
15
5
-1
-2
3
6
83
100
90
87
82
91
92
90
85
93
92
96
100
96
86
89
93
43
60
80
92
90
96
83
88
80
80
61
81
100
51
74
69
65
73
12.2
14.2
10.5
12.5
12.9
12.3
9.4
11.7
11.8
11.1
8.3
12
11.3
4.8
6.9
7.1
8.1
6.9
7.6
8.8
9
8
7.1
3.9
8.1
10.3
9
5.1
7.4
7.9
3.8
6.3
6.3
7.8
9.5
50
0
90
30
20
80
100
60
40
95
90
40
100
100
100
40
95
100
100
100
60
100
100
100
20
10
95
95
100
100
0
0
0
30
30
Page 7
a. Prepare e interprete una matriz de diagramas de dispersión (“scatterplot matrix”) y una matriz de
correlación en Infostat.
Título
Tiempo
Temp
Hum
Luz
Nubes
Correlación de Pearson: Coeficientes\probabilidades
Tiempo
Temp
Hum
Luz
Nubes
Tiempo
1.00
0.77
0.45
0.68
0.26
Temp
1.7E-08
1.00
0.25
0.55
0.29
Hum
4.2E-03
0.13
1.00
0.43
0.15
Luz
2.3E-06
3.2E-04
0.01
1.00
-0.17
Nubes
0.12
0.07
0.38
0.31
1.00
Este matriz nos ayuda hacer una evaluación preliminar o exploratoria sobre las relaciones entre
las variables.
Valores por debajo del diagonal son los coeficientes de correlación (r), y valores por encima del
diagonal son la probabilidades (de la prueba t). Temperatura (r = 0.77, p=0.000000017) y luz
(r=0.68, p=0.0000023) están bastante correlacionadas con el tiempo en que el ganso deja su nido.
Así que, son buenos candidatos de variables para ser incluidas en el modelo. Mientras más alta la
temperatura o mientras más luz (sol) que hay, los gansos toman más tiempo para dejar su nido.
Hay otras variables como nubes (r=0.26, p=0.12) no correlacionada con tiempo.
Ciertas variables son correlacionadas entre si (luz con temperatura y luz con humidad).
Posiblemente no se justifica incluir ambas variables en el modelo.
Revisado_Abril_2015_LW B
b. Ajuste ecuaciones de regresión lineal simple entre TIEMPO y cada una de las variables independientes
¿Cuáles variables muestran una relación lineal fuerte con TIEMPO?
Temperatura:
Variable
Tiempo
N
38
R²
0.59
R² Aj ECMP
0.58 111.72
AIC
286.47
BIC
291.38
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -19.67
2.61
-24.95
-14.38
-7.55 <0.0001
Temp
1.68
0.23
1.21
2.15
7.23 <0.0001
CpMallows
51.86
VIF
1.00
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
5181.18
1
5181.18
52.24 <0.0001
Temp
5181.18
1
5181.18
52.24 <0.0001
Error
3570.40
36
99.18
Total
8751.58
37
Título
27.70
Tiempo
12.85
-2.00
-16.85
-31.70
-5.25
1.63
8.50
15.38
22.25
Temp
Humedad
Variable
Tiempo
N
38
R²
0.21
R² Aj ECMP
0.18 210.80
AIC
311.75
BIC
316.66
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -47.95
14.25 -76.84
-19.05
-3.37 0.0018
Hum
0.51
0.17
0.17
0.86
3.06 0.0042
CpMallows
10.14
VIF
1.00
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
1806.84
1
1806.84
9.37
0.0042
AGRO 6600 – LAB 12 - CLAVE
Page 9
Hum
Error
Total
1806.84
6944.74
8751.58
1
36
37
1806.84
192.91
9.37
0.0042
Título
27.70
Tiempo
12.85
-2.00
-16.85
-31.70
40.15
55.82
71.50
87.17
102.85
Hum
Luz
Variable
Tiempo
N
38
R²
0.47
R² Aj ECMP
0.45 144.95
AIC
296.61
BIC
301.53
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -40.88
6.66
-54.39
-27.36
-6.13 <0.0001
Luz
3.99
0.71
2.55
5.43
5.62 <0.0001
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
4088.59
1
4088.59
31.57 <0.0001
Luz
4088.59
1
4088.59
31.57 <0.0001
Error
4662.99
36
129.53
Total
8751.58
37
Título
27.70
Tiempo
12.85
-2.00
-16.85
-31.70
3.28
6.14
9.00
Luz
11.86
14.72
CpMallows
31.74
VIF
1.00
Revisado_Abril_2015_LW B
Nubes:
Variable
Tiempo
N
38
R²
0.07
R² Aj ECMP
0.04 252.81
AIC
317.93
BIC
322.84
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -11.78
4.95
-21.81
-1.74
-2.38 0.0227
Nubes
0.11
0.07
-0.03
0.24
1.60 0.1184
CpMallows
3.52
VIF
1.00
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
580.86
1
580.86
2.56
0.1184
Nubes
580.86
1
580.86
2.56
0.1184
Error
8170.72
36
226.96
Total
8751.58
37
Título
27.70
Tiempo
12.85
-2.00
-16.85
-31.70
-5.00
22.50
50.00
77.50
105.00
Nubes
Las variables TEMP, HUM y LUZ muestran un efecto lineal significativa sobre la variable dependiente
tiempo (no hubo un efecto significativo (p=0.1184) de NUBES sobre el tiempo). La variable que muestra
la relación más fuerte con el tiempo es la temperatura con un R2 igual a 0.59. (la raíz cuadrado de este
valor es igual al coeficiente de correlación)
c. Conduzca un análisis de regresión múltiple para predecir el tiempo (Y) usando todas las otras variables
como independientes (temp, hum, luz y nubes). Obtenga la ecuación estimada de regresión y el valor del
coeficiente de determinación. Interprete los coeficientes de regresión parciales en términos de este
problema. Use InfoStat y SAS.
AGRO 6600 – LAB 12 - CLAVE
Page 11
Modelo completo (todas las variables):
Análisis de regresión lineal
Variable
Tiempo
N
38
R²
0.74
R² Aj ECMP
AIC
0.70 92.94 275.97
BIC
285.79
El modelo completo explica
74% de la variación en tiempo
en dejar el nido
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -52.52
9.08
-70.99
-34.05
-5.78 <0.0001
Temp
1.02
0.27
0.48
1.57
3.82 0.0006
Hum
0.16
0.12
-0.07
0.40
1.39 0.1731
Luz
2.28
0.76
0.73
3.84
2.99 0.0053
Nubes
0.07
0.04
-0.02
0.16
1.55 0.1300
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
6438.69
4
1609.67
22.97 <0.0001
Temp
1021.21
1
1021.21
14.57 0.0006
Hum
135.90
1
135.90
1.94 0.1731
Luz
625.95
1
625.95
8.93 0.0053
Nubes
169.02
1
169.02
2.41 0.1300
Error
2312.89
33
70.09
Total
8751.58
37
CpMallows
18.17
5.91
12.70
6.37
VIF
1.88
1.32
2.15
1.43
Para usar en el ejercicio 2e
Ecuación estimada de regresión:
Tiempo = -52.52 + 1.02 TEMP + 0.16 HUM + 2.28 LUZ + 0.07 NUBES
Interpretación de los coeficientes de Regresión:
β1 = (TEMP) (p=0.0006) Por cada aumento en un grado centígrado el tiempo de salida del nido
aumentará en 1.02 minutos, manteniendo constante humedad, luz y nubes.
Β2 = (HUM) (p=0.1731) No hay un efecto significativo de humedad sobre el tiempo de salida del nido,
manteniendo constante temperatura, luz y nubes.
Β3 = (LUZ) (p=0.0053) Por cada aumento en una unidad de intensidad lumínica el tiempo de salida del
nido aumentará en 2.28 minutos, manteniendo constante temperatura, humedad y nubes.
β4 = (NUBES) (p=0.1300) No hay un efecto significativo de nubes sobre el tiempo de salida del nido,
manteniendo constante temperatura, luz y humedad.
Favor de notar que la regresión lineal simple con solo HUM resultó significativa en la parte 2b.
Pero al incluir HUM en un modelo con las otras tres variables, su efecto no es significativo
(posiblemente debido a una correlación con otra variable en el modelo).
d. Prediga el tiempo promedio que estas aves dejan su nido cuando la temperatura es de 15C, la humedad
relativa del 70%, la intensidad de luz de 10.5 y la cobertura de nubes del 65%.
Y = -52.52 + 1.02 (15) + 0.16 (70) + 2.28 (10.5) + 0.07 (65)
= 2.47 minutos después del amanecer
Revisado_Abril_2015_LW B
e. Pruebe 2   4  0.
Ho: β0 + β1x1 + β3x3 (Modelo Reducido, donde 2 = 4 =0, o en otras palabras, estas
variables [HUM y NUBES] no se incluyen en el modelo)
Ha: β0 + β1x1 + β2x2 + β3x3 +β4x4 (Modelo Completo)
El modelo completo se encuentra en la parte 2c.
Modelo reducido:
Variable
Tiempo
N
38
R²
0.69
R² Aj ECMP
AIC
0.67 93.61 278.25
BIC
284.81
Coeficientes de regresión y estadísticos asociados
Coef
Est.
E.E. LI(95%)
LS(95%)
T
p-valor
const -35.30
5.29
-46.04
-24.56
-6.67 <0.0001
Temp
1.23
0.25
0.73
1.73
4.98 <0.0001
Luz
2.17
0.66
0.83
3.51
3.29 0.0023
CpMallows
26.14
12.52
VIF
1.44
1.44
Cuadro de Análisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo.
6022.61
2
3011.30
38.62 <0.0001
Temp
1934.02
1
1934.02
24.80 <0.0001
Luz
841.43
1
841.43
10.79 0.0023
Error
2728.97
35
77.97
Total
8751.58
37
SCEmodelo reducido = 2728.97
SCEmodelo completo = 2312.89
Diferencia:
416.08
GL=35
GL=33
2
CMH = (416.08/2) = 208.04
CMEcompleto = 70.09
Fobservado = (208.04/70.09) = 2.968
R.R. F > F 0.05, 2, 33 (grados de libertad del numerador y denominador de la prueba F)
Nuestra tabla de F tiene los valores tabulares para 2,30 (F=3.32) y 2,40 (F=3.23). En ambos casos,
el Fobservado (2.968) es menor que los valores tabulares; por lo tanto, se acepta Ho.
Esto significa que el modelo reducido (que no incluye HUM y NUBES), es adecuado para explicar
la variación en TIEMPO. (no hay evidencia que el modelo completo explica una mayor cantidad de la
variación en Tiempo comparado con el modelo reducido).
AGRO 6600 – LAB 12 - CLAVE
Page 13
f. Usando regresión múltiple, decida qué variables son importantes para predecir el tiempo usando los
procedimientos Backward, Forward y Stepwise en Infostat. Indique sus conclusiones.
Backward:
Análisis de regresión lineal
Variable
N
R²
R² Aj ECMP
Tiempo
38
0.72
0.70 84.88
Eliminación backward. Máximo p-valor para retener: 0.15
Variables totales: 5, variables en el modelo 4
Coeficientes de regresión y estadísticos asociados
Coef
Est.
EE
LI(95%)
LS(95%)
T
p-valor CpMallows
const -42.59
6.39
-55.58
-29.61
-6.67 <0.0001
Temp
0.98
0.27
0.44
1.52
3.68 0.0008
16.17
Luz
2.67
0.68
1.30
4.05
3.95 0.0004
18.21
Nubes
0.08
0.04 1.3E-03
0.17
2.06 0.0466
7.17
Error cuadrático medio: 67.472547
Forward:
Análisis de regresión lineal
Variable
N
R²
R² Aj ECMP
Tiempo
38
0.72
0.70 84.88
Selección Forward. Máximo p-valor para entrar: 0.15
Variables totales: 5, variables en el modelo 4
Coeficientes de regresión y estadísticos asociados
Coef
Est.
EE
LI(95%)
LS(95%)
T
p-valor CpMallows
const -42.59
6.39
-55.58
-29.61
-6.67 <0.0001
Temp
0.98
0.27
0.44
1.52
3.68 0.0008
16.17
Luz
2.67
0.68
1.30
4.05
3.95 0.0004
18.21
Nubes
0.08
0.04 1.3E-03
0.17
2.06 0.0466
7.17
Error cuadrático medio: 67.472547
Stepwise:
Análisis de regresión lineal
Variable
N
R²
R² Aj ECMP
Tiempo
38
0.72
0.70 84.88
Selección Stepwise.
Máximo p-valor para entrar: 0.15
Máximo p-valor para retener: 0.15
Variables totales: 5, variables en el modelo 4
Coeficientes de regresión y estadísticos asociados
Coef
Est.
EE
LI(95%)
LS(95%)
T
p-valor CpMallows
const -42.59
6.39
-55.58
-29.61
-6.67 <0.0001
Temp
0.98
0.27
0.44
1.52
3.68 0.0008
16.17
Luz
2.67
0.68
1.30
4.05
3.95 0.0004
18.21
Nubes
0.08
0.04 1.3E-03
0.17
2.06 0.0466
7.17
Error cuadrático medio: 67.472547
Las variables importantes son Luz, Nubes y Temperatura.
g. Para el modelo seleccionado en la parte 6, construya los siguientes gráficos: residuos vs. predichos, QQ
plot de residuos, residuos vs. caso (=fecha). Realice una prueba de Shapiro-Wilks de los residuos. Use
esta información para comentar sobre la validez de los supuestos del modelo.
Revisado_Abril_2015_LW B
Residuos vs. Predichos:
Gráfica de los residuales vs. predichos
Res. estudentizados_Tiempo
2.25
0.87
-0.51
-1.90
-3.28
-31.76
-19.38
-7.01
5.37
17.74
predichos
QQ plot:
Q-Q Plot de los Residuos
Cuantiles observados(RDUO_Tiempo)
16.34 n= 38 r= 0.982 (RDUO_Tiempo)
6.51
-3.31
-13.13
-22.95
-22.95
-13.13
-3.31
6.51
16.34
Cuantiles de una Normal(-5.4693E-015,58.501)
Residuos vs. casos:
Residuo vs Caso (Fecha)
17.26
RDUO_Tiempo
6.73
-3.80
-14.34
-24.87
-1
9
20
30
40
Caso (fecha)
AGRO 6600 – LAB 12 - CLAVE
Page 15
Shapiro-Wilks:
Shapiro-Wilks (modificado)
Variable
n
Media D.E.
RDUO_Tiempo 38
0.00 7.65
W*
0.97
p (una cola)
0.8352
A través de estas pruebas comprobamos que se cumplen los supuestos de normalidad, independencia y
homogeneidad de varianzas.
h. Usando regresión múltiple, decida qué variables son importantes para predecir el tiempo usando el
criterio de R2 ajustado en Infostat.
Análisis de regresión lineal
Variable
N
Tiempo
38
Regresoras evaluadas
Regresoras
Temp
Hum
Luz
Nubes
Mejores 10 modelos, seleccionados del conjunto de todos los modelos posibles
Num.Reg.
4
3
3
2
2
3
2
3
1
2
R² Aj
0.7037
0.6955
0.6914
0.6704
0.6448
0.6346
0.5893
0.5854
0.5807
0.5699
1
Temp
Temp
Temp
Temp
Temp
Temp
Luz
Hum
Temp
Temp
2
Hum
Luz
Hum
Luz
Hum
Hum
Nubes
Luz
3
4
Luz
Nubes
Nubes
Luz
Nubes
Nubes
Nubes
El modelo que incluye las 4 variables es el que da el R2 ajustado más alto. El modelo incluyendo solo Luz,
Nubes y Temperatura tiene un valor ligeramente inferior, pero posiblemente sea equivalente al anterior
(difiere en menos de 0.01).
Descargar