Subido por Briggitte Madeleine Aquino Zambrano

Semana 14. Análisis de Regresión Múltiple

Anuncio
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Facultad de Economía y Planificación
Departamento de Estadística e Informática
MÉTODOS ESTADÍSTICOS PARA
LA INVESTIGACIÓN I
Semana XIV y XV: Análisis de
Regresión Lineal Múltiple
Profesores del curso
2020-II
OBJETIVOS
Formular modelos de regresión lineal simple y múltiple. Usando variables
dentro del contexto de su especialidad.
Identificar los supuestos del modelo de regresión lineal simple y múltiple
Aplicar criterios para seleccionar y validar el mejor modelo de regresión
lineal múltiple
Realizar estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a resultados obtenidos del análisis de regresión
Métodos Estadísticos para la Investigación I
2020-II
Análisis de Regresión Lineal
Múltiple
Generalidades
INTRODUCCIÓN

En el análisis multivariado de datos, se analizan dos o más
variables en conjunto.

Existen diversas técnicas que permiten analizar datos
multivariados con distintos fines como asociativos, explicativos,
predictivos, etc.

Cuando el objetivo es explicar la dependencia de una variable
cuantitativa Y a partir de otras variables independientes (X1,
X2, …,Xk), entonces la técnica a utilizar es el análisis de
regresión lineal múltiple.
Métodos Estadísticos para la Investigación I
2020-II
LA REGRESIÓN LINEAL MÚLTIPLE

Tiene como objetivo predecir o estimar una variable
dependiente (Y) mediante más de una variable independiente a
través de un modelo matemático.

El incluir un mayor número de variables independientes en el
modelo supondría mayor precisión para la predicción de la
variable dependiente.

El modelo poblacional de la regresión lineal múltiple es el
siguiente:
Yi   0  1 X 1,i   2 X 2,i  3 X 3,i  ......   k X k ,i   i

Siendo la ecuación de regresión poblacional:
Y / X , X
1
2 ,... X k
Métodos Estadísticos para la Investigación I
  0  1 X 1,i   2 X 2,i  3 X 3,i  ......   k X k ,i
2020-II
LA REGRESIÓN LINEAL MÚLTIPLE
Modelo de regresión estimado
Yi  b0  b1 X 1,i  b2 X 2,i  b3 X 3,i  ......  bk X k ,i  ei
i  1, 2,..., n
ESTIMACIÓN
Ecuación de regresión estimada
Con una muestra
de n
observaciones
multivariadas
Yˆi  b0  b1 X1,i  b2 X 2,i  b3 X 3,i  ......  bk X k ,i
i  1, 2,..., n
La estimación puntual se realiza utilizando la ecuación de regresión estimada
Métodos Estadísticos para la Investigación I
2020-II
Sistema de Ecuaciones Normales en
su forma matricial:
donde:
Luego, de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para
hallar el vector 𝑏.
Métodos Estadísticos para la Investigación I
2020-II
LA REGRESIÓN LINEAL MÚLTIPLE
1) Las variables independientes de X son fijas (no aleatoria)
2) La variable dependiente Y es aleatoria
3) Para cada combinación de los valores de X existe una
distribución normal multivariante para la variable Y:

Yi ~ N Y | X i ,  2
SUPUESTOS

4) El error tiene distribución normal con media 0 y varianza
constante  2 el cual se puede expresar de la siguiente
forma:
 i ~ N 0,  2


Esta expresión indica que no existe dependencia o
correlación entre las observaciones y tampoco existe
relación de los valores de ɛi con los valores de
(Homocedasticidad)
5) No debe existir correlación o combinación lineal entre las
variables indepedientes de X (no debe haber efecto de
Multicolinealidad).
Métodos Estadísticos para la Investigación I
2020-II
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE

Mide el porcentaje de la variabilidad de la respuesta que es
explicado por las variables predictoras. Su valor va de 0 a 1 y
se calcula mediante la siguiente expresión:
r 
2
Métodos Estadísticos para la Investigación I
SC  Regresión 
SC Total 
2020-II
APLICACIÓN II (Ejemplo 1)

Se desea estudiar el efecto de la temperatura ambiente
promedio diario en °F (X1), y la cantidad de aislante utilizado
en un desván medido en pulgadas de grosor (X2) sobre el
consumo mensual de petróleo, en galones, para calefacción de
casas (Y). Para el efecto se ha tomado una muestra aleatoria
de 15 casas cuyos datos medidos se reportan en las cuatro
primeras columnas de la tabla.
Los datos se muestran a continuación:
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
Muestra
Métodos Estadísticos para la Investigación I
1
Y
275.3
2
363.8
X1
40
27
X2
3
3
3
264.3
40
10
4
40.8
73
6
5
94.3
64
6
6
230.9
34
6
7
366.7
9
6
8
300.6
8
10
9
237.8
23
10
10
121.4
63
3
11
31.4
65
10
12
203.5
41
6
13
441.1
21
3
14
323
38
3
15
52.47
58
10
2020-II
APLICACIÓN II (Ejemplo 1)
a)
Analice la matriz de correlaciones
Correlación: Y, X1, x2
Y
X1
X1 -0.872
x2 -0.398
0.009
Según la matriz de correlaciones, observamos que existe una alta
correlación negativa entre Y e 𝑋1 (-0.872) y una correlación
moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y
𝑋2 y es como debe de ser, no debe existir asociación entre las
variables independientes.
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
b)
Presente la ecuación de regresión lineal múltiple estimada
Coef.
Predictor
Coef
de EE
T
P
Constante
550.33
33.36
16.50
0.000
X1
-5.4449
0.5317
-10.24
0.000
x2
-17.040
3.705
-4.60
0.001
Y = 550.325 – 5.445X1 – 17.04 X2
c)
Interprete b1 y b2
b1 =-5,445, Cuando la temperatura ambiente promedio estimada diaria se
incremente en 1 °F, el consumo mensual promedio de petróleo para
calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de
aislamiento en el desván (b2).
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
b2 =-17.04, Cuando la cantidad de aislamiento en el desván se incremente en
1 pulgada de grosor, el consumo mensual promedio estimado de petróleo
para calefacción disminuirá en 17.04 galones, manteniendo constante la
temperatura ambiente promedio diario (b1).
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperatura ambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
Si 𝑋1 = 50 y 𝑋2 = 10, entonces:
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones
d)
e)
Calcule e interprete el coeficiente de determinación
Del reporte de Minitab, 𝑅2 = 0.91358.
Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de
petróleo, es explicado por las variables 𝑋1 y 𝑋2 , por el modelo y solo el
8.64% se debe al error propio del muestreo y a otras variables que no han
sido consideradas en el modelo.
Métodos Estadísticos para la Investigación I
2020-II
EL ANÁLISIS DE VARIANZA
Fuentes de
variación
Regresión
Gl
SC
k=p-1
SC(Reg)
Error
n-k-1
SC(Error)
Total
n-1
SC(Total)
CM
Fc
El cálculo de las sumas de cuadrados se realiza mediante
operaciones matriciales. Para el desarrollo del curso se usarán
reportes Minitab 19 que facilitan su cálculo.
Métodos Estadísticos para la Investigación I
2020-II
PRUEBAS DE HIPÓTESIS
Prueba Global
P1)
H 0 : 1   2  ...   k  0
H1 : Al menos un  j es distinto de cero
P2) α=0.05
P3) El estadístico de prueba
Fcalc 
CM  Reg 
CME
F k ,n  k 1
P4)
Si Fcalc  F1 ,k ,nk 1 se rechaza H0
P5) Conclusión
Métodos Estadísticos para la Investigación I
2020-II
PRUEBAS DE HIPÓTESIS
Prueba de Efectos Adicionales
P1)
H 0 : 1  0
H 0 : 2  0
H1 : 1  0
H1 :  2  0
P2) α=0.05
tc j 
P3) El estadístico de prueba
bj
sb j
….
H 0 : k  0
H1 :  k  0
~ t n  k 1
Donde bj es el coeficiente de regresión estimado j y Sbj es su error estándar. Estos
valores se obtienen de un reporte de Minitab
P4) Criterio de decisión:
Si
tcj < t(α/2,n-k-1)
ó
tcj > t(α/2,n-k-1) se rechaza H0
P5) Conclusión
Métodos Estadísticos para la Investigación I
2020-II
SELECCIÓN DE VARIABLES
Paso 1: Realizar el análisis de varianza
Si resulta no significativo, entonces ninguna variable aporta al modelo.
Paso 2: Realizar el análisis de efectos adicionales
De ser significativo el ANVA, evaluar la influencia de cada variable en el modelo
Paso 3: Construir nuevo modelo eliminando la variable no significativa.
Nota: Si hay más de una variable no significativa en el paso anterior, eliminar la que
tiene menor tc en valor absoluto o la que tiene mayor p-valor
Paso 4: Volver al paso 1 hasta que todas las variables sean significativas
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
f)
Realice el Análisis de Variancia. (Use α=0.05)
Análisis de varianza
Fuente
GL
SC
Regresión
2 214729
Error residual 12
20311
Total
14 235040
MC
107364
1693
F
63.43
P
0.000
P1) 𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero
P2) α=0.05
P3) El estadístico de prueba
𝐹𝑐𝑎𝑙𝑐 =
𝐶𝑀𝑅𝑒𝑔
∼𝐹
𝐶𝑀𝐸
Métodos Estadísticos para la Investigación I
𝑝−1,𝑛−𝑝
𝐹𝑐𝑎𝑙𝑐
107364.458
=
= 63.43;
1692.6013
𝐹
2,12𝑔𝑙,0.05
2020-II
= 3.88
APLICACIÓN II (Ejemplo 1)
P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0
P5) Conclusión
Como 𝐹𝑐 > 𝐹𝑡 entonces, se rechaza la Ho y se acepta la H1.
Con un nivel de significación del 5%, se puede afirmar que al menos una de las
variables temperatura o aislamiento se relacionan con el consumo de
petróleo.
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
g)
Evalúe el efecto lineal adicional de las variables Xi
Predictor
Constante
X1
x2
Coef
550.33
-5.4449
-17.040
P1) 𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Coef.
de EE
33.36
0.5317
3.705
T
16.50
-10.24
-4.60
P
0.000
0.000
0.001
𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽2 ≠ 0
P2) α=0.05
P3) El estadístico de prueba
𝑏𝑗
𝑡𝑐𝑗 =
∼𝑡
𝑆𝑏𝑗
12
Métodos Estadísticos para la Investigación I
−5.4449
𝑡=
= −10.24
0.5317316
−17.04
𝑡=
= −4.5995
3.704712
2020-II
APLICACIÓN II (Ejemplo 1)
P4) Criterio de decisión
𝑡
12,0.975
= 2.179
Si −2.179 ≤ 𝑡𝑐𝑗 ≤ 2.179 no se rechaza H0
Si 𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179 se rechaza H0
P5) Conclusión (Se hace por cada hipótesis)
Para 𝑋1 :
Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable
temperatura (𝑋1 ) si influye en el modelo de regresión.
Para 𝑋2 :
Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable
cantidad de aislamiento (𝑋2 ) si influye en el modelo de regresión.
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II (Ejemplo 1)
i)
Seleccione el mejor conjunto de variables.
P1) ANVA
P1)
P2)
𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero
𝛼 = 0.05
P3)
𝐹𝑐𝑎𝑙𝑐
𝐶𝑀𝑅𝑒𝑔
=
∼𝐹
𝐶𝑀𝐸
𝐹𝑐𝑎𝑙𝑐 =
2,12
107364.458
= 63.43;
1692.6013
𝐹
2,12𝑔𝑙,0.95
= 3.88
P4) Como 𝐹𝑐 > 𝐹𝑡 , entonces, se rechaza la 𝐻0 y se acepta la 𝐻1 .
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II
P2) Análisis de efectos adicionales
P1) 𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0
𝐻1 : 𝛽2 ≠ 0
P2)
𝛼 = 0.05
P3)
𝑏1
𝑡=
∼ 𝑡𝐺𝐿(𝐸𝐸)
𝑆𝑏1
−17.04
𝑡=
= −4.5995
3.704712
𝑡=
𝑡
−5.4449
= −10.24
0.5317316
12,0.975
= 2.179
P4) En ambos casos se rechaza 𝐻𝑜 . Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina, por lo tanto, el modelo estimado es:
Y = 550.325 – 5.445X1 – 17.04 X2
Métodos Estadísticos para la Investigación I
2020-II
ESTIMACIÓN Y PREDICCIÓN POR INTERVALO
INTERVALO DE CONFIANZA
Para un valor medio:


S   y X 0  yˆ 0  t 
S 
 yˆ 0  t 
 yˆ0
 yˆ0 

1

;
n

k

1
1

;
n

k

1




 2

 2



Donde:
S ŷ0  S 2 X'0 (X´X)-1 X0
INTERVALO DE PREDICCIÓN
Para un valor individual:


S
 y0  yˆ0  t 
S
 yˆ 0  t 

 yˆ0  y0
 yˆ0  y0 

1

;
n

k

1
1

;
n

k

1




 2

 2



Métodos Estadísticos para la Investigación I
Donde:
S yˆ0  y0  S 2 (1 + X'0 (X´X)-1 X0 )
2020-II
Reporte Minitab de ayuda
Valores pronosticados para nuevas observaciones
Nueva
Ajuste
Obs Ajuste
SE
IC de 95%
PI de 95%
1
203.8
12.4 (176.7, 230.9) (110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs
X1
x2
1 48.0 5.00
Métodos Estadísticos para la Investigación I
2020-II
APLICACIÓN II
Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8
Intervalo
IC :(176.7, 230.9)
j)
Estime al 95% de confianza el consumo mensual individual de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8.
Intervalo:
IP: (110.1, 297.4)
k)
Métodos Estadísticos para la Investigación I
2020-II
EJERCICIO PROPUESTO
El gerente de una empresa inmobiliaria realiza un estudio de precios en una
muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un
solo centro comercial. Se consideran en el análisis las siguientes variables:
Y: Precio de la vivienda (en miles de dólares)
X1: Área construida de la vivienda (en metros cuadrados)
X2: Distancia al centro comercial (en metros) y
X3:Antigüedad de la vivienda (en años)
Análisis de regresión: Precio vs. Area, Distancia, Antigüedad
Predictor
Constante
Área
Distancia
Antigüedad
Métodos Estadísticos para la Investigación I
Coef
75.73
0.2849
0.0092
-3.377
SECoef
16.77
0.0332
0.0134
1.4942
T
4.52
8.58
0.69
-2.26
2020-II
EJERCICIO PROPUESTO
a)
Estime la ecuación de regresión lineal múltiple e interprete el coeficiente
estimado para la variable antigüedad
b)
Determine si el modelo es significativo. Use α = 0.05
Fuente
Regresión
Error
Total
GL
SC
CM
17526
Fc
3912
a)
Calcule e interprete el coeficiente de determinación.
b)
Determine el mejor modelo. Use α = 0.05
c)
Estime el precio de la vivienda, con una área construida de 90 metros
cuadrados, que tiene una distancia al centro comercial de 50 metros y con
una antigüedad de 5 años.
Métodos Estadísticos para la Investigación I
2020-II
Descargar