UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Facultad de Economía y Planificación Departamento de Estadística e Informática MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN I Semana XIV y XV: Análisis de Regresión Lineal Múltiple Profesores del curso 2020-II OBJETIVOS Formular modelos de regresión lineal simple y múltiple. Usando variables dentro del contexto de su especialidad. Identificar los supuestos del modelo de regresión lineal simple y múltiple Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal múltiple Realizar estimaciones adecuadas de la variable de interés del campo de su especialidad en base a resultados obtenidos del análisis de regresión Métodos Estadísticos para la Investigación I 2020-II Análisis de Regresión Lineal Múltiple Generalidades INTRODUCCIÓN En el análisis multivariado de datos, se analizan dos o más variables en conjunto. Existen diversas técnicas que permiten analizar datos multivariados con distintos fines como asociativos, explicativos, predictivos, etc. Cuando el objetivo es explicar la dependencia de una variable cuantitativa Y a partir de otras variables independientes (X1, X2, …,Xk), entonces la técnica a utilizar es el análisis de regresión lineal múltiple. Métodos Estadísticos para la Investigación I 2020-II LA REGRESIÓN LINEAL MÚLTIPLE Tiene como objetivo predecir o estimar una variable dependiente (Y) mediante más de una variable independiente a través de un modelo matemático. El incluir un mayor número de variables independientes en el modelo supondría mayor precisión para la predicción de la variable dependiente. El modelo poblacional de la regresión lineal múltiple es el siguiente: Yi 0 1 X 1,i 2 X 2,i 3 X 3,i ...... k X k ,i i Siendo la ecuación de regresión poblacional: Y / X , X 1 2 ,... X k Métodos Estadísticos para la Investigación I 0 1 X 1,i 2 X 2,i 3 X 3,i ...... k X k ,i 2020-II LA REGRESIÓN LINEAL MÚLTIPLE Modelo de regresión estimado Yi b0 b1 X 1,i b2 X 2,i b3 X 3,i ...... bk X k ,i ei i 1, 2,..., n ESTIMACIÓN Ecuación de regresión estimada Con una muestra de n observaciones multivariadas Yˆi b0 b1 X1,i b2 X 2,i b3 X 3,i ...... bk X k ,i i 1, 2,..., n La estimación puntual se realiza utilizando la ecuación de regresión estimada Métodos Estadísticos para la Investigación I 2020-II Sistema de Ecuaciones Normales en su forma matricial: donde: Luego, de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para hallar el vector 𝑏. Métodos Estadísticos para la Investigación I 2020-II LA REGRESIÓN LINEAL MÚLTIPLE 1) Las variables independientes de X son fijas (no aleatoria) 2) La variable dependiente Y es aleatoria 3) Para cada combinación de los valores de X existe una distribución normal multivariante para la variable Y: Yi ~ N Y | X i , 2 SUPUESTOS 4) El error tiene distribución normal con media 0 y varianza constante 2 el cual se puede expresar de la siguiente forma: i ~ N 0, 2 Esta expresión indica que no existe dependencia o correlación entre las observaciones y tampoco existe relación de los valores de ɛi con los valores de (Homocedasticidad) 5) No debe existir correlación o combinación lineal entre las variables indepedientes de X (no debe haber efecto de Multicolinealidad). Métodos Estadísticos para la Investigación I 2020-II COEFICIENTE DE DETERMINACIÓN MÚLTIPLE Mide el porcentaje de la variabilidad de la respuesta que es explicado por las variables predictoras. Su valor va de 0 a 1 y se calcula mediante la siguiente expresión: r 2 Métodos Estadísticos para la Investigación I SC Regresión SC Total 2020-II APLICACIÓN II (Ejemplo 1) Se desea estudiar el efecto de la temperatura ambiente promedio diario en °F (X1), y la cantidad de aislante utilizado en un desván medido en pulgadas de grosor (X2) sobre el consumo mensual de petróleo, en galones, para calefacción de casas (Y). Para el efecto se ha tomado una muestra aleatoria de 15 casas cuyos datos medidos se reportan en las cuatro primeras columnas de la tabla. Los datos se muestran a continuación: Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) Muestra Métodos Estadísticos para la Investigación I 1 Y 275.3 2 363.8 X1 40 27 X2 3 3 3 264.3 40 10 4 40.8 73 6 5 94.3 64 6 6 230.9 34 6 7 366.7 9 6 8 300.6 8 10 9 237.8 23 10 10 121.4 63 3 11 31.4 65 10 12 203.5 41 6 13 441.1 21 3 14 323 38 3 15 52.47 58 10 2020-II APLICACIÓN II (Ejemplo 1) a) Analice la matriz de correlaciones Correlación: Y, X1, x2 Y X1 X1 -0.872 x2 -0.398 0.009 Según la matriz de correlaciones, observamos que existe una alta correlación negativa entre Y e 𝑋1 (-0.872) y una correlación moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y 𝑋2 y es como debe de ser, no debe existir asociación entre las variables independientes. Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) b) Presente la ecuación de regresión lineal múltiple estimada Coef. Predictor Coef de EE T P Constante 550.33 33.36 16.50 0.000 X1 -5.4449 0.5317 -10.24 0.000 x2 -17.040 3.705 -4.60 0.001 Y = 550.325 – 5.445X1 – 17.04 X2 c) Interprete b1 y b2 b1 =-5,445, Cuando la temperatura ambiente promedio estimada diaria se incremente en 1 °F, el consumo mensual promedio de petróleo para calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de aislamiento en el desván (b2). Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) b2 =-17.04, Cuando la cantidad de aislamiento en el desván se incremente en 1 pulgada de grosor, el consumo mensual promedio estimado de petróleo para calefacción disminuirá en 17.04 galones, manteniendo constante la temperatura ambiente promedio diario (b1). Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) Calcule el consumo promedio mensual estimado de petróleo para calefacción cuando la temperatura ambiente es de 50 °F y se usa un aislamiento en el desván de 10 pulgadas de grosor. Si 𝑋1 = 50 y 𝑋2 = 10, entonces: Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones d) e) Calcule e interprete el coeficiente de determinación Del reporte de Minitab, 𝑅2 = 0.91358. Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de petróleo, es explicado por las variables 𝑋1 y 𝑋2 , por el modelo y solo el 8.64% se debe al error propio del muestreo y a otras variables que no han sido consideradas en el modelo. Métodos Estadísticos para la Investigación I 2020-II EL ANÁLISIS DE VARIANZA Fuentes de variación Regresión Gl SC k=p-1 SC(Reg) Error n-k-1 SC(Error) Total n-1 SC(Total) CM Fc El cálculo de las sumas de cuadrados se realiza mediante operaciones matriciales. Para el desarrollo del curso se usarán reportes Minitab 19 que facilitan su cálculo. Métodos Estadísticos para la Investigación I 2020-II PRUEBAS DE HIPÓTESIS Prueba Global P1) H 0 : 1 2 ... k 0 H1 : Al menos un j es distinto de cero P2) α=0.05 P3) El estadístico de prueba Fcalc CM Reg CME F k ,n k 1 P4) Si Fcalc F1 ,k ,nk 1 se rechaza H0 P5) Conclusión Métodos Estadísticos para la Investigación I 2020-II PRUEBAS DE HIPÓTESIS Prueba de Efectos Adicionales P1) H 0 : 1 0 H 0 : 2 0 H1 : 1 0 H1 : 2 0 P2) α=0.05 tc j P3) El estadístico de prueba bj sb j …. H 0 : k 0 H1 : k 0 ~ t n k 1 Donde bj es el coeficiente de regresión estimado j y Sbj es su error estándar. Estos valores se obtienen de un reporte de Minitab P4) Criterio de decisión: Si tcj < t(α/2,n-k-1) ó tcj > t(α/2,n-k-1) se rechaza H0 P5) Conclusión Métodos Estadísticos para la Investigación I 2020-II SELECCIÓN DE VARIABLES Paso 1: Realizar el análisis de varianza Si resulta no significativo, entonces ninguna variable aporta al modelo. Paso 2: Realizar el análisis de efectos adicionales De ser significativo el ANVA, evaluar la influencia de cada variable en el modelo Paso 3: Construir nuevo modelo eliminando la variable no significativa. Nota: Si hay más de una variable no significativa en el paso anterior, eliminar la que tiene menor tc en valor absoluto o la que tiene mayor p-valor Paso 4: Volver al paso 1 hasta que todas las variables sean significativas Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) f) Realice el Análisis de Variancia. (Use α=0.05) Análisis de varianza Fuente GL SC Regresión 2 214729 Error residual 12 20311 Total 14 235040 MC 107364 1693 F 63.43 P 0.000 P1) 𝐻0 : 𝛽1 = 𝛽2 = 0 𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero P2) α=0.05 P3) El estadístico de prueba 𝐹𝑐𝑎𝑙𝑐 = 𝐶𝑀𝑅𝑒𝑔 ∼𝐹 𝐶𝑀𝐸 Métodos Estadísticos para la Investigación I 𝑝−1,𝑛−𝑝 𝐹𝑐𝑎𝑙𝑐 107364.458 = = 63.43; 1692.6013 𝐹 2,12𝑔𝑙,0.05 2020-II = 3.88 APLICACIÓN II (Ejemplo 1) P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0 P5) Conclusión Como 𝐹𝑐 > 𝐹𝑡 entonces, se rechaza la Ho y se acepta la H1. Con un nivel de significación del 5%, se puede afirmar que al menos una de las variables temperatura o aislamiento se relacionan con el consumo de petróleo. Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) g) Evalúe el efecto lineal adicional de las variables Xi Predictor Constante X1 x2 Coef 550.33 -5.4449 -17.040 P1) 𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0 Coef. de EE 33.36 0.5317 3.705 T 16.50 -10.24 -4.60 P 0.000 0.000 0.001 𝐻0 : 𝛽2 = 0 𝐻1 : 𝛽2 ≠ 0 P2) α=0.05 P3) El estadístico de prueba 𝑏𝑗 𝑡𝑐𝑗 = ∼𝑡 𝑆𝑏𝑗 12 Métodos Estadísticos para la Investigación I −5.4449 𝑡= = −10.24 0.5317316 −17.04 𝑡= = −4.5995 3.704712 2020-II APLICACIÓN II (Ejemplo 1) P4) Criterio de decisión 𝑡 12,0.975 = 2.179 Si −2.179 ≤ 𝑡𝑐𝑗 ≤ 2.179 no se rechaza H0 Si 𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179 se rechaza H0 P5) Conclusión (Se hace por cada hipótesis) Para 𝑋1 : Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable temperatura (𝑋1 ) si influye en el modelo de regresión. Para 𝑋2 : Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable cantidad de aislamiento (𝑋2 ) si influye en el modelo de regresión. Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II (Ejemplo 1) i) Seleccione el mejor conjunto de variables. P1) ANVA P1) P2) 𝐻0 : 𝛽1 = 𝛽2 = 0 𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero 𝛼 = 0.05 P3) 𝐹𝑐𝑎𝑙𝑐 𝐶𝑀𝑅𝑒𝑔 = ∼𝐹 𝐶𝑀𝐸 𝐹𝑐𝑎𝑙𝑐 = 2,12 107364.458 = 63.43; 1692.6013 𝐹 2,12𝑔𝑙,0.95 = 3.88 P4) Como 𝐹𝑐 > 𝐹𝑡 , entonces, se rechaza la 𝐻0 y se acepta la 𝐻1 . Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II P2) Análisis de efectos adicionales P1) 𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0 𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0 P2) 𝛼 = 0.05 P3) 𝑏1 𝑡= ∼ 𝑡𝐺𝐿(𝐸𝐸) 𝑆𝑏1 −17.04 𝑡= = −4.5995 3.704712 𝑡= 𝑡 −5.4449 = −10.24 0.5317316 12,0.975 = 2.179 P4) En ambos casos se rechaza 𝐻𝑜 . Por lo tanto las dos variables forman parte del modelo y proceso de selección termina, por lo tanto, el modelo estimado es: Y = 550.325 – 5.445X1 – 17.04 X2 Métodos Estadísticos para la Investigación I 2020-II ESTIMACIÓN Y PREDICCIÓN POR INTERVALO INTERVALO DE CONFIANZA Para un valor medio: S y X 0 yˆ 0 t S yˆ 0 t yˆ0 yˆ0 1 ; n k 1 1 ; n k 1 2 2 Donde: S ŷ0 S 2 X'0 (X´X)-1 X0 INTERVALO DE PREDICCIÓN Para un valor individual: S y0 yˆ0 t S yˆ 0 t yˆ0 y0 yˆ0 y0 1 ; n k 1 1 ; n k 1 2 2 Métodos Estadísticos para la Investigación I Donde: S yˆ0 y0 S 2 (1 + X'0 (X´X)-1 X0 ) 2020-II Reporte Minitab de ayuda Valores pronosticados para nuevas observaciones Nueva Ajuste Obs Ajuste SE IC de 95% PI de 95% 1 203.8 12.4 (176.7, 230.9) (110.1, 297.4) Valores de predictores para nuevas observaciones Nueva Obs X1 x2 1 48.0 5.00 Métodos Estadísticos para la Investigación I 2020-II APLICACIÓN II Estime al 95% de confianza el consumo mensual medio de petróleo cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5. La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8 Intervalo IC :(176.7, 230.9) j) Estime al 95% de confianza el consumo mensual individual de petróleo cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5. La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8. Intervalo: IP: (110.1, 297.4) k) Métodos Estadísticos para la Investigación I 2020-II EJERCICIO PROPUESTO El gerente de una empresa inmobiliaria realiza un estudio de precios en una muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un solo centro comercial. Se consideran en el análisis las siguientes variables: Y: Precio de la vivienda (en miles de dólares) X1: Área construida de la vivienda (en metros cuadrados) X2: Distancia al centro comercial (en metros) y X3:Antigüedad de la vivienda (en años) Análisis de regresión: Precio vs. Area, Distancia, Antigüedad Predictor Constante Área Distancia Antigüedad Métodos Estadísticos para la Investigación I Coef 75.73 0.2849 0.0092 -3.377 SECoef 16.77 0.0332 0.0134 1.4942 T 4.52 8.58 0.69 -2.26 2020-II EJERCICIO PROPUESTO a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente estimado para la variable antigüedad b) Determine si el modelo es significativo. Use α = 0.05 Fuente Regresión Error Total GL SC CM 17526 Fc 3912 a) Calcule e interprete el coeficiente de determinación. b) Determine el mejor modelo. Use α = 0.05 c) Estime el precio de la vivienda, con una área construida de 90 metros cuadrados, que tiene una distancia al centro comercial de 50 metros y con una antigüedad de 5 años. Métodos Estadísticos para la Investigación I 2020-II