ANÁLISIS DE REGRESIÓN LINEAL SIMPLE Titulo del material Temario Logro Al término de la sesión, el estudiante pronostica valores a partir de modelos de regresión que brindan la adecuada validez estadística Temario Análisis de Regresión 1. Diagrama de dispersión. 2. Modelo de Regresión Lineal Simple. 3. Estimación de parámetros por mínimos cuadrados. 4. Supuestos del modelo. 5. Validación de modelo. 6. Inferencia sobre el coeficiente de regresión. 7. Coeficiente de determinación. 8. Intervalos de predicción para un valor medio e individual. ¿Cuánto cuesta la construcción de una carretera? ¿Qué variables influyen en el costo en la construcción de una carretera? Mano de obra Espesor de la capa asfáltica Índice de compactación Duración de la obra . . . etc. Variables relacionadas Espesor de la capa asfáltica Costo de ejecución de una carretera Estimar el costo de ejecución de una carretera a partir del espeso de la capa asfáltica Desempeño de un empleado Horas de capacitación Estimar el desempeño de un empleado a partir de las horas que se capacitó Resistencia del cemento Relación agua cemento Estimar la resistencia del cemento a partir de la relación agua cemento N° de cajeros ¿Cuál será la función que relaciona a estas variables? El sentido de la flecha Var.X Tiempo de atención en la ventanilla de un banco ¿La teoría estadística podría ayudarnos a encontrar esta relación funcional? Estimar el tiempo de atención a partir del N° de cajeros Finalidad Var. Y indica que la “variable X influye en la variable Y”. Tema 1 Análisis de Regresión 1. Identificación y exposición del problema 4. Modelo funcional 2. Marco teórico /proceso 3. Selección de las variables Representación Interpretación Pasos para el análisis de regresión 6. Análisis estadístico de los datos 7. Conclusiones y recomendaciones Argumentación Cálculos 5. Recolección de datos Pasos para el análisis estadístico (dimensión de cálculo) 1. Estimación del modelo 2. Adecuación del modelo a nivel de muestra 4. Adecuación del modelo a la población 3. Verificación de los supuestos del modelo 5. Empleo del modelo en pronósticos Temario Diagrama de dispersión Según Montgomery (2002), el sustento de la relación funcional entre las variables requiere de un marco conceptual o en la inspección de un diagrama llamado “diagrama de dispersión”. Gráfica que nos ayudan a identificar la relación entre dos variables dependiente (y) e independiente (x) Entendiendo la teoría Modelo de Regresión Lineal Simple Entendiendo la teoría El análisis de regresión lineal simple es una técnica estadística que nos permite modelar la dependencia de una variable dependiente (Y) en función de otra variable independiente (X) a través de la ecuación de una recta. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑒𝑖 donde: • 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 ∶ 𝛽0 intercepto 𝑦 𝛽1 coeficiente de regresión o pendiente • X es una variable fíja, pero no aleatoria, medida sin error. • 𝑒𝑖 que representa el error aleatorio. Aquí en análisis de regresión lineal simple tan igual que en diseños experimentales, los errores deben cumplir ciertos supuestos, entre ellos: i. Tener distribución normal. ii. No presentar autocorrelación. iii. Deben presentar varianza constante. iv. El promedio de los errores es cero. Entendiendo la teoría 1. Estimación del modelo El método empleado para estimar la relación funcional entre las variables es el Método de los Mínimos Cuadrados, que consiste en minimizar la suma de los errores al cuadrado. 𝑒𝑖2 = 𝐿= 𝑦𝑖 − 𝛽0 + 𝛽1 𝑥 2 Al minimizar L con respecto a 𝛽0 y 𝛽1 , se obtiene las fórmulas: 𝛽1 = 𝑛 𝑛 𝑖=1 𝑥𝑖 𝑛 2 𝑖=1 𝑥𝑖 𝑛 𝛽0 = 𝑦 − 𝛽1 𝑥 𝑥= 𝑥𝑖 𝑛 𝑛 𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦= 𝑦𝑖 𝑛 − 𝑛 𝑖=1 𝑥𝑖 𝑛 𝑖=1 𝑦𝑖 2 2. Adecuación del modelo a nivel de muestra Una de las medidas para evaluar la adecuación del modelo a la muestra es el coeficiente de determinación r2. Representa el porcentaje de la variabilidad de Y que es explicada por la ecuación de regresión ajustada. Se puede indicar que el modelo se adecua a los datos de la muestra si r2 se acerca a 1 (Veliz, C. 2017) SCR r2 = SCT donde: 𝑛 𝑛 𝑆𝐶𝑇 = 𝑦𝑖 − 𝑦 𝑖=1 2 𝑆𝐶𝑅 = 𝑛 𝑦𝑖 − 𝑦 𝑖=1 Nota: el coeficiente de no determinación: 2 𝑆𝐶𝐸 = 𝑦𝑖 − 𝑦𝑖 𝑖=1 2 3. Supuestos del modelo i. Normalidad de errores (prueba de Anderson Darling - AD) Ho: Los errores se distribuyen normalmente H1: Los errores No se distribuyen normalmente Estadístico de prueba: Anderson Darling Para tomar la decisión de rechazar o no la hipótesis nula compara valor p con α ii. No autocorrelación de errores o independencia de errores (Durbin Watson) Regla práctica: Según Angeles, C. (2002), si el estadístico Durbin Watson (d) está en el intervalo [1.5 , 2.5], puede asumirse que el supuesto de no autocorrelación o independencia de errores se cumple. Entendiendo la teoría iii. Varianza constante de los errores. ( Homocedasticidad) Homocedasticidad: Se cumple el supuesto que los errores tienen varianza constante. Heterocedasticidad: No se cumple el supuesto que los errores tienen varianza constante. 3. Supuestos del modelo iii. Varianza constante de los errores. (1) Del gráfico residuo vs. ajustes, se observa que los puntos no siguen ningún patrón, por lo tanto, se puede concluir que la varianza de los errores es constante. (2) Regla práctica: Según Freid y Rudloff (1989) citados en Angeles, C. (2002), precisa que si el estadístico Durbin Watson (d) está en el intervalo [1.5 , 2.5], puede asumirse que el supuesto de homocedasticidad se cumple. 3. Supuestos del modelo IV. Promedio de errores es cero (Gráfico Histograma) Del gráfico Histograma, se observa que los errores se distribuyen alrededor del cero, por lo tanto, se puede concluir que el promedio de errores es cero. Temario 4. Adecuación del modelo a la población Consiste en evaluar la significancia del modelo a partir de la prueba F. Prueba F (ANOVA) Ho: El modelo de regresión lineal simple NO es válido (no significativo) H1: El modelo de regresión lineal simple SÍ es válido (sí es significativo) Otra forma de evaluar la significancia: Prueba t (Coeficiente de regresión) Ho: β1 = 0 (El modelo de regresión lineal simple No es significativo) H1: β 1 ≠ 0 (El modelo de regresión lineal simple Sí es significativo) F(0.05, 1,28)=4.196 Entendiendo la teoría Temario Inferencia sobre el coeficiente de regresión 𝜷𝟏 Según sea el caso, es posible validar hipótesis específicas para el coeficiente de regresión. ① 𝐻𝑜: 𝛽1 ≥ 𝑘 𝐻1: 𝛽1 < 𝑘 ② Estadístico de prueba a utilizar: donde: 𝑆𝑥𝑥 = 𝑆𝐶𝑅 𝛽1 2 𝐻𝑜: 𝛽1 = 𝑘 𝐻1: 𝛽1 ≠ 𝑘 𝑡𝑐𝑎𝑙 = ③ 𝐻𝑜: 𝛽1 ≤ 𝑘 𝐻1: 𝛽1 > 𝑘 𝛽1 − 𝑘 ~𝑡(𝑛 − 2) 𝑆 𝑆𝑥𝑥 s = CME Estas pruebas de hipótesis no son analizadas automáticamente con Minitab, por lo que su desarrollo es manual. Entendiendo la teoría Temario Intervalos de predicción para un valor medio e individual Para hallar un intervalo de confianza de (1 - α)100% de los valores pronosticados para la respuesta media y para un valor individual, dado un valor de X, se utiliza las expresiones siguientes: a) Cuando se quiere estimar el valor promedio o medio de la variable dependiente. 𝑦0 − 𝑡(𝑛−2,𝛼/2) 𝑆 2 1 𝑥0 − 𝑥 + 𝑛 𝑆𝑥𝑥 ≤ 𝜇𝑦 𝑥 ≤ 𝑦0 + 𝑡(𝑛−2,𝛼/2) 𝑆 1 𝑥0 − 𝑥 + 𝑛 𝑆𝑥𝑥 2 b) Cuando se quiere estimar un valor individual de la variable dependiente. 𝑦0 − 𝑡(𝑛−2,𝛼/2) 𝑆 1 + 1 𝑥0 − 𝑥 + 𝑛 𝑆𝑥𝑥 2 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝑦0 + 𝑡(𝑛−2,𝛼/2) 𝑆 1 + 1 𝑥0 − 𝑥 + 𝑛 𝑆𝑥𝑥 2 Montgomery, D, y Runger, G, (2005) Probabilidad y estadística aplicadas a la ingeniería, México, D,F, : Limusa Wiley, Capítulo 9, Anderson, D,, Sweeney, D,, Williams T,, Camm, J, y Cochran, J, (2016) Estadística para negocios y economía, México, D,F,: Cengage Learning, Capítulo 10, Triola, M, (2013) Estadística, México, D,F,: Pearson Educación, Capítulo 11, Continúa con las actividades propuestas en la sesión. Material producido para la Universidad Peruana de Ciencias Aplicadas Autor: (profesores del curso) COPYRIGHT ©UPC 2019– Todos los derechos reservados