Subido por juan2222manual2222

Regresion lineal-teoriaa

Anuncio
ANÁLISIS
DE REGRESIÓN
LINEAL SIMPLE
Titulo
del
material
Temario
Logro
Al término de la sesión, el estudiante pronostica valores a
partir de modelos de regresión que brindan la adecuada
validez estadística
Temario
Análisis de Regresión
1. Diagrama de dispersión.
2. Modelo de Regresión Lineal Simple.
3. Estimación de parámetros por mínimos cuadrados.
4. Supuestos del modelo.
5. Validación de modelo.
6. Inferencia sobre el coeficiente de regresión.
7. Coeficiente de determinación.
8. Intervalos de predicción para un valor medio e individual.
¿Cuánto cuesta la construcción de
una carretera?
¿Qué variables influyen en
el costo en la construcción
de una carretera?
 Mano de obra
 Espesor de la capa
asfáltica
 Índice de compactación
 Duración de la obra
.
.
.
 etc.
Variables relacionadas
Espesor de la capa
asfáltica
Costo de ejecución
de una carretera
Estimar el costo de
ejecución de una carretera
a partir del espeso de la
capa asfáltica
Desempeño de un
empleado
Horas de
capacitación
Estimar el desempeño de
un empleado a partir de
las horas que se capacitó
Resistencia del
cemento
Relación agua
cemento
Estimar la resistencia del
cemento a partir de la
relación agua cemento
N° de cajeros
¿Cuál será la
función que
relaciona a estas
variables?
El sentido de la flecha Var.X
Tiempo de atención
en la ventanilla de
un banco
¿La teoría estadística
podría ayudarnos a
encontrar esta relación
funcional?
Estimar el tiempo de
atención a partir del N° de
cajeros
Finalidad
Var. Y indica que la “variable X influye en la variable Y”.
Tema 1
Análisis de Regresión
1. Identificación y
exposición del problema
4. Modelo funcional
2. Marco teórico /proceso
3. Selección de las
variables
Representación
Interpretación
Pasos para el análisis de regresión
6. Análisis estadístico
de los datos
7. Conclusiones y
recomendaciones
Argumentación
Cálculos
5. Recolección de datos
Pasos para el análisis estadístico
(dimensión de cálculo)
1. Estimación del modelo
2. Adecuación del modelo
a nivel de muestra
4. Adecuación del modelo
a la población
3. Verificación de los
supuestos del modelo
5. Empleo del modelo en
pronósticos
Temario
Diagrama de dispersión
Según
Montgomery
(2002), el sustento de la
relación funcional entre
las variables requiere de
un marco conceptual o
en la inspección de un
diagrama
llamado
“diagrama
de
dispersión”.
Gráfica que nos ayudan
a identificar la relación
entre dos variables
dependiente
(y)
e
independiente (x)
Entendiendo
la teoría
Modelo de Regresión Lineal Simple
Entendiendo
la teoría
El análisis de regresión lineal simple es una técnica estadística que nos permite
modelar la dependencia de una variable dependiente (Y) en función de otra variable
independiente (X) a través de la ecuación de una recta.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑒𝑖
donde:
• 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 ∶ 𝛽0 intercepto 𝑦 𝛽1 coeficiente de regresión o pendiente
• X es una variable fíja, pero no aleatoria, medida sin error.
• 𝑒𝑖 que representa el error aleatorio.
Aquí en análisis de regresión lineal simple tan igual que en diseños experimentales,
los errores deben cumplir ciertos supuestos, entre ellos:
i. Tener distribución normal.
ii. No presentar autocorrelación.
iii. Deben presentar varianza constante.
iv. El promedio de los errores es cero.
Entendiendo
la teoría
1. Estimación del modelo
El método empleado para estimar la relación funcional entre las
variables es el Método de los Mínimos Cuadrados, que consiste
en minimizar la suma de los errores al cuadrado.
𝑒𝑖2 =
𝐿=
𝑦𝑖 − 𝛽0 + 𝛽1 𝑥
2
Al minimizar L con respecto a 𝛽0 y 𝛽1 ,
se obtiene las fórmulas:
𝛽1 =
𝑛
𝑛
𝑖=1 𝑥𝑖
𝑛
2
𝑖=1 𝑥𝑖
𝑛
𝛽0 = 𝑦 − 𝛽1 𝑥
𝑥=
𝑥𝑖
𝑛
𝑛
𝑖=1 𝑥𝑖
𝑦𝑖 −
𝑦=
𝑦𝑖
𝑛
−
𝑛
𝑖=1 𝑥𝑖
𝑛
𝑖=1 𝑦𝑖
2
2. Adecuación del modelo a nivel de muestra
Una de las medidas para evaluar la adecuación del modelo a la
muestra es el coeficiente de determinación r2. Representa el
porcentaje de la variabilidad de Y que es explicada por la
ecuación de regresión ajustada. Se puede indicar que el modelo
se adecua a los datos de la muestra si r2 se acerca a 1 (Veliz, C.
2017)
SCR
r2 =
SCT
donde:
𝑛
𝑛
𝑆𝐶𝑇 =
𝑦𝑖 − 𝑦
𝑖=1
2
𝑆𝐶𝑅 =
𝑛
𝑦𝑖 − 𝑦
𝑖=1
Nota: el coeficiente de no determinación:
2
𝑆𝐶𝐸 =
𝑦𝑖 − 𝑦𝑖
𝑖=1
2
3. Supuestos del modelo
i. Normalidad de errores (prueba de Anderson Darling - AD)
Ho: Los errores se distribuyen normalmente
H1: Los errores No se distribuyen normalmente
Estadístico de prueba: Anderson Darling
Para tomar la decisión de rechazar o no la hipótesis nula compara valor p con α
ii. No autocorrelación de errores o independencia de errores (Durbin
Watson)
Regla práctica:
Según Angeles, C. (2002), si el estadístico Durbin Watson (d) está en el
intervalo [1.5 , 2.5], puede asumirse que el supuesto de no
autocorrelación o independencia de errores se cumple.
Entendiendo
la teoría
iii. Varianza constante de los errores. ( Homocedasticidad)
Homocedasticidad:
Se
cumple el supuesto que los
errores tienen varianza
constante.
Heterocedasticidad: No se
cumple el supuesto que los
errores tienen varianza
constante.
3. Supuestos del modelo
iii. Varianza constante de los errores.
(1) Del gráfico residuo vs. ajustes, se
observa que los puntos no siguen
ningún patrón, por lo tanto, se puede
concluir que la varianza de los errores
es constante.
(2) Regla práctica: Según Freid y Rudloff (1989) citados en Angeles, C. (2002),
precisa que si el estadístico Durbin Watson (d) está en el intervalo [1.5 , 2.5],
puede asumirse que el supuesto de homocedasticidad se cumple.
3. Supuestos del modelo
IV. Promedio de errores es cero (Gráfico Histograma)
Del gráfico Histograma, se observa que los errores se distribuyen
alrededor del cero, por lo tanto, se puede concluir que el promedio de
errores es cero.
Temario
4. Adecuación del modelo a la población
Consiste en evaluar la significancia del modelo a partir
de la prueba F.
Prueba F (ANOVA)
Ho: El modelo de regresión lineal simple NO es válido (no significativo)
H1: El modelo de regresión lineal simple SÍ es válido (sí es significativo)
Otra forma de evaluar la significancia: Prueba t (Coeficiente de
regresión)
Ho: β1 = 0 (El modelo de regresión lineal simple No es significativo)
H1: β 1 ≠ 0 (El modelo de regresión lineal simple Sí es significativo)
F(0.05, 1,28)=4.196
Entendiendo la teoría
Temario
Inferencia sobre el coeficiente de regresión 𝜷𝟏
Según sea el caso, es posible validar hipótesis específicas para el
coeficiente de regresión.
①
𝐻𝑜: 𝛽1 ≥ 𝑘
𝐻1: 𝛽1 < 𝑘
②
Estadístico de prueba a utilizar:
donde:
𝑆𝑥𝑥 =
𝑆𝐶𝑅
𝛽1
2
𝐻𝑜: 𝛽1 = 𝑘
𝐻1: 𝛽1 ≠ 𝑘
𝑡𝑐𝑎𝑙 =
③
𝐻𝑜: 𝛽1 ≤ 𝑘
𝐻1: 𝛽1 > 𝑘
𝛽1 − 𝑘
~𝑡(𝑛 − 2)
𝑆
𝑆𝑥𝑥
s = CME
Estas pruebas de hipótesis no son analizadas
automáticamente con Minitab, por lo que su
desarrollo es manual.
Entendiendo
la teoría
Temario
Intervalos de predicción para un valor medio e individual
Para hallar un intervalo de confianza de (1 - α)100% de los valores
pronosticados para la respuesta media y para un valor individual, dado
un valor de X, se utiliza las expresiones siguientes:
a) Cuando se quiere estimar el valor promedio o medio de la variable
dependiente.
𝑦0 − 𝑡(𝑛−2,𝛼/2) 𝑆
2
1
𝑥0 − 𝑥
+
𝑛
𝑆𝑥𝑥
≤ 𝜇𝑦
𝑥
≤ 𝑦0 + 𝑡(𝑛−2,𝛼/2) 𝑆
1
𝑥0 − 𝑥
+
𝑛
𝑆𝑥𝑥
2
b) Cuando se quiere estimar un valor individual de la variable
dependiente.
𝑦0 − 𝑡(𝑛−2,𝛼/2) 𝑆 1 +
1
𝑥0 − 𝑥
+
𝑛
𝑆𝑥𝑥
2
≤ 𝑌𝑖𝑛𝑑 ≤ 𝑦0 + 𝑡(𝑛−2,𝛼/2) 𝑆 1 +
1
𝑥0 − 𝑥
+
𝑛
𝑆𝑥𝑥
2
Montgomery, D, y Runger, G, (2005) Probabilidad y estadística
aplicadas a la ingeniería, México, D,F, : Limusa Wiley, Capítulo 9,
Anderson, D,, Sweeney, D,, Williams T,, Camm, J, y Cochran, J,
(2016) Estadística para negocios y economía, México, D,F,:
Cengage Learning, Capítulo 10,
Triola, M, (2013) Estadística, México, D,F,: Pearson Educación,
Capítulo 11,
Continúa con las
actividades propuestas
en la sesión.
Material producido para la Universidad Peruana de Ciencias Aplicadas
Autor: (profesores del curso)
COPYRIGHT ©UPC 2019– Todos los derechos reservados
Descargar