Regresión Lineal Simple

Anuncio
Melisa Bok – Enfoque Estadistico del Aprendizaje
Regresión Lineal Simple
NOTA: Explique con detalle los razonamientos que le permiten arribar a las
conclusiones en
cada ejercicio y las fórmulas utilizadas, si corresponde. Si necesita hacer suposiciones
adicionales para resolver el problema, explicítelas.
Se llevó a cabo un estudio para analizar el papel de las armas de fuego y otros diferentes
factores en la tasa de homicidios en cierta ciudad. La cantidad de homicidios registrados
en
14 años sucesivos por cada 100000 individuos se almacenó en la variable mankill y la
cantidad de armas de fuego en la variable nhandgun.
Se desea examinar la relación ambas variables, para lo cual se tiene relevados los datos
de la siguiente tabla:
Nhandgun (X) Mankill (Y)
447 13
460 21
481 24
498 16
513 24
512 20
526 15
559 34
585 33
614 33
645 39
675 43
711 50
719 47
a. Analizar la adecuación del modelo de regresión simple.
Vamos a describir como es la relación de Mankill y NHandgun, predecir el valor de
Mankill a partir de NHandgun. Entonces se define el modelo de regresión simple como:
Y para poder obtener los valores de los parámetro beta cera y beta uno los estimamos
con mínimos cuadrados buscando que la sumatoria del error para todos los valores sea
mínimo.
Melisa Bok – Enfoque Estadistico del Aprendizaje
Entonces tenemos que resolver las ecuaciones normales, serían las siguientes:
b. Estudiar la correlación entre las variables.
Correlaciones
95% L CI for y
x
x
mean
Correlación de Pearson
1
Sig. (bilateral)
N
95% L CI for y mean
Correlación de Pearson
Sig. (bilateral)
N
,998**
,000
13
13
,998**
1
,000
13
13
**. La correlación es significativa al nivel 0,01 (bilateral).
La correlación entre las variables es 0.998 , muy cerca de 1 esto indica que existe una
fuerta correlación lineal positiva entre ambas variables.
c. Graficar la nube de puntos y la recta de ajuste.
Melisa Bok – Enfoque Estadistico del Aprendizaje
d. Escribir la ecuación de la recta de regresión ajustada y dar una interpretación
a la pendiente obtenida.
ManKill = 0.123xNHandGun – 40.249
La pendiente es 0.123 indica que por cada unidad que aumenta de NHandGun aumenta
en unidades 0.123 ManKill.
e. Hallar un intervalo de confianza del 99% para la pendiente de la regresión.
¿Será más ancho que el intervalo del 95%? ¿Por qué?
Intervalo de confianza del 99%: [0.078, 0.168]
Intervalo de confianza del 95%: [0.091, 0.155]
Si, es más ancho el intervalo de confianza del 99% que el de 95%, porque para tener
una confianza mayor de estimar la pendiente debemos agrandar el intervalo y así
asegurarnos un 99% de probabilidad que el parámetro de la pendiente pertenece a dicho
intervalo.
Melisa Bok – Enfoque Estadistico del Aprendizaje
f. Analizando la tabla de ANOVA de la regresión, ¿qué hipótesis testea la
prueba F dada?¿Qué puede concluír en este caso?
La prueba F permite contrastar la hipótesis nula de que el valor poblacional R es cero, lo
cual, en el modelo de regresión simple equivale a contrastar la hipótesis de la que la
pendiente de la recta es cero.
Ho: R = 0
Ha: R<> 0
En nuestro caso el p-valor obtenido de la prueba es 0.000 < 0.05 entonces podemos
rechazar Ho y concluir que la regresión es significativa.
g. Calcular e interpretar el coeficiente de determinación R2.
Resumen del modelo
Modelo
1
R
,932a
R cuadrado
,868
R cuadrado
Error típ. de la
corregida
estimación
,856
4,442
a. Variables predictoras: (Constante), x
El valor de R2 es 0.868 y del corregido es 0.856 esto indica que la recta es un muy buen
ajuste para los datos que tenemos. El significado de este valor que va entre 0 y 1 es que
la función de la regresión puede ajustar el 85% de los datos.
h. Analice el cumplimiento de los supuestos del modelo, en particular realice
gráficos pertinentes de residuos y predichos e interprételos.
Linealidad:
Como se ve en el diagrama de dispersión de las variables y el coeficiente de correlación
existe una relación entre ambas variables.
Independencia:
Para analizar la independencia de los residuales utilizamos la prueba de Durbin-Watson
que para afirmar que son independientes el valor obtenido debe estar entre 1.5 y 2.4. En
nuestro caso el valor obtenido es:
Resumen del modelob
Modeo
1
R
,932a
R cuadrado
,868
R cuadrado
Error típ. de la
corregida
estimación
,856
4,442
Durbin-Watson
2,216
Melisa Bok – Enfoque Estadistico del Aprendizaje
Resumen del modelob
Modeo
1
R
R cuadrado
,932a
,868
R cuadrado
Error típ. de la
corregida
estimación
,856
4,442
Durbin-Watson
2,216
a. Variables predictoras: (Constante), x
b. Variable dependiente: y
El valor es 2.216 por lo tanto podemos decir que se cumple este supuesto.
Homocedasticidad:
Para analizar este supuesto graficamos los residuos en función de los valores predichos,
este es el gráfico:
Podemos observar que los residuos se mantienen entre los valores -2 y 2 y cerca del 0
de manera constante, entonces se puede decir que también se cumple con este supuesto.
Melisa Bok – Enfoque Estadistico del Aprendizaje
Normalidad:
Para analizar la normalidad de los residuos podemos observar dos gráficos: el
histograma y el Q-QPlot.
Melisa Bok – Enfoque Estadistico del Aprendizaje
A simple vista parece que los residuales siguen una distribución normal salvo en el P-P
normal que en uno de los extremos parece que los puntos se alejan de la recta, para
sacarnos la duda hicimos un test de K-S y resultó lo siguiente:
Prueba de Kolmogorov-Smirnov para una muestra
Standardized
Residual
N
Parámetros
13
normalesa,b
Media
Desviación típica
Diferencias más extremas
,0000000
,95742711
Absoluta
,108
Positiva
,098
Negativa
-,108
Z de Kolmogorov-Smirnov
,388
Sig. asintót. (bilateral)
,998
Melisa Bok – Enfoque Estadistico del Aprendizaje
Prueba de Kolmogorov-Smirnov para una muestra
Standardized
Residual
N
Parámetros normalesa,b
13
Media
Desviación típica
Diferencias más extremas
,0000000
,95742711
Absoluta
,108
Positiva
,098
Negativa
-,108
Z de Kolmogorov-Smirnov
,388
Sig. asintót. (bilateral)
,998
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
El p-valor de la prueba es 0.388 > 0.05 entonces no podemos rechazar la hipótesis nula
que dice que la distribución es normal. Y podemos afirmar que los residuales cumplen
con el supuesto de normalidad.
i. Hallar los intervalos de confianza del 95% para la predicción Ŷk en los
niveles de X: 450, 700 y 800. ¿considera indicada la predicción en el último
caso?
Una de las maneras de obtener el intervalo de confianza para un valor predicho es
agregando al conjunto de datos una nueva instancia con el x dado y el y predicho.
X:450
Ypredicho: 0.123x450 – 40.249 = 15.101
Intervalo de confianza: [4.93996, 25.22874]
X:700
Ypredicho: 45.851
Intervalo de confianza:[ 35.75539, 55.99312]
X:800
Melisa Bok – Enfoque Estadistico del Aprendizaje
No sería válido calcular el intervalo para este valor ya que se encuentra fuera del rango
de los valores X de la muestra. Si lo haríamos igual, sería una extrapolación de datos y
no se asegura que la predicción sea la correcta.
j. Para los intervalos obtenidos en el ítem anterior, ¿tienen la misma amplitud?
Porqué?
Amplitud de X:450: 20.28
Amplitud de X:700: 20.23
No tienen la misma amplitud. Esta se debe a que la amplitud del intervalo está
compuesta por el error standard:
Y este error se incrementa a medida que el valor de x se aleja de su media. Por eso
podemos decir que el mejor intervalo de confianza para la predicción está dado por
valores de x que se encuentran cerca de su media y no tan alejados. En conclusión la
amplitud del intervalo en parte depende del x sobre el cual queremos obtener el IC.
Descargar