Melisa Bok – Enfoque Estadistico del Aprendizaje Regresión Lineal Simple NOTA: Explique con detalle los razonamientos que le permiten arribar a las conclusiones en cada ejercicio y las fórmulas utilizadas, si corresponde. Si necesita hacer suposiciones adicionales para resolver el problema, explicítelas. Se llevó a cabo un estudio para analizar el papel de las armas de fuego y otros diferentes factores en la tasa de homicidios en cierta ciudad. La cantidad de homicidios registrados en 14 años sucesivos por cada 100000 individuos se almacenó en la variable mankill y la cantidad de armas de fuego en la variable nhandgun. Se desea examinar la relación ambas variables, para lo cual se tiene relevados los datos de la siguiente tabla: Nhandgun (X) Mankill (Y) 447 13 460 21 481 24 498 16 513 24 512 20 526 15 559 34 585 33 614 33 645 39 675 43 711 50 719 47 a. Analizar la adecuación del modelo de regresión simple. Vamos a describir como es la relación de Mankill y NHandgun, predecir el valor de Mankill a partir de NHandgun. Entonces se define el modelo de regresión simple como: Y para poder obtener los valores de los parámetro beta cera y beta uno los estimamos con mínimos cuadrados buscando que la sumatoria del error para todos los valores sea mínimo. Melisa Bok – Enfoque Estadistico del Aprendizaje Entonces tenemos que resolver las ecuaciones normales, serían las siguientes: b. Estudiar la correlación entre las variables. Correlaciones 95% L CI for y x x mean Correlación de Pearson 1 Sig. (bilateral) N 95% L CI for y mean Correlación de Pearson Sig. (bilateral) N ,998** ,000 13 13 ,998** 1 ,000 13 13 **. La correlación es significativa al nivel 0,01 (bilateral). La correlación entre las variables es 0.998 , muy cerca de 1 esto indica que existe una fuerta correlación lineal positiva entre ambas variables. c. Graficar la nube de puntos y la recta de ajuste. Melisa Bok – Enfoque Estadistico del Aprendizaje d. Escribir la ecuación de la recta de regresión ajustada y dar una interpretación a la pendiente obtenida. ManKill = 0.123xNHandGun – 40.249 La pendiente es 0.123 indica que por cada unidad que aumenta de NHandGun aumenta en unidades 0.123 ManKill. e. Hallar un intervalo de confianza del 99% para la pendiente de la regresión. ¿Será más ancho que el intervalo del 95%? ¿Por qué? Intervalo de confianza del 99%: [0.078, 0.168] Intervalo de confianza del 95%: [0.091, 0.155] Si, es más ancho el intervalo de confianza del 99% que el de 95%, porque para tener una confianza mayor de estimar la pendiente debemos agrandar el intervalo y así asegurarnos un 99% de probabilidad que el parámetro de la pendiente pertenece a dicho intervalo. Melisa Bok – Enfoque Estadistico del Aprendizaje f. Analizando la tabla de ANOVA de la regresión, ¿qué hipótesis testea la prueba F dada?¿Qué puede concluír en este caso? La prueba F permite contrastar la hipótesis nula de que el valor poblacional R es cero, lo cual, en el modelo de regresión simple equivale a contrastar la hipótesis de la que la pendiente de la recta es cero. Ho: R = 0 Ha: R<> 0 En nuestro caso el p-valor obtenido de la prueba es 0.000 < 0.05 entonces podemos rechazar Ho y concluir que la regresión es significativa. g. Calcular e interpretar el coeficiente de determinación R2. Resumen del modelo Modelo 1 R ,932a R cuadrado ,868 R cuadrado Error típ. de la corregida estimación ,856 4,442 a. Variables predictoras: (Constante), x El valor de R2 es 0.868 y del corregido es 0.856 esto indica que la recta es un muy buen ajuste para los datos que tenemos. El significado de este valor que va entre 0 y 1 es que la función de la regresión puede ajustar el 85% de los datos. h. Analice el cumplimiento de los supuestos del modelo, en particular realice gráficos pertinentes de residuos y predichos e interprételos. Linealidad: Como se ve en el diagrama de dispersión de las variables y el coeficiente de correlación existe una relación entre ambas variables. Independencia: Para analizar la independencia de los residuales utilizamos la prueba de Durbin-Watson que para afirmar que son independientes el valor obtenido debe estar entre 1.5 y 2.4. En nuestro caso el valor obtenido es: Resumen del modelob Modeo 1 R ,932a R cuadrado ,868 R cuadrado Error típ. de la corregida estimación ,856 4,442 Durbin-Watson 2,216 Melisa Bok – Enfoque Estadistico del Aprendizaje Resumen del modelob Modeo 1 R R cuadrado ,932a ,868 R cuadrado Error típ. de la corregida estimación ,856 4,442 Durbin-Watson 2,216 a. Variables predictoras: (Constante), x b. Variable dependiente: y El valor es 2.216 por lo tanto podemos decir que se cumple este supuesto. Homocedasticidad: Para analizar este supuesto graficamos los residuos en función de los valores predichos, este es el gráfico: Podemos observar que los residuos se mantienen entre los valores -2 y 2 y cerca del 0 de manera constante, entonces se puede decir que también se cumple con este supuesto. Melisa Bok – Enfoque Estadistico del Aprendizaje Normalidad: Para analizar la normalidad de los residuos podemos observar dos gráficos: el histograma y el Q-QPlot. Melisa Bok – Enfoque Estadistico del Aprendizaje A simple vista parece que los residuales siguen una distribución normal salvo en el P-P normal que en uno de los extremos parece que los puntos se alejan de la recta, para sacarnos la duda hicimos un test de K-S y resultó lo siguiente: Prueba de Kolmogorov-Smirnov para una muestra Standardized Residual N Parámetros 13 normalesa,b Media Desviación típica Diferencias más extremas ,0000000 ,95742711 Absoluta ,108 Positiva ,098 Negativa -,108 Z de Kolmogorov-Smirnov ,388 Sig. asintót. (bilateral) ,998 Melisa Bok – Enfoque Estadistico del Aprendizaje Prueba de Kolmogorov-Smirnov para una muestra Standardized Residual N Parámetros normalesa,b 13 Media Desviación típica Diferencias más extremas ,0000000 ,95742711 Absoluta ,108 Positiva ,098 Negativa -,108 Z de Kolmogorov-Smirnov ,388 Sig. asintót. (bilateral) ,998 a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos. El p-valor de la prueba es 0.388 > 0.05 entonces no podemos rechazar la hipótesis nula que dice que la distribución es normal. Y podemos afirmar que los residuales cumplen con el supuesto de normalidad. i. Hallar los intervalos de confianza del 95% para la predicción Ŷk en los niveles de X: 450, 700 y 800. ¿considera indicada la predicción en el último caso? Una de las maneras de obtener el intervalo de confianza para un valor predicho es agregando al conjunto de datos una nueva instancia con el x dado y el y predicho. X:450 Ypredicho: 0.123x450 – 40.249 = 15.101 Intervalo de confianza: [4.93996, 25.22874] X:700 Ypredicho: 45.851 Intervalo de confianza:[ 35.75539, 55.99312] X:800 Melisa Bok – Enfoque Estadistico del Aprendizaje No sería válido calcular el intervalo para este valor ya que se encuentra fuera del rango de los valores X de la muestra. Si lo haríamos igual, sería una extrapolación de datos y no se asegura que la predicción sea la correcta. j. Para los intervalos obtenidos en el ítem anterior, ¿tienen la misma amplitud? Porqué? Amplitud de X:450: 20.28 Amplitud de X:700: 20.23 No tienen la misma amplitud. Esta se debe a que la amplitud del intervalo está compuesta por el error standard: Y este error se incrementa a medida que el valor de x se aleja de su media. Por eso podemos decir que el mejor intervalo de confianza para la predicción está dado por valores de x que se encuentran cerca de su media y no tan alejados. En conclusión la amplitud del intervalo en parte depende del x sobre el cual queremos obtener el IC.