Práctica 4 vgaribay EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura a) Estudio descriptivo de ambas variables Datos en Encuesta.sgd Marco elementos atípicos: b) Obtener la recta de regresión y comprobar que el vector de medias muestrales pertenece a la recta. Relate/One Factor/Simple Regression…(linear) Interpretar la tabla de coeficientes estimados y la tabla ANOVA. b1) Obtener la recta de regresión… 1 Práctica 4 vgaribay Solución: Recta de regresión (con todos los puntos) Peso kg = -115,18 + 1,06074*Altura cm 2 Práctica 4 vgaribay b2) … y comprobar que el vector de medias muestrales pertenece a la recta. Count Average Standard deviation Peso kg 269 70,7967 12,6559 Altura cm 269 175,327 8,92991 De forma aproximada en la gráfica sobre la recta de regresión con Locate: De manera más precisa mediante Forecast b3) Interpretar la tabla de coeficientes estimados y la tabla ANOVA. Coefficients Least Squares Parameter Estimate Intercept -115,18 Slope 1,06074 Analysis of Variance Source Sum of Squares Model 24046,2 Residual 18880,0 Total (Corr.) 42926,2 Standard Error 10,0981 0,0575216 Df 1 267 268 T Statistic -11,4061 18,4407 Mean Square 24046,2 70,7116 P-Value 0,0000 0,0000 F-Ratio 340,06 P-Value 0,0000 Peso Kg= -115,18 + 1,06074 Altura cm Rechazo a todos los niveles habituales la hipótesis de no efecto del regresor “Altura” (Ho: 1=0) Cambios en la Altura provocan cambios en el peso medio correspondiente. 3 Práctica 4 vgaribay c) Hallar un intervalo de confianza al 95% para la pendiente. Relate/Multiple Factors/Multiple Regression… (confidence interval) Intervalos de confianza del 95,0% para las estimaciones de los coeficientes Error Parámetro Estimación Estándar Límite Inferior CONSTANTE -115,18 10,0981 -135,062 Altura cm 1,06074 0,0575216 0,947486 Límite Superior -95,2977 1,17399 Botón derecho > Options para modificar el nivel de confianz d) Guardar los valores ajustados, los residuos y los residuos estudentizados. Realizar un análisis de los residuos. Puedo salvar en la hoja de datos valores predichos, residuos, residuos estudentizados, leverages, limites inf y sup de Intervalos de Confianza para la respuesta y para la media en cada xi observado. No tengo los DFITS, que sí puedo conseguir dentro del módulo de Regresión Múltiple 4 Práctica 4 vgaribay Test de Normalidad de los residuos Test de Normalidad de los residuos estudentizados 5 Práctica 4 vgaribay Para identificar mejor por su número los Outliers y puntos de influencia añado un contador en la base de datos, vble “caso”: Count(1;269;1) e) Analizar si hay puntos de influencia y eliminarlos si es el caso. En REGRESION SIMPLE puedo obtener Residuos y Residuos Studentizados Residuos Atípicos Predicciones Residuos Fila X 22 171,0 26 184,0 Y 84,0 103,0 Y 66,2067 79,9963 Residuos 17,7933 23,0037 Studentizados 2,13 2,78 41 75 78,0 110,0 59,8422 86,3607 18,1578 23,6393 2,18 2,87 165,0 190,0 6 Práctica 4 vgaribay 77 175,0 91,0 70,4496 20,5504 2,47 97 121 122 171,0 173,0 120,0 49,0 90,0 39,0 66,2067 68,3282 12,109 -17,2067 21,6718 26,891 -2,06 2,61 3,54 215 216 279 188,0 185,0 172,0 105,0 103,0 120,0 84,2393 81,057 67,2674 20,7607 21,943 52,7326 2,51 2,65 6,80 El StatAdvisor La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor observado de Peso kg del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, hay 11 residuos Estudentizados mayores que 2, 2 mayores que 3. Es conveniente examinar detenidamente las observaciones con residuos mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo y tratados por separado. … y también los leverages hii (influencia potencial) PELIGRO cuando hii > 2 *(k+1)/n = 4/269= 0,01486989 (95%) (o 3* … 99%) Puntos Influyentes Fila X Y Predicciones Y 122 250 120,0 196,0 39,0 77,0 12,109 92,7252 Residuos Studentizados Influencia 3,54 -1,90 0,146952 0,0237148 267 198,0 108,0 94,8467 1,59 0,0277713 277 155,0 45,0 49,2349 -0,51 0,0230515 Influencia Media de un punto = 0,00743494 El StatAdvisor La tabla de puntos influyentes enlista todas las observaciones que tienen valores de influencia mayores que 3 veces la de un punto promedio de los datos. Valor de Influencia es un estadístico que mide que tan influyente es cada observación en la determinación de los coeficientes del modelo estimado. En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,00743494. Hay 4 puntos con más de 3 veces el valor de influencia promedio, uno con más de 5 veces. Deberían examinarse cuidadosamente aquellos puntos con más de 5 veces el valor de influencia promedio para determinar que tanto podría cambiar el modelo si no estuvieran presentes. En REGRESION MULTIPLE puedo obtener además los valores DFITS (influencia efectiva) (por el contrario, NO puedo hacer predicción (Forecast) directamente ni PlotXY) Residuos Atípicos Fila 22 26 41 75 77 97 121 122 215 216 279 Y 84,0 103,0 78,0 110,0 91,0 49,0 90,0 39,0 105,0 103,0 120,0 Y Predicha 66,2067 79,9963 59,8422 86,3607 70,4496 66,2067 68,3282 12,109 84,2393 81,057 67,2674 Residuo 17,7933 23,0037 18,1578 23,6393 20,5504 -17,2067 21,6718 26,891 20,7607 21,943 52,7326 Residuo Estudentizado 2,13 2,78 2,18 2,87 2,47 -2,06 2,61 3,54 2,51 2,65 6,80 7 Práctica 4 vgaribay El StatAdvisor La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor observado de Peso kg del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, hay 11 residuos Estudentizados mayores que 2, 2 mayores que 3. Es conveniente examinar detenidamente las observaciones con residuos mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo y tratados por separado. Puntos Influyentes Fila 26 41 75 122 215 216 250 267 277 279 Distancia de Influencia Mahalanobis DFITS 0,00723709 0,950121 0,237352 0,00870782 1,34914 0,204698 0,0137914 2,73754 0,339255 0,146952 44,999 1,4677 0,0112323 2,03683 0,267236 0,00809552 1,18288 0,239356 0,0237148 5,48939 -0,296416 0,0277713 6,63046 0,268882 0,0230515 5,30372 -0,0781569 0,00423545 0,139407 0,443169 Influencia media de un solo punto = 0,00743494 PELIGRO si DFITS>2*RAIZ((k+1)/n) = 2*RAIZ(2/269)= 0,17245225 (95%) (o 3* … 99%) El StatAdvisor La tabla de puntos influyentes enlista todas las observaciones que tienen valores de influencia mayores que 3 veces la de un punto promedio de los datos, ó que tienen un valor inusual de DFITS. Valor de Influencia es un estadístico que mide que tan influyente es cada observación en la determinación de los coeficientes del modelo estimado. DFITS es un estadístico que mide que tanto podrían cambiar los coeficientes estimados si la observación se eliminara del conjunto de datos. En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,00743494. Hay 4 puntos con más de 3 veces el valor de influencia promedio, uno con más de 5 veces. Deberían examinarse cuidadosamente aquellos puntos con más de 5 veces el valor de influencia promedio para determinar que tanto podría cambiar el modelo si no estuvieran presentes. Hay 9 datos con valores inusualmente grandes de DFITS. e2) Elimino las observaciones siguientes: 279 DFITS=0,443169 >0,17245225 122 DFITS=1,4677 leverage hii=0,146952 > 0.015 Selecciono en el gráfico el punto a suprimir y pincho botón +/- 8 Práctica 4 vgaribay Regresión Simple - Peso kg vs. Altura cm Variable dependiente: Peso kg Variable independiente: Altura cm Lineal: Y = a + b*X Coeficientes Mínimos Cuadrados Parámetro Estimado Intercepto -131,613 Pendiente 1,15265 Análisis de Varianza Fuente Suma de Cuadrados Modelo 24295,2 Residuo 15197,9 Total (Corr.) 39493,1 Estándar Error 9,84199 0,0560026 Gl 1 265 266 Estadístico T -13,3726 20,5822 Cuadrado Medio 24295,2 57,3507 Valor-P 0,0000 0,0000 Razón-F 423,62 Valor-P 0,0000 Coeficiente de Correlación = 0,784331 R-cuadrada = 61,5175 porciento R-cuadrado (ajustado para g.l.) = 61,3723 porciento Error estándar del est. = 7,57302 Error absoluto medio = 5,86925 Estadístico Durbin-Watson = 1,55717 (P=0,0001) Autocorrelación de residuos en retraso 1 = 0,221257 Número de filas excluídas: 2 Recta de regresión (eliminados los puntos 122 y 279) Peso kg = -131,613 + 1,15265*Altura cm f) Con el modelo final, proporcionar un intervalo de confianza al 90% para la respuesta media y otro al 99% para la predicción del peso de una alumna nueva que mide 166.5 cm. En el plot XY de Regresión Simple, además de la recta ajustada, con Opciones, controlo si quiero las bandas o cotas de la confianza deseada, para Ey/ X=xo y/o para la respuesta y/X=xo En tabla Forecast, introduzco el valor x=166.5 y 90% Valores Predichos X 166,5 Predicciones Y 60,3036 90,00% Límite Inferior 47,7521 Predicción Superior 72,8551 90,00% Límite Inferior 59,1702 Confianza Superior 61,437 I.de C. del 90% para la Respuesta Media 9 Práctica 4 vgaribay Subo la confianza al 99% para el I. de C. de la respuesta Valores Predichos X 166,5 Predicciones Y 60,3036 99,00% Límite Inferior 40,5747 Predicción Superior 80,0325 99,00% Límite Inferior 58,5221 Confianza Superior 62,0851 I.de C. del 99% para la respuesta APENDICE Ajustando por separado Hombres y Mujeres: 10 Práctica 4 vgaribay 2.- REGRESIÓN LINEAL MÚLTIPLE Se ha diseñado un experimento para explicar la producción de oxígeno (O2UP), medida en miligramos de oxígeno por minuto, basándose en 5 medidas químicas: • Demanda biológica de oxígeno; BOD. • Nitrógeno total; TKN. • Sólido total; TS. • Sólidos volátiles totales; TVS. • Demanda química de oxígeno; COD. Todas estas variables están medidas en miligramos por litro. Los datos están en el fichero Oxigeno.sgd’. Plantea y valida un modelo de regresión múltiple que relacione la producción de oxígeno con las otras 5 variables. Interprétalo y utilízalo para realizar predicciones de la producción de oxígeno. Relate/Multiple Factors/Multiple Regression... Suprimo la observación 1 11 Práctica 4 vgaribay Normalidad de los residuos: 12 Práctica 4 vgaribay Saco TVS del modelo Quedan 4 variables Dependent variable: O2UP Independent variables: BOD TKN TS COD Parameter CONSTANT BOD TKN TS COD Estimate -6,82193 -0,00239808 0,00886704 0,00122322 0,000408475 Analysis of Variance Source Sum of Squares Model 69,6587 Residual 10,3224 Total (Corr.) 79,9811 Standard Error 1,13452 0,00169378 0,00415638 0,000234285 0,000262474 Df 4 14 18 T Statistic -6,01303 -1,41581 2,13335 5,22109 1,55625 Mean Square 17,4147 0,737313 P-Value 0,0000 0,1787 0,0511 0,0001 0,1420 F-Ratio 23,62 P-Value 0,0000 R-squared = 87,094 percent R-squared (adjusted for d.f.) = 83,4065 percent Standard Error of Est. = 0,858669 Mean absolute error = 0,606915 Durbin-Watson statistic = 2,81821 (P=0,9322) Lag 1 residual autocorrelation = -0,449124 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 4 independent variables. The equation of the fitted model is O2UP = -6,82193 - 0,00239808*BOD + 0,00886704*TKN + 0,00122322*TS + 0,000408475*COD Unusual Residuals Predicted Row Y Y 7 1,3 2,8389 Residual -1,5389 Studentized Residual -2,28 Influential Points Row 2 4 6 7 Leverage 0,537819 0,369411 0,378724 0,198778 Mahalanobis Distance 18,8377 9,01446 9,41859 3,27316 DFITS 1,45373 1,5281 1,32156 -1,13757 Peligros: Leverage > 2* (k+1)/n=10/20= 0.5 GFITS> 2*raiz((k+1)/n)=1 13 Práctica 4 vgaribay Saco BOD del modelo Quedan 3 variables Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS COD Parameter CONSTANT TKN TS COD Estimate -6,7775 0,0116145 0,00102932 0,000179135 Analysis of Variance Source Sum of Squares Model 68,1807 Residual 11,8003 Total (Corr.) 79,9811 Standard Error 1,17145 0,00379663 0,000196347 0,000213331 Df 3 15 18 T Statistic -5,78558 3,05916 5,24234 0,839704 Mean Square 22,7269 0,78669 P-Value 0,0000 0,0080 0,0001 0,4143 F-Ratio 28,89 P-Value 0,0000 R-squared = 85,2461 percent R-squared (adjusted for d.f.) = 82,2953 percent Standard Error of Est. = 0,886955 Mean absolute error = 0,682465 Durbin-Watson statistic = 2,66236 (P=0,8731) Lag 1 residual autocorrelation = -0,399632 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 3 independent variables. The equation of the fitted model is O2UP = -6,7775 + 0,0116145*TKN + 0,00102932*TS + 0,000179135*COD Saco COD del modelo Quedan 2 variables Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS Parameter CONSTANT TKN TS Estimate -6,41355 0,0112108 0,00115329 Analysis of Variance Source Sum of Squares Model 67,626 Residual 12,355 Total (Corr.) 79,9811 Standard Error 1,07824 0,0037312 0,00012824 Df 2 16 18 T Statistic -5,94816 3,00461 8,99321 Mean Square 33,813 0,77219 P-Value 0,0000 0,0084 0,0000 F-Ratio 43,79 P-Value 0,0000 R-squared = 84,5525 percent 14 Práctica 4 vgaribay R-squared (adjusted for d.f.) = 82,6216 percent Standard Error of Est. = 0,878744 Mean absolute error = 0,711168 Durbin-Watson statistic = 2,78633 (P=0,9326) Lag 1 residual autocorrelation = -0,452628 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 2 independent variables. The equation of the fitted model is O2UP = -6,41355 + 0,0112108*TKN + 0,00115329*TS Unusual Residuals Predicted Row Y Y 4 5,2 3,58988 Residual 1,61012 Studentized Residual 2,14 Influential Points Mahalanobis Row Leverage Distance DFITS 2 0,420542 11,3933 1,57973 Average leverage of single data point = 0,157895 Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS COD Parameter CONSTANT TKN TS COD Estimate -6,7775 0,0116145 0,00102932 0,000179135 Analysis of Variance Source Sum of Squares Model 68,1807 Residual 11,8003 Total (Corr.) 79,9811 Standard Error 1,17145 0,00379663 0,000196347 0,000213331 Df 3 15 18 T Statistic -5,78558 3,05916 5,24234 0,839704 Mean Square 22,7269 0,78669 P-Value 0,0000 0,0080 0,0001 0,4143 F-Ratio 28,89 P-Value 0,0000 R-squared = 85,2461 percent R-squared (adjusted for d.f.) = 82,2953 percent Standard Error of Est. = 0,886955 Mean absolute error = 0,682465 Durbin-Watson statistic = 2,66236 (P=0,8731) Lag 1 residual autocorrelation = -0,399632 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 3 independent variables. The equation of the fitted model is O2UP = -6,7775 + 0,0116145*TKN + 0,00102932*TS + 0,000179135*COD 15