Llista 7. Estadística (10075, Grups 1-2-3-4) Professors: A. Cabaña, G.García i F. Udina Publicat: Límit lliurament: Dijous, 25 de Febrer de 2010 Dilluns, 1 de Març de 2010; 8:00 am 1. A continuació tenim les puntuacions obtingudes per un grup d’estudiants en l’examen parcial i en l’examen final d’Estadística. Parcial Final 81 80 75 82 71 83 61 57 96 100 56 30 85 68 18 56 70 40 77 87 71 65 91 86 88 82 79 57 77 75 30 40 50 60 final 70 80 90 100 a) Dibuixa el diagrama de dispersió de les dades. Identifica les dades ”atípiques” (outliers). 20 40 60 80 parcial Excepto por el dato correspondiente al estudiante 8, los demás parecen homogéneos. No es claro si habría que sacarlo del grupo. Depende de qué población estemos interesados en estudiar. Si es la de todo el curso, tal vez haya que admitir el fracaso y asumir que hay estudiantes con malas notas. Si nos interesa en cambio, predecir notas de algún buien estudiante, entonces sí es razonable sacar este dato. b) Calcula el coeficient de correlació lineal entre unes i altres notes i interpreta el seu valor. El coeficiente de correlación (de moemento con todos los datos) se puede calcular como: cor(parcial,final) [1] 0.5903886 Si queremos verificar si es significativamente distinto de cero (recordad que tenemos pocos datos) hacemos el test: cor.test(parcial,final) Pearson’s product-moment correlation data: parcial and final t = 2.6374, df = 13, p-value = 0.0205 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.1119976 0.8466082 sample estimates: cor 0.5903886 La relación lineal se pone de manifiesto en el valor moderado del estimador r = 0,59, y el p-valor nos lleva a rechazar H0 : ρ = 0. Si quitamos del análisis al estudiante número 8, obtendremos una relación más fuerte. >parcial2=parcial[-8] >final2=final[-8] > cor.test(parcial2,final2) Pearson’s product-moment correlation data: parcial2 and final2 t = 4.0336, df = 12, p-value = 0.001658 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.3816822 0.9192134 sample estimates: cor 0.7586295 c) Determina la recta d’ajust pel mètode dels quadrats mínims. Para todos los datos tenemos > ajuste1=lm(final~parcial) summary(ajuste1) Call: lm(formula = final ~ parcial) Residuals: Min 1Q Median 3Q Max -29.526 -7.326 3.086 12.674 19.497 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) parcial 25.5977 17.2843 1.481 0.1624 0.6059 0.2297 2.637 0.0205 * 2 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 15.97 on 13 degrees of freedom Multiple R-squared: 0.3486,Adjusted R-squared: 0.2984 F-statistic: 6.956 on 1 and 13 DF, p-value: 0.0205 Esto confirma el resultado anterior. Se rechaza H0 : β1 = 0 (test t) , y también se rechaza con el test equivalente H0 :“ el modelo y = ȳ describe bien los datos”. Observar que los residuos lucen bastante asimétricos. Si quitamos el dato del estudiante 8, las conclusiones son más fuertes. De ahora en adelante nos quedaremos con este modelo, el que no toma en cuenta las calificaciones del estudiante 8. >ajuste12=lm(final2~parcial2) Call: lm(formula = final2 ~ parcial2) Residuals: Min 1Q Median 3Q Max -21.533 -10.540 2.975 6.628 20.135 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -31.7123 parcial2 1.3321 25.6703 -1.235 0.3302 4.034 0.24033 0.00166 ** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 13.14 on 12 degrees of freedom Multiple R-squared: 0.5755,Adjusted R-squared: 0.5401 F-statistic: 16.27 on 1 and 12 DF, p-value: 0.001658 d) Un estudiant del mateix grup va obtenir una puntuació de 80 en el primer examen. No es va poder presentar a l’examen final. A la vista del comportament del grup, ¿quina nota creieu que podia esperar en l’examen final? ¿Com s’interpreta aquest valor? Buscamos un intervalo de predicción porque se trata de una observación NUEVA. datos=data.frame(parcial2=80) # d\’onde queremos la predicci\’on? predict(ajuste12,newdata=datos,interval="prediction") fit lwr upr 3 1 74.85335 45.13233 104.5744 De acuerdo con lo anterior, el valor predicho de la nota en el examen final para el estudiante que sacó 80 en el parciale es de 74.85. Con una confianza del 95 % su nota habría estado entre 45 y 100. e) Estudia els residus i comenta sobre la adecuació del model. Para hacer los gráficos de residuos usamos las instrucciones par(mfrow=c(2,2)) # para tener los 4 graf en la misma ventana plot(ajuste12) Normal Q-Q 8 60 70 80 1.5 0.5 13 8 90 -1 1 Scale-Location Residuals vs Leverage 2 Theoretical Quantiles 1 0.5 0 Standardized residuals 0.8 0.4 6 8 distance Cook's -2 60 70 1 3 13 -1 1.2 8 3 50 0 Fitted values 0.0 Standardized residuals 50 3 -0.5 0 -10 13 -20 Residuals 10 Standardized residuals 3 -1.5 20 Residuals vs Fitted 80 90 0.00 Fitted values 0.10 0.20 0.5 1 0.30 Leverage Se observa un problema de heterocesdasticidad. Los residuos tienen menor varianza cuanto más alta la nota (lo cual, en realidad no es sorprendente. Para arreglar este problema se puede intentar una transformación estabilizadora de varianzas. Este tipo de transformaciones (por ejemplo las de Box-Cox) están fuera del alcance de este curso. Presentamos una transformación que, si bien no mejora el porcentaje de variabilidad explicada por el modelo, y tiene una interpretación menos directa, soluciona en buena medida el problema de las varianzas. ajuste13=lm((final2)^2~parcial2) summary(ajuste13) Call: lm(formula = (final2)^2 ~ parcial2) Residuals: Min 1Q Median 3Q Max -2557.02 -761.70 75.09 1167.16 2558.75 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -7968.44 3335.84 -2.389 4 0.03421 * parcial2 173.22 42.92 4.036 0.00165 ** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1708 on 12 degrees of freedom Multiple R-squared: 0.5759,Adjusted R-squared: 0.5405 F-statistic: 16.29 on 1 and 12 DF, p-value: 0.001650 2. (Moore, exercici 10.9) Los manatís son criaturas marinas grandes y apacibles que viven a lo largo de la costa de Florida. Las lanchas motoras matan o lastiman muchos manatís. En http://pascal.upf.edu/estad/dades/manatis.dat están los datos sobre las lanchas motoras registradas (en miles) (V2) y el número de manatís muertos por las lanchas (V3) en Florida en los años de 1997 a 1990. a) Dibuja un diagrama de dispersión que muestre la relación entre el número de lanchas motoras registradas (V2) y los manatís muertos (V3) (¿cuál es la variable explicativa?). manati=read.table("http://pascal.upf.edu/estad/dades/manatis.dat") attach(manati) V3 20 30 40 50 plot(V2,V3) 450 500 550 600 650 700 V2 b) ¿ El aspecto general de la relación entre las variables es aproximadamente lineal? ¿Existen observaciones atípicas claras o observaciones influyentes fuertes? Esta claro a partir del plot de V1 contra V2 que la relación entre el número de manatíis muertos y el número de lanchas es lineal, con pendiente positiva (a más lanchas, más manatís muertos). La variable explicativa es el número de lanchas. No se observan datos atípicos ni puntos potencialmente influyentes. Sólamante el número de manatis muertos en los años 1980 y 1983 son un poco mas bajos que lo que cabría esperar, pero habrá que esperar a hacer el análisis de residuos del modelo ajustado para ver si realmente se trata de outliers o no (residuos "grandes"). 5 c) Calcula el modelo de regresión con lm. ¿Qué indica R2 = 0,886 a propósito de la relación entre lanchas y manatís muertos? ajuste2=lm(V3~V2) summary(ajuste2) Call: lm(formula = V3 ~ V2) Residuals: Min 1Q Median 3Q Max -9.24681 -2.02166 0.02172 2.33692 5.63275 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -41.4304 7.4122 -5.589 0.000118 *** V2 0.0129 9.675 5.11e-07 *** 0.1249 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 4.276 on 12 degrees of freedom Multiple R-squared: 0.8864,Adjusted R-squared: 0.8769 F-statistic: 93.61 on 1 and 12 DF, p-value: 5.109e-07 En efecto se puede observar que la variable V2, numero de lanchas es un buen predictor para el numero de manatis muertos (V3). Se rechaza H0 : β1 =0 con un p-valor bajisimo (5.11e-07) en la prueba t y en la prueba F que en el caso de la regresion lineal simple es equivalente (F-statistic: 93.61 on 1 and 12 DF, p-value: 5.109e-07 ). El valor de R2 = ,886indica que el 88,6 % de la variabilidad en el número de manatis muertos está explicado por el número de lanchas registradas. d) Explica lo que significa, en esta situación, la pendiente β1 de la verdadera recta de regresión. Luego da un intervalo de confianza del 90 % para β1. El valor de β1 representa el incremento en el numero de manatis muertos al aumentar el numero de lanchas en mil (es decir, cuando V2 aumenta 1 unidad). Si aumentan las lanchas en 1 millar, se espera un aumento de la muerte de los manatíes en 1 * 0.1249 = 0.1249 manatíes, o equivalentemente, si se aumenta en número de lanchas en 10 millares, se espera un aumento de la muerte de los manatíes en 10 * 0.1249 = 1,249 manatíes. e) Si Florida decidiera congelar el número de lanchas registradas en 700.000, ¿cuántos manatís predices que matarían las lanchas motoras cada año? La predicción del número de manatis muertos si el número de lanchas es 700,000 se obitiene como: V̂ 3 = β̂0 + β̂1 V 2 de modo que es 6 y700=ajuste2$coef[1]+ajuste2$coef[2]*700 y700 (Intercept) 45.97275 Es decir, unos 46 manatis muertos al año. f ) Pide a R la predicción para x = 700. ¿ Coincide con la que habías obtenido tú? Sí coincide, ver respuesta de la pregunta siguiente. g) Da un intervalo de predicción del 95 % para la media de manatís que morirían cada año si Florida congelara el número de licencias en 700.000. La predicción y el intervalo con R se obtienen con datos=data.frame(V2=700) predict(ajuste2,newdata=datos,interval="prediction") fit lwr upr 1 45.97275 35.6337 56.31179 La predicción coincide con la obtenida a partir de los estimadores, y el intervalo nos predice que el número de manaties muertos al año estaría entre 36 y 56 si se congelara el número de lanchas en 700mil. h) Finalmente, estudia la adecuación del modelo ajustado: ¿se cumplen las suposiciones iniciales? El gráfico de residuos frente a valores predichos muestra una leve heterocesdasticidad, pero no se ve tan acusada en el grafico de residuos estandarizados. La suposición de normalidad de los errores parece no violarse. Como en el ejercicio anterior, con plot(ajuste2) obtenemos los 4 gráficos: Residuals vs Fitted 1 0 -2 -1 Standardized residuals 5 0 25 30 35 40 7 45 -1 0 1 Fitted values Theoretical Quantiles Scale-Location Residuals vs Leverage 7 1 0 1.0 0.5 0.5 2 -1 Standardized residuals 3 8 3 0.5 -2 Residuals -5 -10 1.5 20 8 3 7 15 1 7 distance Cook's 0.0 Standardized residuals Normal Q-Q 8 3 15 20 25 30 35 40 45 Fitted values 0.00 0.05 0.10 0.15 0.20 0.25 Leverage 3. La siguiente tabla presenta algunos datos del número de líneas telefónicas por cada 1.000 individuos (Y ) y el producto bruto interno per cápita (X) para Singapur en el período de 1966 a 1981 (16 años). 7 Año 1966 1967 1968 .. . Y 48 54 59 .. . X 1589 1757 1974 .. . 1979 1980 1981 262 291 317 4628 5038 5472 Con estos datos tenemos las siguientes estimaciones: media de X = 3334,6 varianza de X = 1,380 × 106 covarianza entre Xe Y = 1,003 × 105 media de Y = 145,7 varianza de Y = 7697,4 a) Si suponemos una relación lineal entre X e Y (Y = β0 + β1 X + ε), estimar β0 y β1 por mínimos cuadrados y analizar la bondad del ajuste. A partir de los datos tenemos: meanx=3334.6 meany= 145.7 varx = 1.380*1000000 vary= 7697.4 covxy= 1.003* 100000 Calculamos la correlación entre x e y para estimar β1 r=covxy/(sqrt(varx*vary)) beta1=r*sqrt(vary)/sqrt(varx) beta0=meany-beta1*meanx beta1 [1] 0.07268116 beta0 [1] -96.6626 De modo que el modelo ajustado es y = −96,6626 + 0,07268116x. b) Si los errores ε son normales con media 0 y varianza σ 2 , dar un intervalo de confianza 90 % para β1 . Para calcular el error estandard de β̂1 usamos la fórmula de la tabla de la página 13 de la Guía 7: Recordemos que σ 2 se estima con SSE/(n − 2), donde SSE = SST − β̂1 Sxy = SST-SSR y que la varianza de β̂1 es σ 2 /SSxx , de manera que se estima con MSE/SSxx . n=16 sst=(n-1)*vary # suma de cuadrados total 8 ssxy=(n-1)*covxy #suma de prod (x-mean(x))(y-mean(y)) ssr=beta1*ssxy # suma de cuadrados debida a la regresion sse=sst-ssr # suma de cuadrados de error mse=sse/(n-2) # estimacion de sigma2 sterr=sqrt(mse/((n-1)*varx)) # desv del estimador de beta1 beta1+sterr*qt(c(0.05,0.95),14) # intervalo de confianza [1] 0.06459234 0.08076998 c) ¿Tenemos suficiente evidencia para rechazar la hipótesis de dependencia lineal entre Y y X? A pesar de que el los valores razonables para β1 son cercanos a 0, son todos positivos, de modo que rechazaríamos H0 : β1 = 0 con nivel 10 % y por lo tanto no tenemos suficiente evidencia para descartar la relación entre x e y. 4. En 1929 el científico Edwin Hubble investigó la relación existente entre la distancia de una galaxia a la tierra y la velocidad a la que parecía alejarse de ella. En cualquier dirección que se mire, las galaxias parecen alejarse de la tierra, y esto es congruente con la teoría del Big Bang. Hubble esperaba obtener alguna información de como se había formado el universo y qué podía esperarse que sucediera en el futuro. Llamando v a la variable velocidad de alejamiento de la tierra (velocidad) y d a la distancia a la tierra (distancia), la ley de Hubble se enuncia como v = hu d donde hu es la constante de Hubble que pensó que valdía alrededor de 75 km/seg/M pc. Aparte de validar la ley y estimar hu , es interesante estimar la cantidad 1 hu , que representaría la edad del universo. La velocidad está medida en km/seg y la distancia en megaparsec (1 parsec = 3,26 años luz). Para realizar este estudio se ajustan los dos siguientes modelos yi = β0 + β1 xi + εi e yi = β1 xi + εi i = 1, . . . , 19 donde y es la variable velocidad y x la variable distancia. Ambos modelos aparecen representados sobre el siguiente diagrama de dispersión. plot(d,v) abline(hubble.lm.1) abline(hubble.lm.2,col="blue",lty=2) 9 150 v 100 50 0.0 0.5 1.0 1.5 2.0 d a) Teniendo en cuenta el diagrama anterior, cuál de los dos modelos te parece más adecuado? Aparentemente es más adecuado el modelo 2, que pasa por el origen. b) Qué contraste crees que te puede servir para descartar uno de los modelos y continuar trabajando con el otro? Búsca información en las siguientes salidas obtenidas con R. Uno de los contrastes que sirve es el H0 : β0 = 0 en el primer modelo. Observamos que el p-valor es 0.134271 de modo que no rechazamos la hipótesis, y de ahora en adelante usaremos el segundo modelo, que además tiene R2 más grande y tiene la forma adecuada a la ley de Hubble enunciada. > hubble.lm.1=lm(v~d) > summary(hubble.lm.1) Call: lm(formula = v ~ d) Residuals: Min 1Q Median 3Q Max -58.265 -18.238 -3.852 16.314 74.607 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 23.55 14.98 1.572 0.134271 d 60.46 12.24 4.938 0.000125 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 33.54 on 17 degrees of freedom 10 Multiple R-squared: 0.5892,Adjusted R-squared: 0.5651 F-statistic: 24.38 on 1 and 17 DF, p-value: 0.0001248 > hubble.lm.2=lm(v~d-1) > > summary(hubble.lm.2) Call: lm(formula = v ~ d - 1) Residuals: Min 1Q Median 3Q Max -67.748 -11.935 1.532 30.412 81.643 Coefficients: Estimate Std. Error t value Pr(>|t|) d 76.98 6.54 11.77 6.89e-10 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 34.88 on 18 degrees of freedom Multiple R-squared: 0.885,Adjusted R-squared: 0.8786 F-statistic: 138.5 on 1 and 18 DF, p-value: 6.891e-10 >cor(v,d) [1] 0.7676052 > cor.test(v,d) Pearson’s product-moment correlation data: v and d t = 4.9381, df = 17, p-value = 0.0001248 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4811509 0.9059515 sample estimates: cor 0.7676052 En base a las tablas anteriores responde las siguientes preguntas: 11 1) Señala en los resultados la estimación de todos los parámetros desconocidos de los dos modelos. >Cuál es el significado de β̂1 en el segundo modelo? Es la estimación de la pendiente de la recta, de modo que corresponde a la estimación de la constante de Hubble. De este modo, estamos estimando h con 76.98. 2) Utiliza los resultados obtenidos para estimar la edad del universo. De acuerdo con el enunciado, la edad del universo está dada por 1/h, tenemos que poner todas las cantidades en las mismas unidades, teniendo en cuenta que 1 parsec=3.26 años luz, un año luz son 9454254955488 km, de modo que 1 parsec son 3,082087 × 101 3km. Un Megaparsec entonces equivale a 3,082087 × 101 9 km. Además, un año tiene 525600 segundos Entonces, 3,08 × 101 9 3,08 × 101 9 sec = = 7,612327105 millones de años. 76,98 76,98 ∗ 525600 3) Di cuales son las hipótesis del test realizado con la función cor.test. Con qué test de los obtenidos con la función summary coincide el resultado? Es esta coincidencia casual o no? Interpreta el resultado del test. La hipótesis nula es H0 : ρ = 0 contra la alternativa ρ 6= 0, donde ρ es el coeficiente de correlación entre las variables v y d. c) Se quiere comprobar la suposición de Hubble sobre la constante hu , esto es, que su valor es 75 km/seg/M pc. Teniendo en cuenta los siguientes resultados > 3.08*10^19/(76.98*525600) [1] 761232730397 > 3.08/76.98 [1] 0.04001039 > 0.04001039/525600 [1] 7.612327e-08 > 3.08e19/(76.98*525600) [1] 761232730397 > > (23.55-75)/14.78 [1] -3.481055 > (60.46-75)/12.24 [1] -1.187908 > (76.98-75)/6.54 [1] 0.3027523 > (76.98-75)/34.88 [1] 0.05676606 > qt(c(0.995,0.99,0.975,0.95,0.90,0.1,0.05,0.025,0.01,0.005),17) [1] 2.898231 2.566934 2.109816 [8] -2.109816 -2.566934 -2.898231 12 1.739607 1.333379 -1.333379 -1.739607 > qt(c(0.995,0.99,0.975,0.95,0.90,0.1,0.05,0.025,0.01,0.005),18) [1] 2.878440 2.552380 2.100922 1.734064 1.330391 -1.330391 -1.734064 [8] -2.100922 -2.552380 -2.878440 1) Enuncia las hipótesis del test que habría que realizar para comprobar esta suposición. 2) ¿Cuál es el valor observado del estadístico de contraste de este test? 3) Interpreta el resultado del test. En el segundo modelo, v = β1 d, hay que probar H0 : beta1 = 75 contra β1 > 75 4) Teniendo en cuenta los resultados anteriores construye la región crítica de nivel 0,01 para este test. Rechazaremos H0 si el valor observado de β̂1 − 75 76,98 − 75 = = 0,3027523 se(β1 ) 6,54 es mayor que qt(0.99,18)=2.55. Como no lo es, no rechazamos H0 y asumimos que la suposición de Hubble es correcta. (Nota: en realidad con instrumentos de precisión se ha mostrado que el valor de la constante es 77). 13