Probabilidad y Estadística (I.I.) Tema 8 Tema 8 REGRESION Y CORRELACION 1.- Introducción al problema de la regresión: En la práctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una única variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada (independientes) X1, X2, ..., Xk, que pueden o no estar controladas por el investigador, aunque lo más común es que estén perfectamente controladas y por tanto no puedan considerarse del todo aleatorias y no tengan propiedades distribucionales. Dada esta situación el problema de la regresión consiste en encontrar una relación entre la variable dependiente Y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relación que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir valores de Y, a partir de los valores de Xi. Según que la variable de salida dependa de una o varias variables de entrada, hablaremos de regresión SIMPLE (la que vamos a tratar nosotros) o regresión MULTIPLE respectivamente. Además podemos distinguir, dependiendo de la forma que presente la función que relaciona las variables, entre regresión LINEAL (la función es una recta), regresión PARABÓLICA, regresión HIPERBÓLICA, etc ... En el análisis de regresión deberemos contemplar los siguientes cuatro aspectos: Determinar interrelación entre variables (test de independencia, etc ...) Determinar tipo de función matemática que relaciona óptimamente las variables (representación gráfica). Calcular parámetros de dicha función matemática y determinar bondad de ajuste. Realizar predicciones de la variable dependiente a partir de la independiente. 2.- Regresión simple: En este caso concreto, consideramos la existencia de una única variable de predicción X. Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las cuales se han observado bajo unas condiciones experimentales que representan los valores de la variable de predicción X: x1, x2, ... xn Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y varíen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por µY/x y σ2Y/x, respectivamente. Ejemplo: Dosis inicial de droga (X) 0.05 0.05 0.05 0.10 0.10 0.20 Cantidad de droga a los 5 minutos (Y) 0.01 0.02 0.00 0.05 0.01 0.15 1 Probabilidad y Estadística (I.I.) Tema 8 Supongamos que se administra una cantidad X=x de droga. ¿Cuál será la predicción óptima del valor que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (µY/x). Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para cada valor de x existe una distribución de cantidad de droga a los 5 minutos y lo que se busca es la media de esa distribución, dado x. Es importante hacer notar que en la regresión sólo puede asociarse un valor de Y con uno de predicción x; no es posible establecer una relación causa-efecto entre las Y y las x, ya que un cambio en las x no causará uno correspondiente en la variable respuesta. De manera obvia, existe una relación entre la altura y el peso de una persona, pero ¿implica esta relación que pueda cambiar la altura de las personas si se modifica su peso?. El interés recae en determinar una función matemática sencilla f(x) = µY/x, por ejemplo un polinomio, que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la función que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta. El primer paso que daremos será determinar el modelo o función matemática que se va a utilizar. Un procedimiento sencillo para seleccionar el modelo de regresión a utilizar, consiste en graficar la variable respuesta contra la variable de predicción. Si la gráfica revela una tendencia lineal, deberá suponerse un modelo de regresión lineal. Aplicar regresión LINEAL Aplicar regresión EXPONENCIAL El lugar geométrico de los puntos (x, µY/x)) recibe el nombre de curva de regresión poblacional, y no es más que la representación gráfica de la función f(x) que aproxima a la relación entre las variables. Estas curvas de regresión son curvas de predicción ideales, que usualmente no conocemos. Obsérvese que µY/x es un parámetro, la media de la v. a. Y/x que, en principio habría que estimar a partir de los datos muestrales de que disponemos. Y µy/x=α+βx x1 x2 x3 x4 2 x5 x6 Probabilidad y Estadística (I.I.) Tema 8 Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parámetros que intervienen en el mismo. La REGRESIÓN LINEAL SIMPLE implica que µY/x está linealmente relacionado con x por la ecuación de regresión lineal poblacional donde los coeficientes de regresión α y β son parámetros que deben estimarse a partir de los datos muestrales: µY/x = α + βx con α y β ∈ R y β≠0 Lo que sí podemos conocer a partir de los datos muestrales es la ecuación de regresión lineal ajustada, que es el resultado de estimar los parámetros de la expresión anterior, donde las estimaciones a y b representan la intersección y la pendiente de y respectivamente: µˆ Y/x= αˆ + βˆx llamando yˆ =µˆ Y/x yˆ = a + bx b = βˆ a = αˆ Un conjunto de datos podrá dar evidencia de linealidad sobre los valores de x cubiertos por dicho conjunto. Para valores de X más allá de la zona cubierta por los datos no tendremos nunca evidencia de linealidad. No se debe usar nunca la recta de regresión ajustada para predecir valores de Y correspondientes a valores de X fuera del rango cubierto por los datos. Una técnica muy aceptable para estimar los parámetros de la ecuación es el método de los mínimos cuadrados, que pasamos a estudiar. 3.- Método de los mínimos cuadrados: Al utilizar el modelo de regresión lineal, hemos definido cada variable aleatoria Yi=Y/xi de la siguiente forma: Yi = µY/xi + Ei = α + βxi + Ei donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que para cada observación yi de Yi, (xi,yi), toma un valor εi Cuando usamos la línea de regresión ajustada yˆ = a + bx cada par de observaciones (xi,yi) satisface: yˆ i = a + bxi + ei donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de los datos y el valor ajustado mediante la recta de regresión, ei = y i − yˆ i ) Dibujando sobre el diagrama de dispersión las líneas de regresión real y ajustada y los dos tipos de errores, obtenemos: Y (xi,yi) y=a+bx ei εi µy/x=α+•x x 3 Probabilidad y Estadística (I.I.) Tema 8 Se encontrarán a y b, estimaciones de α y β, de tal forma que la suma de los cuadrados de los residuos sea mínima. Con frecuencia, la suma de los cuadrados de los residuos recibe el nombre de suma de los cuadrados de los errores alrededor de la línea de regresión y se representa por SSE. Este procedimiento de minimización para estimar los parámetros se llama método de los mínimos cuadrados. Siendo {(xi,,yi ), i = 1,2, ..., n} la nube de puntos observada. Se encontrarán a y b con objeto de minimizar: 2 2 SSE = ∑in=1ei 2= ∑in=1 ( y i - yˆ i ) = ∑in=1 ( y i - a - b xi ) Diferenciando SSE con respecto a a y b, se tiene: ∂SSE = -2 ∑in=1( yi - a - b xi ) xi ∂b ∂SSE = -2 ∑in=1( y i - a - b xi ) ∂a Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las ecuaciones siguientes (llamadas ecuaciones normales): na + b ∑in=1 xi= ∑in=1 yi a ∑in=1 xi+b ∑in=1 xi 2 = ∑in=1 xi y i las cuales se pueden resolver simultáneamente (por Cramer) para dar las fórmulas de cálculo de a y b: n ∑in=1 xi y i -( ∑in=1 xi )( ∑in=1 yi ) ˆ β =b= n ∑in=1 xi 2 -( ∑in=1 xi )2 n n ∑ y -b ∑i=1 xi αˆ = a = i=1 i = y - bx n 4.- Propiedades de los estimadores de mínimos cuadrados: Partimos de un conjunto de datos: X Y x1 Y1 x2 Y2 ... ... xn Yn donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: µ Y/xi = α + βxi que se estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parámetros α y β. Además de estimar la relación lineal entre x e y para propósitos de predicción, se puede también estar interesado en la realización de inferencias acerca de su pendiente y el punto de intersección. Para realizar pruebas de hipótesis y la determinación de intervalos de confianza de α y β, se debe hacer la suposición adicional de que cada Yi está normalmente distribuida, son todas independientes y 4 Probabilidad y Estadística (I.I.) Tema 8 su varianza es la misma para todas y viene dada por σ2. Por tanto: Yi≈ N( µ Y/xi = α + βxi , σ2 ) Una estimación insesgada de esta varianza σ2 viene dada por: SSE S yy - b S xy = n-2 n-2 SSE por tanto s = n-2 σ̂ 2 = s 2 = donde: SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresión estimada. SSE = ∑in=1( y i - a - b xi )2 como a = y - b x SSE = ∑in=1( y i - ( y - b x ) - b xi )2 SSE = ∑in=1( y i - y )2 -2b ∑in=1( xi - x )( y i - y )+ b2 ∑in=1( xi - x )2 SSE = S yy - 2b S xy + b2 S xx SSE = S yy - b S xy 2 n S xx = ∑i=1( xi - x ) Sxx es una medida de la variabilidad de x y viene dada por: 2 n S yy = ∑i=1( yi - y ) Syy es una medida de la variabilidad de y y viene dada por: Sxy es una medida de la variabilidad conjunta de x e y y viene dada por: n S xy = ∑i=1( xi - x )( yi - y ) La b de la ecuación de la recta de regresión ajustada podría entonces ponerse en función de Sxy y Sxx como: b= S xy S xx Bajo estas suposiciones de independencia, normalidad y homocedasticidad del modelo, t b = se cumple que los estadísticos: b-β s a -α ta = s S xx n 2 xi ∑ n S xx i =1 se distribuyen aproximadamente según una t de Student con n-2 grados de libertad. Intervalo de Confianza para β Un intervalo de confianza del (1 - α) 100% para el parámetro β en la línea de regresión µ Y/xi = α + βxi es: b- tα/2 s S xx < β <b+ tα/2 s S xx donde tα/2 es un valor de la distribución t con n-2 grados de libertad, que deja a su derecha una 5 Probabilidad y Estadística (I.I.) Tema 8 probabilidad α/2. Contraste de Hipótesis β = β0 Para probar la hipótesis nula H0 de que β = β0 en contra de la alternativa apropiada, de nuevo se utiliza la distribución t con n-2 grados de libertad para establecer la región crítica. H0 : β = β0 H1 : β ≠ β0 tb = H0 : β ≤ β0 H1 : β > β0 H0 : β ≥ β0 H1 : β < β0 R.C. = {tb / | tb |> tα/2 , n − 2} b - β0 s R.C. = {tb / tb > tα , n − 2} R.C. = {tb / tb < − tα , n − 2} S xx Intervalo de Confianza para α Un intervalo de confianza del (1-α) 100% para el parámetro α en la línea de regresión µ es: n a- 2 n tα/2 s ∑i=1 xi tα/2 s ∑i=1 xi <α < a + n S xx n S xx Y/xi = α + βxi 2 donde tα/2 es un valor de la distribución t con n-2 grados de libertad. NOTA: El α del nivel de significación y el α del parámetro de la línea de regresión son diferentes. Contraste de Hipótesis α = α0 Para probar la hipótesis nula H0 de que α = α0 en contra de la alternativa apropiada, de nuevo se utiliza la distribución t con n-2 grados de libertad para establecer la región crítica. H 0 :α = α 0 H 1 :α ≠ α 0 ta = a -α0 2 s ∑in=1 xi n S xx H 0 :α ≤ α 0 H 1 :α > α 0 H 0 :α ≥ α 0 H 1 :α < α 0 R.C. = {t a / | t a |> tα/2 , n − 2} R.C. = {t a / t a > tα , n − 2} R.C. = {t a / t a < − tα , n − 2} 5.- Predicción: La ecuación y = a + b x puede utilizarse para pronosticar o predecir la respuesta media µY/x0 en x = x0, donde x0 no es necesariamente uno de los valores preseleccionados, o puede utilizarse para predecir un valor sencillo y0 de la variable Y0 cuando x = x0. Esto es, si X es el peso humano, e Y es la estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media verdadera de estatura de los humanos µY/x0 en un peso elegido x0=70 kg; o bien podemos estar interesados en un intervalo de confianza sobre una estatura individual Y0 en un peso elegido x0 = 70 kg. Se esperaría que el error de predicción fuera más grande cuando se pronostica un valor que cuando se predice una media. Esto afectará la amplitud de los intervalos para los valores que se pronostican. 6 Probabilidad y Estadística (I.I.) Tema 8 Por tanto, lo que en estimación puntual se hacía igual para ambos casos, en estimación por intervalos, da lugar a dos intervalos diferentes. Intervalo de Confianza de µY/x0 Un intervalo de confianza del (1-α) 100% para la respuesta media µY/x0 es: 2 2 1 ( x0 - x ) 1 ( x0 - x ) + < µ Y < yˆ 0 + tα/2 s + yˆ 0 - tα/2 s n n x0 S xx S xx donde tα/2 es un valor de la distribución t con n-2 grados de libertad. Intervalo de Predicción para Y0 Un intervalo de predicción del (1-α) 100% para una sola respuesta y0 es: 2 2 1 ( -x) 1 ( -x) < µ Y < yˆ 0 + tα/2 s 1 + + x0 yˆ 0 - tα/2 s 1 + + x0 n n x0 S xx S xx donde tα/2 es un valor de la distribución t con n-2 grados de libertad. 6.- Evaluación de la intensidad de la relación lineal Hasta ahora el método que teníamos de saber cuándo era conveniente suponer que la relación entre las variables era lineal, era sólo mediante el diagrama de dispersión. Pero ya en su momento habíamos comentado que este argumento era muy débil y que existían otros métodos de saberlo. Básicamente son dos los métodos de averiguarlo. Método del Análisis de la Varianza Es un procedimiento que subdivide la variación total de la variable dependiente Y en sus componentes más significativas. Supóngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la línea de regresión ajustada. Habíamos obtenido SSE = Syy - b Sxy, de donde: Syy = b Sxy + SSE o bien, haciendo SST = Syy SSR = b Sxy tenemos: SST = SSR + SSE Hemos descompuesto la variación total de la variable dependiente en dos componentes más significativas para el experimentador. SST = Suma total corregida de los cuadrados SSR = Suma de los cuadrados de regresión. Refleja la cantidad de variación de los valores de y explicados por el modelo, por la línea recta en este caso. SSE = Suma de los cuadrados del error residual. Refleja la variación alrededor de la línea de regresión. Inexplicada por la recta de regresión. Estamos entonces interesados en probar la hipótesis: La hipótesis nula afirma que el modelo es H0 : β = 0 H1 : β ≠ 0 µY/x = α, es decir, que las variaciones de y son 7 Probabilidad y Estadística (I.I.) Tema 8 independientes de los valores de x y totalmente aleatorias. La hipótesis alternativa afirma, en cambio, que una porción significativa de la variación de y se explica mediante el modelo de regresión lineal de y sobre x. Bajo las condiciones de la hipótesis nula, puede demostrarse que SSR/σ2 y SSE/σ2 son valores de variables independientes χ2 con 1 y n-2 grados de libertad respectivamente, y SST/σ2 también es un valor de variable χ2 con n-1 grados de libertad. Para probar la hipótesis nula se usa el estadístico: SSR SSR MSR SSR σ f= = 1 = = 2 SSE SSE MSE s : (n − 2) (n − 2) σ2 2 :1 y se rechaza H0 con un nivel de significación α cuando f > F α , (1, n-2). Análisis de la varianza para probar β = 0 Fuente de variación Suma de cuadrados Grados de libertad Regresión SSR = b Sxy Error SSE = Syy - b Sxy n-2 Total SST = Syy n-1 1 Cuadrados medios Estadístico calculado MSR = SSR/1 MSE = SSE/n-2 f = MSR/MSE Región Crítica = [ F(1, n-2), α, +∞) Método del Coeficiente de Determinación Este método consiste en calcular un estadístico, cuyo valor nos indicará si se puede considerar aceptable o no el modelo de regresión lineal. Por estar basado en el coeficiente de correlación empezaremos explicando la CORRELACION. El análisis de CORRELACION intenta medir la fuerza de la relación lineal entre dos variables, por medio de un simple número que recibe el nombre de coeficiente de correlación de Pearson, y viene dado por: ρ xy = cov(X,Y) cov(X,Y) = VAR(X)VAR(Y) σ xσ y donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y] Si valores pequeños de x están asociados a valores pequeños de y, y valores grandes de x están asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrán el mismo signo, y por tanto (X - E[X]) (Y - E[Y]) >0 ⇒ cov(X,Y) >0 Análogamente si valores pequeños de x están asociados a valores grandes de y, y valores grandes de x están asociados a valores pequeños de y, entonces (X - E[X]) y (Y - E[Y]) tendrán distinto signo, y por tanto (X - E[X]) (Y - E[Y]) <0 ⇒ cov(X,Y) <0 Este estadístico sólo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar 8 Probabilidad y Estadística (I.I.) Tema 8 ( |ρxy| ≤ 1). El valor del coeficiente de correlación poblacional ρxy es cero cuando β = 0, lo cual ocurre esencialmente cuando no hay regresión lineal, es decir, la recta de regresión es horizontal y cualquier conocimiento de X no es útil para predecir Y. Los valores de ρxy = ± 1 sólo ocurren cuando se tiene una regresión lineal perfecta entre las dos variables. Entonces, un valor ρxy = +1 implica una relación lineal perfecta con una pendiente positiva, mientras que un valor de ρxy = -1 resulta en una relación lineal perfecta con una pendiente negativa. Valores de ρxy cercanos a la unidad en magnitud, implican buena correlación o asociación lineal entre X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlación (que no es lo mismo que que las variables sean independientes). ρxy = 0 ⇔ X, Y están incorreladas, que no implica que X e Y sean independientes. ρxy = 0 X,Y incorreladas: puntos al azar ρxy = 0 X,Y incorreladas: relacionadas no linealmente ρxy = +1 ρxy = -1 Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parámetros poblacionales que serán, en general, desconocidos y habrá que estimarlos, con lo que tampoco conoceremos el valor de ρxy, sino el de su estimación: ρ̂ xy = rxy cˆov(x, y) = E [X .Y ] − E [ X ]E [Y ] cˆov(x, y) = cˆov(x, y) = 1 n 1 n 1 n y xi ∑ y i ∑ xi i n ∑ n i =1 i =1 n i =1 n n n i =1 i =1 2 i =1 n ∑ xi y i - ∑ x i ∑ y i n 9 = S xy n Probabilidad y Estadística (I.I.) Tema 8 1 n 2 1 n 2 2 ˆ = V (x) = xi ˆ σ x ∑ xi - n ∑ n i =1 i =1 1 n 2 1 n 2 2 ˆ = V (y) = ˆ σ y ∑ y - ∑ yi n i =1 i n i =1 2 n n∑ x - ∑ xi i =1 i =1 = S xx σˆ 2 x = 2 n n n 2 n n∑ y - ∑ yi i =1 i =1 = S yy σˆ 2 y = 2 n n n 2 i S xy ρ̂ xy = r xy = S xx S yy =b 2 i S xx S yy donde rxy es el coeficiente de correlación muestral, que tiene el mismo signo que b, es decir, una correlación positiva (negativa) implica una recta de regresión con pendiente positiva (negativa) y viceversa. Una vez conocido esto, podemos calcular: 2 2 xy r = S xy S xx S yy = SSR S yy que recibe el nombre de coeficiente de determinación muestral y representa la proporción de la variación de Syy explicada por la regresión de Y en X, es decir, SSR. SSE = S yy - b S xy SSE S yy SSE = 1- b S xy S xy como b = S yy S xx 2 S xy = 1 - r 2xy S yy S xx S yy SSE S yy - SSE SSR 2 = = r xy = 1 S yy S yy S yy = 1- r2xy * 100 % es el porcentaje de la variación total de Y que puede ser explicado por la recta de regresión o que es atribuible a la relación lineal entre X e Y. Un valor de r2xy = 0.89, indica que aproximadamente el 89% de la variación de los valores de Y se deben a una relación lineal con X. Se puede realizar otro contraste de hipótesis equivalente al de β = 0 con el coeficiente de correlación, para ver si es apropiado el método de regresión lineal. H0: ρxy = 0 (No es buena la regresión lineal) H1: ρxy ≠ 0 El estadístico del contraste es: t= r xy n - 2 1- r 2 xy siendo R.C. : t / | t |> t α , n − 2 2 que bajo H0, sigue una distribución t de Student con n - 2 grados de libertad. 10 Probabilidad y Estadística (I.I.) Tema 8 EJERCICIO EJEMPLO Estamos midiendo la relación entre la altura (X) y la longitud (Y) de la concha de cierta especie de lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares de mediciones como estas: X 0.9 1.5 ... 2.7 Y 3.1 3.6 ... 6.3 cuyas sumatorias son las siguientes: n ∑i=1 xi= 56.5 2 n ∑i=1 xi = 117.68 n ∑i=1 yi= 151.1 2 n ∑i=1 xi y i= 311.96 n ∑i=1 yi = 832.85 n = 28 Se pide calcular: a) Coeficiente de correlación y recta de regresión de Y sobre X b) ¿Es válido el modelo lineal?. Justificar la respuesta. c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2. d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2. NOTA: Para los intervalos de confianza, tómese α = 0.01 SOLUCION a) 2 2 n ∑in=1 xi2-( ∑in=1 xi ) 28(117.68) - (56.5 ) = = 3.6711 28 n n ∑in=1 y i2-( ∑in=1 yi )2 28(832.85) - (151.1 )2 = = 17.4496 S yy = 28 n n ∑in=1 xi y i -( ∑in=1 xi )( ∑in=1 yi ) 28(311.96) - (56.5)(151.1) = = 7.0618 S xy = n 28 S xy b = βˆ = = 1.9236 S xy = 0.8823 r xy = S xx S S xx yy n n ∑ y ∑ x 2 a = αˆ = y - b x = i=1 i - b i=1 i = 1.5148 r xy = 0.7785 n n yˆ = a + bx = 1.5148 + 1.9236 x S xx = Luego el 77.85% de la variación de Y puede ser atribuida a su asociación lineal creciente (rxy > 0) con X b) La cuestión que se nos plantea en este apartado es ¿Es suficiente la cantidad r2xy obtenida en el apartado anterior?. Para averiguarlo realizamos el contraste: H0: β = 0 H1: β ≠ 0 para el que se realiza el siguiente análisis de la varianza: 11 Probabilidad y Estadística (I.I.) Tema 8 Análisis de la varianza para probar β = 0 Fuente de variación Suma de cuadrados Grados libertad Cuadrados medios Regresión SSR = bSxy = 13.5843 Error SSE = Syy - bSxy= 3.8654 n-2 = 26 Total SST = Syy= 17.4496 n-1= 27 1 MSR = SSR/1 = 13.5843 Estadístico calculado f =MSR/MSE f = 91.35 MSE = SSE/26 = 0.1487 R.C = [ F (1, 26) ,0.05 , +∞) = [4.23, +∞) como 91.35 cae dentro de la región crítica, se rechaza H0, por lo que se acepta como válido el modelo lineal. Otro contraste equivalente que podía haberse realizado es: H0: ρxy = 0 (no es válido) H1: ρxy ≠ 0 (es válido) t n-2 = r xy n - 2 0.8823 26 = = 4.499 = 9.56 0.4706 1 - 0.7785 1 - r2 R.C : t / | t |> t n- 2,α = {t / | t |> t 26,0.025}= {t / | t |> 2.056} { 2 } 9.56 pertenece a la región crítica, luego se rechaza H0 y se considera válido el modelo lineal. c) 2 1 ( x0 - x ) I µ y/ x0 ,α = yˆ 0 ± t n- 2,α s + 2 n S xx t n- 2, α = t 26,0.05 = 1.706 2 x0 = 2 t n- 2,α s 2 2 1 ( x0 - x ) = 1.706 * 0.3856 * 0.1892 = 0.1245 + n S xx yˆ 0 = 1.5148 + 1.9236 * 2 = 5.362 SSE 3.8654 = = 0.1487 s = 0.3856 n-2 26 ( x0 - x )2 2 = 0.000088 ( x0 - x ) = 0.000324 S xx I µ y/ x0 ,0.1 = [5.2375, 5.4865] x = 2.018 s 2 = 12 Probabilidad y Estadística (I.I.) Tema 8 d) 2 1 ( x0 - x ) α I y0 ,α = yˆ 0 ± t n- 2, s 1 + + 2 n S xx t n- 2,α = t 26,0.025 = 2.056 2 2 α t n- 2, 2 1 (x - x) s 1+ + 0 = 2.0566 * 0.3856 * 1.0177 = 0.807 n S xx para α = 95% I y0 ,0.05 = [4.555, 6.169] 2 1 (x - x) I y0 ,α = yˆ 0 ± t n- 2,α s 1 + + 0 2 n S xx t n- 2,α = t 26,0.05 = 1.706 2 2 1 ( x0 - x ) = 1.706 * 0.3856 * 1.0177 = 0.6695 t n- 2,α s 1 + + 2 n S xx para α = 90% I y0 ,0.1 = [4.6925, 6.032] 13