Este documento es de distribución gratuita y llega gracias a “Ciencia Matemática” www.cienciamatematica.com El mayor portal de recursos educativos a tu servicio! Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas INSTITUTO TECNOLÓGICO DE APIZACO DEPARTAMENTO DE CIENCIAS BÁSICAS www.itapizaco.edu.mx/~cbasicas ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración) M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ www.itapizaco.edu.mx/~joseluis (~ alt 126) Enviar las tareas al correo: tareasjlhg@yahoo.com Alum.:____________________________________________ No. Lista: _________ Apizaco Tlax., Agosto/Diciembre 2007 Estadística II (Lic. en Administración) pag. 1 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración) OBJETIVO GENERAL DEL CURSO. Analizará y aplicará conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia. 1 Pruebas de Hipótesis 1.1 Hipótesis estadísticas. Conceptos generales 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida utilizando la distribución normal y “t” student 1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y “t” student. 1.6 Una muestra: prueba sobre una sola proporción 1.7 Dos muestras: prueba sobre dos proporciones 1.8 Dos muestras: pruebas pareadas 2 Pruebas de la bondad del ajuste y análisis de varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Paquete computacional 3 Análisis de regresión, correlación lineal simple y múltiple 3.1 Estimación mediante la línea de regresión 3.1.1 Diagrama de dispersión 3.1.2 Método de mínimos cuadrados 3.1.3 Interpretación del error estándar de la estimación 3.1.4 Intervalos de predicción aproximados 3.1.5 Análisis de correlación 3.1.6 Paquete computacional para la solución de problemas 3.1.7 Regresión múltiple y análisis de correlación 3.1.8 Usos de variables ficticias 3.1.9 Residuales y gráficas de residuales 3.1.10 Interpretación del intervalo de confianza. 3.1.11 Uso del coeficiente de determinación múltiple 3.1.12 Paquete computacional para la solución de problemas. Estadística II (Lic. en Administración) pag. 2 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas 4 Series de tiempo 4.1 Modelo clásico de series de tiempo 4.2 Análisis de tendencia 4.3 Análisis de variaciones cíclicas 4.4 Medición de variaciones estacionales 4.5 Aplicación de ajustes estacionales 4.6 Pronósticos basados en factores de tendencia y estacionales 4.7 Pronósticos, ciclos e indicadores económicos 4.8 Promedios móviles 4.9 Suavización exponencial como pronóstico 4.10 Aplicaciones del paquete computacional 5 Estadística no paramétrica. 5.1 Escala de medición 5.2 Métodos estadísticos contra no paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Kruskal-Wallis 5.10 Aplicaciones del paquete computacional Estadística II (Lic. en Administración) pag. 3 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas PRUEBAS DE HIPÓTESIS. Dentro de la inferencia estadística se encuentra la prueba de hipótesis, cuyo objetivo es probar o comprobar si la afirmación que se hace sobre un parámetro poblacional basado en conclusiones obtenidas de una muestra es correcta o incorrecta. Hipótesis estadística. Es una proposición o suposición que se hace sobre los parámetros de una distribución de probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo que se puede aceptar o rechazar. Prueba de hipótesis estadística. Es el procedimiento empleado para decidir si se acepta o se rechaza por su veracidad o falsedad, una hipótesis estadística también se le conoce como “ensayos de significación”, “reglas de decisión” ó “contraste de hipótesis”. Su objetivo es evaluar proposiciones o afirmaciones que se hacen acerca de los parámetros poblacionales basados en estadísticos muestrales con un grado o nivel de significancia determinado. Hipótesis nula e hipótesis alternativa. En una prueba de hipótesis de significación se plantean dos tipos de hipótesis excluyentes, llamadas hipótesis nula e hipótesis alternativa. La hipótesis nula expresa que una proposición es verdadera, mientras que la hipótesis alternativa afirma que es falsa ó viceversa. Ho = hipótesis nula H1 = hipótesis alternativa Ejemplos: Ho µ = 1.68 H1 H1 H1 µ ≠ 1.68 µ < 1.68 µ > 1.68 Ho µ = 4200 H1 H1 H1 µ > 4200 µ < 4200 µ ≠ 4200 Estadística II (Lic. en Administración) pag. 6 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas Errores tipo I y tipo II. En el proceso de emplear una muestra para formar una decisión poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al rechazar una hipótesis verdadera o al aceptar una hipótesis falsa; estas equivocaciones se conocen como: a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser verdadera debería ser aceptada. b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa debería ser rechazada. Aprobarlo Repobarlo Buen estudiante Decisión correcta Error tipo I Mal estudiante Error tipo II Decisión correcta Nivel de significancia y nivel de confianza. El nivel de significancia se refiere a la probabilidad α de cometer error tipo I, es decir, rechazar una hipótesis verdadera. El nivel de confianza se refiere a la probabilidad 1- α de aceptar una hipótesis verdadera. H0 verdadera H1 falsa Se acepta Ho Decisión correcta (1 – α) Error tipo II (β) Se rechaza Ho Error tipo I (α) Decisión correcta (1 – β) Procedimiento para realizar una prueba de hipótesis. 1.- Del fenómeno estadístico a probar. Se establecen las hipótesis nula Ho, y la hipótesis alternativa H1. 2.- Se especifica la probabilidad del error tipo I (α) como nivel de significancia y 1 – α como nivel de confianza. 3.- Se selecciona el tamaño de la muestra, la función de distribución de probabilidad y el estadístico muestral que sirva de base para la regla de decisión conocido como estadístico de prueba. 4.- Se determinan los valores críticos que limita la región de aceptación de la región de rechazo (que dependerá del valor de α y de la hipótesis alternativa). Estadística II (Lic. en Administración) pag. 7 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas 5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos Ho, debido a que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta o verdadera, es tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a deducir que Ho es falsa. 6.- Dar conclusión acerca del problema y/o formar una decisión. Hipótesis unilateral y bilateral. Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan unilaterales o de una cola; en el segundo caso se conoce como bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única a un lado de la distribución con un área determinada por el valor de α. En las bilaterales la región de rechazo el área se determina dividiendo el nivel de significancia en dos partes iguales. BILATERAL ≠ Zona de aceptación Zona de rechazo Zona de rechazo α/2 α/2 1−α UNILATERAL > Zona de aceptación Zona de rechazo 1−α α UNILATERAL < Zona de rechazo Zona de aceptación α Estadística II (Lic. en Administración) 1−α pag. 8 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas Estadístico de prueba H0 Distribución normal µ = µ0 z= x −µ σ n Distribución t µ = µ0 t= x −µ ;v = n – 1 s n Distribución normal µ1 – µ2 = d0 σ1 y σ2 conocidas z= Distribución t µ1 – µ2 = d0 σ1 = σ2 desconocidas t= (x 1 − x 2 ) − d 0 sp Distribución t µ1 – µ2 = d0 σ1 ≠ σ2 desconocidas t= 1 1 + n1 n 2 z= ;v = 2 2 2 s 12 s 22 n n 1 2 + n1 −1 n 2 −1 np 0 (1 − p 0 ) (p̂ 1 − p̂ 2 ) 1 1 p̂q̂ + n1 n 2 ; p̂ = x1 + x 2 n1 + n 2 (n − 1)s 2 σ2 f= pag. 9 s 12 s 22 + n 1 n2 x − np 0 χ2 = Distribución F σ1 = σ2 Estadística II (Lic. en Administración) (n 1 − 1)s 12 + (n 2 − 1)s 22 ;s = n1 + n 2 − 2 2 p s 12 s 22 + n1 n 2 z= Distribución χ2 σ = σ0 σ12 σ 22 + n1 n 2 (x 1 − x 2 ) − d 0 Distribución normal p = p0 Distribución normal p1 = p 2 (x 1 − x 2 ) − d 0 s 12 s 22 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas ANÁLISIS DE REGRESIÓN E INTERPOLACIÓN Las funciones que representan un conjunto de datos pueden ser o no polinomiales. Los métodos más utilizados para ajustar curvas a un conjunto de puntos son: a) Interpolación polinomial. Consiste en encontrar una función que pase exactamente a través de cada uno de los puntos. b) Análisis de regresión. Consiste en encontrar una función que se ajuste a los puntos pero no necesariamente pase a través de ellos. a) b) ANÁLISIS DE REGRESIÓN Y CORRELACIÓN El análisis de regresión trata de establecer una relación funcional entre variables y proporciona un mecanismo de predicción o pronostico y en realidad lo que se requiere es estimar: µ y|x = α + β x Las relaciones que se pueden establecer dependiendo del número de variables independientes x son: Análisis de regresión simple. Se establece cuando la variable dependiente y esta en función de una única variable independiente x. y = f(x) Análisis de regresión múltiple. Se establece cuando la variable dependiente y, se determinan o esta en función de más de una variable dependiente x. y = f(x1, x2, ..., xn) Para el caso de regresión lineal simple tenemos que Ŷ = a + bx Donde Ŷ se conoce como y estimada, por simplicidad escribiremos: y = a + bx Estadística II (Lic. en Administración) pag. 10 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas DIAGRAMA DE DISPERSIÓN Es la grafica que representa un conjunto de pares ordenados o datos observados y que describe la relación que existe entre ellos. y x ANÁLISIS DE REGRESIÓN Las funciones matemáticas empleadas son las siguientes. 1. Función lineal y = a + bx y x 2. Función cuadrática y = a + bx + cx2 y x ANÁLISIS DE REGRESIÓN LINEAL Una vez elegida la función matemática que mejor represente al fenómeno, se requiere de un método estadístico para estimar los parámetros o valores numéricos que ponderen la relación entre variables, existen varios métodos pero el mejor es el de mínimos cuadrados. El modelo matemático más simple de una aproximación por mínimos cuadrados, es el ajuste de una línea recta a un conjunto de pares ordenados (x, y). y y = a + bx + e e x Estadística II (Lic. en Administración) pag. 11 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas Para obtener la mejor línea a través de los datos se debe minimizar la suma de los errores residuales al cuadrado. e = y – a – bx Sr = e 2 Sr = ∑ ( y − a − bx ) 2 derivando respecto a a y respecto a b ∂Sr = −2∑ ( y − a − bx ) ∂a ∂Sr = −2∑ ( y − a − bx ) x ∂b Hay un mínimo o máximo igualando las dos ecuaciones a cero. ∑ a + ∑ bx − ∑ y = 0 ∑ ax + ∑ bx − ∑ yx = 0 2 si ∑ a = na na + ∑ xb = ∑ y ∑ xa + ∑ x 2 b = ∑ xy es decir n ∑ x ∑ x a = ∑ y ∑ x b ∑ xy 2 Resolviendo el sistema de ecuaciones ∑ y∑ x − ∑ x ∑ xy a= n ∑ x − (∑ x ) 2 2 b= 2 n ∑ xy − ∑ x ∑ y n ∑ x 2 − (∑ x ) 2 Para la inferencia también es necesario calcular: Estadística II (Lic. en Administración) pag. 12 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco n S xx = ∑ ( x i − x ) = ∑ 2 (∑ x ) x− 2 n i =1 n S yy = ∑ ( y i − y) = ∑ 2 (∑ y) y− i =1 2 n n (∑ x )(∑ y) i =1 n S xy = ∑ ( x i − x )( y i − y) = ∑ xy − b= Departamento de Ciencias Básicas S xy S xx SSE ( y − ŷ) 2 S yy − bS xy S = =∑ = Estimador insesgado de la varianza n−2 n−2 n−2 2 Ejemplo: Realizar el ajuste lineal para el siguiente conjunto de datos. x -2 -1 0 1 2 x -2 -1 0 1 2 0 y 13 24 39 65 106 247 y 13 24 39 65 106 x2 4 1 0 1 4 10 y2 169 576 1521 4225 11236 17727 xy -26 -24 0 65 212 227 Cálculo de los coeficientes a y b. a= Estadística II (Lic. en Administración) ( 247)(10) − (0)( 227 ) 2470 = = 49.4 50 (5)(10) − (0) 2 pag. 13 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco b= Departamento de Ciencias Básicas (5)( 227 ) − (0)( 227) 1135 = = 22.7 50 (5)(10) − (0) 2 y = 49.4 + 22.7 x Calcular el valor de y para cuando x = 1.5. Cuando x = 1.5 y(2.2) = 49.4 + 22.7(1.5) y(1.5) = 83.45 ANÁLISIS DE CORRELACIÓN Nos permite determinar cuantitativamente el grado de relación que existe entre las variables. Para medir el grado de ajuste de una línea a un diagrama de dispersión usamos: a) Coeficiente de determinación. Representa la proporción de la variabilidad total de la muestra aleatoria alrededor de y Si r2 = 1 Indica un ajuste perfecto Si r2 = 0 Indica un ajuste deficiente o nulo 0 ≤ r2 ≤ 1 b) Coeficiente de correlación. Mide la asociación lineal entre las dos variables. −1 ≤ r ≤ 1 (n ∑ xy − ∑ x ∑ y) = (n ∑ x − (∑ x ) )(n ∑ y − (∑ y ) ) 2 r 2 2 2 2 2 O Estadística II (Lic. en Administración) pag. 14 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas 2 S xx S SSR = xx = S yy S xx S yy S yy r 2 = b2 r = r2 r=b r2 = S xx S xx = S yy S xx S yy ((5)(227) − (0)(247))2 = 0.9326 2 2 ((5)(10) − (0) )((5)(17727) − (247 ) ) r = 0.9326 = 0.9657 REGRESIÓN CUADRÁTICA Por medio de mínimos cuadrados podemos ajustar a la ecuación y = a + bx + cx2 Con un procedimiento similar al análisis de regresión lineal obtenemos los valores de a, b y c. ∑ y = an +c∑ x ∑x 2 2 ; y = a ∑ x 2 + c∑ x 4 b= ∑ xy ; ∑x 2 Ejemplo: Realizar el ajuste cuadrático para el siguiente conjunto de datos. x -2 -1 0 1 2 0 Estadística II (Lic. en Administración) y 13 24 39 65 106 247 x2 4 1 0 1 4 10 pag. 15 x4 16 1 0 1 16 34 xy -26 -24 0 65 212 227 x2 y 52 24 0 65 424 565 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco n 2 ∑ x ∑x ∑x a ∑ y ; = 2 4 c ∑ x y 5 10 a 247 10 34 c = 565 2 a = 39.257; b= Departamento de Ciencias Básicas 227 = 22.7 ; 10 c = 5.071 y = a + bx + cx2 y = 39.258 + 22.7x + 5.071x2 y(1.5) = 39.258 + 22.7(1.5) + 5.071(1.5)2 = 84.718 INFERENCIAS EN EL ANÁLISIS DE REGRESIÓN Usualmente se realizan inferencias sobre α y β. Intervalo de confianza para β Un intervalo de confianza para (1-α)100% para el parámetro β en la línea de regresión µ y / k = α + β x es b− t α / 2S S xx <β< b+ t α / 2S S xx Donde tα/2 es un valor de la distribución t con n-2 grados de libertad. Prueba de hipótesis sobre la pendiente H0 : β = 0 H1 : β ≠ 0 Estadística II (Lic. en Administración) pag. 16 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas Se requiere de utilizar la distribución t con n-2 grados de libertad y establecer una región crítica basados en t= b − β0 s S xx Procedimiento de análisis de varianza Consiste en subdividir la variación total de la variable dependiente (y) en componentes significativos que se observan y se tratan de manera sistemática. Suponga que se tienen n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se estima la línea de regresión. La varianza (σ2) del conjunto de puntos, se puede calcular con: Syy = bSxy + SSE La formula alternativa es: n ∑ (y i =1 i n n i =1 i =1 − y) 2 = ∑ ( ŷ i − y) 2 + ∑ ( y i − ŷ) 2 Con lo que se logra una partición de la suma total de cuadrados de y en dos componentes. SST = SSR + SSR SSR es la suma de cuadrados de regresión y refleja la cantidad de variación en los valores y, explicados por el modelo. SSE es la suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión. Bajo la condición de que β = 0, se puede demostrar SSR SSE y 2 son valores de variables χ2 2 σ σ Independientes con l y n-2 grados de libertad, respectivamente, y por lo tanto se sigue que SST σ2 también es un valor de χ2 con n – 1 grados de libertad. Para realizar esta prueba tenemos: SSR SSR f= l = 2 SSE s n−2 Se rechaza H0 al nivel de significancia α cuando f > fα(l,n-2) Estadística II (Lic. en Administración) pag. 17 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas El resumen se presenta en una tabla de análisis de varianza. ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados (S ) Promedio de los cuadrados Valor crítico de F F 2 SSR = xy S xx Regresión 1 Residuos n–2 SSE = SST – SSR Total n–1 SST = Syy Coeficientes Error típico Intercepción SSR SSE S2 = n−2 Estadístico t SSR s2 Probabilidad Inferior 95% a b Ejemplo: Los siguientes datos se obtuvieron de la medición de un problema de caída libre bajo ciertas condiciones de laboratorio. Ajuste un modelo de regresión lineal. T d 1 6 2 30 3 60 4 91 5 130 6 170 7 200 8 280 9 240 10 340 Los resultados con la herramienta de regresión de Excel son: Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.97895976 Coeficiente de determinación R^2 0.95836221 R^2 ajustado 0.95241395 Error típico 22.6605034 Observaciones Estadística II (Lic. en Administración) 9 pag. 18 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas ANÁLISIS DE VARIANZA Grados de libertad Regresión Suma de cuadrados Promedio de los cuadrados 1 82733.0667 82733.0667 Residuos 7 3594.48889 513.498413 Total 8 86327.5556 Coeficiente s 51.5777778 Intercepción 1 37.1333333 Valor crítico de F F 161.116499 4.3581E-06 Superior 95% Error típico Estadístico t Probabilidad Inferior 95% 19.1090143 -2.69913335 0.03067747 -96.7634164 -6.3921392 2.9254584 12.6931674 4.3581E-06 30.2157234 44.0509432 Resultados de datos de probabilidad Análisis de los residuales Pronóstico 6 Residuos Residuos estándares 1 22.6888889 7.31111111 0.34491319 5.55555556 30 2 59.8222222 0.17777778 0.00838695 16.6666667 60 3 96.9555556 -5.95555556 -0.28096272 27.7777778 91 4 134.088889 -4.08888889 -0.19289978 38.8888889 130 5 171.222222 -1.22222222 -0.05766026 50 170 6 208.355556 -8.35555556 -0.3941865 61.1111111 200 7 245.488889 34.5111111 1.62811607 72.2222222 240 8 282.622222 -42.6222222 -2.01077052 83.3333333 280 9 319.755556 20.2444444 0.95506358 94.4444444 340 Observación Percentil 6 Curva de regresión ajustada 400 350 300 250 200 150 100 50 0 Gráfico de probabilidad normal 40 400 20 300 6 Residuos Gráfico de los residuales 0 0 2 4 6 8 10 12 -20 Estadística II (Lic. en Administración) -40 -60 pag. 19 200 100 0 M. en C. José Luis Hernández González 0 20 40 60 Muestra percentil 80 100 www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas ANÁLISIS DE REGRESIÓN MÚLTIPLE En la mayoría de los problemas se requiere de más de una variable independiente para un modelo de regresión, por lo cual se hace necesario considerar que: y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk Aplicando mínimos cuadrados podemos calcular los coeficientes Sr = ∑ ( y − b1 x 1 − b 2 x 2 − ... − b k x k ) 2 Derivando respecto a cada uno de los coeficientes, e igualando a cero obtenemos un conjunto de k+1 ecuaciones. n ∑ x1 ∑ x 2 M x ∑ k ∑x ∑x ∑x ∑x x ∑x x ∑x 1 2 1 2 1 2 2 2 1 M ∑x ... 2 M k x1 ∑x ... ... ... k x2 ... ∑x ∑x x ∑x x b 0 ∑ y 1 k b1 ∑ x1y 2 k b 2 = ∑ x 2 y M M M ∑ x 2k b k ∑ x k y k Resolviendo el sistema de ecuaciones obtenemos los coeficientes de x. Ejemplo. Realizar un análisis de regresión múltiple para los siguientes datos. y 90 70 90 102 96 77 51 88 82 94 x1 32 43 32 43 46 35 52 51 50 48 x2 171 232 245 342 211 233 147 324 230 233 Formamos un sistema de 3x3. Estadística II (Lic. en Administración) pag. 20 M. en C. José Luis Hernández González www.cienciamatematica.com Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas 432 2368 b 0 840 10 432 19196 102707 b = 36019 1 2368 102707 592638 b 2 203532 Resolviendo las ecuaciones tenemos b 0 = 74.655 b1 = −0.621 b 2 = 0.153 y = 74.655 – 0.621x1 + 0.153x2 y(40,150) = 74.655 – 0.621(40) + 0.153(150) = 72.77 En termino de matrices se puede expresar como Ab=y (X’X)b =X’y A=X’X g=X’y Resolviendo b = A–1g b = (X’X) –1X’y Inferencia en la regresión lineal múltiple a) Intervalo de confianza para la respuesta pronosticada Una de las inferencias más útiles qu se pueden haces en relación a la cantidad de la respuesta pronosticada y0 que corresponde a los valores x10, x20, …, xk0 es el intervalo de confianza sobre la respuesta media µ Y | x10 , x20 ,..., xk 0 para el conjunto de condiciones. ŷ 0 − t α / 2 s x ' 0 (X ' X ) −1 x 0 < µ Y|x10 , x 20 ,..., x k 0 < ŷ 0 + t α / 2 s x ' 0 (X ' X ) −1 x 0 Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad. s= SSE n − k −1 SSE = S YY − SSR O Estadística II (Lic. en Administración) pag. 21 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco www.cienciamatematica.com Departamento de Ciencias Básicas (∑ Y )2 ˆ (∑ Y )2 donde Y' Y = ∑ Y 2 SSE = Y' Y − − β' X' Y'− n n n = número de datos de la muestra k = número de variables independientes La cantidad s x ' 0 (X' X) −1 x 0 , se llama error estándar de predicción y por lo general se calcula en un programa de computadora. b) Intervalo de predicción para una sola respuesta ŷ 0 − t α / 2 s 1 + x ' 0 (X' X) −1 x 0 < y 0 < ŷ 0 + t α / 2 s 1 + x ' 0 (X' X) −1 x 0 Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad. c) Prueba de hipótesis sobre los coeficientes individuales La inclusión de cualquier variable única en un sistema de regresión aumentará la suma de cuadrados de regresión y por ello reducirá la suma de cuadrados del error. Por ello se debe decidir si el aumento en la regresión es suficiente para garantizar su uso en el modelo. En consecuencia el uso de variables sin importar puede reducir la efectividad de la ecuación de predicción al aumentar la varianza de la respuesta estimada. Se acostumbra probar H0 : βj = Bj0 H1 : βj ≠ Bj0 Se calcula el estadístico t = b j − B j0 s c ij Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad. Cjj es el elemento de la diagonal principal de la matriz inversa (X’X) –1 correspondiente a jj Estadística II (Lic. en Administración) pag. 22 M. en C. José Luis Hernández González Instituto Tecnológico de Apizaco Estadística II (Lic. en Administración) www.cienciamatematica.com pag. 23 Departamento de Ciencias Básicas M. en C. José Luis Hernández González