Estadística II - Ciencia Matemática

Anuncio
Este documento es de distribución gratuita
y llega gracias a
“Ciencia Matemática”
www.cienciamatematica.com
El mayor portal de recursos educativos a tu servicio!
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
INSTITUTO TECNOLÓGICO DE APIZACO
DEPARTAMENTO DE CIENCIAS BÁSICAS
www.itapizaco.edu.mx/~cbasicas
ESTADÍSTICA ADMINISTRATIVA II
(Licenciatura en administración)
M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ
www.itapizaco.edu.mx/~joseluis
(~ alt 126)
Enviar las tareas al correo: tareasjlhg@yahoo.com
Alum.:____________________________________________ No. Lista: _________
Apizaco Tlax., Agosto/Diciembre 2007
Estadística II (Lic. en Administración)
pag. 1
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas
ESTADÍSTICA ADMINISTRATIVA II
(Licenciatura en administración)
OBJETIVO GENERAL DEL CURSO.
Analizará y aplicará conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en
la solución de problemas en áreas de su competencia.
1 Pruebas de Hipótesis
1.1 Hipótesis estadísticas. Conceptos generales
1.2 Errores tipo I y II
1.3 Pruebas unilaterales y bilaterales
1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida utilizando la
distribución normal y “t” student
1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y “t” student.
1.6 Una muestra: prueba sobre una sola proporción
1.7 Dos muestras: prueba sobre dos proporciones
1.8 Dos muestras: pruebas pareadas
2 Pruebas de la bondad del ajuste y análisis de varianza
2.1 Análisis Ji-Cuadrada
2.1.1 Prueba de independencia
2.1.2 Prueba de la bondad del ajuste
2.1.3 Tablas de contingencia
2.2 Análisis de varianza
2.2.1 Inferencia sobre una varianza de población (Anova).
2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
2.3 Paquete computacional
3 Análisis de regresión, correlación lineal simple y múltiple
3.1 Estimación mediante la línea de regresión
3.1.1 Diagrama de dispersión
3.1.2 Método de mínimos cuadrados
3.1.3 Interpretación del error estándar de la estimación
3.1.4 Intervalos de predicción aproximados
3.1.5 Análisis de correlación
3.1.6 Paquete computacional para la solución de problemas
3.1.7 Regresión múltiple y análisis de correlación
3.1.8 Usos de variables ficticias
3.1.9 Residuales y gráficas de residuales
3.1.10 Interpretación del intervalo de confianza.
3.1.11 Uso del coeficiente de determinación múltiple
3.1.12 Paquete computacional para la solución de problemas.
Estadística II (Lic. en Administración)
pag. 2
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas
4 Series de tiempo
4.1 Modelo clásico de series de tiempo
4.2 Análisis de tendencia
4.3 Análisis de variaciones cíclicas
4.4 Medición de variaciones estacionales
4.5 Aplicación de ajustes estacionales
4.6 Pronósticos basados en factores de tendencia y estacionales
4.7 Pronósticos, ciclos e indicadores económicos
4.8 Promedios móviles
4.9 Suavización exponencial como pronóstico
4.10 Aplicaciones del paquete computacional
5 Estadística no paramétrica.
5.1 Escala de medición
5.2 Métodos estadísticos contra no paramétricos
5.3 Prueba de corridas para aleatoriedad
5.4 Una muestra: prueba de signos
5.5 Una muestra: prueba de Wilcoxon
5.6 Dos muestras: prueba de Mann-Whitney
5.7 Observaciones pareadas: prueba de signos
5.8 Observaciones pareadas prueba de Wilcoxon
5.9 Varias muestras independientes: prueba de Kruskal-Wallis
5.10 Aplicaciones del paquete computacional
Estadística II (Lic. en Administración)
pag. 3
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
PRUEBAS DE HIPÓTESIS.
Dentro de la inferencia estadística se encuentra la prueba de hipótesis, cuyo objetivo es
probar o comprobar si la afirmación que se hace sobre un parámetro poblacional basado en
conclusiones obtenidas de una muestra es correcta o incorrecta.
Hipótesis estadística.
Es una proposición o suposición que se hace sobre los parámetros de una distribución de
probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo que se
puede aceptar o rechazar.
Prueba de hipótesis estadística.
Es el procedimiento empleado para decidir si se acepta o se rechaza por su veracidad o
falsedad, una hipótesis estadística también se le conoce como “ensayos de significación”, “reglas de
decisión” ó “contraste de hipótesis”. Su objetivo es evaluar proposiciones o afirmaciones que se
hacen acerca de los parámetros poblacionales basados en estadísticos muestrales con un grado o
nivel de significancia determinado.
Hipótesis nula e hipótesis alternativa.
En una prueba de hipótesis de significación se plantean dos tipos de hipótesis excluyentes,
llamadas hipótesis nula e hipótesis alternativa.
La hipótesis nula expresa que una proposición es verdadera, mientras que la hipótesis
alternativa afirma que es falsa ó viceversa.
Ho = hipótesis nula
H1 = hipótesis alternativa
Ejemplos:
Ho
µ = 1.68
H1
H1
H1
µ ≠ 1.68
µ < 1.68
µ > 1.68
Ho
µ = 4200
H1
H1
H1
µ > 4200
µ < 4200
µ ≠ 4200
Estadística II (Lic. en Administración)
pag. 6
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas
Errores tipo I y tipo II.
En el proceso de emplear una muestra para formar una decisión poblacional en una prueba de
hipótesis, podemos cometer dos equivocaciones, al rechazar una hipótesis verdadera o al aceptar una
hipótesis falsa; estas equivocaciones se conocen como:
a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser
verdadera debería ser aceptada.
b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser
falsa debería ser rechazada.
Aprobarlo
Repobarlo
Buen estudiante
Decisión correcta
Error tipo I
Mal estudiante
Error tipo II
Decisión correcta
Nivel de significancia y nivel de confianza.
El nivel de significancia se refiere a la probabilidad α de cometer error tipo I, es decir,
rechazar una hipótesis verdadera.
El nivel de confianza se refiere a la probabilidad 1- α de aceptar una hipótesis verdadera.
H0 verdadera
H1 falsa
Se acepta Ho
Decisión correcta (1 – α)
Error tipo II (β)
Se rechaza Ho
Error tipo I (α)
Decisión correcta (1 – β)
Procedimiento para realizar una prueba de hipótesis.
1.- Del fenómeno estadístico a probar. Se establecen las hipótesis nula Ho, y la hipótesis alternativa
H1.
2.- Se especifica la probabilidad del error tipo I (α) como nivel de significancia y 1 – α como nivel
de confianza.
3.- Se selecciona el tamaño de la muestra, la función de distribución de probabilidad y el estadístico
muestral que sirva de base para la regla de decisión conocido como estadístico de prueba.
4.- Se determinan los valores críticos que limita la región de aceptación de la región de rechazo (que
dependerá del valor de α y de la hipótesis alternativa).
Estadística II (Lic. en Administración)
pag. 7
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos Ho, debido a
que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta o verdadera, es
tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a deducir que Ho es
falsa.
6.- Dar conclusión acerca del problema y/o formar una decisión.
Hipótesis unilateral y bilateral.
Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de un solo
lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan unilaterales o
de una cola; en el segundo caso se conoce como bilaterales o de dos colas.
En los ensayos unilaterales la región de rechazo es única a un lado de la distribución con un
área determinada por el valor de α.
En las bilaterales la región de rechazo el área se determina dividiendo el nivel de
significancia en dos partes iguales.
BILATERAL ≠
Zona de aceptación
Zona de rechazo
Zona de rechazo
α/2
α/2
1−α
UNILATERAL >
Zona de aceptación
Zona de rechazo
1−α
α
UNILATERAL <
Zona de rechazo
Zona de aceptación
α
Estadística II (Lic. en Administración)
1−α
pag. 8
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas
Estadístico de prueba
H0
Distribución normal
µ = µ0
z=
x −µ
σ
n
Distribución t
µ = µ0
t=
x −µ
;v = n – 1
s
n
Distribución normal
µ1 – µ2 = d0
σ1 y σ2 conocidas
z=
Distribución t
µ1 – µ2 = d0
σ1 = σ2 desconocidas
t=
(x 1 − x 2 ) − d 0
sp
Distribución t
µ1 – µ2 = d0
σ1 ≠ σ2 desconocidas
t=
1
1
+
n1 n 2
z=
;v =
2
2
2
 s 12 
 s 22 
 
 
n 
n 
 1
 2
+
n1 −1 n 2 −1
np 0 (1 − p 0 )
(p̂ 1 − p̂ 2 )
 1
1 

p̂q̂ +
 n1 n 2 
; p̂ =
x1 + x 2
n1 + n 2
(n − 1)s 2
σ2
f=
pag. 9
 s 12 s 22 
 +

n

 1 n2 
x − np 0
χ2 =
Distribución F
σ1 = σ2
Estadística II (Lic. en Administración)
(n 1 − 1)s 12 + (n 2 − 1)s 22
;s =
n1 + n 2 − 2
2
p
s 12 s 22
+
n1 n 2
z=
Distribución χ2
σ = σ0
σ12 σ 22
+
n1 n 2
(x 1 − x 2 ) − d 0
Distribución normal
p = p0
Distribución normal
p1 = p 2
(x 1 − x 2 ) − d 0
s 12
s 22
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
ANÁLISIS DE REGRESIÓN E INTERPOLACIÓN
Las funciones que representan un conjunto de datos pueden ser o no polinomiales.
Los métodos más utilizados para ajustar curvas a un conjunto de puntos son:
a) Interpolación polinomial. Consiste en encontrar una función que pase exactamente a través de
cada uno de los puntos.
b) Análisis de regresión. Consiste en encontrar una función que se ajuste a los puntos pero no
necesariamente pase a través de ellos.
a)
b)
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
El análisis de regresión trata de establecer una relación funcional entre variables y proporciona un
mecanismo de predicción o pronostico y en realidad lo que se requiere es estimar:
µ y|x = α + β x
Las relaciones que se pueden establecer dependiendo del número de variables independientes x son:
Análisis de regresión simple. Se establece cuando la variable dependiente y esta en función de una
única variable independiente x.
y = f(x)
Análisis de regresión múltiple. Se establece cuando la variable dependiente y, se determinan o esta
en función de más de una variable dependiente x.
y = f(x1, x2, ..., xn)
Para el caso de regresión lineal simple tenemos que
Ŷ = a + bx
Donde Ŷ se conoce como y estimada, por simplicidad escribiremos: y = a + bx
Estadística II (Lic. en Administración)
pag. 10
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
DIAGRAMA DE DISPERSIÓN
Es la grafica que representa un conjunto de pares ordenados o datos observados y que describe la
relación que existe entre ellos.
y
x
ANÁLISIS DE REGRESIÓN
Las funciones matemáticas empleadas son las siguientes.
1. Función lineal
y = a + bx
y
x
2. Función cuadrática
y = a + bx + cx2
y
x
ANÁLISIS DE REGRESIÓN LINEAL
Una vez elegida la función matemática que mejor represente al fenómeno, se requiere de un método
estadístico para estimar los parámetros o valores numéricos que ponderen la relación entre variables,
existen varios métodos pero el mejor es el de mínimos cuadrados.
El modelo matemático más simple de una aproximación por mínimos cuadrados, es el ajuste de una
línea recta a un conjunto de pares ordenados (x, y).
y
y = a + bx + e
e
x
Estadística II (Lic. en Administración)
pag. 11
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas
Para obtener la mejor línea a través de los datos se debe minimizar la suma de los errores residuales
al cuadrado.
e = y – a – bx
Sr = e 2
Sr = ∑ ( y − a − bx ) 2
derivando respecto a a y respecto a b
∂Sr
= −2∑ ( y − a − bx )
∂a
∂Sr
= −2∑ ( y − a − bx ) x
∂b
Hay un mínimo o máximo igualando las dos ecuaciones a cero.
∑ a + ∑ bx − ∑ y = 0
∑ ax + ∑ bx − ∑ yx = 0
2
si
∑ a = na
na + ∑ xb = ∑ y
∑ xa + ∑ x
2
b = ∑ xy
es decir
 n

∑ x
∑ x  a  =  ∑ y 
∑ x  b ∑ xy
2
Resolviendo el sistema de ecuaciones
∑ y∑ x − ∑ x ∑ xy
a=
n ∑ x − (∑ x )
2
2
b=
2
n ∑ xy − ∑ x ∑ y
n ∑ x 2 − (∑ x )
2
Para la inferencia también es necesario calcular:
Estadística II (Lic. en Administración)
pag. 12
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
n
S xx = ∑ ( x i − x ) = ∑
2
(∑ x )
x−
2
n
i =1
n
S yy = ∑ ( y i − y) = ∑
2
(∑ y)
y−
i =1
2
n
n
(∑ x )(∑ y)
i =1
n
S xy = ∑ ( x i − x )( y i − y) = ∑ xy −
b=
Departamento de Ciencias Básicas
S xy
S xx
SSE
( y − ŷ) 2 S yy − bS xy
S =
=∑
=
Estimador insesgado de la varianza
n−2
n−2
n−2
2
Ejemplo: Realizar el ajuste lineal para el siguiente conjunto de datos.
x
-2
-1
0
1
2
x
-2
-1
0
1
2
0
y
13
24
39
65
106
247
y
13
24
39
65
106
x2
4
1
0
1
4
10
y2
169
576
1521
4225
11236
17727
xy
-26
-24
0
65
212
227
Cálculo de los coeficientes a y b.
a=
Estadística II (Lic. en Administración)
( 247)(10) − (0)( 227 ) 2470
=
= 49.4
50
(5)(10) − (0) 2
pag. 13
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
b=
Departamento de Ciencias Básicas
(5)( 227 ) − (0)( 227) 1135
=
= 22.7
50
(5)(10) − (0) 2
y = 49.4 + 22.7 x
Calcular el valor de y para cuando x = 1.5.
Cuando x = 1.5
y(2.2) = 49.4 + 22.7(1.5)
y(1.5) = 83.45
ANÁLISIS DE CORRELACIÓN
Nos permite determinar cuantitativamente el grado de relación que existe entre las variables.
Para medir el grado de ajuste de una línea a un diagrama de dispersión usamos:
a) Coeficiente de determinación. Representa la proporción de la variabilidad total de la
muestra aleatoria alrededor de y
Si r2 = 1 Indica un ajuste perfecto
Si r2 = 0 Indica un ajuste deficiente o nulo
0 ≤ r2 ≤ 1
b) Coeficiente de correlación. Mide la asociación lineal entre las dos variables.
−1 ≤ r ≤ 1
(n ∑ xy − ∑ x ∑ y)
=
(n ∑ x − (∑ x ) )(n ∑ y − (∑ y ) )
2
r
2
2
2
2
2
O
Estadística II (Lic. en Administración)
pag. 14
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
2
S xx
S
SSR
= xx =
S yy S xx S yy
S yy
r 2 = b2
r = r2
r=b
r2 =
S xx
S xx
=
S yy
S xx S yy
((5)(227) − (0)(247))2
= 0.9326
2
2
((5)(10) − (0) )((5)(17727) − (247 ) )
r = 0.9326 = 0.9657
REGRESIÓN CUADRÁTICA
Por medio de mínimos cuadrados podemos ajustar a la ecuación
y = a + bx + cx2
Con un procedimiento similar al análisis de regresión lineal obtenemos los valores de a, b y c.
∑ y = an +c∑ x
∑x
2
2
;
y = a ∑ x 2 + c∑ x 4
b=
∑ xy ;
∑x
2
Ejemplo: Realizar el ajuste cuadrático para el siguiente conjunto de datos.
x
-2
-1
0
1
2
0
Estadística II (Lic. en Administración)
y
13
24
39
65
106
247
x2
4
1
0
1
4
10
pag. 15
x4
16
1
0
1
16
34
xy
-26
-24
0
65
212
227
x2 y
52
24
0
65
424
565
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
 n

2
∑ x
∑x
∑x
 a   ∑ y 
;
=
2 
4  
 c  ∑ x y 
 5 10  a  247 
10 34 c  = 565 

  

2
a = 39.257;
b=
Departamento de Ciencias Básicas
227
= 22.7 ;
10
c = 5.071
y = a + bx + cx2
y = 39.258 + 22.7x + 5.071x2
y(1.5) = 39.258 + 22.7(1.5) + 5.071(1.5)2 = 84.718
INFERENCIAS EN EL ANÁLISIS DE REGRESIÓN
Usualmente se realizan inferencias sobre α y β.
Intervalo de confianza para β
Un intervalo de confianza para (1-α)100% para el parámetro β en la línea de regresión
µ y / k = α + β x es
b−
t α / 2S
S xx
<β< b+
t α / 2S
S xx
Donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
Prueba de hipótesis sobre la pendiente
H0 : β = 0
H1 : β ≠ 0
Estadística II (Lic. en Administración)
pag. 16
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
Se requiere de utilizar la distribución t con n-2 grados de libertad y establecer una región crítica
basados en
t=
b − β0
s
S xx
Procedimiento de análisis de varianza
Consiste en subdividir la variación total de la variable dependiente (y) en componentes significativos
que se observan y se tratan de manera sistemática.
Suponga que se tienen n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se
estima la línea de regresión. La varianza (σ2) del conjunto de puntos, se puede calcular con:
Syy = bSxy + SSE
La formula alternativa es:
n
∑ (y
i =1
i
n
n
i =1
i =1
− y) 2 = ∑ ( ŷ i − y) 2 + ∑ ( y i − ŷ) 2
Con lo que se logra una partición de la suma total de cuadrados de y en dos componentes.
SST = SSR + SSR
SSR es la suma de cuadrados de regresión y refleja la cantidad de variación en los valores y,
explicados por el modelo.
SSE es la suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión.
Bajo la condición de que β = 0, se puede demostrar
SSR SSE
y 2 son valores de variables χ2
2
σ
σ
Independientes con l y n-2 grados de libertad, respectivamente, y por lo tanto se sigue que
SST
σ2
también es un valor de χ2 con n – 1 grados de libertad. Para realizar esta prueba tenemos:
SSR
SSR
f= l = 2
SSE
s
n−2
Se rechaza H0 al nivel de significancia α cuando f > fα(l,n-2)
Estadística II (Lic. en Administración)
pag. 17
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
El resumen se presenta en una tabla de análisis de varianza.
ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de cuadrados
(S )
Promedio de los
cuadrados
Valor crítico de
F
F
2
SSR =
xy
S xx
Regresión
1
Residuos
n–2
SSE = SST – SSR
Total
n–1
SST = Syy
Coeficientes
Error típico
Intercepción
SSR
SSE
S2 =
n−2
Estadístico t
SSR
s2
Probabilidad
Inferior 95%
a
b
Ejemplo: Los siguientes datos se obtuvieron de la medición de un problema de caída libre bajo
ciertas condiciones de laboratorio. Ajuste un modelo de regresión lineal.
T
d
1
6
2
30
3
60
4
91
5
130
6
170
7
200
8
280
9
240
10
340
Los resultados con la herramienta de regresión de Excel son:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
0.97895976
Coeficiente de determinación R^2
0.95836221
R^2 ajustado
0.95241395
Error típico
22.6605034
Observaciones
Estadística II (Lic. en Administración)
9
pag. 18
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
ANÁLISIS DE VARIANZA
Grados de
libertad
Regresión
Suma de
cuadrados
Promedio de
los
cuadrados
1
82733.0667
82733.0667
Residuos
7
3594.48889
513.498413
Total
8
86327.5556
Coeficiente
s
51.5777778
Intercepción
1
37.1333333
Valor crítico
de F
F
161.116499
4.3581E-06
Superior
95%
Error típico
Estadístico t
Probabilidad
Inferior 95%
19.1090143
-2.69913335
0.03067747
-96.7634164
-6.3921392
2.9254584
12.6931674
4.3581E-06
30.2157234
44.0509432
Resultados de datos de
probabilidad
Análisis de los residuales
Pronóstico
6
Residuos
Residuos
estándares
1
22.6888889
7.31111111
0.34491319
5.55555556
30
2
59.8222222
0.17777778
0.00838695
16.6666667
60
3
96.9555556
-5.95555556
-0.28096272
27.7777778
91
4
134.088889
-4.08888889
-0.19289978
38.8888889
130
5
171.222222
-1.22222222
-0.05766026
50
170
6
208.355556
-8.35555556
-0.3941865
61.1111111
200
7
245.488889
34.5111111
1.62811607
72.2222222
240
8
282.622222
-42.6222222
-2.01077052
83.3333333
280
9
319.755556
20.2444444
0.95506358
94.4444444
340
Observación
Percentil
6
Curva de regresión ajustada
400
350
300
250
200
150
100
50
0
Gráfico de probabilidad normal
40
400
20
300
6
Residuos
Gráfico de los residuales
0
0
2
4
6
8
10
12
-20
Estadística II (Lic. en Administración)
-40
-60
pag. 19
200
100
0
M. en C. José Luis Hernández González
0
20
40
60
Muestra percentil
80
100
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
ANÁLISIS DE REGRESIÓN MÚLTIPLE
En la mayoría de los problemas se requiere de más de una variable independiente para un modelo de
regresión, por lo cual se hace necesario considerar que:
y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk
Aplicando mínimos cuadrados podemos calcular los coeficientes
Sr = ∑ ( y − b1 x 1 − b 2 x 2 − ... − b k x k ) 2
Derivando respecto a cada uno de los coeficientes, e igualando a cero obtenemos un conjunto de k+1
ecuaciones.
 n

 ∑ x1
∑ x 2

 M
 x
∑ k
∑x
∑x
∑x ∑x x
∑x x ∑x
1
2
1
2
1
2
2
2
1
M
∑x
...
2
M
k
x1
∑x
...
...
...
k
x2
...
∑x
∑x x
∑x x
 b 0   ∑ y 

  
1 k   b1 
 ∑ x1y 



2 k b 2  = ∑ x 2 y

  
M
 M   M 
∑ x 2k  b k  ∑ x k y
k
Resolviendo el sistema de ecuaciones obtenemos los coeficientes de x.
Ejemplo. Realizar un análisis de regresión múltiple para los siguientes datos.
y
90
70
90
102
96
77
51
88
82
94
x1
32
43
32
43
46
35
52
51
50
48
x2
171
232
245
342
211
233
147
324
230
233
Formamos un sistema de 3x3.
Estadística II (Lic. en Administración)
pag. 20
M. en C. José Luis Hernández González
www.cienciamatematica.com
Instituto Tecnológico de Apizaco
Departamento de Ciencias Básicas
432
2368  b 0   840 
 10
 432 19196 102707   b  =  36019 

 1  

2368 102707 592638 b 2  203532
Resolviendo las ecuaciones tenemos
b 0 = 74.655
b1 = −0.621
b 2 = 0.153
y = 74.655 – 0.621x1 + 0.153x2
y(40,150) = 74.655 – 0.621(40) + 0.153(150) = 72.77
En termino de matrices se puede expresar como
Ab=y
(X’X)b =X’y
A=X’X
g=X’y
Resolviendo
b = A–1g
b = (X’X) –1X’y
Inferencia en la regresión lineal múltiple
a) Intervalo de confianza para la respuesta pronosticada
Una de las inferencias más útiles qu se pueden haces en relación a la cantidad de la respuesta
pronosticada y0 que corresponde a los valores x10, x20, …, xk0 es el intervalo de confianza sobre
la respuesta media µ Y | x10 , x20 ,..., xk 0 para el conjunto de condiciones.
ŷ 0 − t α / 2 s x ' 0 (X ' X ) −1 x 0 < µ Y|x10 , x 20 ,..., x k 0 < ŷ 0 + t α / 2 s x ' 0 (X ' X ) −1 x 0
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
s=
SSE
n − k −1
SSE = S YY − SSR
O
Estadística II (Lic. en Administración)
pag. 21
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
www.cienciamatematica.com
Departamento de Ciencias Básicas

(∑ Y )2   ˆ
(∑ Y )2 

donde Y' Y = ∑ Y 2
SSE = Y' Y −
− β' X' Y'−




n
n

 

n = número de datos de la muestra
k = número de variables independientes
La cantidad s x ' 0 (X' X) −1 x 0 , se llama error estándar de predicción y por lo general se calcula
en un programa de computadora.
b) Intervalo de predicción para una sola respuesta
ŷ 0 − t α / 2 s 1 + x ' 0 (X' X) −1 x 0 < y 0 < ŷ 0 + t α / 2 s 1 + x ' 0 (X' X) −1 x 0
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
c) Prueba de hipótesis sobre los coeficientes individuales
La inclusión de cualquier variable única en un sistema de regresión aumentará la suma de
cuadrados de regresión y por ello reducirá la suma de cuadrados del error. Por ello se debe
decidir si el aumento en la regresión es suficiente para garantizar su uso en el modelo. En
consecuencia el uso de variables sin importar puede reducir la efectividad de la ecuación de
predicción al aumentar la varianza de la respuesta estimada.
Se acostumbra probar
H0 : βj = Bj0
H1 : βj ≠ Bj0
Se calcula el estadístico t =
b j − B j0
s c ij
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
Cjj es el elemento de la diagonal principal de la matriz inversa (X’X) –1 correspondiente a jj
Estadística II (Lic. en Administración)
pag. 22
M. en C. José Luis Hernández González
Instituto Tecnológico de Apizaco
Estadística II (Lic. en Administración)
www.cienciamatematica.com
pag. 23
Departamento de Ciencias Básicas
M. en C. José Luis Hernández González
Descargar