Subido por Marcelo Padilla

2. Regresion lineal simple

Anuncio
UNIVERSIDAD AUTÓNOMA JUAN MISAEL SARACHO
Estadística II
TEMA: I
ANALISIS DE REGRESION Y
CORRELACION
1.
2.
3.
4.
5.
6.
7.
8.
9.
Conceptos Generales
Tipos de Regresión
Regresión Lineal Simple
Análisis de Correlación
Coeficiente de determinación
Regresión de Datos Agrupados
Regresión Lineal Múltiple
Regresión no Lineal
Otras Regresiones
1.3. Regresión Lineal Simple
Regresión lineal simple
Es un modelo matemático para predecir el efecto de
una variable sobre otra, ambas cuantitativas.
• Una variable es la dependiente y otra la
independiente
• Se grafica con el diagrama de dispersión.
• Dice cómo es la relación entre las dos variables.
• El análisis consiste en encontrar la “mejor” línea
recta de esos puntos.
Modelo de Regresión Lineal Simple. Método
estadístico que sirve para ESTIMAR O PREDECIR la
relación de dependencia entre 2 o más variables.
Y=a+bX
Variables:
Parámetros:
X = Variable Independiente
(Explicada; es el valor
que conocemos)
Y = Variable dependiente
(Predictora; es lo que
queremos
predecir o
estimar)
a = Es el intercepto, donde cruza
el eje Y
b = Es la pendiente o inclinación
El modelo: regresión lineal simple
Constante
Pendiente
Y=a+bX
Variable
Dependiente
Variable
Independiente
El modelo: la recta
Y=a+bX
Eje y
Intercepto
pendiente
y2
b
y1
a
x1
x2
Eje x
 Si queremos predecir Y a partir de X, necesitamos calcular la recta de regresión de Y sobre (a partir de) X.
Tenemos una DIAGRAMA DE DISPERSION que es una conjunto de puntos en el plano
Recta ajustada
La recta de ajuste
mínimos cuadrados es:
𝐘= a + bX
por
𝒀
Para ajustar un diagrama de dispersión a
una recta o curva se emplea el método
de MINIMOS CUADRADOS
'
Y

Y
  i 𝐘i 
n
2
i 1
Esta sumatoria se debe procurar que sea
lo mas pequeño posible significaría una
aproximación y viceversa
OBJETIVO DE LA
CORRELACIÓN
Medir el grado o fuerza de la asociación
entre dos variables cuantitativas
A través del coeficiente de correlación
No estima la bondad del ajuste de unos datos a
un modelo
OBJETIVO DE LA
REGRESIÓN
Buscar la línea que mejor se ajusta a los
puntos
 Como medimos los coeficientes
A. Grado del coeficiente de Correlación

El valor de r está entre ( -1) y ( +1)

El valor de r denota la fuerza de la asociación como
se ilustra en el siguiente diagrama.
fuerte
-1
Correlación
perfecta
débil
intermedio
-0.75
-0.25
0
Sin
relación
intermedio
0.25
fuerte
0.75
1
Correlación
perfecta
B. Coeficiente de determinación 𝒓𝟐
r2
INTERPRETACIÓN
Coeficiente muy importante en regresión, ya que
compara lo explicado por la regresión lineal con la
variabilidad total
Porcentaje de la variabilidad total de la variable
dependiente que es explicada por la variable
independiente
VALORES
Los posibles valores para r2 van desde 1, que es
el máximo, a 0 que es el mínimo
+1
La recta daría una explicación perfecta, es decir, los
valores de “y” están totalmente determinados por la “x”
0
La recta no explica nada, es decir, no existe asociación
entre “x” e “y”
C. Coeficiente de estimación 𝑺𝑿𝒀
 Mide la magnitud del error cometido al calcular un valor de Y para un cierto
valor de X . Mide la variabilidad respecto del pronostico obtenido. Este
pronostico tiene un margen de error +/-
EJERCICIO 1
Una empresa A toma la muestra de sus 10 sucursales para
tratar de encontrar un modelo matemático que permita
predecir sus ventas.
Pasos para resolver
1.
2.
3.
4.
5.
Definir las variables y graficar el diagrama de dispersión
Construcción de la tabla
Obtener los parámetros a y b
Obtener la ecuación Ŷ estimada y graficar
Realice una regresión para estimar la ventas de dos
sucursales en las que se tiene 14.000 y 30.000 personas.
6. Calcular los coeficiente de correlación, determinación y
estimación; interpretación los coeficientes.
Población
Ventas
de personas trimestrales
miles
miles Bs.
N°
(X)
(Y)
1
2
58
2
6
105
3
8
88
4
8
118
5
12
117
6
16
137
7
20
157
8
20
169
9
22
149
10
26
202
1. Definir las variables y graficar el diagrama de dispersión
Diagrama de dispersión:
N°
1
2
3
4
5
6
7
8
9
10
Población de
personas miles
(X)
2
6
8
8
12
16
20
20
22
26
Ventas
trimestrales
miles Bs. ( Y)
58
105
88
118
117
137
157
169
149
202
200
175
150
125
100
75
50
25
5
10
15
20
25
2. Construcción de la tabla
𝑿 =140/10= 14
(X)
(Y)
Población ventas en
en miles
miles
2
6
8
8
12
16
20
20
22
26
58
105
88
118
117
137
157
169
149
202
140
1300
XY
𝑿𝟐
116
4
3364
630
36
11025
704
64
7744
944
64
13924
1404
144
13689
2192
256
18769
3140
400
24649
3380
400
28561
3278
484
22201
5252
676
40804
21040 2528
𝒀𝟐
184730
Ῡ = 1300/10= 130
𝟐
(X - 𝑿) (Y - 𝒀) (X- 𝑿) (Y - 𝑿) (𝑿 − 𝑿)
-12
-8
-6
-6
-2
2
6
6
8
12
-72
-25
-42
-12
-13
7
27
39
19
72
(𝒀 − 𝒀)𝟐
864
200
252
72
26
14
162
234
152
864
144
64
36
36
4
4
36
36
64
144
5184
625
1764
144
169
49
729
1521
361
5184
2840
568
15730
3. Obtener el parámetro a y b
A: Método de sistema de ecuaciones :
Y=a+bX
Datos de la tabla
∑Y = a N + b ∑X
Remplazamos en el sistema
normal de ecuaciones
∑XY = a ∑ X + b∑𝑿𝟐
Así obtenemos 2 ecuaciones
1300 = a 10 + b 140
❶
21040 = a 140 + b 2528 ❷
∑𝒀 = 1300
∑𝑿 = 𝟏𝟒𝟎
∑XY = 21040
∑𝑿𝟐 = 2528
∑𝒀𝟐 = 184730
N = 10
De estas 2
ecuaciones debemos
despejar los
parámetros : a y b
1300 = a 10 + b 140 ❶
21040 = a 140 + b 2528 ❷
Con las ecuaciones 1 y 2 obtenemos los para metros
reducción de ecuaciones:
a y b para ello aplicamos el método de
 Primero multiplico la ecuación ❶ por (- 140) toda la fila y la ecuación ❷ por (10)
- 140
10
(-140)* 1300 = a(-140)* 10 + b (-140)*140
(10)*21040 = a (10)*140 + b(10)* 2528
Luego de multiplicado; realizamos la
operación de resta entre la 1ra. Y 2da. fila
- 182000 = - a 1400 - b 19600
210400 = a 1400 + b 25280
28400 =
b 5680
De la
diferencia
queda:
28400 = b 5680
28400
b=
5680
b=5
 Para encontrar el Valor del parámetro a, remplázanos el valor del parámetro
encontrado b= 5 en cualquiera de las ecuaciones 1 o 2.
1300 = a 10 + b 140
Remplazando b=5 en ecuación: 1:
1300 = a 10 + (5) 140
Multiplicando tenemos:
1300 = a 10 + 700
Despejamos parámetro a:
1300- 700 = a 10
600 = a 10
a = 600
10
a = 60
❶
21040 = a 140 + b 2528 ❷
B. Por el método directo
 Podemos también obtener los parámetros a y b por el método directo utilizando las
siguientes formulas:
a=
b=
∑ 𝑋 2 − ∑ 𝑋 ∑𝑋 𝑌
∑𝑌
𝑁 ∑𝑋 2 − (∑𝑋)2
𝑁 ∑ 𝑋 𝑌 − ∑𝑋 ∑ 𝑌
Remplazamos en
la formula
2
𝑁 ∑ 𝑋 2 − (∑ 𝑋)
∑𝒀 = 1300
∑𝑿 = 𝟏𝟒𝟎
∑XY = 21040
∑𝑿𝟐 = 228
∑𝒀𝟐 = 184730
(∑𝑿)𝟐 = 19600
N = 10
Datos de la tabla
 Remplazamos en la formula, y luego realizamos las
operaciones necesarias para obtener los parámetros:
1300 ∗2528 −140 ∗21040
a=
10 ∗2528 − 19600
10 ∗ 21040 −140 ∗1300
b=
10 ∗2528 −19600
3286400−2945600
a=
25280 −19600
210400−182000
b=
25280 −19600
a=
𝟑𝟒𝟎𝟖𝟎𝟎
𝟓𝟔𝟖𝟎
a = 60
b=
𝟐𝟖𝟒𝟎𝟎
𝟓𝟔𝟖𝟎
b=5
4. Obtener la ecuación de ajuste
 Tenemos nuestra ecuación general, también tenemos los valores de los parámetros a y b,
estos remplazamos en la ecuación:
Parámetros a = 60
b=5
Ecuación
Y=a+bX
Ecuación de ajuste
𝒀 = 60 + 5 X
5. Realice una regresión para estimar la ventas de dos
sucursales en las que se tiene 14.000 y 30.000 personas
 Para estimar las ventas remplazamos los valores de las poblaciones dadas en la ecuación de
ajuste
Para X = 14:
𝑌 = 60 + 5 (14)
𝑌 = 60 + 70
𝑌 = 130
Para la 1ra sucursal con población de
14.000 las ventas se estiman que serán
130.000 Bs.
Para X = 30
𝑌= 60 + 5 (30)
𝑌 = 60 + 150
𝑌 = 210
Para la 2ra sucursal con población de
30.000 las ventas se estiman que serán
210.000 Bs.
 Graficar la línea de estimación de las ventas de las poblaciones consideradas, con los
puntos de obtenidos con la población de las dos sucursales:
(14, 130)
(30, 210)
Grafico de la línea estimada de las ventas:
200
175
125
100
75
50
25
6
12
18
24
30
6. Calculo de los coeficientes de correlación
r=
∑ X − 𝑿 (𝒀 − 𝒀)
𝑵
∑ (𝑿 − 𝑿)𝟐
𝑵
∑ (𝒀 −𝒀)𝟐
𝑵
Remplazamos
∑(X- 𝑿) (Y - Ῡ) = 2840
∑(𝑿 − 𝑿)𝟐 = 568
∑(𝒀 − 𝒀)𝟐
= 15730
N = 10
Datos de la tabla
 Remplazados los valores en la formula de regresión , realizamos las operaciones
necesarias para obtener r:
r=
2840
10
568 15730
10
10
r=
284
56,8 1573
=
284
7,53 ∗39,56
=
284
297,886
r = 0,95
 Interpretación del coeficiente de correlación:
-1≤r≤1
r = 0,95
INTERPRETACIÓN: Tenemos una correlación fuerte
entre la variable Población (X) y la variable ventas (Y)
-1
1
0
Donde r puede ser:
Perfecta:
Fuerte:
Moderada:
Debil:
Muy Débil:
Nula:
+/+/+/+/+/0
1
0.99 – 0.6
0.6 – 0.4
0.4 – 0-2
0.2 – 0.01
Calculo del coeficiente de Determinación
r = 0,95
Coeficiente de
correlación
 Para encontrar el valor del coeficiente de determinación 𝒓𝟐 elevamos al cuadrado el
valor del coeficiente de correlación r:
𝑟 2 = (0,95)2
Coeficiente de determinación
𝑟 2 = 0,902
0,902*100 = 90,02 %
Explica la variable Y de la variable X
Interpretación: el 90 % de la ventas (Y) se
explica mediante la variación de la cantidad de
población (X) de las sucursales y el 10 %
restante dependen de otras variables.
Calculo del coeficiente de estimación
𝑆𝑌𝑋 =
∑ 𝑌2
−𝑎 ∑ 𝑌 −𝑏 ∑ 𝑋 𝑌
𝑁 −2
Remplazamos
Donde:
𝐒𝐗𝐘 : Coeficiente de estimación (error típico o estándar)
b: Pendiente de la recta de regresión
a: Ordenada a la recta de la línea de regresión
N: Numero total de datos
∑Y: Sumatoria de los datos de la variable Y
∑𝒀𝟐 : Sumatoria de los datos de la variable Y al cuadrado
∑XY: Sumatoria del producto de X por Y
∑𝒀 = 1300
∑𝒀𝟐 = 184730
∑XY = 21040
N = 10
a = 60
b=5
Datos de la
tabla
 Remplazado los valores en la formula de estimación, realizamos
las operaciones necesarias para obtener el coeficiente: 𝑆𝑋𝑌
𝑆𝑌𝑋 =
184730 −60∗1300−5∗21040
10−2
𝑆𝑌𝑋 =
184730 − 78000 − 105200
8
=
1530
8
∑𝒀 = 1300
∑𝒀𝟐 = 184730
∑XY = 21040
N = 10
a = 60
b=5
= 191,25
𝑺𝒀𝑿 = 13,829
INTERPRETACION: Podemos decir que nuestra estimación tendrá un margen de
error de +/- 13,829. así que para una predicción de una determinada población
las ventas pueden variar´+/- 13,829
Gracias………..
Descargar