Relación lineal entre variables cuantitativas

Anuncio
Análisis estadístico básico (II)
Magdalena Cladera Munar
mcladera@uib.es
Departament d’Economia Aplicada
Universitat de les Illes Balears
CONTENIDOS
ƒCovarianza y correlación.
ƒRegresión lineal simple.
REFERENCIAS
ƒ Alegre, J. y Cladera, M. (2003). Introducción a la Estadística
Descriptiva para Economistas. Materials Didàctics UIB, 101.
Palma de Mallorca.
ƒ Newbold, P. (1997). Estadística para los Negocios y la
Economía. Prentice-Hall. Madrid.
ƒ Peña, D. y Romo, D. (1997). Introducción a la Estadística
para las Ciencias Sociales. McGrawHill. Madrid.
ƒ Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el
análisis de datos. Accesible en:
http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf.
ƒ Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice
Hall, Madrid.
Relación lineal entre variables cuantitativas
Instrumentos estadísticos:
ƒRelación lineal entre dos variables cuantitativas.
Representación gráfica.
ƒMedidas de relación lineal: Covarianza i Coeficiente de
correlación de Pearson.
ƒAjuste lineal entre dos variables. Interpretación gráfica y
bondad de ajuste lineal.
Relación lineal entre variables cuantitativas
Relación lineal: relación entre dos variables que puede
representarse aproximadamente como una línea recta.
ƒ La asociación no implica causalidad.
ƒ Dos tipos de asociación lineal: positiva y negativa.
Gráfica 1. Relación lineal exacta positiva. Gráfica 2. Relación lineal exacta negativa.
3
3
2
2
1
1
0
0
-1
-1
-2
-2
Y -3
Y -3
-3
X
-2
-1
0
1
2
3
-3
X
-2
-1
0
1
2
3
Relación lineal entre variables cuantitativas
Relaciones no lineales
Gráfica 3.
Gráfica 4.
10
40
20
0
0
-20
-10
-40
-60
-20
-80
Y -30
-3
X
-2
-1
0
1
2
3
Y -100
-3
X
-2
-1
0
1
2
3
Relación lineal entre variables cuantitativas
Relaciones lineales
Gráfica 1. Relación lineal exacta positiva. Gráfica 2. Relación lineal exacta negativa.
3
3
2
2
1
1
0
0
-1
-1
-2
-2
Y -3
Y -3
-3
-2
-1
0
1
2
3
-3
X
-2
-1
0
X
Gráfica 5. Relación lineal positiva no exacta.
6000
5000
4000
3000
2000
1000
0
Y
-1000
-2000
-1000
X
0
1000
2000
3000
4000
5000
6000
1
2
3
Relación lineal entre variables cuantitativas
Estadístico de covarianza
n
n
∑ ( X −x )(Y − y ) ∑ X Y
i
s XY = i =1
i
n
i i
=
i =1
n
− XY
Covarianza positiva (Sxy>0) ⇒ Asociación lineal
positiva.
Covarianza negativa (Sxy<0) ⇒ Asociación lineal
negativa.
Covarianza nula (Sxy=0) ⇒ Asociación lineal
inexistente.
Relación lineal entre variables cuantitativas
Estadístico de covarianza positivo
Figura 5.1.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
Y
2
1
0
0
X
1
2
3
4
5
6
7
8
9
10
11
12
13
Relación lineal entre variables cuantitativas
Estadístico de covarianza nulo
Figura 5.6.
1,5
1,0
,5
0,0
Y
-,5
-1,0
-4
X
-3
-2
-1
0
1
2
3
Relación lineal entre variables cuantitativas
Covarianza. Ejemplo.
24
20
1
2
3
4
5
6
7
8
9
10
Suma
Media
18
16
14
12
10
8
6
4
2
Y
Xi
i
22
0
0
2
4
6
8
10
12
14
16
18
20
22
X
n
X i Yi
12 14,55
10 12,85
11
13,3
13 13,53
15 18,18
14 18,94
12 16,11
11 13,82
19 23,53
20 23,02
137 167,83
13,7 16,783
174,6
128,5
146,3
175,89
272,7
265,16
193,32
152,02
447,07
460,4
2415,96
n
∑ ( X −x )(Y − y ) ∑ X Y
i
s XY =
Yi
i
i =1
n
i i
=
i =1
n
− XY =
2415,96
− 13,7·16,783 = 11,67
10
Por tanto, existe asociación positiva entre ambas variables.
Relación lineal entre variables cuantitativas
Estadístico de covarianza
Problemas del estadístico de covarianza como medida de
asociación:
ƒ No tiene un límite superior, con respecto al cual
considerar si el grado de asociación.
ƒ La covarianza depende de las unidades en que están
medidas las variables.
Relación lineal entre variables cuantitativas
Estadístico de covarianza
Propiedades de la covarianza:
ƒ Si se suma a la variable X una constante b y a la
variable Y una constante c, la covarianza entre las dos
nuevas variables transformadas será igual a la
covarianza original.
n
∑ (( X
s XY = i =1
i
+ b )− ( x + b ))((Yi + c ) − ( y + c ))
n
n
=
∑ (X
i =1
i
− x )(Yi − y )
n
ƒ Si se multiplica la variable X por una constante b y la
variable Y por una constante c, la covarianza entre las
dos nuevas variables transformadas será igual a la
covarianza original multiplicada por las constantes bc.
n
∑ (bX
s XY = i =1
i
−bx )(cYi − c y )
n
n
=
bc ∑ ( X i − x )(Yi − y )
i =1
n
Relación lineal entre variables cuantitativas
Coeficiente de correlación lineal simple (Coeficiente de
correlación de Pearson)
s XY
rXY =
s X sY
Substituyendo la covarianza y las desviaciones típicas:
n
s
rXY = XY =
s X sY
n
∑ ( X −x )(Y − y )
i
i i
i =1
n
∑ ( X i −x )
2
i =1
∑ X Y −nx y
i
n
∑ (Yi − y )
2
i =1
i =1
=
n
∑
i =1
X i2 −n x 2
n
∑
i =1
Yi 2 −n y 2
Relación lineal entre variables cuantitativas
Coeficiente de correlación lineal simple (Coeficiente de
correlación de Pearson)
s XY
rXY =
s X sY
Asociación lineal positiva ⇒ Sxy>0 ⇒ rxy>0
Asociación lineal negativa ⇒ Sxy<0 ⇒ rxy<0
Ausencia de asociación lineal ⇒ Sxy=0 ⇒ rxy=0
El coeficiente de correlación toma valores entre –1 y 1.
rxy = 1 Asociación lineal exacta de tipo positivo.
rxy = -1 Asociación lineal exacta de tipo negativo.
rxy = 0 Ausencia de asociación lineal.
Relación lineal entre variables cuantitativas
Coeficiente de correlación lineal simple (Coeficiente de
correlación de Pearson)
Propiedades del coeficiente de correlación:
ƒ El valor del coeficiente de correlación entre dos variables no
se modifica si una (o ambas) variables se multiplica por una
constante.
ƒ El coeficiente de correlación toma valores en el intervalo –1 y
1. Los valores máximo y mínimo se alcanzan cuando se da
una relación lineal exacta entre las dos variables, de tipo
positivo o de tipo negativo, respectivamente.
ƒ Valores del coeficiente próximos a 1 indican la existencia de
una asociación positiva fuerte entre las variables; valores
cercanos a –1 indican la existencia de una asociación negativa
fuerte entre las variables; valores cercanos a cero señalan la
ausencia de una asociación lineal.
Relación lineal entre variables cuantitativas
Coeficiente de correlación. Ejemplo.
22
20
18
16
14
12
10
8
6
4
2
Y
Xi
i
24
0
0
X
2
4
6
8
10
12
14
16
18
20
22
1
2
3
4
5
6
7
8
9
10
Suma
Media
Yi
12 14,55
10 12,85
11
13,3
13 13,53
15 18,18
14 18,94
12 16,11
11 13,82
19 23,53
20 23,02
137 167,83
13,7 16,783
X i Yi
X i2
Yi 2
174,6
144 211,70
128,5
100 165,12
146,3
121 176,89
175,89 169 183,06
272,7
225 330,51
265,16 196 358,72
193,32 144 259,53
152,02 121 190,99
447,07 361 553,66
460,4
400 529,92
2415,96 1981 2960,12
SXY = 11,67
n
∑X
SX =
i =1
2
i
n
− X2 =
1981
− 13,7 2 = 3,23
10
−Y 2 =
2960,12
− 16 ,7832 = 3,79
10
n
∑Y
SY =
rXY =
i =1
n
i
2
s XY
11,67
=
= 0,95
s X sY 3,23·3,79
Por tanto, existe asociación positiva muy fuerte entre
ambas variables.
Relación lineal entre variables cuantitativas
Objetivo: analizar las relaciones de dependencia entre una
variable dependiente y un conjunto de variables explicativas.
Especificación:
Yi = f(X1i, X2i, X3i, ..., Xki, β)
Forma
funcional lineal
Yi = β1 + β2X2i + β3X3i + β4X4i + ... + βkXki + ui
Y: variable dependiente o endógena.
Xj: variables explicativas, exógenas o regresores.
β j: parámetros, coeficientes de regresión.
u: término de error, término de perturbación o perturbación aleatoria.
Modelo Simple: Yi = β1 + β2Xi + ui
Modelo Múltiple: Yi = β1 + β2X2i + β3X3i + β4X4i + ... + βkXki + ui
Relación lineal entre variables cuantitativas
Modelo Simple:
Yi = α + βXi + ui
Relación lineal entre variables cuantitativas
Ejemplo. Función de consumo sanitario
Consumo
Función de consumo sanitario
5000
Ci = α + βRi + ui
4000
E(Ci) = α + βRi
3000
2000
1000
0
25000
35000
45000
Renta
Observaciones muestrales
55000
Relación lineal entre variables cuantitativas
Ejemplo. Función de consumo sanitario
Función de consumo sanitario
5000
Ci = α + βRi + ui
4000
E(Ci) = α + βRi
Consumo
Ci= 300,72+0,0677·Ri
3000
2000
1000
0
25000
30000
35000
40000
45000
50000
55000
Renta
Observaciones muestrales
Lineal (Observaciones muestrales)
Relación lineal entre variables cuantitativas
Obtención de α y β estimados por Mínimos Cuadrados
Ordinarios (MCO)
Yi = α + βXi + ui
100
95
ei
90
85
80
Y 75
ei
70
65
60
55
50
15
20
25
30
35
X
n
αˆ = y−βˆ x
n
∑ ( X −x )(Y − y ) ∑ X Y − nxy
βˆ = i =1
i
n
i
2
(
)
−
X
x
∑ i
i =1
=
i =1
n
i i
∑X
i =1
2
i
− nx 2
=
Sxy
S 2x
Relación lineal entre variables cuantitativas
Obtención de α y β estimados por Mínimos Cuadrados
Ordinarios (MCO)
Yi = α + βXi + ui
100
y = 11,364+2,8155x
95
ei
90
85
80
Y 75
ei
70
65
60
55
50
15
20
25
30
35
X
n
αˆ = y−βˆ x
βˆ =
n
∑ ( X −x )(Y − y ) ∑ X Y − nxy
i
i =1
n
i
2
(
)
X
−
x
∑ i
i =1
=
i =1
n
i i
∑X
i =1
2
i
− nx 2
=
Sxy
S 2x
Relación lineal entre variables cuantitativas
Ejemplo. Función de consumo sanitario
Muestra de 25 famílias:
Función de consumo sanitario
5000
Consumo
4000
3000
2000
1000
0
25000
35000
45000
55000
Renta
Observaciones muestrales
αˆ =300,72
Lineal (Observaciones muestrales)
βˆ =0,0677
Consumo
2275
3049
2050
2362
2457
2850
2499
2763
2869
2177
3184
3013
3464
2295
2224
3196
3617
3084
2951
4006
3977
3288
4085
3547
3907
Renta
30000
30000
30000
30000
30000
35000
35000
35000
35000
35000
40000
40000
40000
40000
40000
45000
45000
45000
45000
45000
50000
50000
50000
50000
50000
Relación lineal entre variables cuantitativas
Ejemplo. Función de consumo sanitario
Muestra de 25 famílias:
Función de consumo sanitario
5000
4000
Consumo
Ci= 300,72+0,0677·Ri
3000
2000
1000
0
25000
35000
45000
55000
Renta
Observaciones muestrales
αˆ =300,72
Lineal (Observaciones muestrales)
βˆ =0,0677
Consumo
2275
3049
2050
2362
2457
2850
2499
2763
2869
2177
3184
3013
3464
2295
2224
3196
3617
3084
2951
4006
3977
3288
4085
3547
3907
Renta
30000
30000
30000
30000
30000
35000
35000
35000
35000
35000
40000
40000
40000
40000
40000
45000
45000
45000
45000
45000
50000
50000
50000
50000
50000
Relación lineal entre variables cuantitativas
Bondad de ajuste
A)
B)
ˆ 2 ( X − x )2
β
VE
R2 =
= ∑ i 2
VT
∑ (Yi − y )
0 ≤ R 2 ≤1
R 2 = 0 ⇔ El modelo NO es EXPLICATIVO
R 2 =1 ⇔ El modelo EXPLICA toda la variación de Y
Relación lineal entre variables cuantitativas
Ejemplo. Función de consumo sanitario
Muestra de 25 famílias:
Función de consumo sanitario
5000
Ci= 300,72+0,0677·Ri
R2 = 0,6169
Consumo
4000
3000
2000
1000
0
25000
35000
45000
55000
Renta
Observaciones muestrales
αˆ =300,72
Lineal (Observaciones muestrales)
βˆ =0,0677
Consumo
2275
3049
2050
2362
2457
2850
2499
2763
2869
2177
3184
3013
3464
2295
2224
3196
3617
3084
2951
4006
3977
3288
4085
3547
3907
Renta
30000
30000
30000
30000
30000
35000
35000
35000
35000
35000
40000
40000
40000
40000
40000
45000
45000
45000
45000
45000
50000
50000
50000
50000
50000
Descargar