Diapositiva 1

Anuncio
I. Estadística Descriptiva de
dos variables
Objetivo:
Estudiar la posible asociación entre dos variables
Herramientas:
A. Estadísticos: Covarianza, Coeficiente de correlación
B. Representaciones gráficas: Diagramas de dispersión,
rectas de regresión
Guión
• II.1 Diagramas de Dispersión
• II.2 Medidas de Asociación
 Covarianza
 Coeficiente de correlación
• II.3 Regresión
 Regresión lineal
 Regresión No lineal
2 Diagrama de dispersión
Variable explicativa x
Variable respuesta y
Suponemos que la variable y depende de la variable x.
A veces solo queremos ver si hay asociación y de que tipo
Diagrama de dispersión Gráfico en el que se representan los puntos
(x_i, y_i)
Cerebro CI Escalado
Grados Consumo
Cerebro CI
¿Qué se observa en el diagrama de dispersión?
Asociación: fuerte o débil
Asociación: negativa o positiva
Asociación: lineal o no lineal
3. Medidas de Asociación
Covarianza muestral : Muestra la relación
entre los datos
cov x , y
1
n
n
( xi
x )( yi y )
i 1
1 n
( xiyi ) xy
n i1
Asociación positiva
cov >0
Asociación negativa
cov <0
No Asociación
cov ~0
¡Depende de las
Unidades!
3 Regresión
• Regresion Lineal Se trata de buscar la recta que aproxima
mejor los datos
P¿Como se halla la recta de regresión?
• Se busca una recta y=a+bx, tales que los coeficientes
a y b minimizen,
ECM
1
n
n
( yi
bxi ) 2
a
i 1
Respuesta (Derivando)
a
cov xy
y
y
x
vx
y
cov xy
(x
vx
b
cov x , y
vx
x)
• Recta de
Regresión
3. Medidas de Asociación
Coeficiente de correlación (Pearson) :
Muestra la relación (lineal) entre los datos
r
Covx , y
v xv y
Asociación fuerte y positiva
r~ 1
Asociación fuerte y negativa
r ~-1
No Asociación
r ~0
Relación entre la recta de Regresión y el
coeficiente de correlación
2
E.CM
E .CM
vy
1
n
vy (1 r )
1
n
n
( yi
i 1
y)
2
n
( yi
i 1
cov xy
y
( x xi )) 2
vx
x cov xy
v
cov xy 2
(
) (x
vx
vy
(cov x , y ) 2
vx
xi )
2
2(
yi
v y v yr 2
y )( x
cov xy
xi )
vx
Coeficiente de correlación
• No depende de las unidades
• No es robusto (depende de datos
atípicos)
•
r
2
=% de la variacion de y que se debe a la
variación de x
• Solo mide relaciones lineales
3 Regresión no lineal
• Regresion No Lineal Se trata de buscar una curva que
aproxime los datos de la mejor manera posible. Puede
ser exponencial polinomial,etc
¿Como se calcula?
y
ae
bx
Ln( y )
Ln( a ) bx
z
Se hace la regresión de la nueva variable Z sobre X
¿Cómo hacemos regresión
logaritmica?
z
y
a
Ln( x )
Y
a bLn( x )
Se hace la regresión de la variable Y sobre Z
¿Cómo hacemos regresión
potencial?
z
W
y
a( x)
b
Ln(Y )
Ln(a ) bLn( x )
Se hace la regresión de la variable W sobre Z
¿Cómo se predice el futuro con
los modelos de regresión?
y
f ( x)
Modelo de Regresión
¿Que valor predice para un valor x de la variable respuesta?
Concentración de NO2 en una ciudad de Noruega (tabla parcial de datos)
Concent
Cars
3.71844
7.6912 9.2
3.10009
7.69894
3.31419
4.81218
4.38826
6.95177
4.3464 7.51806
-1.3
4.16044
7.67183
4.01277
5.52545
2.15176
4.68213
3.157
7.15618
2.37955
4.74493
3.83298
5.81114
4.48187
8.10892
4.0483 8.31385
12.2
4.00186
5.22036
3.2308 6.40853
-0.9
4.67189
7.3192 -8.5
2.73437
6.6174 6.5
3.49651
7.76938
3.67122
6.4677 -1.1
3.67377
7.65064
3.15274
7.75061
3.42751
5.18178
4.32413
7.63964
3.65584
8.00703
Temp WindSp
4.
8
6.4
3.5
-3.7
0.9
-7.2
1.7
2.6
-0.1
2.6
1.6
-7.9
1.6
-4.1
3.8
-12.7 5.2
-1.6
3
-3.1
1.8
1 1.2
4
-2.8
-1.5
2.4
3
0.1
0.8
2.9
4.1
4.2
7.1
2.5
1
0.8
3.4
8.2
4.5
0.2
0.4
-2.1
4.3
-2.8
6
TempDiff
WindDir
74.4 20
600
-0.3
56
14
-0.1
281.3
4
1.2
74
65
11 115
0.3
224.2
19
0.3
211.9
5
-0.1
63.1
4
-0.1
64.5
12
0.4
58.3
3
0.3
78
1.5
215
230.4
17 572
0.9
82.7
5
235
1
282.4
20 447
88
24
186
19. 3
10
277
6
-0.4
70
12
0.2
307
0.2
230
-0.2
41.4
11
-0.2
62.5
15
Hour
Day
196
513
23
143
527
502
453
462
554
2
18
55
47
556
69
550
142
167
14
5
432
453
32
112
Análisis con todos los datos
r = 0.5121
Correlación con parte de los datos
r = 0.774
¡Cuidado!
• Correlaciones y datos atípicos
• Correlaciones y heterogeneidad
• Correlaciones espurias
Descargar