5 Relaciones entre variables.

Anuncio
5
ANÁLISIS EXPLORATORIO DE DATOS
5
39
Relaciones entre variables.
5.1
Ejercicios.
Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos medidas
antropométricas X e Y . Los resultados que se obtienen son
x = 14,
y = 100,
sx = 2,
sy = 25,
sxy = 45.
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando
este modelo calcular de modo aproximado la cantidad Y esperada cuando X = 15.
Respuesta: Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de Y , según
el criterio de los mı́nimos cuadrados, en la nube de puntos que resulta de representar en
un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta son:
45
sxy
= 11.25,
b= 2 =
sx
4
a = y − b x = 100 − (11.25)(14) = −57.5.
Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo lineal
predice un valor de Y de
ŷ = −57.5 + 11.25(15) = 111.25.
En este punto hay que preguntarse cómo de fiable es esta predicción. Para dar una respuesta necesitamos estudiar las propiedades de la regresión lineal.
Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos variables
X e Y se obtiene la siguiente información:
xi = 24,
xi yi = 64,
yi = 40, s2y = 12, s2x = 6.
a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los parámetros.
b) Calcular el coeficiente de determinación. Comentar el resultado e indicar el porcentaje de variación de Y que no está explicado por el modelo de regresión lineal.
c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4?
d) Obtener la recta de regresión de X sobre Y .
Respuestas: a) Buscamos la recta Ŷ = a + b X:
xy − x y
64/8 − (24/8)(40/8)
sXY
= −1.167,
=
b= 2 =
sX
s2X
6
24
4
− (−1.167)
= 8.5.
8
8
el parámetro b es el pendiente de la recta de regresión y mide la variación de Y cuando
X aumenta una unidad. Puesto que b < 0 esto significa que a medida que X aumenta
la variable Y tiende a disminuir, es decir, existe una relación inversa entre X e Y . El
parámetro a es el valor de la ordenada en el origen, es decir, el punto en que la recta
cruza el eje vertical. La recta de regresión es
a = y − bx =
Ŷ = 8.5 − 1.167 X.
5
ANÁLISIS EXPLORATORIO DE DATOS
40
b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con
el coeficiente de correlación lineal de Pearson al cuadrado:
2 2
sXY
−7
2
=
=
= 0.68,
R2 = rXY
sX sY
6 · 12
esto significa que el modelo de regresión lineal explica el 68% de la variabilidad de Y en
función de la de X. Por tanto, queda un 32% de variabilidad no explicada.
c) La predicción que realiza este modelo es
ŷ = 8.5 − 1.167(4) = 3.83,
que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un
68% de la variabilidad total.
d) Buscamos la recta X̂ = ã + b̃ Y :
b̃ =
−7
sXY
= −0.583,
=
s2Y
12
40
24
− (−0.583)
= 5.915,
8
8
por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que se obtienen
para la pendiente de la recta y para el término independiente no coinciden en absoluto
con los que se obtendrı́an despejando de la ecuación Ŷ = 8.5 − 1.167 X, que serı́an X =
7.284 − 0.857 Ŷ y resulta del todo incorrecto utilizar esta última ecuación para predecir X
en función de Y .
ã = x − b̃ y =
Ejercicio 5.3 La tabla siguiente contiene la edad X y la máxima de la presión sanguı́nea
Y de un grupo de 10 mujeres:
Edad
Presión
56
14.8
42
12.6
72
15.9
36
11.8
63
14.9
47
13.0
55
15.1
49
14.2
38
11.4
42
14.1
a) Calculad el coeficiente de correlación lineal entre las variables y decid qué indica.
b) Determinad la recta de regresión de Y sobre X, justificando la adecuación de un
modelo lineal. Interpretad los coeficientes.
c) Valorad la bondad del modelo.
d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido:
d.1) Presión sanguı́nea de una mujer de 51 años.
d.2) Presión sanguı́nea de una niña de 10 años.
d.3) Presión sanguı́nea de una hombre de 54 años.
Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los apartados a)
y b):
xi
56
42
72
36
63
47
55
49
38
42
500
yi
14.8
12.6
15.9
11.8
14.9
13
15.1
14.2
11.4
14.1
137.8
x2i
3136
1764
5184
1296
3969
2209
3025
2401
1444
1764
26192
yi2
219.04
158.76
252.81
139.24
222.01
169
228.01
201.64
129.96
198.81
1919.28
xi yi
828.8
529.2
1144.8
424.8
938.7
611
830.5
695.8
433.2
592.2
7029
5
ANÁLISIS EXPLORATORIO DE DATOS
Las medias son:
500
= 50,
10
las varianzas y covarianza son:
x=
s2X = x2 − x2 =
y=
41
137.8
= 13.78,
10
26192
− 502 = 119.2,
10
1919.28
− 13.782 = 2.04,
10
7029
− 50 · 13.78 = 13.9
sXY = xy − x y =
10
y el coeficiente de correlación lineal es
s2Y = y 2 − y 2 =
rXY =
5
ANÁLISIS EXPLORATORIO DE DATOS
Ejercicio 5.5 Dada la siguiente distribución bidimensional encontrar el modelo de regresión (lineal o parabólico) que mejor se ajuste a la nube de puntos.
xi
yi
b=
sXY
13.9
= 0.12,
=
s2X
119.2
1
13
1
15
2
18
3
19
4
21
5
16
5
20
6
14
Respuesta: Si realizamos un gráfico de dispersión, a primera vista puede apreciarse que
el modelo lineal va a tener un peor ajuste que el modelo parabólico (véase la figura 1).
Figure 1: Gráfico de dispersión con los datos del ejercicio 5.5
sXY
13.9
= 0.89,
=√
sx sY
119.2 · 2.04
que indica una dependencia lineal moderada y directa entre X e Y . Cuanto mayor es X
mayor tiende a ser Y .
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
42
22
17.6
yi 13.2
8.8
a = y − b x = 137.78 − 0.12 · 50 = 7.95.
4.4
El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la pendiente
de la recta de regresión.
c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 , que en el
2
. Entonces, R2 = 0.892 = 0.79, que indica que
caso del modelo lineal coincide con rXY
un 79% de la variabilidad de Y viene explicada por el modelo de la recta de regresión,
mientras que queda sin explicar un 21% de la variabilidad.
d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de x = 51 el
modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90.
Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por
observaciones de dos variables X e Y y se ha obtenido un coeficiente de determinación
de 0.03. Discutid si las siguientes afirmaciones son ciertas y por qué:
a)
b)
c)
d)
e)
f)
El coeficiente de correlación lineal entre X e Y valdrá 0.173.
La covarianza entre X e Y puede ser negativa.
Las variables X e Y son casi independientes.
El coeficiente de determinación entre −X e Y valdrá -0.03.
El coeficiente de determinación entre −X y −Y valdrá 0.03.
Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo.
Respuestas:
a)
b)
c)
d)
e)
f)
√
√
Falso, rXY = ± R2 = ± 0.03 = ±0.173.
Cierto.
Falso, pues la relación entre X e Y puede ser no lineal.
Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03.
Cierto.
Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto, queda por
explicar un 97%.
0
1
2
3
4
5
6
7
xi
Empezamos ajustando el modelo más sencillo, que es el lineal. Es decir, proponemos el
modelo Ŷ = a+b X, para cuyo cálculo utilizaremos las 5 primeras columnas de la siguiente
tabla:
xi
1
1
2
3
4
5
5
6
27
yi
13
15
18
19
21
16
20
14
136
xi yi
13
15
36
57
84
80
100
84
469
x2i
1
1
4
9
16
25
25
36
117
yi2
169
225
324
361
441
256
400
196
2372
ŷi
16.0821
16.0821
16.4686
16.8551
17.2415
17.6280
17.6280
18.0145
136
ei
-3.0821
-1.0821
1.5314
2.1449
3.7585
-1.6280
2.3720
-4.0145
0
e2i
9.499
1.171
2.345
4.601
14.126
2.650
5.626
16.116
56.135
Para el cálculo de a y b necesitamos las medias y covarianza de X e Y y la varianza de
X:
27
136
= 3.375, y =
= 17,
x=
8
8
469
− (3.375)(17) = 1.25,
sXY = x y − x y =
8
117
2
2
2
− 3.3752 = 3.234,
sX = x − x =
8
por tanto,
sXY
1.25
b= 2 =
= 0.386,
sX
3.234
5
ANÁLISIS EXPLORATORIO DE DATOS
43
5
ANÁLISIS EXPLORATORIO DE DATOS
a = y − b x = 17 − (0.386)(3.375) = 15.696,
donde s2e es la varianza de los residuos y s2Y es la varianza de Y , que se obtienen utilizando
las columnas 8 y 5 de la tabla anterior, respectivamente:
sXY
1.25
= 0.2538,
=
sX sY
(3.234)(7.5)
2
rXY
= 0.06441.
Puesto que el modelo lineal tiene muy mal ajuste, proponemos el modelo de regresión
parabólico Ŷ = a + b X + c X 2 , para cuyo cálculo utilizaremos las 8 primeras columnas de
la siguiente tabla:
yi
13
15
18
19
21
16
20
14
136
xi yi
13
15
36
57
84
80
100
84
469
x2i yi
13
15
72
171
336
400
500
504
2011
x2i
1
1
4
9
16
25
25
36
117
yi2
169
225
324
361
441
256
400
196
2372
x3i
1
1
8
27
64
125
125
216
567
x4i
1
1
16
81
256
625
625
1296
2901
ŷi
13.925
13.925
17.935
19.961
20.003
18.059
18.059
14.132
136
ei
-0.925
1.075
0.065
-0.961
0.997
-2.059
1.941
-0.132
0
Las fórmulas que nos permiten obtener los parámetros a, b y c son:
b =
c =
sXY s2X 2 − sX 2 Y sXX 2
,
s2X s2X 2 − s2XX 2
s2X sX 2 Y − sXX 2 sXY
,
s2X s2X 2 − s2XX 2
a = y − b x − c x2 .
Vamos a calcular las medias, covarianzas y varianzas que nos faltan:
x2 =
sXX 2 = x x2 − x x2 =
117
= 14.625,
8
567
− 3.375 · 14.625 = 21.5156,
8
e2i
0.856
1.155
0.004
0.924
0.995
4.241
3.766
0.017
11.959
2
y substituyendo, obtenemos:
b = 6.987,
c = −0.992,
a = 7.930.
Por tanto, el modelo propuesto es Y = 7.930 + 6.987 X − 0.992 X 2 . La columna 9 de
la tabla anterior contiene los valores ajustados según este modelo, ŷi , y la columna 10
contiene los residuos ei = yi − ŷi .
Para estudiar la bondad de ajuste calculamos el coeficiente de determinación:
R2 = 1 −
2372
− 172 = 7.5,
8
de manera que R2 = 1 − 7.017/7.5 = 0.06441. Es decir que solamente el 6% de la
variabilidad de los datos queda explicada por el modelo.
Puesto que se trata de un modelo lineal, el valor de R2 coincide con el cuadrado del
2
. Por tanto, en este caso,
coeficiente de correlación lineal de Pearson, es decir, rXY
podrı́amos habernos ahorrado el cálculo de R2 .
xi
1
1
2
3
4
5
5
6
27
s2X 2 = x4 − x2
56.135
− 0 = 7.017,
8
s2Y = y 2 − y 2 =
rXY =
2011
− 14.625 · 17 = 2.75,
8
2901
− 14.6252 = 148.734,
=
8
sX 2 Y = x2 y − x2 y =
de manera que el modelo propuesto es Y = 15.696 + 0.386 X. La columna 6 de la tabla
anterior contiene los valores ajustados según este modelo, ŷi , y la columna 7 contiene los
residuos ei = yi − ŷi (observad que tienen media cero).
La forma general de estudiar la bondad de ajuste de un modelo es mediante el coeficiente
de determinación R2 :
s2
R2 = 1 − 2e ,
sY
s2e = e2 − e2 =
44
s2e
11.959/8
= 0.8007.
=1−
s2Y
7.5
Este resultado nos dice que el 80% de la variabilidad de los datos está explicada por el
modelo de regresión parabólica. Observad que en este caso es del todo incorrecto utilizar
2
como medida de bondad de ajuste del modelo.
rXY
Ejercicio 5.6 Los datos siguientes forman parte de un anuncio publicado por un joyero
de Singapur en el periódico Straits Times el 29 de febrero de 1992. Estos datos hacen
referencia al precio (en dólares de Singapur) de anillos que llevan un diamante. El tamaño
de un diamante, que se indica en quilates (1 quilate=200 mg).
tamaño
precio
tamaño
precio
0.17
355
0.16
345
0.16
328
0.17
352
0.17
350
0.16
332
0.25
675
0.17
353
0.16
342
0.18
438
0.15
322
0.23
595
0.21
483
0.23
553
0.15
323
0.12
223
Ajustad un modelo lineal a estos datos y decidid si el ajuste obtenido es bueno. Comprobad
si se cumplen para los residuos las suposiciones de independencia y de varianza constante.
Respuesta: Entre las dos variables, “tamaño” y “precio”, es el tamaño de un diamante
el que determina el precio del anillo. Por tanto, escogemos X =“tamaño” como variable
independiente y Y =“precio” como variable dependiente.
Realizamos un diagrama de dispersión para ver si puede utilizarse la regresión lineal. El
gráfico obtenido (véase la figura 2) indica que el modelo lineal es adecuado para representar
la relación entre X e Y .
Construimos la tabla auxiliar para realizar los cálculos:
xi
0.17
0.16
0.17
0.25
0.16
0.15
0.21
0.15
0.16
0.17
0.16
0.17
0.18
0.23
0.23
0.12
2.84
yi
355
328
350
675
342
322
483
323
345
352
332
353
438
595
553
223
6369
x2i
0.0289
0.0256
0.0289
0.0625
0.0256
0.0225
0.0441
0.0225
0.0256
0.0289
0.0256
0.0289
0.0324
0.0529
0.0529
0.0144
0.5222
yi2
126025
107584
122500
455625
116964
103684
233289
104329
119025
123904
110224
124609
191844
354025
305809
49729
2749169
xi yi
60.35
52.48
59.50
168.75
54.72
48.30
101.43
48.45
55.20
59.84
53.12
60.01
78.84
136.85
127.19
26.76
1191.79
5
ANÁLISIS EXPLORATORIO DE DATOS
45
5
ANÁLISIS EXPLORATORIO DE DATOS
xi
0.17
0.16
0.17
0.25
0.16
0.15
0.21
0.15
0.16
0.17
0.16
0.17
0.18
0.23
0.23
0.12
Figure 2: Gráfico de dispersión con los datos del ejercicio 5.6
473
439
yi
405
372
338
0
0.17
0.22
0.27
0.32
0.37
2.84
= 0.1775,
16
las varianzas y covarianza son:
x=
s2X = x2 − x2 =
y=
6369
= 398.0625,
16
ei
-16.9435
-9.1180
-21.9435
24.4525
4.8820
19.7075
-28.2455
20.7075
7.8820
-19.9435
-5.1180
-18.9435
31.2310
14.1035
-27.8965
25.1840
Figure 3: Gráfico de residuos de los datos del ejercicio 5.6
0.5222
− 0.17752 = 0.0011,
16
2749169
− 398.06252 = 13369.3086,
16
1191.79
− 0.1775 · 398.0625 = 3.8308.
= xy − x y =
16
s2Y = y 2 − y 2 =
sXY
ŷi
371.9435
337.1180
371.9435
650.5475
337.1180
302.2925
511.2455
302.2925
337.1180
371.9435
337.1180
371.9435
406.7690
580.8965
580.8965
197.8160
Posteriormente se construye un diagrama de dispersión de los pares (xi , ei ), i = 1, . . . , 16.
Este diagrama ( véase la figura 3) permite concluir que los residuos no presentan ninguna
regularidad evidente y que la amplitud de la dispersión de los residuos es más o menos
constante a lo largo del eje X. Por tanto, se puede considerar que los residuos en el
modelo lineal son independientes y de varianza constante.
xi
Las medias son:
yi
355
328
350
675
342
322
483
323
345
352
332
353
438
595
553
223
46
31.23
19.34
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
ei 7.44
sXY
3.8308
= 3482.55,
b= 2 =
sX
0.0011
-4.45
a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09,
por tanto, el modelo ajustado es Y = −220.09 + 3482.55 X. El coeficiente de correlación
lineal es
sXY
3.8308
= 0.9989,
rXY =
=√
sx sY
0.0011 · 13369.3086
-16.35
0
0.17
0.22
que indica una dependencia lineal muy fuerte y directa entre X e Y . El valor de R =
2
= 0.9978 indica que el ajuste es muy bueno, puesto que el modelo lineal explica el
rXY
99.78% de la variabilidad de Y .
Para comprobar las suposiciones de independecia de los residuos y de varianza constante,
hay que calcular para cada valor xi de la variable X la predicción ŷi = a + b xi y el
correspondiente residuo ei = yi − ŷi .
0.27
0.32
0.37
xi
2
Ejercicio 5.7 Las ecuaciones siguientes
5
4
Ŷ = − X − ,
3
3
1
1
X̂ = − Y − ,
2
2
representan las rectas de regresión lineal de una distribución estadı́stica bivariante. Hallad
los coeficientes de determinación y de correlación entre las variables X e Y .
Respuesta: Si llamamos b a la pendiente de la recta de regresión de Y sobre X y b̃ a la
5
ANÁLISIS EXPLORATORIO DE DATOS
47
pendiente de la recta de regresión de X sobre Y , entonces:
b=−
sXY
5
= 2 ,
3
sX
b̃ = −
5
ANÁLISIS EXPLORATORIO DE DATOS
Por tanto, si la dependencia entre X e Y es directa:
sXY
1
= 2 .
2
sY
b=
24
,
5
a = y − bx = 8 −
24
5
Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la siguiente
relación entre el coeficiente de determinación y el coeficiente de correlación lineal:
2
sXY
5
1
5
2
=
= b b̃ = −
R2 = rXY
−
= = 0.83.
sX sY
3
2
6
de manera que el modelo es Ŷ = −16 +
la dependencia entre X e Y es inversa:
Para calcular el coeficiente de correlación lineal hay que tener en cuenta que la pendiente
de la recta de regresión es negativa,
√
√
rXY = − R2 = − 0.83 = −0.91.
de manera que el modelo ahora es Ŷ = 32 −
Ejercicio 5.8 Dos distribuciones estadı́sticas tienen como rectas de regresión de Y sobre
X, respectivamente,
3
5 1
Ŷ = + X, Ŷ = 2 + X,
3 4
5
¿Puede asegurarse que la segunda distribución tiene un coeficiente de determinación mayor
que la primera?
Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que la de la
primera no permite asegurar que R2 vaya también a ser mayor, puesto que R2 depende
del grado de acercamiento de la recta a la nube de puntos.
Ejercicio 5.9 De una distribución estadı́stica bivariante se conocen x = 5, y = 8, CVY =
3 CVX . Mediante la recta de regresión de Y sobre X, ¿cuál es la predicción del modelo
para un valor de x = 6,
a) en el caso que R2 = 0?
b) en el caso que R2 = 1?
Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se tiene que
2
, y por tanto,
R2 = rXY
R2 = 0 =⇒ sXY = 0 =⇒ b = 0.
De manera que el modelo queda: Ŷ = a, y teniendo en cuenta que a = y − b x = 8, se
tiene que Ŷ = 8, que no depende del valor de la variable X. Ası́, la predicción de este
modelo para x = 6 es y = 8.
b) Debemos determinar los coeficentes a y b del modelo lineal. Empezamos buscando
2
b = ssXY
2 . Puesto que R = 1, tenemos que:
X
R2 = 1 =⇒
s2XY
= 1;
s2X s2Y
sXY = ±sX sY .
A partir de la relación CVY = 3 CVX podemos deducir que:
CVY = 3 CVX =⇒
sX
sY
=3
;
y
x
sY = 3 sX
48
24
y
=
sX .
x
8
Substituyendo esta expresión de sY en la expresión anteriormente encontrada para sXY
tenemos que:
sXY
24
24
= b.
sXY = ± s2X ;
=±
8
s2X
5
b=−
24
,
5
24
· 5 = −16,
5
X, y la predicción para x = 6 es ŷ = 12.8. Si
a = y − bx = 8 +
24
5
24
· 5 = 32,
5
X, y la predicción para x = 6 es ŷ = 3.2.
Descargar