Subido por hachiko chamorro cruz

d

Anuncio
Métodos Cuantitativos en Recursos Naturales
Práctico 9
Correlación de Pearson
La prueba de correlación se usa para evaluar la asociación entre dos o más
variables aleatorias. Por ejemplo, si estamos interesados en saber si existe una
relación entre las alturas de padres e hijos, se puede calcular un coeficiente de
correlación para responder a esta pregunta. Si no hay relación entre las dos
variables (alturas de padre e hijo), la altura promedio del hijo debe ser la misma
independientemente de la altura de los padres y viceversa. Existen diferentes
métodos para realizar análisis de correlación:
• Correlación de Pearson (r): mide una relación lineal entre dos variables (x e y).
También se conoce como prueba de correlación paramétrica porque depende de
la distribución de los datos. Se puede usar solo cuando x e y provienen de una
distribución normal.
• Correlación de Spearman (r o rho): corresponden a los coeficientes de
correlación basados en la estimación de rangos, por lo tanto, es una prueba no
paramétrica.
Cabe mencionar que el método más comúnmente utilizado es el método de
correlación de Pearson.
Método de correlación de Pearson: Es un método paramétrico que en su fórmula,
x e y son dos vectores de longitud n, y e corresponden a los promedios de x e
y, respectivamente.
r=
e
∑(𝑥− 𝑥̅ )(𝑦− 𝑦̅)
√∑(𝑥− 𝑥̅ ) ∑(𝑦− 𝑦̅)
son los promedios de las variables x e y.
El valor p (nivel de significancia) de la correlación puede ser determinado usando
la tabla de coeficientes de correlación para los grados de libertad: df = n – 2, donde
n es el número de observaciones en las variables x e y, calculando el valor t de la
siguiente manera:
tcalculado =
𝑟
√1−𝑟
√𝑛 − 2
En el caso del valor p correspondiente, se determina utilizando la tabla de
distribución t para df = n – 2. Si el valor de p es <0.05, entonces la correlación entre
x e y es significativa.
Interpretación del coeficiente de correlación
El coeficiente de correlación está comprendido entre -1 y 1:
• -1 indica una fuerte correlación negativa: esto significa que cada vez que x
aumenta, y disminuye [figura izquierda]
• 0 significa que no hay asociación entre las dos variables (x e y) [figura del centro]
• 1 indica una fuerte correlación positiva: esto significa que y aumenta con x [figura
derecha]
Ejemplo 1: Peso y tensión sistólica en la población
Este primer ejemplo se basa en el estudio que evaluó la existencia de una
relación (o asociación) entre el aumento del peso y aumento en la tensión sistólica
de las personas en Santiago. Se tienen los datos de 10 individuos correspondientes
a su peso (X) y tensión sistólica (mm Hg) (Y), los que se intenta evaluar si hay
asociación entre ambas variables.
X = Peso
Y = P. sistólica
1
72
115
2
76
121
3
78
125
4
81
130
5
89
141
6
95
150
7
108
165
8
115
170
9
120
177
10
130
178
Proposición de Hipótesis
H0: La asociación entre el aumento del peso y aumento en la tensión sistólica de las
personas de Santiago es cero, r xy = 0
H1: La asociación entre el aumento del peso y aumento en la tensión sistólica de las
personas de Santiago no es cero, r xy ≠ 0
Considerando la fórmula de r primero se debe calcular la covarianza (en el
numerador) y para eso:
Calculo para Puntuaciones Directas
1.- Calcular las medias marginales de X e Y
2.- Calcular el producto de cada xi e yi.
Luego se necesita las desviaciones típicas marginales
1.- calcular el cuadrado de xi
2.- calcular el cuadrado de yi
Se realizarán de manera ordenada los cálculos en la siguiente tabla:
xi
72
76
78
81
89
95
108
115
120
130
yi
115
121
125
130
141
150
165
170
177
178
xi * yi

=
=
∑ 𝑥𝑖
𝑛
∑ 𝑦𝑖
𝑛
=
=
∑(𝑥𝑖−𝑥̅ )2
Desviación estándar: 𝜎 = √
𝑛−1
(72−96.4)2 +(76−96.4)2 +(78−96.4)2 +⋯….+(130−96.4)^2)
𝜎=√
=
10−1
Desviación estándar: = √
∑(𝑦𝑖− 𝑦̅)2
𝑛−1
=
(115−147.2)2 +(121−147.2)2 +(125−147.2)2 +(130−147.2)2 …......+(178−147.2)^2)
𝜎=√
=______
10−1
2
Covarianza: 𝜎𝑥𝑦
=
2
𝜎𝑥𝑦
=
∑10
𝑖=1 _____
10
∑10
𝑖=1 𝑥𝑖 𝑦𝑖
𝑛
− 𝑥̅ 𝑦̅ =
− ______ × ______ =
Coeficientes corrección Pearson (𝑟𝑥𝑦 ) =
𝜎𝑥𝑦
𝜎𝑥 𝜎𝑦
___________
=________∗______ =
Desde el supuesto de la Hipótesis nula se demuestra que la distribución muestral de
correlaciones procedentes de una población caracterizada por una correlación igual a cero
(r = 0) sigue una ley de t-Student con N-2= 10-2= 8 grados de libertad:
tcalculado =
𝑟
√1−𝑟
√𝑛 − 2 =
____
√1−___
√10 − 2 = _______
Entonces, la toma de decisión con un 𝛼= 0.025 y n-2= ___ grados de libertad, el tcritico: _____
< ______ tcalculado, por lo tanto, se _____ H0, y se concluye coeficiente de correlación es
distinto de cero.
Gráfico asociación entre el aumento del peso y aumento en la tensión sistólica de
las personas
Correlación de Spearman
El método de correlación de Spearman es un método NO paramétrico que calcula
la correlación entre el rango de las variables x e y aleatorias.
𝜌 =1 −
6 ∑(𝑑𝑖)2
𝑛(𝑛2 −1)
Donde di es la diferencia entre los correspondientes estadísticos de orden de x - y.
n es el número de parejas de datos. Se tiene que considerar la existencia de datos
idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal
circunstancia.
Interpretación del coeficiente de correlación
El coeficiente de correlación está comprendido entre -1 y 1:



-1 indica una fuerte correlación negativa: esto significa que cada vez que x
aumenta, y disminuye [figura izquierda]
0 significa que no hay asociación entre las dos variables (x e y) [figura del
centro]
1 indica una fuerte correlación positiva: esto significa que y aumenta con x
[figura de arriba]
Ejemplo 2
Correlación de Spearman
En un estudio de la relación entre la edad y los resultados del electroencefalograma (EEG),
se recopilaron datos en 20 personas con edades entre 20 y 60 años. La siguiente tabla
(abajo) muestra las edades y un valor de rendimiento del EEG particular para cada una de
esas 20 personas. Los investigadores pretenden saber si es posible concluir que este
rendimiento del EEG particular tiene relación inversa con la edad.
Formulación de hipótesis:
Prueba unilateral izquierda
H0: El rendimiento del EEG y la edad son mutuamente independientes.
H1: Existe una tendencia del rendimiento del EEG a disminuir con la edad.
N°
Individuo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Edad
(X)
20
21
22
24
27
30
31
33
35
38
40
42
44
46
48
51
53
55
58
60
EEG Ranking Ranking
(Y)
(x)
(y)
98
75
95
100
99
65
64
70
85
74
68
66
71
62
69
54
63
52
67
55
di
di2
∑ 𝑑𝑖 2
Luego, se calcula el valor de rho:
𝜌=1−
2
6×∑𝑛
𝑖=1 𝑑𝑖
𝑛(𝑛2 −1)
𝜌 =1−
6×∑𝑛
𝑖=1 ____
= ____
____(____2 −1)
Decisión estadística
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación
a la distribución t de Student
𝑡=
𝜌
(1 − 𝜌2 )
√
(𝑛 − 2)
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
___
(1−−____2)
√
(__−2)
=
y se compara el valor obtenido con el existente en las tablas para un cierto nivel de
significación 𝛼= 0.05 y N-2 grados de libertad (𝑡(𝛼,𝑁−2) ) que como se sabe, marca el límite
(baja probabilidad de ocurrencia, según la Hipótesis nula) de pertenencia de un cierto
coeficiente 𝜌 a la distribución muestral de correlaciones procedentes de una población
con 𝜌 = 0.
Entonces, con un 𝛼= 0.025 y n-2= __ grados de libertad, la decisión estadística es que si:
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 ________ > _______ 𝑡(𝛼,𝑁−2) entonces, se ______ H0. Por lo tanto, Existe una
tendencia del rendimiento del EEG a disminuir con la edad.
Gráfico de asociación entre rendimiento del EEG y la edad son mutuamente
independientes.
.
Descargar