Métodos Cuantitativos en Recursos Naturales Práctico 9 Correlación de Pearson La prueba de correlación se usa para evaluar la asociación entre dos o más variables aleatorias. Por ejemplo, si estamos interesados en saber si existe una relación entre las alturas de padres e hijos, se puede calcular un coeficiente de correlación para responder a esta pregunta. Si no hay relación entre las dos variables (alturas de padre e hijo), la altura promedio del hijo debe ser la misma independientemente de la altura de los padres y viceversa. Existen diferentes métodos para realizar análisis de correlación: • Correlación de Pearson (r): mide una relación lineal entre dos variables (x e y). También se conoce como prueba de correlación paramétrica porque depende de la distribución de los datos. Se puede usar solo cuando x e y provienen de una distribución normal. • Correlación de Spearman (r o rho): corresponden a los coeficientes de correlación basados en la estimación de rangos, por lo tanto, es una prueba no paramétrica. Cabe mencionar que el método más comúnmente utilizado es el método de correlación de Pearson. Método de correlación de Pearson: Es un método paramétrico que en su fórmula, x e y son dos vectores de longitud n, y e corresponden a los promedios de x e y, respectivamente. r= e ∑(𝑥− 𝑥̅ )(𝑦− 𝑦̅) √∑(𝑥− 𝑥̅ ) ∑(𝑦− 𝑦̅) son los promedios de las variables x e y. El valor p (nivel de significancia) de la correlación puede ser determinado usando la tabla de coeficientes de correlación para los grados de libertad: df = n – 2, donde n es el número de observaciones en las variables x e y, calculando el valor t de la siguiente manera: tcalculado = 𝑟 √1−𝑟 √𝑛 − 2 En el caso del valor p correspondiente, se determina utilizando la tabla de distribución t para df = n – 2. Si el valor de p es <0.05, entonces la correlación entre x e y es significativa. Interpretación del coeficiente de correlación El coeficiente de correlación está comprendido entre -1 y 1: • -1 indica una fuerte correlación negativa: esto significa que cada vez que x aumenta, y disminuye [figura izquierda] • 0 significa que no hay asociación entre las dos variables (x e y) [figura del centro] • 1 indica una fuerte correlación positiva: esto significa que y aumenta con x [figura derecha] Ejemplo 1: Peso y tensión sistólica en la población Este primer ejemplo se basa en el estudio que evaluó la existencia de una relación (o asociación) entre el aumento del peso y aumento en la tensión sistólica de las personas en Santiago. Se tienen los datos de 10 individuos correspondientes a su peso (X) y tensión sistólica (mm Hg) (Y), los que se intenta evaluar si hay asociación entre ambas variables. X = Peso Y = P. sistólica 1 72 115 2 76 121 3 78 125 4 81 130 5 89 141 6 95 150 7 108 165 8 115 170 9 120 177 10 130 178 Proposición de Hipótesis H0: La asociación entre el aumento del peso y aumento en la tensión sistólica de las personas de Santiago es cero, r xy = 0 H1: La asociación entre el aumento del peso y aumento en la tensión sistólica de las personas de Santiago no es cero, r xy ≠ 0 Considerando la fórmula de r primero se debe calcular la covarianza (en el numerador) y para eso: Calculo para Puntuaciones Directas 1.- Calcular las medias marginales de X e Y 2.- Calcular el producto de cada xi e yi. Luego se necesita las desviaciones típicas marginales 1.- calcular el cuadrado de xi 2.- calcular el cuadrado de yi Se realizarán de manera ordenada los cálculos en la siguiente tabla: xi 72 76 78 81 89 95 108 115 120 130 yi 115 121 125 130 141 150 165 170 177 178 xi * yi = = ∑ 𝑥𝑖 𝑛 ∑ 𝑦𝑖 𝑛 = = ∑(𝑥𝑖−𝑥̅ )2 Desviación estándar: 𝜎 = √ 𝑛−1 (72−96.4)2 +(76−96.4)2 +(78−96.4)2 +⋯….+(130−96.4)^2) 𝜎=√ = 10−1 Desviación estándar: = √ ∑(𝑦𝑖− 𝑦̅)2 𝑛−1 = (115−147.2)2 +(121−147.2)2 +(125−147.2)2 +(130−147.2)2 …......+(178−147.2)^2) 𝜎=√ =______ 10−1 2 Covarianza: 𝜎𝑥𝑦 = 2 𝜎𝑥𝑦 = ∑10 𝑖=1 _____ 10 ∑10 𝑖=1 𝑥𝑖 𝑦𝑖 𝑛 − 𝑥̅ 𝑦̅ = − ______ × ______ = Coeficientes corrección Pearson (𝑟𝑥𝑦 ) = 𝜎𝑥𝑦 𝜎𝑥 𝜎𝑦 ___________ =________∗______ = Desde el supuesto de la Hipótesis nula se demuestra que la distribución muestral de correlaciones procedentes de una población caracterizada por una correlación igual a cero (r = 0) sigue una ley de t-Student con N-2= 10-2= 8 grados de libertad: tcalculado = 𝑟 √1−𝑟 √𝑛 − 2 = ____ √1−___ √10 − 2 = _______ Entonces, la toma de decisión con un 𝛼= 0.025 y n-2= ___ grados de libertad, el tcritico: _____ < ______ tcalculado, por lo tanto, se _____ H0, y se concluye coeficiente de correlación es distinto de cero. Gráfico asociación entre el aumento del peso y aumento en la tensión sistólica de las personas Correlación de Spearman El método de correlación de Spearman es un método NO paramétrico que calcula la correlación entre el rango de las variables x e y aleatorias. 𝜌 =1 − 6 ∑(𝑑𝑖)2 𝑛(𝑛2 −1) Donde di es la diferencia entre los correspondientes estadísticos de orden de x - y. n es el número de parejas de datos. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia. Interpretación del coeficiente de correlación El coeficiente de correlación está comprendido entre -1 y 1: -1 indica una fuerte correlación negativa: esto significa que cada vez que x aumenta, y disminuye [figura izquierda] 0 significa que no hay asociación entre las dos variables (x e y) [figura del centro] 1 indica una fuerte correlación positiva: esto significa que y aumenta con x [figura de arriba] Ejemplo 2 Correlación de Spearman En un estudio de la relación entre la edad y los resultados del electroencefalograma (EEG), se recopilaron datos en 20 personas con edades entre 20 y 60 años. La siguiente tabla (abajo) muestra las edades y un valor de rendimiento del EEG particular para cada una de esas 20 personas. Los investigadores pretenden saber si es posible concluir que este rendimiento del EEG particular tiene relación inversa con la edad. Formulación de hipótesis: Prueba unilateral izquierda H0: El rendimiento del EEG y la edad son mutuamente independientes. H1: Existe una tendencia del rendimiento del EEG a disminuir con la edad. N° Individuo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Edad (X) 20 21 22 24 27 30 31 33 35 38 40 42 44 46 48 51 53 55 58 60 EEG Ranking Ranking (Y) (x) (y) 98 75 95 100 99 65 64 70 85 74 68 66 71 62 69 54 63 52 67 55 di di2 ∑ 𝑑𝑖 2 Luego, se calcula el valor de rho: 𝜌=1− 2 6×∑𝑛 𝑖=1 𝑑𝑖 𝑛(𝑛2 −1) 𝜌 =1− 6×∑𝑛 𝑖=1 ____ = ____ ____(____2 −1) Decisión estadística Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student 𝑡= 𝜌 (1 − 𝜌2 ) √ (𝑛 − 2) 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = ___ (1−−____2) √ (__−2) = y se compara el valor obtenido con el existente en las tablas para un cierto nivel de significación 𝛼= 0.05 y N-2 grados de libertad (𝑡(𝛼,𝑁−2) ) que como se sabe, marca el límite (baja probabilidad de ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente 𝜌 a la distribución muestral de correlaciones procedentes de una población con 𝜌 = 0. Entonces, con un 𝛼= 0.025 y n-2= __ grados de libertad, la decisión estadística es que si: 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 ________ > _______ 𝑡(𝛼,𝑁−2) entonces, se ______ H0. Por lo tanto, Existe una tendencia del rendimiento del EEG a disminuir con la edad. Gráfico de asociación entre rendimiento del EEG y la edad son mutuamente independientes. .