MEDIDAS DE ASOCIACIÓN MEDIADAS DE ASOCIACIÓN Diremos que dos variables presentan algún grado de asociación si el conocimiento de una presenta alguna información sobre la otra. Asociación en la Escala Ordinal. Sea {X i ,Y i }i =1 muestra de una variable ordinal divariada ( X e Y variables ordinales). Ordenemos los valores de X i e Yi de menor a mayor. A cada X i corresponde un número de orden R i y a cada Y i un número S i . n Tales números de orden R i y Yi son conocidos como los rangos de los X i e Y i respectivamente. Definamos D i = R i − S i . Es decir D i es la diferencia entre los rangos de X i y de Y i . Si X e Y tienen una fuerte asociación debemos esperar un comportamiento semejante en rangos, de modo que tendríamos D i pequeños. Si no hay asociación esperaríamos todo tipo de valores para D i y finalmente si hay comportamiento contrario (al crecer X decrece Y y viceversa), debemos esperar D i grandes (en módulo). Entonces podemos usar D 2 = n ∑D i =1 2 i para medir asociación en la escala ordinal. No obstante, D 2 no es de fácil interpretación y utilizamos, para superar dicho problema, el coeficiente de correlación de rangos de Spearman. Tal coeficiente lo definimos por: ρ =1− 6D 2 n n 2 −1 ( ) Este coeficiente vale 1 si los rangos de X e Y coinciden y -1 si los rangos de X e Y tienen un comportamiento exactamente inverso. Entonces el coeficiente ρ está entre (-1) y (+1), de modo que cuando vale cero los rangos de la variable no tienen comportamiento dependiente en los rangos de la otra, cuando ρ es positivo existe asociación directa en los rangos y cuando ρ es negativo existe asociación inversa. Si existe empate entre dos o más observaciones de una variable, asociamos a tales observaciones el rango promedio de los que los hubiese correspondido. Profesor: Patricio Videla Jiménez. MEDIDAS DE ASOCIACIÓN Asociación en la Escala Intervalar. Frecuentemente nos hallamos ante tablas donde se ha recogido datos sobre dos variables intervalares. Nos interesará estudiar la asociación que entre ellas pudiera existir. A manera de motivación consideremos el siguiente ejemplo: Media Xi Yi 10 8 22 30 50 24 1 1 3 3 4 2.4 (X − X) -14 -16 -2 6 26 (Y −Y -1.4 -1.4 0.6 0.6 1.6 i i ) (X i − X ) ⋅ (Yi − Y 19.6 22.4 -1.2 3.6 41.6 17.2 ) La idea que hay tras esta tabla es la siguiente: Si X e Y están asociadas de modo “favorable” (es decir, se comportan igual: aumenta X ⇒ aumenta Y ; disminuye X ⇒ disminuye Y ) entonces las columnas (X i − X ) e (Yi − Y ) deberían tener los mismos signos ya que situarse a la izquierda de la media X implicaría estar también a la izquierda de Y y viceversa. Por el contrario si X e Y estuvieran asociadas “repulsivamente” (variarán en direcciones opuestas) entonces los signos de las columnas (X i − X ) e (Yi − Y ) serían contrarios. Nuestra intención es construir una medida de asociación que tenga la propiedad de ser positiva si X e Y juegan favorablemente y de ser negativa en caso contrario. Ello se podría conseguir promediando la columna de productos: (X i − X ) ⋅ (Yi − Y ). Tal medida de asociación se llama COVARIANZA entre X e Y : ∑ (X n COV (X ,Y ) = i =1 i − X ) ⋅ (Yi − Y ) n en que n es la cantidad de individuos. En nuestro ejemplo n = 5 y COV (X ,Y ) = 17.2 que al ser positiva muestra que X e Y están asociadas favorablemente. La covarianza, sin embargo, no permite tener una noción del “grado de asociación” ya que puede variar entre − ∞ y + ∞ y no hay modo de saber si es “grande” o “chica”. Profesor: Patricio Videla Jiménez. MEDIDAS DE ASOCIACIÓN Para poder cuantificar el nivel de asociación se utiliza el llamado coeficiente de correlación. r = COV (X ,Y ) , en que S X = V (X ) y SY = V (Y ) S X ⋅ SY Nota: r ≤ 1 , es decir − 1 ≤ r ≤ 1 . En lugar de “asociación” suele emplearse el término: Correlación positiva = asociación favorable. Correlación negativa = asociación repulsiva. Se entiende que r es de fácil interpretación. Alta -1 Negativa Media -0.5 Nula Baja -0.3 Baja 0.3 0 r Positiva Media 0.5 Alta 1 Observaciones: 1. Se puede verificar que: COV (X ,Y ) = COV (Y , X ) 2. Si la información se presenta en una “Tabla de Contingencia”, resulta entonces que la covarianza entre X e Y se calcula según: ∑ ∑ n (X r COV (X ,Y ) = s i =1 j =1 ij i − X )(Y j − Y ) n Con esto es posible calcular el coeficiente de correlación igual como antes. r = COV (X ,Y ) S X ⋅ SY Profesor: Patricio Videla Jiménez.