Correlaciones canónicas

Anuncio
CORRELACION CANONICA
• Introducción
Las correlaciones canónicas constituyen una generalización de las correlaciones simples y múltiples. Las
correlaciones simples estiman la relación existente entre dos variables, la variable independiente X y la
dependiente Y. Las correlaciones múltiples estiman la relación entre un conjunto de variables independientes
y una sola variable dependiente Y. Las correlaciones canónicas estiman la correlación existente entre un
conjunto de variables independientes
y otro conjunto de variables dependientes
.
Desde el punto de vista metodológico el uso de las correlaciones canónicas exige varias reflexiones: la
primera acerca del número de variables que componen el grupo X y el grupo Y. Si son muchas, posiblemente
en casa grupo puede suceder que haya altas incorrelaciones, lo cual es igual a decir que se están incluyendo 2
o más variables que miden lo mismo. Si son muy pocas, es posible que no se acierte a incluir aquellas
variables que realmente tienen mayor fuerza explicativa,......Se puede tomar como norma orientativa que el
número máximo de variables sean 5 o 6.
La segunda reflexión hace referencia a que el comportamiento ideal de las variables es aquel que presenta
muy baja incorrelación dentro de cada grupo, tanto en el de las X como en el de las Y, y máxima entre los dos
grupos. Esto implica una elección afinada de aquellas variables, por una parte, más relevantes y significativas
tanto en el grupo de las X como en el grupo de las Y, a la vez que independientes entre sí dentro de cada
grupo, es decir, aquellas que midan cuestiones distintas y aparentemente desconexas aunque naturalmente
referidas al tema que se esté investigando.
Una vez realizado el primer cálculo de las correlaciones canónicas pueden eliminarse aquellas variables tanto
del grupo de las X como del grupo de las Y que menos influencia explicativa presenten. Así se realiza un
segundo calculo y se comprueban los resultados obtenidos que naturalmente serán distintos al primero. Si se
sigue ensayando y comparando resultados se llega a conclusiones importantes no sólo sobre la más alta
correlación canónica obtenida sino de aquellos conjuntos de variables que intervienen en tal correlación así
como de aquellas otras variables que hayan sido eliminadas por su escasa aportación.
Las observaciones o datos de los grupos de variables pueden operarse de forma matricial
De esta matriz puede construirse otra de covarianzas
siendo
1
y
las matrices de covarianzas del primer y segundo grupo.
es la matriz de covarianzas de las P variables del primer grupo con las Q del segundo
.
Si la matriz original se considera formada por las puntuaciones típicas, la matriz de covarianzas pasa a ser
matriz de correlaciones
La relación entre los dos grupos de variables
e
se hallará encontrando dos variables compuestas de la forma
;
con la propiedad de que la correlación sea máxima.
Lo que hace es, pues, reemplazar la P+Q variables por dos nuevas variables, llamadas canónicas L y M.
• Cálculo matemático y fórmulas del análisis canónico.
La condición imperante en el Análisis canónico es que la correlación entre las dos variables compuestas sea
máxima o, lo que es lo mismo, que tal correlación con expresión
ó
sea máxima teniendo en cuenta, además, que al trabajar con matrices de correlaciones debe cumplir la
normalización
y
.
Atendiendo a los multiplicadores de Lagrange,
y
;
se llega derivando respecto a L y M que las correlaciones máximas buscadas
así como las variables canónicas L y M son las soluciones de la ecuación
En esta expresión es reconocible a la derecha la matriz de correlaciones (varianza) del primer grupo de
variables y a la izquierda la matriz de correlaciones entre el primer y el segundo grupo (varianza explicada por
el segundo grupo).
En cualquier caso el determinante tendrá tantas soluciones para
cuanto sea el tamaño menor de P ó Q. Si por ejemplo P<Q, las P correlaciones canónicas tendrán los valores
propios
2
etc. de la matriz
A cada valor propio de
corresponde un vector propio en el que sus elementos (
) son los coeficientes (variables canónicas) de la combinación lineal de las variables X, tal que
Debe recordarse que al utilizar matrices de correlaciones se cumple
y
.
Del mismo modo la combinación lineal correspondiente a las variable Y está simétricamente dado por el
vector propio
asociado al valor
del sistema lineal
En la práctica la diagonalización de la matriz
ofrece los resultados de
y los vectores asociados factoriales
• Las correlaciones canónicas
• Las variables canónicas
se calculan mediante
siendo
Una vez conocidas las variables canónicas
se pueden obtener las
mediante
3
El conjunto de las correlaciones canónicas
puede que sea o no sea significativo. El modo de conocer esa significatividad se realiza mediante
de WILKS y su aproximación a la distribución
con P.Q grados de libertad.
Si se dejan de considerar sucesivamente la primera, la segunda, etc. Correlación canónica podrá conocerse en
qué momento las correlaciones ya no son significativas teniendo en cuenta que vchi−cuadrado tendrá
(P−1)(Q−1) grados de libertad, (P−2)(Q−2) grados de libertad,... En el caso de que exista significatividad, es
decir, de que haya relación entre el primero y el segundo grupo de variables, las variables canónicas indican la
importancia de cada variable, su aportación al hecho de que exista esa correlación canónica determinada
• Ejercicio
Sea el caso más sencillo P = 2 y Q =2 , donde
= cociente intelectual
= promedio anual de días de asistencia a clase
= puntuación en escala de Progresismo político
= puntuación en escala de Modernismo
N = 100
La matriz de correlaciones es la siguiente:
Calculemos la expresión
4
Al diagonalizar esta matriz resultan los siguientes autovalores y vectores propios:
En consecuencia, la primera correlacióm y las primeras variables canónicas normalizadas serán:
De la misma forma la segunda correlación y las variables canónicas también normalizadas serán:
Además se cumple que
y
.
La simplificación de las dos correlaciones canónicas es:
5
Observamos que
con P.Q grados de libertad >18.465 al 99.9% de nivel de confianza. Luego la supuesta hipótesis nula de
incorrelación entre
y
es rechazada.
Si deja de considerarse la primera correlación canónica tenemos:
Observamos que
es no significativo con 1 grado de libertad. Luego sólo la primera correlación canónica es significativa.
Si se analizan los coeficientes (variables) canónicos asociados a la primera correlación canónica resulta que
= cociente intelectual (0.856) y
= puntuación en escala de Modernismo (0.737) son las variables que más aportación ofrecen a la correlación
existente (
).
Análisis Multivariante de Datos
Correlación Canónica
Página 3 de 6
6
Descargar