CORRELACION CANONICA • Introducción Las correlaciones canónicas constituyen una generalización de las correlaciones simples y múltiples. Las correlaciones simples estiman la relación existente entre dos variables, la variable independiente X y la dependiente Y. Las correlaciones múltiples estiman la relación entre un conjunto de variables independientes y una sola variable dependiente Y. Las correlaciones canónicas estiman la correlación existente entre un conjunto de variables independientes y otro conjunto de variables dependientes . Desde el punto de vista metodológico el uso de las correlaciones canónicas exige varias reflexiones: la primera acerca del número de variables que componen el grupo X y el grupo Y. Si son muchas, posiblemente en casa grupo puede suceder que haya altas incorrelaciones, lo cual es igual a decir que se están incluyendo 2 o más variables que miden lo mismo. Si son muy pocas, es posible que no se acierte a incluir aquellas variables que realmente tienen mayor fuerza explicativa,......Se puede tomar como norma orientativa que el número máximo de variables sean 5 o 6. La segunda reflexión hace referencia a que el comportamiento ideal de las variables es aquel que presenta muy baja incorrelación dentro de cada grupo, tanto en el de las X como en el de las Y, y máxima entre los dos grupos. Esto implica una elección afinada de aquellas variables, por una parte, más relevantes y significativas tanto en el grupo de las X como en el grupo de las Y, a la vez que independientes entre sí dentro de cada grupo, es decir, aquellas que midan cuestiones distintas y aparentemente desconexas aunque naturalmente referidas al tema que se esté investigando. Una vez realizado el primer cálculo de las correlaciones canónicas pueden eliminarse aquellas variables tanto del grupo de las X como del grupo de las Y que menos influencia explicativa presenten. Así se realiza un segundo calculo y se comprueban los resultados obtenidos que naturalmente serán distintos al primero. Si se sigue ensayando y comparando resultados se llega a conclusiones importantes no sólo sobre la más alta correlación canónica obtenida sino de aquellos conjuntos de variables que intervienen en tal correlación así como de aquellas otras variables que hayan sido eliminadas por su escasa aportación. Las observaciones o datos de los grupos de variables pueden operarse de forma matricial De esta matriz puede construirse otra de covarianzas siendo 1 y las matrices de covarianzas del primer y segundo grupo. es la matriz de covarianzas de las P variables del primer grupo con las Q del segundo . Si la matriz original se considera formada por las puntuaciones típicas, la matriz de covarianzas pasa a ser matriz de correlaciones La relación entre los dos grupos de variables e se hallará encontrando dos variables compuestas de la forma ; con la propiedad de que la correlación sea máxima. Lo que hace es, pues, reemplazar la P+Q variables por dos nuevas variables, llamadas canónicas L y M. • Cálculo matemático y fórmulas del análisis canónico. La condición imperante en el Análisis canónico es que la correlación entre las dos variables compuestas sea máxima o, lo que es lo mismo, que tal correlación con expresión ó sea máxima teniendo en cuenta, además, que al trabajar con matrices de correlaciones debe cumplir la normalización y . Atendiendo a los multiplicadores de Lagrange, y ; se llega derivando respecto a L y M que las correlaciones máximas buscadas así como las variables canónicas L y M son las soluciones de la ecuación En esta expresión es reconocible a la derecha la matriz de correlaciones (varianza) del primer grupo de variables y a la izquierda la matriz de correlaciones entre el primer y el segundo grupo (varianza explicada por el segundo grupo). En cualquier caso el determinante tendrá tantas soluciones para cuanto sea el tamaño menor de P ó Q. Si por ejemplo P<Q, las P correlaciones canónicas tendrán los valores propios 2 etc. de la matriz A cada valor propio de corresponde un vector propio en el que sus elementos ( ) son los coeficientes (variables canónicas) de la combinación lineal de las variables X, tal que Debe recordarse que al utilizar matrices de correlaciones se cumple y . Del mismo modo la combinación lineal correspondiente a las variable Y está simétricamente dado por el vector propio asociado al valor del sistema lineal En la práctica la diagonalización de la matriz ofrece los resultados de y los vectores asociados factoriales • Las correlaciones canónicas • Las variables canónicas se calculan mediante siendo Una vez conocidas las variables canónicas se pueden obtener las mediante 3 El conjunto de las correlaciones canónicas puede que sea o no sea significativo. El modo de conocer esa significatividad se realiza mediante de WILKS y su aproximación a la distribución con P.Q grados de libertad. Si se dejan de considerar sucesivamente la primera, la segunda, etc. Correlación canónica podrá conocerse en qué momento las correlaciones ya no son significativas teniendo en cuenta que vchi−cuadrado tendrá (P−1)(Q−1) grados de libertad, (P−2)(Q−2) grados de libertad,... En el caso de que exista significatividad, es decir, de que haya relación entre el primero y el segundo grupo de variables, las variables canónicas indican la importancia de cada variable, su aportación al hecho de que exista esa correlación canónica determinada • Ejercicio Sea el caso más sencillo P = 2 y Q =2 , donde = cociente intelectual = promedio anual de días de asistencia a clase = puntuación en escala de Progresismo político = puntuación en escala de Modernismo N = 100 La matriz de correlaciones es la siguiente: Calculemos la expresión 4 Al diagonalizar esta matriz resultan los siguientes autovalores y vectores propios: En consecuencia, la primera correlacióm y las primeras variables canónicas normalizadas serán: De la misma forma la segunda correlación y las variables canónicas también normalizadas serán: Además se cumple que y . La simplificación de las dos correlaciones canónicas es: 5 Observamos que con P.Q grados de libertad >18.465 al 99.9% de nivel de confianza. Luego la supuesta hipótesis nula de incorrelación entre y es rechazada. Si deja de considerarse la primera correlación canónica tenemos: Observamos que es no significativo con 1 grado de libertad. Luego sólo la primera correlación canónica es significativa. Si se analizan los coeficientes (variables) canónicos asociados a la primera correlación canónica resulta que = cociente intelectual (0.856) y = puntuación en escala de Modernismo (0.737) son las variables que más aportación ofrecen a la correlación existente ( ). Análisis Multivariante de Datos Correlación Canónica Página 3 de 6 6