Tema 7. Análisis de Correlación Canónica. Variables canónicas y correlaciones canónicas. Sean Y(1) e Y(2) vectores aleatorios de dimensiones p y q respectivamente. Supongamos p ≤ q. Denotemos por Σ11 = Cov(Y(1) ), Σ22 = Cov(Y(2) ) y Σ12 = Cov(Y(1) , Y(2) ). Supondremos Σ11 y Σ22 definidas positivas. Sean U = αt Y(1) y V = βt Y(2) combinaciones lineales arbitrarias de Y(1) e Y(2) , respectivamente. Es inmediato que Var(U) = αt Σ11 α , Var(V) = βt Σ22 β , Cov(U, V) = αt Σ12 β αt Σ12 β Corr(U, V) = √ p αt Σ11 α βt Σ22 β (1) D́: El primer par de variables canónicas es el par (U1 , V1 ) de combinaciones lineales de αt Y(1) e αt Y(2) respectivamente, tales que Var(U1 ) = Var(V1 ) = 1 que hace máxima la correlación (1). A ρ1 = Corr(U1 , V1 ) la llamaremos primera correlación canónica. El k-ésimo par de variables canónicas (k = 2, . . . , p) es el par (Uk , Vk ) de combinaciones lineales de Y(1) e Y(2) respectivamente, tales que Var(Uk ) = Var(Vk ) = 1 que hace máxima la correlación (1) entre todas aquellas combinaciones lineales incorreladas con los pares de variables canónicas (U1 , V1 ), . . . , (Uk−1 , Vk−1 ). Es decir, maximiza (1) entre aquellos pares (U, V) tales que Corr(U, Vi ) = 0, Corr(U, Ui ) = 0, Corr(Ui , V) = 0, Corr(Vi , V) = 0 para i = 1, . . . , k − 1. A ρk = Corr(Uk , Vk ) la llamaremos k-ésima correlación canónica. Introduzcamos unas matrices cuyos autovectores y autovalores nos van a dar la clave para construir las variables canónicas: −1/2 −1 t • Consideremos la matriz Σ−1/2 11 Σ12 Σ22 Σ12 Σ11 . Esta matriz es de orden p simétrica y semidefinida −1 positiva, por ser Σ22 definida positiva. Sean ρ21 ≥ · · · ≥ ρ2p ≥ 0 sus autovalores y e1 , . . . , e p sus autovectores asociados que forman una base ortonormal. −1/2 −1 t • Consideremos la matriz Σ−1/2 22 Σ12 Σ11 Σ12 Σ22 . Esta matriz es de orden q simétrica y semidefinida −1 positiva, por ser Σ11 definida positiva. Además su rango es menor o igual que p que es el rango de Σ−1 11 , por lo que sus q − p autovalores más pequeños son 0. En cuanto a sus p autovalores mayores son precisamente ρ21 ≥ · · · ≥ ρ2p ≥ 0 y sus autovectores asociados f1 , . . . , f p son proporcionales a −1/2 t Σ−1/2 22 Σ12 Σ11 ek , k = 1, . . . , p. Cualesquiera de estos autovectores son ortogonales, pues fk fl ∝ ek el y por tanto igual a 0 si k , l. Los elegiremos tales que fk fk = 1, k = 1, . . . , p. Ṕ: (1) (2) Con las notaciones anteriores, para k = 1, . . . , p Uk = etk Σ−1/2 y Vk = fkt Σ−1/2 forman el k-ésimo 11 Y 22 Y par de variables canónicas y además Cov(Uk , Vk ) = ρk es la k-ésima correlación canónica. −1 t Los valores ρ21 , . . . , ρ2p también son los autovalores de la matriz Σ−1 11 Σ12 Σ22 Σ12 y los p mayores de −1 t −1 la matriz Σ22 Σ12 Σ11 Σ12 (los q − p menores de esta última son nulos). Sus autovectores asociados son −1/2 (proporcionales a) Σ−1/2 11 ek , k = 1, . . . , p para la primera y Σ22 fk , k = 1, . . . , p para la segunda. Las matrices que hemos usado en la definición tenı́an la ventaja de ser simétricas y semidefinidas positivas, lo cuál presenta ciertas ventajas teóricas. Estas últimas matrices son más fáciles de manejar desde un punto de vista computacional. 1 Variables estandarizadas. Sean µ(1) = E[Y(1) ] y µ(2) = E[Y(2) ]. Vamos a estandarizar o tipificar las variables, denotando Zi(1) = Yi(1) − µ(1) i q (1) σii , Zi(2) = Yi(2) − µ(2) i q (2) σii t (2) y Z(1) = (Z1(1) , . . . , Z (1) = (Z1(2) , . . . , Zq(2) )t . El cálculo de las variables canónicas y las correlaciones p ),Z canónicas se basa ahora en las matrices de correlaciones ρ11 , ρ22 y ρ12 , siendo ρ11 = Cov(Z(1) ) = Corr(Y(1) ), ρ22 = Cov(Z(2) ) = Corr(Y(2) ) y ρ12 = Cov(Z(1) , Z(2) ) = Corr(Y(1) , Y(2) ). Las variables canónicas y las correlaciones canónicas se calculan de modo similar a las basadas en matrices de covarianza. De hecho, las correlaciones canónicas siguen siendo ρ1 , . . . , ρ p , es decir, se mantienen invariantes por la estandarización. En cuanto a los nuevos pares de variables canónicas (Uk∗ , Vk∗ ), k = 1, . . . , p, se tiene que (i) σ11 . . . 0 .. , i = 1, 2 −1/2 (1) −1/2 (2) .. Uk∗ = etk Σ1/2 , Vk∗ = fkt Σ1/2 con Vii = ... . . 11 V11 Z 22 V22 Z 0 . . . σ(i) pp Interpretación de las variables canónicas Identificación de las variables originales en las variables canónicas El método más directo es observar los coeficientes de cada variable original en las variables canónicas basadas en las matrices de covarianzas. Otra forma de estudiar la contribución de las variables originales a las variables canónicas es mediante las correlaciones de ambos grupos de variables. En concreto Corr(Uk , Y(1) ) = αtk Σ11 V−1/2 11 Corr(Vk , Y(1) ) = βtk Σt12 V−1/2 11 , , Corr(Vk , Y(2) ) = βtk Σ22 V−1/2 22 Corr(Uk , Y(2) ) = αtk Σ12 V−1/2 22 k = 1, . . . , p Estas correlaciones no dependen de si se tipifican o no las variables, es decir, Corr(Uk , Y(1) ) = Corr(Uk∗ , Z(1) ), Corr(Vk , Y(2) ) = Corr(Vk∗ , Z(2) ). Generalización del concepto de correlación. Es inmediato que la primera correlación canónica es una cota superior a las correlaciones entre variables de los dos grupos: | Corr(Yi(1) , Y (2) j )| ≤ ρ1 Supongamos p = 1. Consideremos la regresión lineal de Y (1) sobre las variables de Y(2) . Se verifica que la combinación lineal de estas variables que mejor aproxima a Y (1) en el sentido de los mı́nimos t (1) cuadrados es β0 + βt Y(2) con β = Σ−1 − βt µ(2) . Además la correlación entre ambas 22 Σ12 y β0 = µ variables es s t Σ12 Σ−1 22 Σ12 Corr(Y (1) , β0 + βt Y(2) ) = σ11 y se le denomina coeficiente de correlación múltiple. Este coeficiente maximiza la correlación entre Y (1) y cualquier combinación lineal de Y(2) , por lo tanto es igual a la primera correlación canónica, es decir, ρ1 es el coeficiente de correlación múltiple en la regresión lineal de Y (1) sobre las variables de Y(2) . Para un p arbitrario tenemos que ρ1 es mayor que todos los coeficientes de correlación múltiple de las variables de Y(1) sobre las de Y(2) y viceversa. 2 Variables canónicas y correlaciones canónicas en la muestra. Sean Y11 , . . . , Y1n e Y21 , . . . , Y2n m.a.s. de las variables de la sección anterior y denotemos por Y(1) = (Y11 | . . . |Y1n )t e Y(2) = (Y21 | . . . |Y2n )t a las matrices que contienen a los datos, de dimensiones n × p y n × q respectivamente. Supongamos p ≤ q. Denotemos por (k) Y 1X Yk j n j=1 n = (k) (l) 1 X (Yk j − Y )(Yl j − Y )t n − 1 j=1 n , Skl = k, l = 1, 2 a los vectores de medias y a las matrices de covarianzas de los datos. Supondremos S11 y S22 definidas positivas. b = Y(1) a y b Sean U V = Y(2) b combinaciones lineales arbitrarias de las filas de Y(1) e Y(2) , respectivat b b mente. Es inmediato que s2b = at S11 a, sb2 = bt S22 b, sU, bb V = a S12 b y la correlación entre U y V U V at S12 b rU, √ bb V = √ t a S11 a bt S22 b (2) D́: b1 , b El primer par de variables canónicas es el par (U V1 ) de combinaciones lineales de las filas de Y(1) e (2) 2 2 Y respectivamente, tales que s b = sb = 1 que hace máxima la correlación (2). A r1 = rUb1 ,bV1 la U1 V1 llamaremos primera correlación canónica. bk , b El k-ésimo par de variables canónicas (k = 2, . . . , p) es el par (U Vk ) de combinaciones lineales de las filas de Y(1) e Y(2) respectivamente, tales que s2b = sb2 = 1 que hace máxima la corUk Vk relación (1) entre todas aquellas combinaciones lineales incorreladas con los pares de variables canónicas b1 , b bk−1 , b bb (U V1 ), . . . , (U Vk−1 ). Es decir, maximiza (1) entre aquellos pares (U, V) tales que rU, bb Vi = 0, rU, bU bi = 0, rU bi ,b bk ,b V = 0, rb Vi ,b V = 0 para i = 1, . . . , k − 1. A rk = rU Vk la llamaremos k-ésima correlación canónica. Ṕ: Sean r12 ≥ · · · ≥ r2p ≥ 0 los p mayores autovalores de las matrices simétricas y semidefinidas positivas −1/2 −1/2 −1 t t −1 S−1/2 y S−1/2 y sean b e1 , . . . ,b ep y b f1 , . . . ,b f p sus respectivos autovectores 11 S12 S22 S12 S11 22 S12 S11 S12 S22 bk = Y(1) S11b asociados que forman sendos sistemas ortonormales. Entonces, para k = 1, . . . , p, U ek (2) yb Vk = Y S22b fk forman el k-ésimo par de variables canónicas y además rUbk ,bVk = rk es la k-ésima correlación canónica. Inferencias Para ver si tiene sentido hacer el análisis de correlación canónica, es decir, si los dos grupos de variables están correlacionadas, podemos plantear la hipótesis H0 : Σ12 = 0 H1 : Σ12 , 0 ⇐⇒ H0 : ρ1 = · · · = ρ p = 0 H1 : ρ1 , . . . , ρk > 0 para algún k Utilizando el test de la razón de verosimilitudes, rechazaremos H0 al nivel α si ! p Y 1 |S11 | |S22 | 1 (n−1− (p+q+1)) log = −(n−1− (p+q+1)) log (1−ri2 ) > χ2pq,α con 2 |S| 2 i=1 S= S11 St12 Para cada k, también podemos contrastar la hipótesis H0 : ρ1 , . . . , ρk > 0, ρk+1 = · · · = ρ p = 0 H1 : ρ j > 0 para algún j > k Qp (1 − ri2 ) > χ2(p−k)(q−k),α En este caso rechazaremos H0 al nivel α si −(n − 1 − 12 (p + q + 1)) log i=k+1 3 S12 S22 !