Representación de datos multivariantes en dimensión reducida Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estadı́stica Universidad de Barcelona fcarmona@ub.edu, ccuadras@ub.edu, joller@ub.edu 15-12-2000 Un conjunto de métodos multivariantes resuelven el problema de representar geométricamente los individuos, objetos o subpoblaciones ω1 , ω2 , . . . , ωn de una población Ω, respecto a unas variables observables X1 , X2 , . . . , Xk que pueden ser cuantitativas, cualitativas o una combinación de ambos tipos. En algunos métodos de representación de datos, la información de entrada es una tabla de datos X, en la que xij = Xj (ωi ) representa el valor observado de la variable Xj sobre el individuo ωi . X1 ω1 x11 ω2 x21 .. .. . . ωn xn1 X2 . . . Xk x12 . . . x1k x22 . . . x2k .. .. . . xn2 . . . xnk En otros métodos la información de entrada es una matriz de disimilaridades. La información de salida es una representación geométrica de los individuos en dimensión reducida (en el plano o en el espacio), que exprese sus diferencias y analogı́as de la mejor forma posible. En lı́neas generales deben distinguirse tres casos: 1) Los individuos constituyen una muestra de tamaño n de la población Ω. Normalmente la representación de los datos se suele completar con ciertas conclusiones de tipo estadı́stico, como la significación de la dimensión empleada. Ejemplo: representación de una muestra de especies de un mismo género, utilizando un individuo por especie. 2) Los n individuos constituyen toda la población Ω = {ω1 , . . . , ωn } Ejemplo: representación de las 41 comarcas de Catalunya respecto a variables socioeconómicas. 1 3) La población Ω es la reunión de p subpoblaciones excluyentes Ω = Ω 1 + · · · + Ωp Se dispone de una muestra de tamaño ni de la subpoblación Ωi . Se trata entonces de representar las p subpoblaciones. Ejemplo: representación de p especies distintas disponiendo de ni individuos por especie. Una descripción breve de los principales métodos de análisis de datos se expone a continuación: Análisis de componentes principales. Utiliza variables cuantitativas y cualitativas y una distancia euclı́dea entre los individuos. Análisis de coordenadas principales. Utiliza variables cualitativas y una distancia relacionada con la similaridad entre los individuos. Está relacionado con el método anterior. Análisis de correspondencias. Es apropiado para representar datos cualitativos organizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado. Análisis canónico de poblaciones. Es apropiado para representar poblaciones, utilizando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis. Análisis de proximidades. Es el método más general de representación de datos. El análisis se realiza sobre una matriz de disimilaridades. El objetivo de este artı́culo es explicar los conceptos y propiedades teóricas sobre las que se desarrollan los diversos métodos. Seguidamente desarrollaremos el Análisis de componentes principales, el Análisis canónico de poblaciones y el Análisis de correspondencias como consecuencia de estas propiedades. 1. Distancias estadı́sticas Una cuestión básica que debe plantearse para la representación de datos es una adecuada elección de la distancia entre los individuos a representar. Asignemos a cada individuo ωi el vector de coordenadas xi = (xi1 , xi2 , . . . , xik )0 i = 1, . . . , n con las observaciones sobre las variables X1 , X2 , . . . , Xk . Se puede interpretar xi como un punto del espacio euclı́deo Rk . Nuestro problema es representar los n puntos de Rk en un espacio de dimensión menor, generalmente en el plano. 2 1.1. Distancia euclı́dea Una definición simple de distancia es v u k uX d(ωi , ωj ) = t (xih − xjh )2 h=1 que es la distancia euclı́dea entre los puntos xi y xj de Rk . Observemos que el cuadrado de la distancia en notación matricial es d2 (ωi , ωj ) = (xi − xj )0 (xi − xj ) (1) Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconveniente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en caso de homogeneidad entre la naturaleza fı́sica de las variables y desconocer la matriz de covarianzas. 1.2. Distancia de Mahalanobis Introducimos a continuación una distancia estadı́stica general perfectamente adecuada para diferenciar individuos o poblaciones mediante k variables aleatorias. 1.2.1. Caso k = 1 Sea X una variable de valor medio µ y desviación tı́pica σ. La distancia estadı́stica entre ωi y ωj , siendo X(ωi ) = xi y X(ωj ) = xj , es por definición d(ωi , ωj ) = |xi − xj | σ Son propiedades de esta distancia: 1) Es invariante por cambios de escala. 2) Es una distancia normalizada expresada en unidades de desviación tı́pica. Para una variable con distribución normal, el campo de variabilidad de esta distancia estará prácticamente comprendido entre 0 y 4. 1.2.2. Caso k > 1 Sean X1 , X2 , . . . , Xk variables aleatorias de matriz de covarianzas Σ y ωi , ωj dos individuos de coordenadas xi = (xi1 , xi2 , . . . , xik )0 xj = (xj1 , xj2 , . . . , xjk )0 Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por D2 (ωi , ωj ) = (xi − xj )0 Σ−1 (xi − xj ) 3 (2) Si Ωi , Ωj son dos poblaciones representadas por sus vectores de medias µi , µj y con matriz de covarianzas común Σ, el cuadrado de la distancia entre ambas poblaciones es D2 (Ωi , Ωj ) = (µi − µj )0 Σ−1 (µi − µj ) Si ω es un individuo de coordenadas x = (x1 , . . . , xk )0 y el vector de medias de la población es µ, el cuadrado de la distancia estadı́stica de ω al individuo medio de la población es D2 (ω, Ω) = (x − µ)0 Σ−1 (x − µ) Esta distancia estadı́stica general fue introducida por Mahalanobis (1936). Aunque en las aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer de una mayor comodidad de notación. La distancia de Mahalanobis tiene las siguientes propiedades: 1) D2 (ωi , ωj ) = D2 (ωj , ωi ) 2) D2 (ωi , ωj ) ≥ 0 3) D2 (ωi , ωi ) = 0 (estas tres primeras propiedades definen el concepto general de distancia) 4) D2 (ωi , ωj ) = 0 si y sólo si xi = xj 5) D2 (ωi , ωj ) ≤ D2 (ωi , ωh ) + D2 (ωh , ωj ) (con las cinco propiedades anteriores, la distancia se llama métrica) 6) Es invariante por transformaciones lineales no singulares de las variables. En particular es invariante por cambios de escala. 7) Está expresada en unidades de desviación tı́pica y tiene en cuenta las correlaciones entre las variables (redundancia). 8) Si indicamos por Dk2 a la distancia al cuadrado expresada en función de k variables, entonces 2 Dk2 ≤ Dk+h 9) Si las variables X1 , . . . , Xk son estocásticamente independientes de las variables Xk+1 , . . . , Xk+h , entonces 2 Dk+h = Dk2 + Dh2 Aumentando el número de variables se incrementa el poder de discriminación entre los individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la correlación entre las variables. La distancia de Mahalanobis juega un papel fundamental en muchos de los métodos multivariantes principalmente por sus buenas propiedades estadı́sticas. Por ejemplo, si la distribución de las variables es normal multivariante Nk (µ, Σ), entonces D2 (ω, Ω) = (x − µ)0 Σ−1 (x − µ) como variable aleatoria sigue la distribución χ2k . Esta distancia puede también generalizarse al caso en que existan relaciones lineales entre las variables X1 , . . . , Xk , entonces Σ es singular. La distancia se define sustituyendo la matriz inversa de Σ por una g-inversa Σ− , es decir, tal que ΣΣ− Σ = Σ. Esta distancia tiene básicamente las mismas propiedades que en el caso no singular, verificándose además 4 a) D2 no depende de la g-inversa Σ− . b) D2 es invariante por transformaciones lineales que conserven el rango de Σ. También se puede justificar la utilización de la matriz inversa Σ−1 en la distancia entre individuos de una manera mucho más formal. En el espacio vectorial E generado por las variables X1 , . . . , Xk podemos considerar el producto escalar definido por la matriz Σ. Cada elemento de la población Ω se puede identificar con un elemento de E ∗ , dual de E, mediante la aplicación h definida de la siguiente manera: h : Ω −→ E ∗ tal que h(ω) = Y ∗ con Y ∗ (X) = X(ω) ∀X ∈ E El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E ∗ una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E ∗ y por consiguiente una distancia. Como asociamos mediante la aplicación h a cada elemento de Ω un elemento de E ∗ , tendremos de forma natural una distancia entre individuos dΩ (ωi , ωj ) = dE ∗ (h(ωi ), h(ωj )) En la práctica, sin embargo, las medias poblacionales y la matriz de covarianzas son desconocidas. Ası́ pues, deberemos realizar las estimaciones más adecuadas a partir de las observaciones de las variables X1 , . . . , Xk sobre los individuos de Ω. 2. 2.1. Reducción de la dimensión El problema Supongamos que disponemos de n puntos o vectores de un espacio euclı́deo de dimensión k, cuyas coordenadas o componentes forman las filas de la matriz X. Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos xi , es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las distancias de los puntos a la variedad sea mı́nima. Con dimensión q < k, la ecuación de la variedad afin es y = β1 v1 + β2 v2 + · · · + βq vq + a (3) donde v1 , v2 , . . . , vq es una base del subespacio director asociado a la variedad, que además elegiremos ortonormal, verificándose pues hvi , vj i = vi0 Σ−1 vj = δij ∀i, j (4) siendo Σ−1 la matriz asociada al producto escalar, que es simétrica y definida positiva. 5 Los vectores zi = xi − a i = 1, . . . , k pueden descomponerse de forma única como z i = pi + p⊥ i i = 1, . . . , k donde pi es un elemento del subespacio director de la variedad y p⊥ i es un vector ortogonal a dicho subespacio. La proyección de zi en la variedad es pi = q X pj vj = j=1 q X hzi , vj ivj = j=1 q X hxi − a, vj ivj (5) j=1 La distancia al cuadrado del punto xi a la variedad es 2 2 2 kp⊥ i k = kzi k − kpi k donde 2 kpi k = hpi , pi i = q X hxi − a, vj i2 j=1 resultado al que se llega ya que pi = Pq j=1 hxi − a, vj ivj . Ası́ pues, para lograr el objetivo propuesto debemos minimizar la función Φ(a, v1 , . . . , vq ) = n X 2 kp⊥ i k = i=1 = n X n X kzi k2 − kpi k2 (6) i=1 hxi − a, xi − ai − i=1 q X ! hxi − a, vj i2 j=1 con la condición hvi , vj i = vi0 Σ−1 vj = δij ∀i, j Si desarrollamos la función Φ tenemos Φ= n X hxi − a, xi − ai − i=1 q n X X hxi − a, vj i2 j=1 i=1 que matricialmente podemos escribir como q X −1 0 0 0 vj0 Σ−1 (X − 1a0 )0 (X − 1a0 )Σ−1 vj Φ = traza (X − 1a )Σ (X − 1a ) − j=1 donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las filas de X. 6 2.2. La solución En primer lugar veremos que para minimizar Φ debemos considerar el vector a = x̄ donde n 1X 1 x̄ = (x̄1 , . . . , x̄k ) = xi = X0 1 n i=1 n 0 con (7) n 1X x̄i = xhi n h=1 i = 1, . . . , k En efecto, supongamos que el vector a que minimiza la función Φ es de la forma a = x̄+c, entonces Φ = = = n X hxi − x̄ − c, xi − x̄ − ci − i=1 n X i=1 n X Pn i=1 hxi − x̄ − c, vj i2 j=1 i=1 2 kxi − x̄k − 2 n X 2 hxi − x̄, ci + nkck − i=1 q n X X hxi − x̄ − c, vj i2 j=1 i=1 q kxi − x̄k2 + nkck2 − i=1 ya que nx̄ = q n X X n XX hxi − x̄ − c, vj i2 j=1 i=1 xi . Si desarrollamos de forma similar el último sumando de Φ llegaremos a la expresión ! q n n X X X Φ= kxi − x̄k2 + nkck2 − hxi , vj i2 + nhc, vj i2 − nhx̄, vj i2 i=1 j=1 i=1 de modo que debemos hallar el vector c que minimice nkck2 − q X nhc, vj i2 = n kck2 − j=1 q X ! hc, vj i2 j=1 Como la proyección de c sobre la variedad es q X hc, vj ivj j=1 su norma al cuadrado es q X hc, vj i2 ≤ kck2 j=1 y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal. Por todo ello, la función Φ será mı́nima si tomamos c = 0, ya que el vector nulo pertenece al subespacio director. 7 Ası́ pues, podemos tomar como vector a el vector de medias x̄ y la expresión de Φ a minimizar es Φ(v1 , . . . , vk ) = traza (X − 1x̄0 )Σ−1 (X − 1x̄0 )0 q X − vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj j=1 = n X 2 kxi − x̄k − i=1 q X vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj j=1 Seguidamente, procederemos a calcular los vectores v1 , . . . , vq que minimizan la expresión anterior, con las restricciones señaladas. De manera que debemos maximizar q X vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj (8) j=1 con las restricciones vi Σ−1 vj = δij ∀i, j Consideremos la matriz de centrado H = In − n1 110 que es simétrica e idempotente. Entonces X − 1x̄0 = HX (9) y por tanto (X − 1x̄0 )0 (X − 1x̄0 ) = X0 HX = nS (10) donde S es la matriz de varianzas y covarianzas muestrales. Por todo ello y con las restricciones vi Σ−1 vj = δij , nos proponemos maximizar la expresión q X vj0 Avj (11) j=1 donde A = Σ−1 SΣ−1 . Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar los vectores que maximizan φ(v) = v0 Av sujeto a v0 Σ−1 v = 1 La solución se obtiene por medio de la llamada diagonalización simétrica generalizada, es decir, sean w1 , . . . , wk los vectores tales que Awi = λi Σ−1 wi i = 1, . . . , k (12) con λ1 ≥ λ2 ≥ . . . ≥ λk y sujetos a la condición wi0 Σ−1 wj = δij , es decir, w1 , . . . , wk es una base de vectores propios ortonormales. 8 Entonces, para cualquier vector v = Pk αi wi se tiene X φ(v) = αi αj wi0 Awj i=1 i,j k X = αi2 λi ≤ λ1 q X i=1 αi2 i=1 y como la base w1 , . . . , wk es ortonormal 0 −1 1=vΣ v= X αi αj wi0 Σ−1 wj = q X αi2 i=1 i,j por consiguiente φ(v) ≤ λ1 , es decir, la función φ está acotada por λ1 . Además φ(w1 ) = w10 Aw1 = λ1 w10 Σ−1 w1 = λ1 se tiene que el vector w1 hace máximo el primer sumando de (11). Los vectores que hacen máximo el resto de los sumandos son los vectores propios correspondientes a los q − 1 siguientes valores propios λ2 , . . . , λq . En el caso que algún valor propio sea múltiple, se eligen tantos vectores del subespacio propio correspondiente como orden de multiplicidad tenga el valor propio y que sean ortonormales con el producto escalar definido por Σ−1 . Por otra parte, la igualdad Awi = λi Σ−1 wi al ser A = Σ−1 SΣ−1 , se puede escribir SΣ−1 wi = λi wi (13) En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de los puntos xi a dicha variedad es mı́nima, viene definida por y = x̄ + β1 w1 + · · · + βq wq (14) donde x̄ es el vector de medias y donde w1 , . . . , wq son los vectores propios de SΣ−1 , correspondientes a los q primeros valores propios en orden decreciente en caso de ser distintos y ortonormales respecto a Σ−1 . Si la multiplicidad de un valor propio es s entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente. En la práctica, podemos calcular primero la descomposición espectral de la matriz simétrica definida positiva Σ Σ = ΓΛΓ0 donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos y la matriz de los vectores propios Γ es ortogonal. En este caso, se puede definir la matriz Σ−1/2 = ΓΛ−1/2 Γ0 9 y calcular la descomposición espectral de la matriz simétrica Σ−1/2 SΣ−1/2 Esta descomposición proporciona unos valores propios que coinciden con los de SΣ−1 y unos vectores propios bi = Σ−1/2 wi que se pueden transformar en wi = Σ1/2 bi donde Σ1/2 = ΓΛ1/2 Γ0 . 2.3. Máxima dispersión La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de las interdistancias de las proyecciones de los puntos xi sobre la variedad es máxima. Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj de coordenadas xi = (xi1 , . . . , xik )0 y xj = (xj1 , . . . , xjk )0 vienen dadas por yi = x̄ + pi yj = x̄ + pj donde pi = Pq h=1 hxi − x̄, wh iwh para cualquier i = 1, . . . , n. Entonces, la distancia entre los dos puntos proyectados es 2 2 D (yi , yj ) = kpi − pj k = k q X 2 hxi − xj , wh iwh k = h=1 q X (hxi , wh i − hxj , wh i)2 h=1 Luego, si consideramos en la variedad F un sistema de referencia con origen en x̄ y ejes definidos por la base w1 , . . . , wq , las proyecciones de los puntos xi y xj son qi = αi1 w1 + · · · + αiq wq qj = αj1 w1 + · · · + αjq wq donde αih = hxi , wh i = x0i Σ−1 wh = wh0 Σ−1 xi para cualquier i = 1, . . . , n y h = 1, . . . , q. Ası́ el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia euclı́dea al cuadrado entre las componentes de los puntos proyección qi y qj . 2 D (yi , yj ) = q X (αih − αjh )2 = (αi − αj )0 (αi − αj ) = d2 (αi , αj ) h=1 donde αi = (αi1 , . . . , αiq )0 = W0 Σ−1 xi y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios w1 , . . . , wq . 10 De manera que D2 (yi , yj ) = (W0 Σ−1 (xi − xj ))0 (W0 Σ−1 (xi − xj )) La suma de los cuadrados de las interdistancias en F vendrá dada por la expresión: SCD = n X n X (xi − xj )0 Σ−1 WW0 Σ−1 (xi − xj ) (15) i=1 j=1 Si se desarrolla SCD se llega a D = 2n n X (xi − x̄)0 Σ−1 WW0 Σ−1 (xi − x̄) i=1 que podemos poner de la siguiente forma SCD = 2n traza (X − 1x̄0 )0 Σ−1 WW0 Σ−1 (X − 1x̄0 ) = 2n traza W0 Σ−1 (X − 1x̄0 )(X − 1x̄0 )0 Σ−1 W = 2n traza W0 Σ−1 X0 HXΣ−1 W = 2n2 traza [W0 AW] = 2n2 (w10 Aw1 + · · · + wq0 Awq ) = 2n2 (λ1 w10 Σ−1 w1 + · · · + λq wq0 Σ−1 wq ) = 2n2 (λ1 + · · · + λq ) Es decir SCD = 2n2 (λ1 + · · · + λq ) (16) Como anteriormente hemos visto que los sumandos de la forma v0 Av con la restricción v0 Σ−1 v = 1 están acotados por λ1 , . . . , λq , queda demostrada la propiedad, pues cualquier otra base que no sea la de los vectores propios w1 , . . . , wq , lleva a una variedad en la cual la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales xi es menor. 2.4. Coordenadas y variables canónicas Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F de dimensión reducida q, referidas a los vectores propios w1 , . . . , wq , son yi = q X hxi − x̄, wh iwh h=1 si tomamos como origen del sistema de referencia el punto x̄. Luego, en notación matricial podemos escribir Yc = (X − 1x̄0 )Σ−1 W = HXΣ−1 W (17) donde Yc (n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la variedad y la matriz W tiene como columnas las componentes de los vectores w1 , . . . , wq . También podemos calcular la matriz Y de datos sin centrar Y = XΣ−1 W 11 de forma que Yc = HY. Las filas de la matriz Yc , o si se prefiere Y, constituyen las llamadas coordenadas canónicas de los puntos proyectados. Una propiedad importante de la nueva matriz Y, también de Yc , que resume nuestros logros es 1 1 0 −1 0 SY = Y0 HY = W Σ X HXΣ−1 W n n = W0 Σ−1 SΣ−1 W = W0 AW = diag(λ1 , . . . , λq ) Desde otro punto de vista, podemos considerar en Σ−1 SΣ−1 wi = λi Σ−1 wi con las restricciones wi0 Σ−1 wj = δij , la sustitución Σ−1 wi = ui i = 1, . . . , q de manera que nos queda Σ−1 Sui = λi ui ⇐⇒ Sui = λi Σui con las condiciones u0i Σuj = δij . La matriz U(k × q) definida por U = Σ−1 W (18) contiene las componentes de las llamadas variables canónicas. Dichas “variables” son las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas canónicas de los puntos proyección ya que Y = XU Además, respecto al producto escalar definido por Σ se verifica U0 ΣU = Iq mientras que para un producto escalar definido para la otra matriz de covarianzas S U0 SU = W0 Σ−1 SΣ−1 W = diag(λ1 , . . . , λq ) 2.5. Análisis de la dimensión Cuando realizamos una representación canónica sobre un espacio de dimensión q, esta dimensión ha de verificar q ≤ mı́n{n − 1, k} = m El porcentaje de la dispersión explicada por los q ejes es λ1 + · · · + λ q P = 100 · λ1 + · · · + λ m donde λi son los valores propios obtenidos de la ecuación 12 o equivalentes. (19) Si queremos que la representación canónica recoja el 100 % de la dispersión, debemos construir la variedad con dimensión igual al mı́nimo entre el número de valores propios distintos de cero y n − 1. Como dichos valores propios son función de una muestra, el análisis de cuantos valores propios son no nulos es un problema de inferencia estadı́stica que se resuelve mediante test apropiados. 12 3. Análisis de componentes principales El Análisis de las componentes principales (ACP) proporciona un conjunto de variables Y , combinación lineal de las variables observables X1 , X2 , . . . , Xk , con la propiedad de tener varianza máxima. Para definirlas, utilizaremos la terminologı́a estudiada. Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la métrica experimental y la matriz asociada es la identidad Σ = I. En este caso, las componentes principales se obtienen diagonalizando la matriz de covarianzas S S = GΛG0 (20) donde Λ = diag(λ1 , . . . , λk ) contiene los valores propios de S y G es ortogonal, de manera que GG0 = G0 G = I. Las componentes principales son las variables canónicas, es decir, las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo ello, la representación de datos se hace con los elementos de la matriz Y(n × k) Y = XG o con las q primeras coordenadas para una representación en dimensión q. Además, como ya sabemos, se verifica que SY = Λ = diag(λ1 , . . . , λk ) En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n individuos de k variables, se considera la configuración de los n puntos en Rk separados por la distancia euclı́dea ordinaria. La representación de los individuos en dimensión reducida se consigue con la matriz Y = XG, donde la dispersión de las columnas va disminuyendo de izquierda a derecha. Además, si m = mı́n{k, n − 1} es inferior a k, a partir de la columna m + 1, los elementos de las columnas son exactamente iguales. Para determinar el número necesario de componentes principales se utiliza el cálculo de la variabilidad explicada. Éste es el método más simple, aunque se puede ampliar con otros sistemas estadı́sticos más elaborados como la prueba de Anderson (1963), la prueba de Lebart y Fenelon (1973), etc. Las componentes principales se pueden obtener también partiendo de la matriz de correlaciones R. Sin embargo, las componentes principales obtenidas son distintas y la elección entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las variables son distintas (años, kilos, metros, etc.), es preferible el uso de R, porque equivale a utilizar variables reducidas y, por tanto, sin dimensión fı́sica. Pero si las unidades de medida son las mismas o razonablemente conmensurables, es preferible realizar el análisis sobre S, que es menos artificial. También se considera recomendable utilizar ambas matrices y comparar las interpretaciones de las dos clases de componentes obtenidas. 3.1. Análisis del tamaño y la forma Una de las primeras aplicaciones del ACP a la morfometrı́a (estudio de la morfologı́a de los individuos y especies por métodos cuantitativos) se remontan a los primeros intentos de establecer los conceptos de tamaño y forma de un individuo dentro de una especie. 13 La idea de tamaño se considera equivalente a la de crecimiento. Podemos idealizar el crecimiento de un individuo, representado por k medidas de otros tantos caracteres biométricos (x1 , . . . , xk ), como el movimiento a lo largo de una lı́nea recta de ecuación x 1 − a1 x 2 − a2 x k − ak = = ··· = α1 α2 αk (21) donde (α1 , α2 , . . . , αk )0 representa el vector posición del crecimiento (vector director de la recta) y (a1 , a2 , . . . , ak ) es un punto fijo sobre la recta, que se puede interpretar como el tamaño de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966). La relación (21) es tan sólo ideal, válida si todos los individuos de la población pueden alinearse de menor a mayor tamaño. Cuando los caracteres están representados por k variables aleatorias X1 , . . . , Xk , no ligadas por una relación lineal perfecta, parece razonable definir (21) como la dirección de máxima variabilidad, es decir, como la primera componente principal. Por otra parte, una variable biométrica, cuanto más variabilidad tiene, mejor expresa el concepto de tamaño. Por ejemplo, consideremos un grupo de hombres de prácticamente el mismo peso pero con notable variación de altura; entonces, para ordenarlos de menor a mayor tamaño, los ordenaremos de menor a mayor altura. La variable con mayor varianza será la que mejor expresará este concepto. Si esta variable puede ser una combinación lineal de X1 , . . . , Xk , esta variable debe ser la primera componente principal, que se identifica, pues, con el tamaño. ¿Y la forma? La forma es un concepto independiente del tamaño. Dos individuos pueden tener el mismo tamaño pero distinta forma y recı́procamente. Como la segunda, tercera, etc. componentes principales, están incorrelacionadas con la primera, parece también razonable interpretarlas como variables que expresen la forma de los individuos. Las distintas maneras de representar la forma, también incorrelacionadas entre sı́, se interpretan en función de la saturación que tengan las variables iniciales sobre estas componentes. Estos son los argumentos principales del trabajo clásico de Jolicoeur y Mosimann (1960), que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar los efectos de las relaciones de alometrı́a entre los caracteres (relación del tipo y = bxa , que se transforma en lineal: log y = log b + a log x). Sin embargo, para que las componentes principales representen adecuadamente tamaño y forma, deben cumplirse las siguientes condiciones (Rao, 1971): 1) Todos los coeficientes de la primera componente principal deben ser positivos, es decir, la primera columna de G debe tener todos sus elementos positivos para que se ésta se pueda identificar como tamaño. En efecto, todo incremento positivo de las medidas biométricas X1 , . . . , Xk redundará en un incremento positivo de Y1 (aumentando las medidas, aumenta el tamaño). Si esta condición no se verifica, no se puede hablar estrictamente de tamaño. 2) Para que una componente se identifique como forma no debe tener todos los coeficientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma más acusada, resulta de un incremento de unas medidas y un decremento de otras. 14 3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable considerar sólo aquellas cuyas varianzas superen a la menor de las varianzas de las variables X1 , . . . , Xk , es decir, λ2 ≥ λ3 ≥ · · · ≥ λm ≥ mı́n{s11 , . . . , skk } de esta manera no hay ninguna componente que tenga menos variabilidad que cualquiera de las variables observadas. 3.2. Interpretación geométrica Supongamos que los datos son centrados. Representamos la muestra de tamaño n con los puntos o filas de la matriz X tomando X1 , . . . , Xk como ejes ortogonales y unitarios, es decir, referimos la muestra a la llamada métrica experimental. La nube de puntos adopta entonces la forma del elipsoide de concentración x0 S−1 x ≤ c (22) donde c se puede elegir de manera que un elevado porcentaje de la población esté contenido en este elipsoide. Consideremos el problema de maximizar v0 v con la condición v0 S−1 v = 1. El vector v solución se encuentra sobre el elipsoide de concentración correspondiente a c = 1 y v0 v máximo significa que v representa una dirección de máxima variabilidad respecto a la métrica experimental, que se interpreta geométricamente como el eje principal del elipsoide. Ahora bien, v se obtiene de la diagonalización Iv = λS−1 v y por lo tanto Sv = λv Luego v es vector propio de S y proporcional al vector que define la primera componente principal Y1 . Análogamente se interpretan las demás componentes principales. Existe pues una correspondencia entre las direcciones ortogonales de máxima variabilidad del elipsoide de concentración, o ejes principales del elipsoide, y las componentes principales obtenidas por diagonalización de la matriz de covarianzas S de las variables observables. 4. 4.1. Análisis canónico de poblaciones Introducción El análisis canónico de poblaciones (ACPL) es un método de representación de grupos o poblaciones, a lo largo de ejes con máximo poder de discriminación, en relación a la distancia de Mahalanobis. Supongamos que una población general Ω es reunión de p poblaciones o grupos (especies de un mismo género, grupos humanos de diferente comportamiento, etc.) Ω = Ω 1 ∪ . . . ∪ Ωp con Ωi ∩ Ωj = ∅ 15 i 6= j Sean X1 , . . . , Xk variables observables sobre Ω. Si sobre la población Ωi i = 1, . . . , p obtenemos ni observaciones de las k variables, nuestros datos formarán una matriz X(n × Pp k) siendo n = i=1 ni X1 X = ... Xp Parece razonable identificar cada población Ωi con el “individuo” medio de Ωi representado por el punto que tiene por coordenadas las medias muestrales de las variables en esa población x̄i (k × 1) = (x̄i1 , . . . , x̄ik )0 i = 1, . . . , p La matriz de datos a representar en dimensión reducida es x̄01 B = ... x̄0p donde las filas de B(p × k) son las medias de cada población Ωi . Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos observados de la población Ω. Dicha distancia (ver 2) viene determinada por la matriz de covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas poblaciones se suponen iguales, la estimación más apropiada de Σ es p 1 X Σ̂ = n i Si n − p i=1 es decir, una combinación lineal ponderada de las matrices de covarianzas muestrales Si (k × k) para cada población por separado. 4.2. Obtención de las coordenadas canónicas Como sabemos, la representación en dimensión reducida se obtiene a partir de dos matrices de covarianzas. La primera se calcula con el centrado de la matriz de datos B x̄01 − x̃0 .. HB = . x̄0p − x̃0 donde x̃ = (1/p) es Pp i=1 x̄i , de forma que la matriz de covarianzas “entre” las poblaciones x̄01 − x̃0 1 0 1 .. B HB = (x̄1 − x̃, . . . , x̄p − x̃) A = . p p 0 0 x̄p − x̃ p 1X = (x̄i − x̃)(x̄i − x̃)0 p i=1 16 (23) La otra matriz es la matriz de covarianzas “dentro” de la población, es decir, la matriz Σ̂. El algoritmo para obtener las variables y coordenadas canónicas, se resume en las siguientes fórmulas −1 Aui = λi Σ̂ui ⇐⇒ Σ̂ Aui = λi ui U(k × k) = (u1 , . . . , uk ) Yc = HBU 5. 5.1. λ1 ≥ . . . ≥ λ k ≥ 0 coordenadas canónicas centradas Análisis de correspondencias Distancia ji-cuadrado El Análisis de correspondencias (AC) es apropiado para representar tablas de frecuencias. Supongamos que los datos corresponden a dos criterios de clasificación, a los que llamaremos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia: H1 Poblaciones H2 .. . Hr donde ni· = s X Caracteres A1 A2 . . . As n11 n12 . . . n1s n1· n21 n22 . . . n2s n2· .. .. .. .. . . . . nr1 nr2 . . . nrs nr· n·1 n·2 . . . n·s n nih n·j = h=1 r X nhj h=1 nij es la frecuencia de aparición de la población Hi y el carácter Aj , ni· es la frecuencia de la población Hi , n·j es la frecuencia de Aj y n es el número total de individuos. La distribución de frecuencias de los caracteres en la población Hi viene dada por el vector de coordenadas 0 nis ni1 ni2 , ,..., (24) hi = ni· ni· ni· que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r. Uno de los objetivos del AC es obtener una representación geométrica de las poblaciones H1 , H2 , . . . , Hr en relación a la distribución de frecuencias relativas de los caracteres. Sin embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia basada en la métrica experimental. La distancia ji-cuadrado entre las poblaciones Hi y Hj en relación a los caracteres A1 , A2 , . . . , As es 2 s X 1 nih njh 2 d (Hi , Hj ) = − (25) n n n ·h i· j· h=1 2 s X nih njh = −√ √ n·h ni· n·h nj· h=1 17 De acuerdo con esta distancia, las poblaciones H1 , H2 , . . . , Hr están representadas por una configuración de r puntos en un espacio euclı́deo Rs de coordenadas 0 ni2 nis ni1 pi = √ ,√ ,..., √ (26) n·1 ni· n·2 ni· n·s ni· separados por la distancia euclı́dea ordinaria. Se comprueba fácilmente que tal configuración está contenida en el hiperplano de ecuación s X √ n·h xh = 1 h=1 5.2. Representación de las poblaciones La representación de las poblaciones en dimensión reducida, determinadas por las coordenadas (26) con referencia a los caracteres, se puede interpretar como un problema de representación de datos mediante Análisis de componentes principales. Sea Z(r × s) la matriz cuyas filas son las coordenadas (26) p01 p0 2 Z = .. . p0r Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las poblaciones en dimensión q tomando las q primeras coordenadas de la matriz Y = ZG Veamos las caracterı́sticas de esta diagonalización. Para lo que sigue nos será útil trabajar con las frecuencias relativas fij = nij /n en lugar de nij . Este cambio de escala no afecta a la representación gráfica de los datos. Las coordenadas (24) son exactamente las mismas, pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues XX X X fij = fi· = f·j = 1 i j i j Las siguientes propiedades nos llevan a la solución: 1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por las frecuencias relativas f1· , . . . , fr· , es p p m = ( f·1 , . . . , f·s )0 2. La matriz de covarianzas entre los caracteres, también ponderando por las frecuencias relativas, es Ss = Z0 Dr Z − mm0 donde Dr = diag(f1· , . . . , fr· ). 18 3. m es vector propio de Ss de valor propio λ = 0. 4. Los vectores propios de Ss son también vectores propios de Z0 Dr Z. 5. m es vector propio de Z0 Dr Z de valor propio λ = 1. Como consecuencia de estas propiedades, bastará diagonalizar Z0 Dr Z y considerar sólo los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al valor propio 0 de Ss , es fácil ver que los demás valores propios de Z0 Dr Z son menores que 1: 1 > λ 2 ≥ · · · ≥ λs Si la diagonalización es Z0 Dr Z = TDλ T0 donde T es ortogonal y Dλ = diag(1, λ2 , . . . , λs ). Las coordenadas de las poblaciones vendrán dadas por la 2a , 3a ,. . . columnas de la matriz Y = ZT Para determinar el porcentaje de variabilidad explicada por una representación en dimensión q, dividiremos la variabilidad explicada por los ejes por la variabilidad total VT ! ! s r X X fij2 V T = traza Ss = − f·j = traza (Z0 Dr Z) − 1 f f j=1 i=1 ·j i· y el porcentaje de varianza explicada por el 2o , 3o ,. . . ejes es Pq = 100 · λ 2 + · · · + λq λ 2 + · · · + λq = 100 · 0 traza(Z Dr Z) − 1 λ2 + · · · + λ s La representación en dimensión q (habitualmente q = 2) nos proporciona una representación de las poblaciones separadas por la distancia ji-cuadrado, salvo la pérdida de información producida al reducir la dimensión. 5.3. Representación de los caracteres Hasta aquı́, lo que hemos hecho es representar r poblaciones con referencia a s caracteres mediante el Análisis de componentes principales, salvo que hemos utilizado la distancia ji-cuadrado en lugar de la distancia euclı́dea. La principal ventaja del AC es que posibilita representar también los s caracteres en relación a las r poblaciones y, sobre todo, realizar una representación simultánea de poblaciones y caracteres. La distribución de frecuencias de las r poblaciones condicionadas al carácter Aj viene dada por el vector de coordenadas 0 n1j n2j nrj aj = , ,..., (27) n·j n·j n·j para todo j = 1, . . . , s. 19 Para diferenciar dos caracteres Ai , Aj , en relación a las poblaciones H1 , . . . , Hr se define la distancia ji-cuadrado 2 r X 1 nhi nhj 2 d (Ai , Aj ) = (28) − nh· n·i n·j h=1 2 r X nhi nhj = −√ √ n nh· n·j h· n·i h=1 Ası́ los caracteres A1 , . . . , As están representados por una configuración de s puntos, en un espacio euclı́deo Rr , de coordenadas 0 n1j n2j nrj qj = √ ,√ ,..., √ (29) n1· n·j n2· n·j nr· n·j separados por la distancia euclı́dea ordinaria. Los puntos q1 , . . . , qs están contenidos en el hiperplano de ecuación r X √ nh· xh = 1 h=1 e 0 (s × r) siendo Las coordenadas (29) constituyen una matriz de datos Z e = (q1 , q2 , . . . , qs ) Z e 0 también mediante análisis de componentes Podemos representar la matriz de datos Z principales, diagonalizando la matriz de covarianzas Sr . Dada la dualidad existente entre la representación de caracteres y la de poblaciones, nos limitaremos ahora a dar las principales fórmulas y propiedades: √ √ e = ( f1· , . . . , fr· )0 vector de medias m e sZ e0 − m em e0 Sr = ZD matriz de covarianzas Ds = diag(f·1 , . . . , f·s ) e = 0. e es vector propio de Sr de valor propio λ 1. m e sZ e 0. 2. Los vectores propios de Sr son también vectores propios de ZD e = 1. e sZ e 0 de valor propio λ e es vector propio de ZD 3. m e sZ e0 Deberemos, pues, diagonalizar ZD e sZ e 0 = TD e eT e0 ZD λ e2 , . . . , λ er ) la matriz diagonal con los valores propios e ortogonal y De = diag(1, λ siendo T λ e2 ≥ . . . ≥ λ er de ZD e sZ e 0. 1≥λ La representación de los s caracteres se consigue utilizando la 2a , 3a ,. . . columnas de la matriz e =Z e 0T e Y El porcentaje de variabilidad explicada por los q primeros ejes es Pq = 100 · e2 + · · · + λ eq λ e2 + · · · + λ er λ 20 5.4. Representación simultánea El problema de representar las r poblaciones y los s caracteres se resuelve mediante e sZ e 0 respectivamente. Sin embargo, ambas la diagonalización de las matrices Z0 Dr Z y ZD representaciones están estrechamente relacionadas entre sı́. En efecto, definamos la matriz de orden r × s FDs−1/2 B = D−1/2 r donde F = (fij ) es la matriz de frecuencias relativas original, Dr = diag(f1· , . . . , fr· ) y Ds = diag(f·1 , . . . , f·s ). De manera que los elementos de B son fij nij bij = √ p = √ √ ni· n·j fi· f·j La matriz B verifica las siguientes propiedades: 1. Z0 Dr Z = B0 B e sZ e 0 = BB0 ZD 2. B0 B tiene los mismos valores propios que BB0 . 3. Si v es vector propio de B0 B de valor propio λ, entonces w = Bv es vector propio de BB0 de valor propio λ. Ası́ pues, los valores propios verifican e 2 ≥ · · · ≥ λt = λ et 1 ≥ λ2 = λ donde t = mı́n{r, s} = rango(B0 B) = rango(BB0 ). Los demás valores propios son nulos. Concluimos también que bastará diagonalizar B0 B B0 B = TDλ T0 Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas de la matriz W(r × s) W = BT −1/2 que debe ser normalizada por columnas, para lo cual bastará multiplicar por Dλ obtener e = WD−1/2 = BTD−1/2 e 0T e = Ir T T λ λ para Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los e =Z e 0 T, e recordando que en ambos casos se prescinde de caracteres Aj son las filas de Y la primera columna. Como −1/2 Z = D−1 r FDs e = D−1/2 FD−1 Z r s e podemos relacionar Y con Y e =Z e 0 BTD−1/2 = D−1 F0 D−1/2 D−1/2 FD−1/2 TD−1/2 e = Z e 0T Y s r r s λ λ −1/2 0 = D−1 s F YDλ (30) 21 De esta forma, la h-ésima coordenada (coordenada en el eje h) del carácter Aj se expresa en función de las h-ésimas coordenadas de las r poblaciones f1j frj 1 y1h + · · · + yrh yejh = √ f·j λh f·j Análogamente se puede ver que e −1/2 Y = D−1 r FYDλ (31) y la h-ésima coordenada de la población Hi se expresa en función de las h-ésimas coordenadas de los s caracteres según 1 fi1 fis yih = √ ye1h + · · · + yesh fi· λh fi· En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y e con referencia a unos mismos ejes factoriales. de los caracteres, contenidas en Y y Y, De la representación simultánea de poblaciones y caracteres deben distinguirse tres aspectos: 1) La representación de poblaciones diferenciadas por la distancia ji-cuadrado. 2) La representación de caracteres diferenciados por la distancia ji-cuadrado (correspondiente a los caracteres). 3) La correspondencia que existe entre una población Hi y los s caracteres expresada por (31); análogamente, la correspondencia que existe entre un carácter Aj y las r poblaciones expresada por (30). Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan −1/2 la población Hi es el baricentro (salvo el factor λh ) de los s puntos que representan los caracteres, asignando a cada punto la masa fij /fi· , que es la frecuencia relativa de presencia del carácter Aj en la población Hi . La proximidad de Hi a un determinado grupo de caracteres indica que tienen una presencia importante en Hi . Análogamente, la proximidad de un carácter Aj a un determinado grupo de poblaciones indica una mayor presencia de este carácter en tales poblaciones. Esta propiedad es válida cualquiera que sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de e Y y Y. 22