Representación de datos multivariantes en dimensión reducida

Representación de datos multivariantes en dimensión reducida Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estadı́stica Universidad de Barcelona fcarmona@ub.edu, ccuadras@ub.edu, joller@ub.edu 15-12-2000 Un conjunto de métodos multivariantes resuelven el problema de representar geométricamente los individuos, objetos o subpoblaciones ω1 , ω2 , . . . , ωn de una población Ω, respecto a unas variables observables X1 , X2 , . . . , Xk que pueden ser cuantitativas, cualitativas o una combinación de ambos tipos. En algunos métodos de representación de datos, la información de entrada es una tabla de datos X, en la que xij = Xj (ωi ) representa el valor observado de la variable Xj sobre el individuo ωi . X1 ω1 x11 ω2 x21 .. .. . . ωn xn1 X2 . . . Xk x12 . . . x1k x22 . . . x2k .. .. . . xn2 . . . xnk En otros métodos la información de entrada es una matriz de disimilaridades. La información de salida es una representación geométrica de los individuos en dimensión reducida (en el plano o en el espacio), que exprese sus diferencias y analogı́as de la mejor forma posible. En lı́neas generales deben distinguirse tres casos: 1) Los individuos constituyen una muestra de tamaño n de la población Ω. Normalmente la representación de los datos se suele completar con ciertas conclusiones de tipo estadı́stico, como la significación de la dimensión empleada. Ejemplo: representación de una muestra de especies de un mismo género, utilizando un individuo por especie. 2) Los n individuos constituyen toda la población Ω = {ω1 , . . . , ωn } Ejemplo: representación de las 41 comarcas de Catalunya respecto a variables socioeconómicas. 1 3) La población Ω es la reunión de p subpoblaciones excluyentes Ω = Ω 1 + · · · + Ωp Se dispone de una muestra de tamaño ni de la subpoblación Ωi . Se trata entonces de representar las p subpoblaciones. Ejemplo: representación de p especies distintas disponiendo de ni individuos por especie. Una descripción breve de los principales métodos de análisis de datos se expone a continuación: Análisis de componentes principales. Utiliza variables cuantitativas y cualitativas y una distancia euclı́dea entre los individuos. Análisis de coordenadas principales. Utiliza variables cualitativas y una distancia relacionada con la similaridad entre los individuos. Está relacionado con el método anterior. Análisis de correspondencias. Es apropiado para representar datos cualitativos organizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado. Análisis canónico de poblaciones. Es apropiado para representar poblaciones, utilizando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis. Análisis de proximidades. Es el método más general de representación de datos. El análisis se realiza sobre una matriz de disimilaridades. El objetivo de este artı́culo es explicar los conceptos y propiedades teóricas sobre las que se desarrollan los diversos métodos. Seguidamente desarrollaremos el Análisis de componentes principales, el Análisis canónico de poblaciones y el Análisis de correspondencias como consecuencia de estas propiedades. 1. Distancias estadı́sticas Una cuestión básica que debe plantearse para la representación de datos es una adecuada elección de la distancia entre los individuos a representar. Asignemos a cada individuo ωi el vector de coordenadas xi = (xi1 , xi2 , . . . , xik )0 i = 1, . . . , n con las observaciones sobre las variables X1 , X2 , . . . , Xk . Se puede interpretar xi como un punto del espacio euclı́deo Rk . Nuestro problema es representar los n puntos de Rk en un espacio de dimensión menor, generalmente en el plano. 2 1.1. Distancia euclı́dea Una definición simple de distancia es v u k uX d(ωi , ωj ) = t (xih − xjh )2 h=1 que es la distancia euclı́dea entre los puntos xi y xj de Rk . Observemos que el cuadrado de la distancia en notación matricial es d2 (ωi , ωj ) = (xi − xj )0 (xi − xj ) (1) Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconveniente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en caso de homogeneidad entre la naturaleza fı́sica de las variables y desconocer la matriz de covarianzas. 1.2. Distancia de Mahalanobis Introducimos a continuación una distancia estadı́stica general perfectamente adecuada para diferenciar individuos o poblaciones mediante k variables aleatorias. 1.2.1. Caso k = 1 Sea X una variable de valor medio µ y desviación tı́pica σ. La distancia estadı́stica entre ωi y ωj , siendo X(ωi ) = xi y X(ωj ) = xj , es por definición d(ωi , ωj ) = |xi − xj | σ Son propiedades de esta distancia: 1) Es invariante por cambios de escala. 2) Es una distancia normalizada expresada en unidades de desviación tı́pica. Para una variable con distribución normal, el campo de variabilidad de esta distancia estará prácticamente comprendido entre 0 y 4. 1.2.2. Caso k > 1 Sean X1 , X2 , . . . , Xk variables aleatorias de matriz de covarianzas Σ y ωi , ωj dos individuos de coordenadas xi = (xi1 , xi2 , . . . , xik )0 xj = (xj1 , xj2 , . . . , xjk )0 Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por D2 (ωi , ωj ) = (xi − xj )0 Σ−1 (xi − xj ) 3 (2) Si Ωi , Ωj son dos poblaciones representadas por sus vectores de medias µi , µj y con matriz de covarianzas común Σ, el cuadrado de la distancia entre ambas poblaciones es D2 (Ωi , Ωj ) = (µi − µj )0 Σ−1 (µi − µj ) Si ω es un individuo de coordenadas x = (x1 , . . . , xk )0 y el vector de medias de la población es µ, el cuadrado de la distancia estadı́stica de ω al individuo medio de la población es D2 (ω, Ω) = (x − µ)0 Σ−1 (x − µ) Esta distancia estadı́stica general fue introducida por Mahalanobis (1936). Aunque en las aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer de una mayor comodidad de notación. La distancia de Mahalanobis tiene las siguientes propiedades: 1) D2 (ωi , ωj ) = D2 (ωj , ωi ) 2) D2 (ωi , ωj ) ≥ 0 3) D2 (ωi , ωi ) = 0 (estas tres primeras propiedades definen el concepto general de distancia) 4) D2 (ωi , ωj ) = 0 si y sólo si xi = xj 5) D2 (ωi , ωj ) ≤ D2 (ωi , ωh ) + D2 (ωh , ωj ) (con las cinco propiedades anteriores, la distancia se llama métrica) 6) Es invariante por transformaciones lineales no singulares de las variables. En particular es invariante por cambios de escala. 7) Está expresada en unidades de desviación tı́pica y tiene en cuenta las correlaciones entre las variables (redundancia). 8) Si indicamos por Dk2 a la distancia al cuadrado expresada en función de k variables, entonces 2 Dk2 ≤ Dk+h 9) Si las variables X1 , . . . , Xk son estocásticamente independientes de las variables Xk+1 , . . . , Xk+h , entonces 2 Dk+h = Dk2 + Dh2 Aumentando el número de variables se incrementa el poder de discriminación entre los individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la correlación entre las variables. La distancia de Mahalanobis juega un papel fundamental en muchos de los métodos multivariantes principalmente por sus buenas propiedades estadı́sticas. Por ejemplo, si la distribución de las variables es normal multivariante Nk (µ, Σ), entonces D2 (ω, Ω) = (x − µ)0 Σ−1 (x − µ) como variable aleatoria sigue la distribución χ2k . Esta distancia puede también generalizarse al caso en que existan relaciones lineales entre las variables X1 , . . . , Xk , entonces Σ es singular. La distancia se define sustituyendo la matriz inversa de Σ por una g-inversa Σ− , es decir, tal que ΣΣ− Σ = Σ. Esta distancia tiene básicamente las mismas propiedades que en el caso no singular, verificándose además 4 a) D2 no depende de la g-inversa Σ− . b) D2 es invariante por transformaciones lineales que conserven el rango de Σ. También se puede justificar la utilización de la matriz inversa Σ−1 en la distancia entre individuos de una manera mucho más formal. En el espacio vectorial E generado por las variables X1 , . . . , Xk podemos considerar el producto escalar definido por la matriz Σ. Cada elemento de la población Ω se puede identificar con un elemento de E ∗ , dual de E, mediante la aplicación h definida de la siguiente manera: h : Ω −→ E ∗ tal que h(ω) = Y ∗ con Y ∗ (X) = X(ω) ∀X ∈ E El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E ∗ una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E ∗ y por consiguiente una distancia. Como asociamos mediante la aplicación h a cada elemento de Ω un elemento de E ∗ , tendremos de forma natural una distancia entre individuos dΩ (ωi , ωj ) = dE ∗ (h(ωi ), h(ωj )) En la práctica, sin embargo, las medias poblacionales y la matriz de covarianzas son desconocidas. Ası́ pues, deberemos realizar las estimaciones más adecuadas a partir de las observaciones de las variables X1 , . . . , Xk sobre los individuos de Ω. 2. 2.1. Reducción de la dimensión El problema Supongamos que disponemos de n puntos o vectores de un espacio euclı́deo de dimensión k, cuyas coordenadas o componentes forman las filas de la matriz X. Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos xi , es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las distancias de los puntos a la variedad sea mı́nima. Con dimensión q < k, la ecuación de la variedad afin es y = β1 v1 + β2 v2 + · · · + βq vq + a (3) donde v1 , v2 , . . . , vq es una base del subespacio director asociado a la variedad, que además elegiremos ortonormal, verificándose pues hvi , vj i = vi0 Σ−1 vj = δij ∀i, j (4) siendo Σ−1 la matriz asociada al producto escalar, que es simétrica y definida positiva. 5 Los vectores zi = xi − a i = 1, . . . , k pueden descomponerse de forma única como z i = pi + p⊥ i i = 1, . . . , k donde pi es un elemento del subespacio director de la variedad y p⊥ i es un vector ortogonal a dicho subespacio. La proyección de zi en la variedad es pi = q X pj vj = j=1 q X hzi , vj ivj = j=1 q X hxi − a, vj ivj (5) j=1 La distancia al cuadrado del punto xi a la variedad es 2 2 2 kp⊥ i k = kzi k − kpi k donde 2 kpi k = hpi , pi i = q X hxi − a, vj i2 j=1 resultado al que se llega ya que pi = Pq j=1 hxi − a, vj ivj . Ası́ pues, para lograr el objetivo propuesto debemos minimizar la función Φ(a, v1 , . . . , vq ) = n X 2 kp⊥ i k = i=1 = n X n X kzi k2 − kpi k2 (6) i=1 hxi − a, xi − ai − i=1 q X ! hxi − a, vj i2 j=1 con la condición hvi , vj i = vi0 Σ−1 vj = δij ∀i, j Si desarrollamos la función Φ tenemos Φ= n X hxi − a, xi − ai − i=1 q n X X hxi − a, vj i2 j=1 i=1 que matricialmente podemos escribir como q X −1 0 0 0 vj0 Σ−1 (X − 1a0 )0 (X − 1a0 )Σ−1 vj Φ = traza (X − 1a )Σ (X − 1a ) − j=1 donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las filas de X. 6 2.2. La solución En primer lugar veremos que para minimizar Φ debemos considerar el vector a = x̄ donde n 1X 1 x̄ = (x̄1 , . . . , x̄k ) = xi = X0 1 n i=1 n 0 con (7) n 1X x̄i = xhi n h=1 i = 1, . . . , k En efecto, supongamos que el vector a que minimiza la función Φ es de la forma a = x̄+c, entonces Φ = = = n X hxi − x̄ − c, xi − x̄ − ci − i=1 n X i=1 n X Pn i=1 hxi − x̄ − c, vj i2 j=1 i=1 2 kxi − x̄k − 2 n X 2 hxi − x̄, ci + nkck − i=1 q n X X hxi − x̄ − c, vj i2 j=1 i=1 q kxi − x̄k2 + nkck2 − i=1 ya que nx̄ = q n X X n XX hxi − x̄ − c, vj i2 j=1 i=1 xi . Si desarrollamos de forma similar el último sumando de Φ llegaremos a la expresión ! q n n X X X Φ= kxi − x̄k2 + nkck2 − hxi , vj i2 + nhc, vj i2 − nhx̄, vj i2 i=1 j=1 i=1 de modo que debemos hallar el vector c que minimice nkck2 − q X nhc, vj i2 = n kck2 − j=1 q X ! hc, vj i2 j=1 Como la proyección de c sobre la variedad es q X hc, vj ivj j=1 su norma al cuadrado es q X hc, vj i2 ≤ kck2 j=1 y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal. Por todo ello, la función Φ será mı́nima si tomamos c = 0, ya que el vector nulo pertenece al subespacio director. 7 Ası́ pues, podemos tomar como vector a el vector de medias x̄ y la expresión de Φ a minimizar es Φ(v1 , . . . , vk ) = traza (X − 1x̄0 )Σ−1 (X − 1x̄0 )0 q X − vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj j=1 = n X 2 kxi − x̄k − i=1 q X vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj j=1 Seguidamente, procederemos a calcular los vectores v1 , . . . , vq que minimizan la expresión anterior, con las restricciones señaladas. De manera que debemos maximizar q X vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj (8) j=1 con las restricciones vi Σ−1 vj = δij ∀i, j Consideremos la matriz de centrado H = In − n1 110 que es simétrica e idempotente. Entonces X − 1x̄0 = HX (9) y por tanto (X − 1x̄0 )0 (X − 1x̄0 ) = X0 HX = nS (10) donde S es la matriz de varianzas y covarianzas muestrales. Por todo ello y con las restricciones vi Σ−1 vj = δij , nos proponemos maximizar la expresión q X vj0 Avj (11) j=1 donde A = Σ−1 SΣ−1 . Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar los vectores que maximizan φ(v) = v0 Av sujeto a v0 Σ−1 v = 1 La solución se obtiene por medio de la llamada diagonalización simétrica generalizada, es decir, sean w1 , . . . , wk los vectores tales que Awi = λi Σ−1 wi i = 1, . . . , k (12) con λ1 ≥ λ2 ≥ . . . ≥ λk y sujetos a la condición wi0 Σ−1 wj = δij , es decir, w1 , . . . , wk es una base de vectores propios ortonormales. 8 Entonces, para cualquier vector v = Pk αi wi se tiene X φ(v) = αi αj wi0 Awj i=1 i,j k X = αi2 λi ≤ λ1 q X i=1 αi2 i=1 y como la base w1 , . . . , wk es ortonormal 0 −1 1=vΣ v= X αi αj wi0 Σ−1 wj = q X αi2 i=1 i,j por consiguiente φ(v) ≤ λ1 , es decir, la función φ está acotada por λ1 . Además φ(w1 ) = w10 Aw1 = λ1 w10 Σ−1 w1 = λ1 se tiene que el vector w1 hace máximo el primer sumando de (11). Los vectores que hacen máximo el resto de los sumandos son los vectores propios correspondientes a los q − 1 siguientes valores propios λ2 , . . . , λq . En el caso que algún valor propio sea múltiple, se eligen tantos vectores del subespacio propio correspondiente como orden de multiplicidad tenga el valor propio y que sean ortonormales con el producto escalar definido por Σ−1 . Por otra parte, la igualdad Awi = λi Σ−1 wi al ser A = Σ−1 SΣ−1 , se puede escribir SΣ−1 wi = λi wi (13) En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de los puntos xi a dicha variedad es mı́nima, viene definida por y = x̄ + β1 w1 + · · · + βq wq (14) donde x̄ es el vector de medias y donde w1 , . . . , wq son los vectores propios de SΣ−1 , correspondientes a los q primeros valores propios en orden decreciente en caso de ser distintos y ortonormales respecto a Σ−1 . Si la multiplicidad de un valor propio es s entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente. En la práctica, podemos calcular primero la descomposición espectral de la matriz simétrica definida positiva Σ Σ = ΓΛΓ0 donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos y la matriz de los vectores propios Γ es ortogonal. En este caso, se puede definir la matriz Σ−1/2 = ΓΛ−1/2 Γ0 9 y calcular la descomposición espectral de la matriz simétrica Σ−1/2 SΣ−1/2 Esta descomposición proporciona unos valores propios que coinciden con los de SΣ−1 y unos vectores propios bi = Σ−1/2 wi que se pueden transformar en wi = Σ1/2 bi donde Σ1/2 = ΓΛ1/2 Γ0 . 2.3. Máxima dispersión La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de las interdistancias de las proyecciones de los puntos xi sobre la variedad es máxima. Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj de coordenadas xi = (xi1 , . . . , xik )0 y xj = (xj1 , . . . , xjk )0 vienen dadas por yi = x̄ + pi yj = x̄ + pj donde pi = Pq h=1 hxi − x̄, wh iwh para cualquier i = 1, . . . , n. Entonces, la distancia entre los dos puntos proyectados es 2 2 D (yi , yj ) = kpi − pj k = k q X 2 hxi − xj , wh iwh k = h=1 q X (hxi , wh i − hxj , wh i)2 h=1 Luego, si consideramos en la variedad F un sistema de referencia con origen en x̄ y ejes definidos por la base w1 , . . . , wq , las proyecciones de los puntos xi y xj son qi = αi1 w1 + · · · + αiq wq qj = αj1 w1 + · · · + αjq wq donde αih = hxi , wh i = x0i Σ−1 wh = wh0 Σ−1 xi para cualquier i = 1, . . . , n y h = 1, . . . , q. Ası́ el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia euclı́dea al cuadrado entre las componentes de los puntos proyección qi y qj . 2 D (yi , yj ) = q X (αih − αjh )2 = (αi − αj )0 (αi − αj ) = d2 (αi , αj ) h=1 donde αi = (αi1 , . . . , αiq )0 = W0 Σ−1 xi y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios w1 , . . . , wq . 10 De manera que D2 (yi , yj ) = (W0 Σ−1 (xi − xj ))0 (W0 Σ−1 (xi − xj )) La suma de los cuadrados de las interdistancias en F vendrá dada por la expresión: SCD = n X n X (xi − xj )0 Σ−1 WW0 Σ−1 (xi − xj ) (15) i=1 j=1 Si se desarrolla SCD se llega a D = 2n n X (xi − x̄)0 Σ−1 WW0 Σ−1 (xi − x̄) i=1 que podemos poner de la siguiente forma SCD = 2n traza (X − 1x̄0 )0 Σ−1 WW0 Σ−1 (X − 1x̄0 ) = 2n traza W0 Σ−1 (X − 1x̄0 )(X − 1x̄0 )0 Σ−1 W = 2n traza W0 Σ−1 X0 HXΣ−1 W = 2n2 traza [W0 AW] = 2n2 (w10 Aw1 + · · · + wq0 Awq ) = 2n2 (λ1 w10 Σ−1 w1 + · · · + λq wq0 Σ−1 wq ) = 2n2 (λ1 + · · · + λq ) Es decir SCD = 2n2 (λ1 + · · · + λq ) (16) Como anteriormente hemos visto que los sumandos de la forma v0 Av con la restricción v0 Σ−1 v = 1 están acotados por λ1 , . . . , λq , queda demostrada la propiedad, pues cualquier otra base que no sea la de los vectores propios w1 , . . . , wq , lleva a una variedad en la cual la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales xi es menor. 2.4. Coordenadas y variables canónicas Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F de dimensión reducida q, referidas a los vectores propios w1 , . . . , wq , son yi = q X hxi − x̄, wh iwh h=1 si tomamos como origen del sistema de referencia el punto x̄. Luego, en notación matricial podemos escribir Yc = (X − 1x̄0 )Σ−1 W = HXΣ−1 W (17) donde Yc (n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la variedad y la matriz W tiene como columnas las componentes de los vectores w1 , . . . , wq . También podemos calcular la matriz Y de datos sin centrar Y = XΣ−1 W 11 de forma que Yc = HY. Las filas de la matriz Yc , o si se prefiere Y, constituyen las llamadas coordenadas canónicas de los puntos proyectados. Una propiedad importante de la nueva matriz Y, también de Yc , que resume nuestros logros es 1 1 0 −1 0 SY = Y0 HY = W Σ X HXΣ−1 W n n = W0 Σ−1 SΣ−1 W = W0 AW = diag(λ1 , . . . , λq ) Desde otro punto de vista, podemos considerar en Σ−1 SΣ−1 wi = λi Σ−1 wi con las restricciones wi0 Σ−1 wj = δij , la sustitución Σ−1 wi = ui i = 1, . . . , q de manera que nos queda Σ−1 Sui = λi ui ⇐⇒ Sui = λi Σui con las condiciones u0i Σuj = δij . La matriz U(k × q) definida por U = Σ−1 W (18) contiene las componentes de las llamadas variables canónicas. Dichas “variables” son las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas canónicas de los puntos proyección ya que Y = XU Además, respecto al producto escalar definido por Σ se verifica U0 ΣU = Iq mientras que para un producto escalar definido para la otra matriz de covarianzas S U0 SU = W0 Σ−1 SΣ−1 W = diag(λ1 , . . . , λq ) 2.5. Análisis de la dimensión Cuando realizamos una representación canónica sobre un espacio de dimensión q, esta dimensión ha de verificar q ≤ mı́n{n − 1, k} = m El porcentaje de la dispersión explicada por los q ejes es λ1 + · · · + λ q P = 100 · λ1 + · · · + λ m donde λi son los valores propios obtenidos de la ecuación 12 o equivalentes. (19) Si queremos que la representación canónica recoja el 100 % de la dispersión, debemos construir la variedad con dimensión igual al mı́nimo entre el número de valores propios distintos de cero y n − 1. Como dichos valores propios son función de una muestra, el análisis de cuantos valores propios son no nulos es un problema de inferencia estadı́stica que se resuelve mediante test apropiados. 12 3. Análisis de componentes principales El Análisis de las componentes principales (ACP) proporciona un conjunto de variables Y , combinación lineal de las variables observables X1 , X2 , . . . , Xk , con la propiedad de tener varianza máxima. Para definirlas, utilizaremos la terminologı́a estudiada. Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la métrica experimental y la matriz asociada es la identidad Σ = I. En este caso, las componentes principales se obtienen diagonalizando la matriz de covarianzas S S = GΛG0 (20) donde Λ = diag(λ1 , . . . , λk ) contiene los valores propios de S y G es ortogonal, de manera que GG0 = G0 G = I. Las componentes principales son las variables canónicas, es decir, las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo ello, la representación de datos se hace con los elementos de la matriz Y(n × k) Y = XG o con las q primeras coordenadas para una representación en dimensión q. Además, como ya sabemos, se verifica que SY = Λ = diag(λ1 , . . . , λk ) En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n individuos de k variables, se considera la configuración de los n puntos en Rk separados por la distancia euclı́dea ordinaria. La representación de los individuos en dimensión reducida se consigue con la matriz Y = XG, donde la dispersión de las columnas va disminuyendo de izquierda a derecha. Además, si m = mı́n{k, n − 1} es inferior a k, a partir de la columna m + 1, los elementos de las columnas son exactamente iguales. Para determinar el número necesario de componentes principales se utiliza el cálculo de la variabilidad explicada. Éste es el método más simple, aunque se puede ampliar con otros sistemas estadı́sticos más elaborados como la prueba de Anderson (1963), la prueba de Lebart y Fenelon (1973), etc. Las componentes principales se pueden obtener también partiendo de la matriz de correlaciones R. Sin embargo, las componentes principales obtenidas son distintas y la elección entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las variables son distintas (años, kilos, metros, etc.), es preferible el uso de R, porque equivale a utilizar variables reducidas y, por tanto, sin dimensión fı́sica. Pero si las unidades de medida son las mismas o razonablemente conmensurables, es preferible realizar el análisis sobre S, que es menos artificial. También se considera recomendable utilizar ambas matrices y comparar las interpretaciones de las dos clases de componentes obtenidas. 3.1. Análisis del tamaño y la forma Una de las primeras aplicaciones del ACP a la morfometrı́a (estudio de la morfologı́a de los individuos y especies por métodos cuantitativos) se remontan a los primeros intentos de establecer los conceptos de tamaño y forma de un individuo dentro de una especie. 13 La idea de tamaño se considera equivalente a la de crecimiento. Podemos idealizar el crecimiento de un individuo, representado por k medidas de otros tantos caracteres biométricos (x1 , . . . , xk ), como el movimiento a lo largo de una lı́nea recta de ecuación x 1 − a1 x 2 − a2 x k − ak = = ··· = α1 α2 αk (21) donde (α1 , α2 , . . . , αk )0 representa el vector posición del crecimiento (vector director de la recta) y (a1 , a2 , . . . , ak ) es un punto fijo sobre la recta, que se puede interpretar como el tamaño de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966). La relación (21) es tan sólo ideal, válida si todos los individuos de la población pueden alinearse de menor a mayor tamaño. Cuando los caracteres están representados por k variables aleatorias X1 , . . . , Xk , no ligadas por una relación lineal perfecta, parece razonable definir (21) como la dirección de máxima variabilidad, es decir, como la primera componente principal. Por otra parte, una variable biométrica, cuanto más variabilidad tiene, mejor expresa el concepto de tamaño. Por ejemplo, consideremos un grupo de hombres de prácticamente el mismo peso pero con notable variación de altura; entonces, para ordenarlos de menor a mayor tamaño, los ordenaremos de menor a mayor altura. La variable con mayor varianza será la que mejor expresará este concepto. Si esta variable puede ser una combinación lineal de X1 , . . . , Xk , esta variable debe ser la primera componente principal, que se identifica, pues, con el tamaño. ¿Y la forma? La forma es un concepto independiente del tamaño. Dos individuos pueden tener el mismo tamaño pero distinta forma y recı́procamente. Como la segunda, tercera, etc. componentes principales, están incorrelacionadas con la primera, parece también razonable interpretarlas como variables que expresen la forma de los individuos. Las distintas maneras de representar la forma, también incorrelacionadas entre sı́, se interpretan en función de la saturación que tengan las variables iniciales sobre estas componentes. Estos son los argumentos principales del trabajo clásico de Jolicoeur y Mosimann (1960), que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar los efectos de las relaciones de alometrı́a entre los caracteres (relación del tipo y = bxa , que se transforma en lineal: log y = log b + a log x). Sin embargo, para que las componentes principales representen adecuadamente tamaño y forma, deben cumplirse las siguientes condiciones (Rao, 1971): 1) Todos los coeficientes de la primera componente principal deben ser positivos, es decir, la primera columna de G debe tener todos sus elementos positivos para que se ésta se pueda identificar como tamaño. En efecto, todo incremento positivo de las medidas biométricas X1 , . . . , Xk redundará en un incremento positivo de Y1 (aumentando las medidas, aumenta el tamaño). Si esta condición no se verifica, no se puede hablar estrictamente de tamaño. 2) Para que una componente se identifique como forma no debe tener todos los coeficientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma más acusada, resulta de un incremento de unas medidas y un decremento de otras. 14 3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable considerar sólo aquellas cuyas varianzas superen a la menor de las varianzas de las variables X1 , . . . , Xk , es decir, λ2 ≥ λ3 ≥ · · · ≥ λm ≥ mı́n{s11 , . . . , skk } de esta manera no hay ninguna componente que tenga menos variabilidad que cualquiera de las variables observadas. 3.2. Interpretación geométrica Supongamos que los datos son centrados. Representamos la muestra de tamaño n con los puntos o filas de la matriz X tomando X1 , . . . , Xk como ejes ortogonales y unitarios, es decir, referimos la muestra a la llamada métrica experimental. La nube de puntos adopta entonces la forma del elipsoide de concentración x0 S−1 x ≤ c (22) donde c se puede elegir de manera que un elevado porcentaje de la población esté contenido en este elipsoide. Consideremos el problema de maximizar v0 v con la condición v0 S−1 v = 1. El vector v solución se encuentra sobre el elipsoide de concentración correspondiente a c = 1 y v0 v máximo significa que v representa una dirección de máxima variabilidad respecto a la métrica experimental, que se interpreta geométricamente como el eje principal del elipsoide. Ahora bien, v se obtiene de la diagonalización Iv = λS−1 v y por lo tanto Sv = λv Luego v es vector propio de S y proporcional al vector que define la primera componente principal Y1 . Análogamente se interpretan las demás componentes principales. Existe pues una correspondencia entre las direcciones ortogonales de máxima variabilidad del elipsoide de concentración, o ejes principales del elipsoide, y las componentes principales obtenidas por diagonalización de la matriz de covarianzas S de las variables observables. 4. 4.1. Análisis canónico de poblaciones Introducción El análisis canónico de poblaciones (ACPL) es un método de representación de grupos o poblaciones, a lo largo de ejes con máximo poder de discriminación, en relación a la distancia de Mahalanobis. Supongamos que una población general Ω es reunión de p poblaciones o grupos (especies de un mismo género, grupos humanos de diferente comportamiento, etc.) Ω = Ω 1 ∪ . . . ∪ Ωp con Ωi ∩ Ωj = ∅ 15 i 6= j Sean X1 , . . . , Xk variables observables sobre Ω. Si sobre la población Ωi i = 1, . . . , p obtenemos ni observaciones de las k variables, nuestros datos formarán una matriz X(n × Pp k) siendo n = i=1 ni   X1   X =  ...  Xp Parece razonable identificar cada población Ωi con el “individuo” medio de Ωi representado por el punto que tiene por coordenadas las medias muestrales de las variables en esa población x̄i (k × 1) = (x̄i1 , . . . , x̄ik )0 i = 1, . . . , p La matriz de datos a representar en dimensión reducida es   x̄01   B =  ...  x̄0p donde las filas de B(p × k) son las medias de cada población Ωi . Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos observados de la población Ω. Dicha distancia (ver 2) viene determinada por la matriz de covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas poblaciones se suponen iguales, la estimación más apropiada de Σ es p 1 X Σ̂ = n i Si n − p i=1 es decir, una combinación lineal ponderada de las matrices de covarianzas muestrales Si (k × k) para cada población por separado. 4.2. Obtención de las coordenadas canónicas Como sabemos, la representación en dimensión reducida se obtiene a partir de dos matrices de covarianzas. La primera se calcula con el centrado de la matriz de datos B   x̄01 − x̃0   .. HB =   . x̄0p − x̃0 donde x̃ = (1/p) es Pp i=1 x̄i , de forma que la matriz de covarianzas “entre” las poblaciones   x̄01 − x̃0 1 0 1   .. B HB = (x̄1 − x̃, . . . , x̄p − x̃)  A =  . p p 0 0 x̄p − x̃ p 1X = (x̄i − x̃)(x̄i − x̃)0 p i=1 16 (23) La otra matriz es la matriz de covarianzas “dentro” de la población, es decir, la matriz Σ̂. El algoritmo para obtener las variables y coordenadas canónicas, se resume en las siguientes fórmulas −1 Aui = λi Σ̂ui ⇐⇒ Σ̂ Aui = λi ui U(k × k) = (u1 , . . . , uk ) Yc = HBU 5. 5.1. λ1 ≥ . . . ≥ λ k ≥ 0 coordenadas canónicas centradas Análisis de correspondencias Distancia ji-cuadrado El Análisis de correspondencias (AC) es apropiado para representar tablas de frecuencias. Supongamos que los datos corresponden a dos criterios de clasificación, a los que llamaremos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia: H1 Poblaciones H2 .. . Hr donde ni· = s X Caracteres A1 A2 . . . As n11 n12 . . . n1s n1· n21 n22 . . . n2s n2· .. .. .. .. . . . . nr1 nr2 . . . nrs nr· n·1 n·2 . . . n·s n nih n·j = h=1 r X nhj h=1 nij es la frecuencia de aparición de la población Hi y el carácter Aj , ni· es la frecuencia de la población Hi , n·j es la frecuencia de Aj y n es el número total de individuos. La distribución de frecuencias de los caracteres en la población Hi viene dada por el vector de coordenadas 0 nis ni1 ni2 , ,..., (24) hi = ni· ni· ni· que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r. Uno de los objetivos del AC es obtener una representación geométrica de las poblaciones H1 , H2 , . . . , Hr en relación a la distribución de frecuencias relativas de los caracteres. Sin embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia basada en la métrica experimental. La distancia ji-cuadrado entre las poblaciones Hi y Hj en relación a los caracteres A1 , A2 , . . . , As es 2 s X 1 nih njh 2 d (Hi , Hj ) = − (25) n n n ·h i· j· h=1 2 s X nih njh = −√ √ n·h ni· n·h nj· h=1 17 De acuerdo con esta distancia, las poblaciones H1 , H2 , . . . , Hr están representadas por una configuración de r puntos en un espacio euclı́deo Rs de coordenadas 0 ni2 nis ni1 pi = √ ,√ ,..., √ (26) n·1 ni· n·2 ni· n·s ni· separados por la distancia euclı́dea ordinaria. Se comprueba fácilmente que tal configuración está contenida en el hiperplano de ecuación s X √ n·h xh = 1 h=1 5.2. Representación de las poblaciones La representación de las poblaciones en dimensión reducida, determinadas por las coordenadas (26) con referencia a los caracteres, se puede interpretar como un problema de representación de datos mediante Análisis de componentes principales. Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)   p01  p0   2  Z =  ..   .  p0r Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las poblaciones en dimensión q tomando las q primeras coordenadas de la matriz Y = ZG Veamos las caracterı́sticas de esta diagonalización. Para lo que sigue nos será útil trabajar con las frecuencias relativas fij = nij /n en lugar de nij . Este cambio de escala no afecta a la representación gráfica de los datos. Las coordenadas (24) son exactamente las mismas, pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues XX X X fij = fi· = f·j = 1 i j i j Las siguientes propiedades nos llevan a la solución: 1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por las frecuencias relativas f1· , . . . , fr· , es p p m = ( f·1 , . . . , f·s )0 2. La matriz de covarianzas entre los caracteres, también ponderando por las frecuencias relativas, es Ss = Z0 Dr Z − mm0 donde Dr = diag(f1· , . . . , fr· ). 18 3. m es vector propio de Ss de valor propio λ = 0. 4. Los vectores propios de Ss son también vectores propios de Z0 Dr Z. 5. m es vector propio de Z0 Dr Z de valor propio λ = 1. Como consecuencia de estas propiedades, bastará diagonalizar Z0 Dr Z y considerar sólo los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al valor propio 0 de Ss , es fácil ver que los demás valores propios de Z0 Dr Z son menores que 1: 1 > λ 2 ≥ · · · ≥ λs Si la diagonalización es Z0 Dr Z = TDλ T0 donde T es ortogonal y Dλ = diag(1, λ2 , . . . , λs ). Las coordenadas de las poblaciones vendrán dadas por la 2a , 3a ,. . . columnas de la matriz Y = ZT Para determinar el porcentaje de variabilidad explicada por una representación en dimensión q, dividiremos la variabilidad explicada por los ejes por la variabilidad total VT ! ! s r X X fij2 V T = traza Ss = − f·j = traza (Z0 Dr Z) − 1 f f j=1 i=1 ·j i· y el porcentaje de varianza explicada por el 2o , 3o ,. . . ejes es Pq = 100 · λ 2 + · · · + λq λ 2 + · · · + λq = 100 · 0 traza(Z Dr Z) − 1 λ2 + · · · + λ s La representación en dimensión q (habitualmente q = 2) nos proporciona una representación de las poblaciones separadas por la distancia ji-cuadrado, salvo la pérdida de información producida al reducir la dimensión. 5.3. Representación de los caracteres Hasta aquı́, lo que hemos hecho es representar r poblaciones con referencia a s caracteres mediante el Análisis de componentes principales, salvo que hemos utilizado la distancia ji-cuadrado en lugar de la distancia euclı́dea. La principal ventaja del AC es que posibilita representar también los s caracteres en relación a las r poblaciones y, sobre todo, realizar una representación simultánea de poblaciones y caracteres. La distribución de frecuencias de las r poblaciones condicionadas al carácter Aj viene dada por el vector de coordenadas 0 n1j n2j nrj aj = , ,..., (27) n·j n·j n·j para todo j = 1, . . . , s. 19 Para diferenciar dos caracteres Ai , Aj , en relación a las poblaciones H1 , . . . , Hr se define la distancia ji-cuadrado 2 r X 1 nhi nhj 2 d (Ai , Aj ) = (28) − nh· n·i n·j h=1 2 r X nhi nhj = −√ √ n nh· n·j h· n·i h=1 Ası́ los caracteres A1 , . . . , As están representados por una configuración de s puntos, en un espacio euclı́deo Rr , de coordenadas 0 n1j n2j nrj qj = √ ,√ ,..., √ (29) n1· n·j n2· n·j nr· n·j separados por la distancia euclı́dea ordinaria. Los puntos q1 , . . . , qs están contenidos en el hiperplano de ecuación r X √ nh· xh = 1 h=1 e 0 (s × r) siendo Las coordenadas (29) constituyen una matriz de datos Z e = (q1 , q2 , . . . , qs ) Z e 0 también mediante análisis de componentes Podemos representar la matriz de datos Z principales, diagonalizando la matriz de covarianzas Sr . Dada la dualidad existente entre la representación de caracteres y la de poblaciones, nos limitaremos ahora a dar las principales fórmulas y propiedades: √ √ e = ( f1· , . . . , fr· )0 vector de medias m e sZ e0 − m em e0 Sr = ZD matriz de covarianzas Ds = diag(f·1 , . . . , f·s ) e = 0. e es vector propio de Sr de valor propio λ 1. m e sZ e 0. 2. Los vectores propios de Sr son también vectores propios de ZD e = 1. e sZ e 0 de valor propio λ e es vector propio de ZD 3. m e sZ e0 Deberemos, pues, diagonalizar ZD e sZ e 0 = TD e eT e0 ZD λ e2 , . . . , λ er ) la matriz diagonal con los valores propios e ortogonal y De = diag(1, λ siendo T λ e2 ≥ . . . ≥ λ er de ZD e sZ e 0. 1≥λ La representación de los s caracteres se consigue utilizando la 2a , 3a ,. . . columnas de la matriz e =Z e 0T e Y El porcentaje de variabilidad explicada por los q primeros ejes es Pq = 100 · e2 + · · · + λ eq λ e2 + · · · + λ er λ 20 5.4. Representación simultánea El problema de representar las r poblaciones y los s caracteres se resuelve mediante e sZ e 0 respectivamente. Sin embargo, ambas la diagonalización de las matrices Z0 Dr Z y ZD representaciones están estrechamente relacionadas entre sı́. En efecto, definamos la matriz de orden r × s FDs−1/2 B = D−1/2 r donde F = (fij ) es la matriz de frecuencias relativas original, Dr = diag(f1· , . . . , fr· ) y Ds = diag(f·1 , . . . , f·s ). De manera que los elementos de B son fij nij bij = √ p = √ √ ni· n·j fi· f·j La matriz B verifica las siguientes propiedades: 1. Z0 Dr Z = B0 B e sZ e 0 = BB0 ZD 2. B0 B tiene los mismos valores propios que BB0 . 3. Si v es vector propio de B0 B de valor propio λ, entonces w = Bv es vector propio de BB0 de valor propio λ. Ası́ pues, los valores propios verifican e 2 ≥ · · · ≥ λt = λ et 1 ≥ λ2 = λ donde t = mı́n{r, s} = rango(B0 B) = rango(BB0 ). Los demás valores propios son nulos. Concluimos también que bastará diagonalizar B0 B B0 B = TDλ T0 Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas de la matriz W(r × s) W = BT −1/2 que debe ser normalizada por columnas, para lo cual bastará multiplicar por Dλ obtener e = WD−1/2 = BTD−1/2 e 0T e = Ir T T λ λ para Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los e =Z e 0 T, e recordando que en ambos casos se prescinde de caracteres Aj son las filas de Y la primera columna. Como −1/2 Z = D−1 r FDs e = D−1/2 FD−1 Z r s e podemos relacionar Y con Y e =Z e 0 BTD−1/2 = D−1 F0 D−1/2 D−1/2 FD−1/2 TD−1/2 e = Z e 0T Y s r r s λ λ −1/2 0 = D−1 s F YDλ (30) 21 De esta forma, la h-ésima coordenada (coordenada en el eje h) del carácter Aj se expresa en función de las h-ésimas coordenadas de las r poblaciones f1j frj 1 y1h + · · · + yrh yejh = √ f·j λh f·j Análogamente se puede ver que e −1/2 Y = D−1 r FYDλ (31) y la h-ésima coordenada de la población Hi se expresa en función de las h-ésimas coordenadas de los s caracteres según 1 fi1 fis yih = √ ye1h + · · · + yesh fi· λh fi· En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y e con referencia a unos mismos ejes factoriales. de los caracteres, contenidas en Y y Y, De la representación simultánea de poblaciones y caracteres deben distinguirse tres aspectos: 1) La representación de poblaciones diferenciadas por la distancia ji-cuadrado. 2) La representación de caracteres diferenciados por la distancia ji-cuadrado (correspondiente a los caracteres). 3) La correspondencia que existe entre una población Hi y los s caracteres expresada por (31); análogamente, la correspondencia que existe entre un carácter Aj y las r poblaciones expresada por (30). Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan −1/2 la población Hi es el baricentro (salvo el factor λh ) de los s puntos que representan los caracteres, asignando a cada punto la masa fij /fi· , que es la frecuencia relativa de presencia del carácter Aj en la población Hi . La proximidad de Hi a un determinado grupo de caracteres indica que tienen una presencia importante en Hi . Análogamente, la proximidad de un carácter Aj a un determinado grupo de poblaciones indica una mayor presencia de este carácter en tales poblaciones. Esta propiedad es válida cualquiera que sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de e Y y Y. 22

Representación de datos multivariantes en dimensión reducida

Documentos relacionados

Productos

Apoyo

Representación de datos multivariantes en dimensión reducida

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib