Representación de datos multivariantes en dimensión reducida

Anuncio
Representación de datos multivariantes
en dimensión reducida
Francesc Carmona, Carles M. Cuadras y Josep Maria Oller
Departamento de Estadı́stica
Universidad de Barcelona
fcarmona@ub.edu, ccuadras@ub.edu, joller@ub.edu
15-12-2000
Un conjunto de métodos multivariantes resuelven el problema de representar geométricamente los individuos, objetos o subpoblaciones ω1 , ω2 , . . . , ωn de una población Ω, respecto
a unas variables observables X1 , X2 , . . . , Xk que pueden ser cuantitativas, cualitativas o
una combinación de ambos tipos.
En algunos métodos de representación de datos, la información de entrada es una tabla
de datos X, en la que xij = Xj (ωi ) representa el valor observado de la variable Xj sobre
el individuo ωi .
X1
ω1 x11
ω2 x21
..
..
.
.
ωn xn1
X2 . . . Xk
x12 . . . x1k
x22 . . . x2k
..
..
.
.
xn2 . . . xnk
En otros métodos la información de entrada es una matriz de disimilaridades.
La información de salida es una representación geométrica de los individuos en dimensión
reducida (en el plano o en el espacio), que exprese sus diferencias y analogı́as de la mejor
forma posible.
En lı́neas generales deben distinguirse tres casos:
1) Los individuos constituyen una muestra de tamaño n de la población Ω. Normalmente la representación de los datos se suele completar con ciertas conclusiones de
tipo estadı́stico, como la significación de la dimensión empleada. Ejemplo: representación de una muestra de especies de un mismo género, utilizando un individuo
por especie.
2) Los n individuos constituyen toda la población
Ω = {ω1 , . . . , ωn }
Ejemplo: representación de las 41 comarcas de Catalunya respecto a variables socioeconómicas.
1
3) La población Ω es la reunión de p subpoblaciones excluyentes
Ω = Ω 1 + · · · + Ωp
Se dispone de una muestra de tamaño ni de la subpoblación Ωi . Se trata entonces
de representar las p subpoblaciones. Ejemplo: representación de p especies distintas
disponiendo de ni individuos por especie.
Una descripción breve de los principales métodos de análisis de datos se expone a continuación:
Análisis de componentes principales. Utiliza variables cuantitativas y cualitativas y
una distancia euclı́dea entre los individuos.
Análisis de coordenadas principales. Utiliza variables cualitativas y una distancia
relacionada con la similaridad entre los individuos. Está relacionado con el método
anterior.
Análisis de correspondencias. Es apropiado para representar datos cualitativos organizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado.
Análisis canónico de poblaciones. Es apropiado para representar poblaciones, utilizando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis.
Análisis de proximidades. Es el método más general de representación de datos. El
análisis se realiza sobre una matriz de disimilaridades.
El objetivo de este artı́culo es explicar los conceptos y propiedades teóricas sobre las que
se desarrollan los diversos métodos. Seguidamente desarrollaremos el Análisis de componentes principales, el Análisis canónico de poblaciones y el Análisis de correspondencias
como consecuencia de estas propiedades.
1.
Distancias estadı́sticas
Una cuestión básica que debe plantearse para la representación de datos es una adecuada
elección de la distancia entre los individuos a representar.
Asignemos a cada individuo ωi el vector de coordenadas
xi = (xi1 , xi2 , . . . , xik )0
i = 1, . . . , n
con las observaciones sobre las variables X1 , X2 , . . . , Xk . Se puede interpretar xi como un
punto del espacio euclı́deo Rk . Nuestro problema es representar los n puntos de Rk en un
espacio de dimensión menor, generalmente en el plano.
2
1.1.
Distancia euclı́dea
Una definición simple de distancia es
v
u k
uX
d(ωi , ωj ) = t (xih − xjh )2
h=1
que es la distancia euclı́dea entre los puntos xi y xj de Rk . Observemos que el cuadrado
de la distancia en notación matricial es
d2 (ωi , ωj ) = (xi − xj )0 (xi − xj )
(1)
Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconveniente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en
caso de homogeneidad entre la naturaleza fı́sica de las variables y desconocer la matriz
de covarianzas.
1.2.
Distancia de Mahalanobis
Introducimos a continuación una distancia estadı́stica general perfectamente adecuada
para diferenciar individuos o poblaciones mediante k variables aleatorias.
1.2.1.
Caso k = 1
Sea X una variable de valor medio µ y desviación tı́pica σ. La distancia estadı́stica entre
ωi y ωj , siendo X(ωi ) = xi y X(ωj ) = xj , es por definición
d(ωi , ωj ) =
|xi − xj |
σ
Son propiedades de esta distancia:
1) Es invariante por cambios de escala.
2) Es una distancia normalizada expresada en unidades de desviación tı́pica. Para
una variable con distribución normal, el campo de variabilidad de esta distancia
estará prácticamente comprendido entre 0 y 4.
1.2.2.
Caso k > 1
Sean X1 , X2 , . . . , Xk variables aleatorias de matriz de covarianzas Σ y ωi , ωj dos individuos
de coordenadas
xi = (xi1 , xi2 , . . . , xik )0
xj = (xj1 , xj2 , . . . , xjk )0
Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por
D2 (ωi , ωj ) = (xi − xj )0 Σ−1 (xi − xj )
3
(2)
Si Ωi , Ωj son dos poblaciones representadas por sus vectores de medias µi , µj y con matriz
de covarianzas común Σ, el cuadrado de la distancia entre ambas poblaciones es
D2 (Ωi , Ωj ) = (µi − µj )0 Σ−1 (µi − µj )
Si ω es un individuo de coordenadas x = (x1 , . . . , xk )0 y el vector de medias de la población
es µ, el cuadrado de la distancia estadı́stica de ω al individuo medio de la población es
D2 (ω, Ω) = (x − µ)0 Σ−1 (x − µ)
Esta distancia estadı́stica general fue introducida por Mahalanobis (1936). Aunque en las
aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer
de una mayor comodidad de notación.
La distancia de Mahalanobis tiene las siguientes propiedades:
1) D2 (ωi , ωj ) = D2 (ωj , ωi )
2) D2 (ωi , ωj ) ≥ 0
3) D2 (ωi , ωi ) = 0
(estas tres primeras propiedades definen el concepto general de distancia)
4) D2 (ωi , ωj ) = 0 si y sólo si xi = xj
5) D2 (ωi , ωj ) ≤ D2 (ωi , ωh ) + D2 (ωh , ωj )
(con las cinco propiedades anteriores, la distancia se llama métrica)
6) Es invariante por transformaciones lineales no singulares de las variables. En particular es invariante por cambios de escala.
7) Está expresada en unidades de desviación tı́pica y tiene en cuenta las correlaciones
entre las variables (redundancia).
8) Si indicamos por Dk2 a la distancia al cuadrado expresada en función de k variables,
entonces
2
Dk2 ≤ Dk+h
9) Si las variables X1 , . . . , Xk son estocásticamente independientes de las variables
Xk+1 , . . . , Xk+h , entonces
2
Dk+h
= Dk2 + Dh2
Aumentando el número de variables se incrementa el poder de discriminación entre los
individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la correlación entre las variables.
La distancia de Mahalanobis juega un papel fundamental en muchos de los métodos
multivariantes principalmente por sus buenas propiedades estadı́sticas. Por ejemplo, si
la distribución de las variables es normal multivariante Nk (µ, Σ), entonces D2 (ω, Ω) =
(x − µ)0 Σ−1 (x − µ) como variable aleatoria sigue la distribución χ2k .
Esta distancia puede también generalizarse al caso en que existan relaciones lineales entre
las variables X1 , . . . , Xk , entonces Σ es singular. La distancia se define sustituyendo la
matriz inversa de Σ por una g-inversa Σ− , es decir, tal que ΣΣ− Σ = Σ. Esta distancia
tiene básicamente las mismas propiedades que en el caso no singular, verificándose además
4
a) D2 no depende de la g-inversa Σ− .
b) D2 es invariante por transformaciones lineales que conserven el rango de Σ.
También se puede justificar la utilización de la matriz inversa Σ−1 en la distancia entre
individuos de una manera mucho más formal. En el espacio vectorial E generado por las
variables X1 , . . . , Xk podemos considerar el producto escalar definido por la matriz Σ.
Cada elemento de la población Ω se puede identificar con un elemento de E ∗ , dual de E,
mediante la aplicación h definida de la siguiente manera:
h : Ω −→ E ∗
tal que
h(ω) = Y ∗
con
Y ∗ (X) = X(ω)
∀X ∈ E
El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E ∗
una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E ∗ y por
consiguiente una distancia. Como asociamos mediante la aplicación h a cada elemento de
Ω un elemento de E ∗ , tendremos de forma natural una distancia entre individuos
dΩ (ωi , ωj ) = dE ∗ (h(ωi ), h(ωj ))
En la práctica, sin embargo, las medias poblacionales y la matriz de covarianzas son
desconocidas. Ası́ pues, deberemos realizar las estimaciones más adecuadas a partir de
las observaciones de las variables X1 , . . . , Xk sobre los individuos de Ω.
2.
2.1.
Reducción de la dimensión
El problema
Supongamos que disponemos de n puntos o vectores de un espacio euclı́deo de dimensión
k, cuyas coordenadas o componentes forman las filas de la matriz X.
Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos
xi , es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las
distancias de los puntos a la variedad sea mı́nima.
Con dimensión q < k, la ecuación de la variedad afin es
y = β1 v1 + β2 v2 + · · · + βq vq + a
(3)
donde v1 , v2 , . . . , vq es una base del subespacio director asociado a la variedad, que además
elegiremos ortonormal, verificándose pues
hvi , vj i = vi0 Σ−1 vj = δij
∀i, j
(4)
siendo Σ−1 la matriz asociada al producto escalar, que es simétrica y definida positiva.
5
Los vectores
zi = xi − a
i = 1, . . . , k
pueden descomponerse de forma única como
z i = pi + p⊥
i
i = 1, . . . , k
donde pi es un elemento del subespacio director de la variedad y p⊥
i es un vector ortogonal
a dicho subespacio.
La proyección de zi en la variedad es
pi =
q
X
pj vj =
j=1
q
X
hzi , vj ivj =
j=1
q
X
hxi − a, vj ivj
(5)
j=1
La distancia al cuadrado del punto xi a la variedad es
2
2
2
kp⊥
i k = kzi k − kpi k
donde
2
kpi k = hpi , pi i =
q
X
hxi − a, vj i2
j=1
resultado al que se llega ya que pi =
Pq
j=1 hxi
− a, vj ivj .
Ası́ pues, para lograr el objetivo propuesto debemos minimizar la función
Φ(a, v1 , . . . , vq ) =
n
X
2
kp⊥
i k
=
i=1
=
n
X
n
X
kzi k2 − kpi k2
(6)
i=1
hxi − a, xi − ai −
i=1
q
X
!
hxi − a, vj i2
j=1
con la condición
hvi , vj i = vi0 Σ−1 vj = δij
∀i, j
Si desarrollamos la función Φ tenemos
Φ=
n
X
hxi − a, xi − ai −
i=1
q
n
X
X
hxi − a, vj i2
j=1 i=1
que matricialmente podemos escribir como
q
X
−1
0
0 0
vj0 Σ−1 (X − 1a0 )0 (X − 1a0 )Σ−1 vj
Φ = traza (X − 1a )Σ (X − 1a ) −
j=1
donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las
filas de X.
6
2.2.
La solución
En primer lugar veremos que para minimizar Φ debemos considerar el vector a = x̄ donde
n
1X
1
x̄ = (x̄1 , . . . , x̄k ) =
xi = X0 1
n i=1
n
0
con
(7)
n
1X
x̄i =
xhi
n h=1
i = 1, . . . , k
En efecto, supongamos que el vector a que minimiza la función Φ es de la forma a = x̄+c,
entonces
Φ =
=
=
n
X
hxi − x̄ − c, xi − x̄ − ci −
i=1
n
X
i=1
n
X
Pn
i=1
hxi − x̄ − c, vj i2
j=1 i=1
2
kxi − x̄k − 2
n
X
2
hxi − x̄, ci + nkck −
i=1
q
n
X
X
hxi − x̄ − c, vj i2
j=1 i=1
q
kxi − x̄k2 + nkck2 −
i=1
ya que nx̄ =
q
n
X
X
n
XX
hxi − x̄ − c, vj i2
j=1 i=1
xi .
Si desarrollamos de forma similar el último sumando de Φ llegaremos a la expresión
!
q
n
n
X
X
X
Φ=
kxi − x̄k2 + nkck2 −
hxi , vj i2 + nhc, vj i2 − nhx̄, vj i2
i=1
j=1
i=1
de modo que debemos hallar el vector c que minimice
nkck2 −
q
X
nhc, vj i2 = n kck2 −
j=1
q
X
!
hc, vj i2
j=1
Como la proyección de c sobre la variedad es
q
X
hc, vj ivj
j=1
su norma al cuadrado es
q
X
hc, vj i2 ≤ kck2
j=1
y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal.
Por todo ello, la función Φ será mı́nima si tomamos c = 0, ya que el vector nulo pertenece
al subespacio director.
7
Ası́ pues, podemos tomar como vector a el vector de medias x̄ y la expresión de Φ a
minimizar es
Φ(v1 , . . . , vk ) = traza (X − 1x̄0 )Σ−1 (X − 1x̄0 )0
q
X
−
vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj
j=1
=
n
X
2
kxi − x̄k −
i=1
q
X
vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj
j=1
Seguidamente, procederemos a calcular los vectores v1 , . . . , vq que minimizan la expresión
anterior, con las restricciones señaladas. De manera que debemos maximizar
q
X
vj0 Σ−1 (X − 1x̄0 )0 (X − 1x̄0 )Σ−1 vj
(8)
j=1
con las restricciones
vi Σ−1 vj = δij
∀i, j
Consideremos la matriz de centrado H = In − n1 110 que es simétrica e idempotente.
Entonces
X − 1x̄0 = HX
(9)
y por tanto
(X − 1x̄0 )0 (X − 1x̄0 ) = X0 HX = nS
(10)
donde S es la matriz de varianzas y covarianzas muestrales.
Por todo ello y con las restricciones vi Σ−1 vj = δij , nos proponemos maximizar la expresión
q
X
vj0 Avj
(11)
j=1
donde A = Σ−1 SΣ−1 .
Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar
los vectores que maximizan
φ(v) = v0 Av
sujeto a
v0 Σ−1 v = 1
La solución se obtiene por medio de la llamada diagonalización simétrica generalizada, es
decir, sean w1 , . . . , wk los vectores tales que
Awi = λi Σ−1 wi
i = 1, . . . , k
(12)
con
λ1 ≥ λ2 ≥ . . . ≥ λk
y sujetos a la condición wi0 Σ−1 wj = δij , es decir, w1 , . . . , wk es una base de vectores
propios ortonormales.
8
Entonces, para cualquier vector v =
Pk
αi wi se tiene
X
φ(v) =
αi αj wi0 Awj
i=1
i,j
k
X
=
αi2 λi
≤ λ1
q
X
i=1
αi2
i=1
y como la base w1 , . . . , wk es ortonormal
0
−1
1=vΣ v=
X
αi αj wi0 Σ−1 wj
=
q
X
αi2
i=1
i,j
por consiguiente φ(v) ≤ λ1 , es decir, la función φ está acotada por λ1 . Además
φ(w1 ) = w10 Aw1 = λ1 w10 Σ−1 w1 = λ1
se tiene que el vector w1 hace máximo el primer sumando de (11). Los vectores que hacen
máximo el resto de los sumandos son los vectores propios correspondientes a los q − 1
siguientes valores propios λ2 , . . . , λq .
En el caso que algún valor propio sea múltiple, se eligen tantos vectores del subespacio
propio correspondiente como orden de multiplicidad tenga el valor propio y que sean
ortonormales con el producto escalar definido por Σ−1 .
Por otra parte, la igualdad
Awi = λi Σ−1 wi
al ser A = Σ−1 SΣ−1 , se puede escribir
SΣ−1 wi = λi wi
(13)
En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de
los puntos xi a dicha variedad es mı́nima, viene definida por
y = x̄ + β1 w1 + · · · + βq wq
(14)
donde x̄ es el vector de medias y donde w1 , . . . , wq son los vectores propios de SΣ−1 ,
correspondientes a los q primeros valores propios en orden decreciente en caso de ser
distintos y ortonormales respecto a Σ−1 . Si la multiplicidad de un valor propio es s
entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente.
En la práctica, podemos calcular primero la descomposición espectral de la matriz simétrica definida positiva Σ
Σ = ΓΛΓ0
donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos
y la matriz de los vectores propios Γ es ortogonal.
En este caso, se puede definir la matriz
Σ−1/2 = ΓΛ−1/2 Γ0
9
y calcular la descomposición espectral de la matriz simétrica
Σ−1/2 SΣ−1/2
Esta descomposición proporciona unos valores propios que coinciden con los de SΣ−1 y
unos vectores propios bi = Σ−1/2 wi que se pueden transformar en
wi = Σ1/2 bi
donde Σ1/2 = ΓΛ1/2 Γ0 .
2.3.
Máxima dispersión
La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de
las interdistancias de las proyecciones de los puntos xi sobre la variedad es máxima.
Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj
de coordenadas xi = (xi1 , . . . , xik )0 y xj = (xj1 , . . . , xjk )0 vienen dadas por
yi = x̄ + pi
yj = x̄ + pj
donde pi =
Pq
h=1 hxi
− x̄, wh iwh para cualquier i = 1, . . . , n.
Entonces, la distancia entre los dos puntos proyectados es
2
2
D (yi , yj ) = kpi − pj k = k
q
X
2
hxi − xj , wh iwh k =
h=1
q
X
(hxi , wh i − hxj , wh i)2
h=1
Luego, si consideramos en la variedad F un sistema de referencia con origen en x̄ y ejes
definidos por la base w1 , . . . , wq , las proyecciones de los puntos xi y xj son
qi = αi1 w1 + · · · + αiq wq
qj = αj1 w1 + · · · + αjq wq
donde
αih = hxi , wh i = x0i Σ−1 wh = wh0 Σ−1 xi
para cualquier i = 1, . . . , n y h = 1, . . . , q.
Ası́ el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia
euclı́dea al cuadrado entre las componentes de los puntos proyección qi y qj .
2
D (yi , yj ) =
q
X
(αih − αjh )2 = (αi − αj )0 (αi − αj ) = d2 (αi , αj )
h=1
donde
αi = (αi1 , . . . , αiq )0 = W0 Σ−1 xi
y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios
w1 , . . . , wq .
10
De manera que
D2 (yi , yj ) = (W0 Σ−1 (xi − xj ))0 (W0 Σ−1 (xi − xj ))
La suma de los cuadrados de las interdistancias en F vendrá dada por la expresión:
SCD =
n X
n
X
(xi − xj )0 Σ−1 WW0 Σ−1 (xi − xj )
(15)
i=1 j=1
Si se desarrolla SCD se llega a
D = 2n
n
X
(xi − x̄)0 Σ−1 WW0 Σ−1 (xi − x̄)
i=1
que podemos poner de la siguiente forma
SCD = 2n traza (X − 1x̄0 )0 Σ−1 WW0 Σ−1 (X − 1x̄0 )
= 2n traza W0 Σ−1 (X − 1x̄0 )(X − 1x̄0 )0 Σ−1 W
= 2n traza W0 Σ−1 X0 HXΣ−1 W = 2n2 traza [W0 AW]
= 2n2 (w10 Aw1 + · · · + wq0 Awq ) = 2n2 (λ1 w10 Σ−1 w1 + · · · + λq wq0 Σ−1 wq )
= 2n2 (λ1 + · · · + λq )
Es decir
SCD = 2n2 (λ1 + · · · + λq )
(16)
Como anteriormente hemos visto que los sumandos de la forma v0 Av con la restricción
v0 Σ−1 v = 1 están acotados por λ1 , . . . , λq , queda demostrada la propiedad, pues cualquier
otra base que no sea la de los vectores propios w1 , . . . , wq , lleva a una variedad en la cual
la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales
xi es menor.
2.4.
Coordenadas y variables canónicas
Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F
de dimensión reducida q, referidas a los vectores propios w1 , . . . , wq , son
yi =
q
X
hxi − x̄, wh iwh
h=1
si tomamos como origen del sistema de referencia el punto x̄.
Luego, en notación matricial podemos escribir
Yc = (X − 1x̄0 )Σ−1 W = HXΣ−1 W
(17)
donde Yc (n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la
variedad y la matriz W tiene como columnas las componentes de los vectores w1 , . . . , wq .
También podemos calcular la matriz Y de datos sin centrar
Y = XΣ−1 W
11
de forma que Yc = HY.
Las filas de la matriz Yc , o si se prefiere Y, constituyen las llamadas coordenadas canónicas
de los puntos proyectados.
Una propiedad importante de la nueva matriz Y, también de Yc , que resume nuestros
logros es
1
1 0 −1 0
SY = Y0 HY =
W Σ X HXΣ−1 W
n
n
= W0 Σ−1 SΣ−1 W = W0 AW = diag(λ1 , . . . , λq )
Desde otro punto de vista, podemos considerar en
Σ−1 SΣ−1 wi = λi Σ−1 wi
con las restricciones wi0 Σ−1 wj = δij , la sustitución
Σ−1 wi = ui
i = 1, . . . , q
de manera que nos queda
Σ−1 Sui = λi ui ⇐⇒ Sui = λi Σui
con las condiciones u0i Σuj = δij .
La matriz U(k × q) definida por
U = Σ−1 W
(18)
contiene las componentes de las llamadas variables canónicas. Dichas “variables” son
las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas
canónicas de los puntos proyección ya que
Y = XU
Además, respecto al producto escalar definido por Σ se verifica
U0 ΣU = Iq
mientras que para un producto escalar definido para la otra matriz de covarianzas S
U0 SU = W0 Σ−1 SΣ−1 W = diag(λ1 , . . . , λq )
2.5.
Análisis de la dimensión
Cuando realizamos una representación canónica sobre un espacio de dimensión q, esta
dimensión ha de verificar
q ≤ mı́n{n − 1, k} = m
El porcentaje de la dispersión explicada por los q ejes es
λ1 + · · · + λ q
P = 100 ·
λ1 + · · · + λ m
donde λi son los valores propios obtenidos de la ecuación 12 o equivalentes.
(19)
Si queremos que la representación canónica recoja el 100 % de la dispersión, debemos
construir la variedad con dimensión igual al mı́nimo entre el número de valores propios
distintos de cero y n − 1. Como dichos valores propios son función de una muestra, el
análisis de cuantos valores propios son no nulos es un problema de inferencia estadı́stica
que se resuelve mediante test apropiados.
12
3.
Análisis de componentes principales
El Análisis de las componentes principales (ACP) proporciona un conjunto de variables
Y , combinación lineal de las variables observables X1 , X2 , . . . , Xk , con la propiedad de
tener varianza máxima. Para definirlas, utilizaremos la terminologı́a estudiada.
Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es
la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz
de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la
métrica experimental y la matriz asociada es la identidad Σ = I.
En este caso, las componentes principales se obtienen diagonalizando la matriz de covarianzas S
S = GΛG0
(20)
donde Λ = diag(λ1 , . . . , λk ) contiene los valores propios de S y G es ortogonal, de manera
que GG0 = G0 G = I. Las componentes principales son las variables canónicas, es decir,
las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo
ello, la representación de datos se hace con los elementos de la matriz Y(n × k)
Y = XG
o con las q primeras coordenadas para una representación en dimensión q. Además, como
ya sabemos, se verifica que
SY = Λ = diag(λ1 , . . . , λk )
En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n
individuos de k variables, se considera la configuración de los n puntos en Rk separados
por la distancia euclı́dea ordinaria. La representación de los individuos en dimensión
reducida se consigue con la matriz Y = XG, donde la dispersión de las columnas va
disminuyendo de izquierda a derecha. Además, si m = mı́n{k, n − 1} es inferior a k, a
partir de la columna m + 1, los elementos de las columnas son exactamente iguales.
Para determinar el número necesario de componentes principales se utiliza el cálculo de
la variabilidad explicada. Éste es el método más simple, aunque se puede ampliar con
otros sistemas estadı́sticos más elaborados como la prueba de Anderson (1963), la prueba
de Lebart y Fenelon (1973), etc.
Las componentes principales se pueden obtener también partiendo de la matriz de correlaciones R. Sin embargo, las componentes principales obtenidas son distintas y la elección
entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las variables son distintas (años, kilos, metros, etc.), es preferible el uso de R, porque equivale
a utilizar variables reducidas y, por tanto, sin dimensión fı́sica. Pero si las unidades de
medida son las mismas o razonablemente conmensurables, es preferible realizar el análisis sobre S, que es menos artificial. También se considera recomendable utilizar ambas
matrices y comparar las interpretaciones de las dos clases de componentes obtenidas.
3.1.
Análisis del tamaño y la forma
Una de las primeras aplicaciones del ACP a la morfometrı́a (estudio de la morfologı́a de
los individuos y especies por métodos cuantitativos) se remontan a los primeros intentos
de establecer los conceptos de tamaño y forma de un individuo dentro de una especie.
13
La idea de tamaño se considera equivalente a la de crecimiento. Podemos idealizar el crecimiento de un individuo, representado por k medidas de otros tantos caracteres biométricos
(x1 , . . . , xk ), como el movimiento a lo largo de una lı́nea recta de ecuación
x 1 − a1
x 2 − a2
x k − ak
=
= ··· =
α1
α2
αk
(21)
donde (α1 , α2 , . . . , αk )0 representa el vector posición del crecimiento (vector director de la
recta) y (a1 , a2 , . . . , ak ) es un punto fijo sobre la recta, que se puede interpretar como el
tamaño de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966).
La relación (21) es tan sólo ideal, válida si todos los individuos de la población pueden
alinearse de menor a mayor tamaño. Cuando los caracteres están representados por k
variables aleatorias X1 , . . . , Xk , no ligadas por una relación lineal perfecta, parece razonable definir (21) como la dirección de máxima variabilidad, es decir, como la primera
componente principal.
Por otra parte, una variable biométrica, cuanto más variabilidad tiene, mejor expresa el
concepto de tamaño. Por ejemplo, consideremos un grupo de hombres de prácticamente
el mismo peso pero con notable variación de altura; entonces, para ordenarlos de menor a
mayor tamaño, los ordenaremos de menor a mayor altura. La variable con mayor varianza
será la que mejor expresará este concepto. Si esta variable puede ser una combinación
lineal de X1 , . . . , Xk , esta variable debe ser la primera componente principal, que se
identifica, pues, con el tamaño.
¿Y la forma? La forma es un concepto independiente del tamaño. Dos individuos pueden
tener el mismo tamaño pero distinta forma y recı́procamente. Como la segunda, tercera, etc. componentes principales, están incorrelacionadas con la primera, parece también
razonable interpretarlas como variables que expresen la forma de los individuos. Las distintas maneras de representar la forma, también incorrelacionadas entre sı́, se interpretan
en función de la saturación que tengan las variables iniciales sobre estas componentes.
Estos son los argumentos principales del trabajo clásico de Jolicoeur y Mosimann (1960),
que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus
caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar
los efectos de las relaciones de alometrı́a entre los caracteres (relación del tipo y = bxa ,
que se transforma en lineal: log y = log b + a log x).
Sin embargo, para que las componentes principales representen adecuadamente tamaño
y forma, deben cumplirse las siguientes condiciones (Rao, 1971):
1) Todos los coeficientes de la primera componente principal deben ser positivos, es
decir, la primera columna de G debe tener todos sus elementos positivos para que
se ésta se pueda identificar como tamaño. En efecto, todo incremento positivo de
las medidas biométricas X1 , . . . , Xk redundará en un incremento positivo de Y1
(aumentando las medidas, aumenta el tamaño). Si esta condición no se verifica, no
se puede hablar estrictamente de tamaño.
2) Para que una componente se identifique como forma no debe tener todos los coeficientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor
de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma
más acusada, resulta de un incremento de unas medidas y un decremento de otras.
14
3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable
considerar sólo aquellas cuyas varianzas superen a la menor de las varianzas de las
variables X1 , . . . , Xk , es decir,
λ2 ≥ λ3 ≥ · · · ≥ λm ≥ mı́n{s11 , . . . , skk }
de esta manera no hay ninguna componente que tenga menos variabilidad que cualquiera de las variables observadas.
3.2.
Interpretación geométrica
Supongamos que los datos son centrados. Representamos la muestra de tamaño n con los
puntos o filas de la matriz X tomando X1 , . . . , Xk como ejes ortogonales y unitarios, es
decir, referimos la muestra a la llamada métrica experimental. La nube de puntos adopta
entonces la forma del elipsoide de concentración
x0 S−1 x ≤ c
(22)
donde c se puede elegir de manera que un elevado porcentaje de la población esté contenido
en este elipsoide.
Consideremos el problema de maximizar v0 v con la condición v0 S−1 v = 1. El vector
v solución se encuentra sobre el elipsoide de concentración correspondiente a c = 1 y
v0 v máximo significa que v representa una dirección de máxima variabilidad respecto
a la métrica experimental, que se interpreta geométricamente como el eje principal del
elipsoide. Ahora bien, v se obtiene de la diagonalización Iv = λS−1 v y por lo tanto
Sv = λv
Luego v es vector propio de S y proporcional al vector que define la primera componente
principal Y1 . Análogamente se interpretan las demás componentes principales.
Existe pues una correspondencia entre las direcciones ortogonales de máxima variabilidad del elipsoide de concentración, o ejes principales del elipsoide, y las componentes
principales obtenidas por diagonalización de la matriz de covarianzas S de las variables
observables.
4.
4.1.
Análisis canónico de poblaciones
Introducción
El análisis canónico de poblaciones (ACPL) es un método de representación de grupos
o poblaciones, a lo largo de ejes con máximo poder de discriminación, en relación a la
distancia de Mahalanobis.
Supongamos que una población general Ω es reunión de p poblaciones o grupos (especies
de un mismo género, grupos humanos de diferente comportamiento, etc.)
Ω = Ω 1 ∪ . . . ∪ Ωp
con Ωi ∩ Ωj = ∅
15
i 6= j
Sean X1 , . . . , Xk variables observables sobre Ω. Si sobre la población Ωi i = 1, . . . , p
obtenemos ni observaciones
de las k variables, nuestros datos formarán una matriz X(n ×
Pp
k) siendo n = i=1 ni


X1


X =  ... 
Xp
Parece razonable identificar cada población Ωi con el “individuo” medio de Ωi representado por el punto que tiene por coordenadas las medias muestrales de las variables en esa
población
x̄i (k × 1) = (x̄i1 , . . . , x̄ik )0
i = 1, . . . , p
La matriz de datos a representar en dimensión reducida es


x̄01


B =  ... 
x̄0p
donde las filas de B(p × k) son las medias de cada población Ωi .
Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos observados de la población Ω. Dicha distancia (ver 2) viene determinada por la matriz de
covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas
poblaciones se suponen iguales, la estimación más apropiada de Σ es
p
1 X
Σ̂ =
n i Si
n − p i=1
es decir, una combinación lineal ponderada de las matrices de covarianzas muestrales
Si (k × k) para cada población por separado.
4.2.
Obtención de las coordenadas canónicas
Como sabemos, la representación en dimensión reducida se obtiene a partir de dos matrices de covarianzas. La primera se calcula con el centrado de la matriz de datos B


x̄01 − x̃0


..
HB = 

.
x̄0p − x̃0
donde x̃ = (1/p)
es
Pp
i=1
x̄i , de forma que la matriz de covarianzas “entre” las poblaciones


x̄01 − x̃0
1 0
1


..
B HB = (x̄1 − x̃, . . . , x̄p − x̃) 
A =

.
p
p
0
0
x̄p − x̃
p
1X
=
(x̄i − x̃)(x̄i − x̃)0
p i=1
16
(23)
La otra matriz es la matriz de covarianzas “dentro” de la población, es decir, la matriz
Σ̂.
El algoritmo para obtener las variables y coordenadas canónicas, se resume en las siguientes fórmulas
−1
Aui = λi Σ̂ui ⇐⇒ Σ̂ Aui = λi ui
U(k × k) = (u1 , . . . , uk )
Yc = HBU
5.
5.1.
λ1 ≥ . . . ≥ λ k ≥ 0
coordenadas canónicas centradas
Análisis de correspondencias
Distancia ji-cuadrado
El Análisis de correspondencias (AC) es apropiado para representar tablas de frecuencias.
Supongamos que los datos corresponden a dos criterios de clasificación, a los que llamaremos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia:
H1
Poblaciones H2
..
.
Hr
donde
ni· =
s
X
Caracteres
A1 A2 . . . As
n11 n12 . . . n1s n1·
n21 n22 . . . n2s n2·
..
..
..
..
.
.
.
.
nr1 nr2 . . . nrs nr·
n·1 n·2 . . . n·s n
nih
n·j =
h=1
r
X
nhj
h=1
nij es la frecuencia de aparición de la población Hi y el carácter Aj , ni· es la frecuencia
de la población Hi , n·j es la frecuencia de Aj y n es el número total de individuos.
La distribución de frecuencias de los caracteres en la población Hi viene dada por el
vector de coordenadas
0
nis
ni1 ni2
,
,...,
(24)
hi =
ni· ni·
ni·
que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r.
Uno de los objetivos del AC es obtener una representación geométrica de las poblaciones
H1 , H2 , . . . , Hr en relación a la distribución de frecuencias relativas de los caracteres. Sin
embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia
basada en la métrica experimental.
La distancia ji-cuadrado entre las poblaciones Hi y Hj en relación a los caracteres
A1 , A2 , . . . , As es
2
s
X
1 nih njh
2
d (Hi , Hj ) =
−
(25)
n
n
n
·h
i·
j·
h=1
2
s X
nih
njh
=
−√
√
n·h ni·
n·h nj·
h=1
17
De acuerdo con esta distancia, las poblaciones H1 , H2 , . . . , Hr están representadas por
una configuración de r puntos en un espacio euclı́deo Rs de coordenadas
0
ni2
nis
ni1
pi = √
,√
,..., √
(26)
n·1 ni·
n·2 ni·
n·s ni·
separados por la distancia euclı́dea ordinaria. Se comprueba fácilmente que tal configuración está contenida en el hiperplano de ecuación
s
X
√
n·h xh = 1
h=1
5.2.
Representación de las poblaciones
La representación de las poblaciones en dimensión reducida, determinadas por las coordenadas (26) con referencia a los caracteres, se puede interpretar como un problema de
representación de datos mediante Análisis de componentes principales.
Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)


p01
 p0 
 2 
Z =  .. 
 . 
p0r
Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las poblaciones en dimensión q tomando las q primeras coordenadas de la matriz
Y = ZG
Veamos las caracterı́sticas de esta diagonalización. Para lo que sigue nos será útil trabajar
con las frecuencias relativas fij = nij /n en lugar de nij . Este cambio de escala no afecta a
la representación gráfica de los datos. Las coordenadas (24) son exactamente las mismas,
pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues
XX
X
X
fij =
fi· =
f·j = 1
i
j
i
j
Las siguientes propiedades nos llevan a la solución:
1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por
las frecuencias relativas f1· , . . . , fr· , es
p
p
m = ( f·1 , . . . , f·s )0
2. La matriz de covarianzas entre los caracteres, también ponderando por las frecuencias relativas, es
Ss = Z0 Dr Z − mm0
donde Dr = diag(f1· , . . . , fr· ).
18
3. m es vector propio de Ss de valor propio λ = 0.
4. Los vectores propios de Ss son también vectores propios de Z0 Dr Z.
5. m es vector propio de Z0 Dr Z de valor propio λ = 1.
Como consecuencia de estas propiedades, bastará diagonalizar Z0 Dr Z y considerar sólo
los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al
valor propio 0 de Ss , es fácil ver que los demás valores propios de Z0 Dr Z son menores que
1:
1 > λ 2 ≥ · · · ≥ λs
Si la diagonalización es
Z0 Dr Z = TDλ T0
donde T es ortogonal y Dλ = diag(1, λ2 , . . . , λs ). Las coordenadas de las poblaciones
vendrán dadas por la 2a , 3a ,. . . columnas de la matriz
Y = ZT
Para determinar el porcentaje de variabilidad explicada por una representación en dimensión q, dividiremos la variabilidad explicada por los ejes por la variabilidad total
VT
!
!
s
r
X
X
fij2
V T = traza Ss =
− f·j = traza (Z0 Dr Z) − 1
f f
j=1
i=1 ·j i·
y el porcentaje de varianza explicada por el 2o , 3o ,. . . ejes es
Pq = 100 ·
λ 2 + · · · + λq
λ 2 + · · · + λq
= 100 ·
0
traza(Z Dr Z) − 1
λ2 + · · · + λ s
La representación en dimensión q (habitualmente q = 2) nos proporciona una representación de las poblaciones separadas por la distancia ji-cuadrado, salvo la pérdida de
información producida al reducir la dimensión.
5.3.
Representación de los caracteres
Hasta aquı́, lo que hemos hecho es representar r poblaciones con referencia a s caracteres
mediante el Análisis de componentes principales, salvo que hemos utilizado la distancia
ji-cuadrado en lugar de la distancia euclı́dea. La principal ventaja del AC es que posibilita
representar también los s caracteres en relación a las r poblaciones y, sobre todo, realizar
una representación simultánea de poblaciones y caracteres.
La distribución de frecuencias de las r poblaciones condicionadas al carácter Aj viene
dada por el vector de coordenadas
0
n1j n2j
nrj
aj =
,
,...,
(27)
n·j n·j
n·j
para todo j = 1, . . . , s.
19
Para diferenciar dos caracteres Ai , Aj , en relación a las poblaciones H1 , . . . , Hr se define
la distancia ji-cuadrado
2
r
X
1 nhi nhj
2
d (Ai , Aj ) =
(28)
−
nh· n·i
n·j
h=1
2
r X
nhi
nhj
=
−√
√
n
nh· n·j
h· n·i
h=1
Ası́ los caracteres A1 , . . . , As están representados por una configuración de s puntos, en
un espacio euclı́deo Rr , de coordenadas
0
n1j
n2j
nrj
qj = √
,√
,..., √
(29)
n1· n·j
n2· n·j
nr· n·j
separados por la distancia euclı́dea ordinaria. Los puntos q1 , . . . , qs están contenidos en
el hiperplano de ecuación
r
X
√
nh· xh = 1
h=1
e 0 (s × r) siendo
Las coordenadas (29) constituyen una matriz de datos Z
e = (q1 , q2 , . . . , qs )
Z
e 0 también mediante análisis de componentes
Podemos representar la matriz de datos Z
principales, diagonalizando la matriz de covarianzas Sr . Dada la dualidad existente entre
la representación de caracteres y la de poblaciones, nos limitaremos ahora a dar las
principales fórmulas y propiedades:
√
√
e = ( f1· , . . . , fr· )0 vector de medias
m
e sZ
e0 − m
em
e0
Sr = ZD
matriz de covarianzas
Ds = diag(f·1 , . . . , f·s )
e = 0.
e es vector propio de Sr de valor propio λ
1. m
e sZ
e 0.
2. Los vectores propios de Sr son también vectores propios de ZD
e = 1.
e sZ
e 0 de valor propio λ
e es vector propio de ZD
3. m
e sZ
e0
Deberemos, pues, diagonalizar ZD
e sZ
e 0 = TD
e eT
e0
ZD
λ
e2 , . . . , λ
er ) la matriz diagonal con los valores propios
e ortogonal y De = diag(1, λ
siendo T
λ
e2 ≥ . . . ≥ λ
er de ZD
e sZ
e 0.
1≥λ
La representación de los s caracteres se consigue utilizando la 2a , 3a ,. . . columnas de la
matriz
e =Z
e 0T
e
Y
El porcentaje de variabilidad explicada por los q primeros ejes es
Pq = 100 ·
e2 + · · · + λ
eq
λ
e2 + · · · + λ
er
λ
20
5.4.
Representación simultánea
El problema de representar las r poblaciones y los s caracteres se resuelve mediante
e sZ
e 0 respectivamente. Sin embargo, ambas
la diagonalización de las matrices Z0 Dr Z y ZD
representaciones están estrechamente relacionadas entre sı́. En efecto, definamos la matriz
de orden r × s
FDs−1/2
B = D−1/2
r
donde F = (fij ) es la matriz de frecuencias relativas original, Dr = diag(f1· , . . . , fr· ) y
Ds = diag(f·1 , . . . , f·s ). De manera que los elementos de B son
fij
nij
bij = √ p = √ √
ni· n·j
fi· f·j
La matriz B verifica las siguientes propiedades:
1. Z0 Dr Z = B0 B
e sZ
e 0 = BB0
ZD
2. B0 B tiene los mismos valores propios que BB0 .
3. Si v es vector propio de B0 B de valor propio λ, entonces w = Bv es vector propio
de BB0 de valor propio λ.
Ası́ pues, los valores propios verifican
e 2 ≥ · · · ≥ λt = λ
et
1 ≥ λ2 = λ
donde t = mı́n{r, s} = rango(B0 B) = rango(BB0 ). Los demás valores propios son nulos.
Concluimos también que bastará diagonalizar B0 B
B0 B = TDλ T0
Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas
de la matriz W(r × s)
W = BT
−1/2
que debe ser normalizada por columnas, para lo cual bastará multiplicar por Dλ
obtener
e = WD−1/2 = BTD−1/2
e 0T
e = Ir
T
T
λ
λ
para
Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los
e =Z
e 0 T,
e recordando que en ambos casos se prescinde de
caracteres Aj son las filas de Y
la primera columna.
Como
−1/2
Z = D−1
r FDs
e = D−1/2 FD−1
Z
r
s
e
podemos relacionar Y con Y
e =Z
e 0 BTD−1/2 = D−1 F0 D−1/2 D−1/2 FD−1/2 TD−1/2
e = Z
e 0T
Y
s
r
r
s
λ
λ
−1/2
0
= D−1
s F YDλ
(30)
21
De esta forma, la h-ésima coordenada (coordenada en el eje h) del carácter Aj se expresa
en función de las h-ésimas coordenadas de las r poblaciones
f1j
frj
1
y1h + · · · +
yrh
yejh = √
f·j
λh f·j
Análogamente se puede ver que
e −1/2
Y = D−1
r FYDλ
(31)
y la h-ésima coordenada de la población Hi se expresa en función de las h-ésimas coordenadas de los s caracteres según
1
fi1
fis
yih = √
ye1h + · · · +
yesh
fi·
λh fi·
En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y
e con referencia a unos mismos ejes factoriales.
de los caracteres, contenidas en Y y Y,
De la representación simultánea de poblaciones y caracteres deben distinguirse tres aspectos:
1) La representación de poblaciones diferenciadas por la distancia ji-cuadrado.
2) La representación de caracteres diferenciados por la distancia ji-cuadrado (correspondiente a los caracteres).
3) La correspondencia que existe entre una población Hi y los s caracteres expresada
por (31); análogamente, la correspondencia que existe entre un carácter Aj y las r
poblaciones expresada por (30).
Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan
−1/2
la población Hi es el baricentro (salvo el factor λh ) de los s puntos que representan
los caracteres, asignando a cada punto la masa fij /fi· , que es la frecuencia relativa de
presencia del carácter Aj en la población Hi . La proximidad de Hi a un determinado
grupo de caracteres indica que tienen una presencia importante en Hi . Análogamente, la
proximidad de un carácter Aj a un determinado grupo de poblaciones indica una mayor
presencia de este carácter en tales poblaciones. Esta propiedad es válida cualquiera que
sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las
coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de
e
Y y Y.
22
Descargar