Pseudocontinuidad en la clasificación jerárquica asociada al

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 34, N ^ m. 131, 1992, págs. 383 a 394
Pseudocontinuidad en la clasificación
jerárquica asociada al método UPGMA
por
MIQUEL SALICRU y PEDRO SANCHEZ
Departamento de Estadística
Universidad de Barcelona
RESUMEN
La representación geométrica de objetos mediante modelos en
árbol se basa en las relaciones de orden en el conjunto de las
interdistancias entre los individuos del conjunto a clasificar. Por eso,
en este trabajo, hemos estudiado en primer lugar la conservación del
orden en distancias próxirnas, y seguidamente hemos analizado la
pseudocontinuidad de la función que asigna a una disimilaridad
inicial la distancia ultramétrica asociada por el método UPGMA.
Palabras clave: Cluster análisis, continuidad.
Clasificación AMS: 62H30.
1.
INTRODUCCION
Uno de los objetivos principales del análisis de datos consiste en la representación geométrica de objetos a partir de una disimilaridad definida entre
ellos. En este sentido, si queremos representar los objetos en un espacio de
dimensión reducida (por ejemplo, en el plano) podemos utilizar técnicas como el
análisis de coordenadas principales o multidimensional sca/ing, y si, por el
contrario, queremos representar los objetos de forma que queden de manifiesto
k ^T ^I^lti f Ic ^ t ^lr ^ti^ ^ l ^^
;`^i-l
las relaciones de semejanza entre ellos a partir de una estructura de clases o de
una estructura evolutiva, entonces es necesario utilizar técnicas taxonómicas o
árboles aditivos.
La representación geométrica de objetos a través de la taxonomía numérica
viene dada por dendogramas construidos a partir de la jerarquía indexada que
obtenemos al realizar la clasificación por el algoritmo deseado. En este sentido,
estudiamos en este trabajo la continuidad de la función que asigna a cada
disimilaridad el conjunto de d'rstancias ultramétricas asociadas a las jerarquías
indexadas correspondientes a ia disimilaridad inicial por aplicación del método
UPGMA.
Formalmente, para un conjunto X={x^, ..., x^} y para una función d
d:X x X
^ IR
pueden cumplirse, entre otras, las siguientes condiciones:
1)
d(x, y)?0
dx, y E X
z} d(x, y)=d(y, x)
3)
d(x, x)=0
`dx E X
4) d(x, y)=o^x=y
5)
dx, y E^x
dX, y E x
d(x, y)<max{d(x, Z), d(y, z)}
b'x, y, z E X
Si se cumplen las condiciones 1), 2) y 3), se dice que d es una disimilaridad; si
la disimilaridad curnple la condición 4), se dice que es inyectiva, y si cumple la
condición 5), se dice que es ultramétrica.
La condicián de inyectividad impone a la disimilaridad que discrimine entre
individuos distintos, y geométricamente, la condición ultramétrica exige a cada
terna de puntos que formen un triángulo isásceles, siendo la base la longitud
menor.
En este trabajo, consideraremos los conjuntos D, Dl y DU definidos por
D= {disimilaridades definidas sobre X}
D^= {disimilaridades inyectivas definidas sobre X}
DU= {disimilaridades ultramétricas definidas sobre X}
el orden en D definido por
1't-^F^[;f^)r^(^(^N7^^[^II `If)^^f ) Fti l .^^ ^ ^1.^^^tilFl^ ^^f (^ ^ ^^•^ Jt^R 1ftt, ^ 1 I^ ^^ 1^^ ^ ( I ^I> ^ .^^,L ^1i^ ^C^ ^ ^ U^ ^ l f^^ ^^1 1
d1<_d2ad1(x, y)<_d^(x, y)
^!^^
dx, yE X
y la métrica o definida en D por
d(d1, d2)=sup {^d1(x^, x)-d2(x,, x)^ con x^ , x E X}
Finalmente, para un conjunto X en el que tenemos definida una disirnilaridad
inicial d, consideraremos el método de clasificación UPGMA definido por Sokal
y Michener (1958), que se obtiene a partir del siguiente criterio recurrente:
Si I 1 =min {d(x^ , x),
x.^x
, x,^ x ^E X}=d(xr0, x^0 ) es la mínima distancia entre los
^
^
i
elementos de X, consideramos el conjunto
cp(^1)={{x1}, ..., {x,^} ^ {x o}, ..., {xn}}
y definimos en cp{/1) la disimilaridad d'
d1({x;}, {x })=d(x;, x) si {x,, x}n{x;o, x^o}=^
[1 ]
d 1({x^ o} ^..^ {x o}, {xk })=
1
2
d(x; o, xk )+
1
2
d{x o, xk )
Repitiendo de forma recurrente el proceso por el cual partiendo de (X, d) hemos
obten ido (cp(/1), d' ), se obtienen (cp(/2), d 2), .. .,(cp(/S), d S) con cp(!S)=X y
dk(A;, A^)=dk_1{A^^ A,)
dk A.
(^ovAio An )
-
Ni 0
k_ 1
♦
^^
N ♦ N d (A,o^ An) N+N d
^o
^o
^o
^o
k1
A^ a ^ A h )
siendo
^P(^k)={A1, ..., A;oUA^o, ..., Ar}
N;o=card (A;o)
Así, para un conjunto X y una disimilaridad inicial d, hemos obtenido la clasificación (jerarquía indizada)
^P(lo)={{x^}, ..., {xn }}, ^P(11), ..., ^P(!S )=X
t til ^^OItiTi^ .^ F `+F';1ti ^^ 1 ^1
y la distancia ultramétrica d* definida por
d"(x^ , x^ )=min {l^ t.q. ^TE P(X) con {x^, x^}cTE cp(l^)}
quedando caracterizada la función multívoca
f: D
d
^ DU
-^ f(d )_ {distancias ultramétricas asociadas a d por el método
UPGMA}={fj (d), ..., f*(d)}
Dando expresiones distintas a las disimilaridades definidas en [1] y[2], se
abtienen además el métado dei mínimo (Johnson, 1967), el método del máximo
(Johnson, 1978), el método de la media (Sokal & Michener, 1958), el método de
la mediana (Grower, 1967), el método del centroide (Sokal & Michener, 1958) y
el método fiexible (Lance & Williams, 1967), entre otros.
Planteado así el problema, resulta interesante preguntarse sobre continuidad de la función f, pues caso de no ser continua, pequeños errores en la toma
de datos podrían alterar la disimilaridad inicial y, en consecuencia, la clasificación final. Un estudio en este sentido ha sido realizado por Jardine & Sibson (1971) con la función unívoca correspondiente al método del rnínimo. Por
otro lado, en Benzecri (1976) se estudia la continuidad de la función que asigna
a cada disimifaridad la jerarquía indexada asociada a un método de clasificación, entendiendo por jerarquía indexada la sucesión de particiones (clusterings)
correspondientes a los distintos niveles de clasificación. Finalmente, en Salicrú
(1984) y en Salicrú & Argemí (1991) se presentan resultados relativos a la
conservación del orden y la pseudocontinuidad de la función multívoca que a
cada disimilaridad le asigna la distancia ultramétrica asociada al método del
máximo. Así, el problema aqu í descrito introduce una nueva dimensión a los
planteamientos ya existentes, ya que los estudios relativos a invariancia ordinal
y continuidad en funciones de clasificación se reducen a funciones unívocas.
La elección del método UPGMA es debida a que éste es el método jerárquico más utilizado y a que, dentro de los métodos jerárquicos, este método
maxirniza el coeficiente de correlación entre los valores de la disimilaridad
inicial y los correspondientes a la distancia ultramétrica asociada.
2.
INVARIANZA ORDINAL
Corno una primera aproximación a la conservación del orden a través de la
función de clasificación por el método UPGMA, demostramos seguidamente
I'f^tiF^l!U^^(^^1yT^ltil^^lf).^>[)f^-ti l^^l l^^tilf-I^ ^1( Itrti Jf.k^ft^^)I I^ .^^ ^^^ ^ ^ I.^I>^1 ^l ^1} 1^^^ ^ ^^t I'^^^1^^
que para dos disimilaridades suficientemente próximas existen dos puntos del
conjunto X a clasificar de forma que la distancia entre los dos es mínima para d,
y d1. En este sentido, hemos obtenido el siguiente resultado.
Proposición 1
Para dos disimilaridades d1 y d2 definidas sobre X con d^ <_ d2 y o(d^, d2) < bo,
siendo
óo=min {rE IR^ t.q. r=^d^(x;, x)-d,(xk, x^)^ con x^, x^, xk, x^ EX}
existe una pareja (xro, x o) cumpliendo
dk(x;o, x o)=min {dk(x;, x); x;, x EX}
para k=1,2.
Demostración
Observemos en primer lugar que si d^<_d2 y 0(d^, d2)<Sa, entonces se cumple
.
d2(x^, x. )<d^ (x; , x. )+bo
para todo x; , x E X
de donde resulta que si
d1(x;, x)<d^(xk, x,)
para x;, x, xk, x^ EX
entonces se verifica
d2(x;, x)<d^(x;, x)+óo<_d^(x;, x)+d^(xk, x^)-d^(x;, x)<_d^(xk, x,)
Así, hemos probado que para disimilaridades próxirnas, el orden estricto en d^
se traslada también a d2.
Por otro lado, si una o varias parejas alcanzan la mínima distancia para d^,
con d^ <_ d2 y 0(d^, d2) < bo, entonces, al aplicar el resultado anterior, la pareja
(x;o, x o) de las parejas anteriores, que alcanza la mínima distancia en d2, cumple
d^(x;o, x o)=rnin {d^(x;, x.); x;, x EX}
y
d2(x;o, x.o)=rnin {d2(x;, x); x,, x EX}
F:^I ^Ultilit ,1 F ^+F'^^ti1^1 ^
Así, queda demostrado que existe una pareja que afcanza la mínima distancia
end,yd2.
Ejemplo 1
Obsérvese que áa es en general la mayor ^ota posible, ya que al tomar por
ejemplo el conjunto X={x^, x2, x^, x4} con las tablas de interdisimilaridades
d1
X^
X2
X^
X4
d2
Xi
X2
X^
X4
X^
0
2
3
4
x1
0
3+^
3
4
x2
2
0
4
5
x2
3+E
0
4
5
x3
3
4
0
7
X3
3
4
0
7
x4
4
5
7
0
X4
4
5
7
0
siendo ^ e IR+ un valor arbitrario, se tiene que para la disimilaridad d^ la pareja
más próxima es {x,, x2} y para la disímíiaridad d2 fa pareja más próxima es
{X^ , X3} .
Así, al cansiderar las tablas de interdistancias anteriores se tiene
a(d, , d2) _ ^ +^=bo+£
para todo ^ E IR+
no existiendo una pareja que alcance la mínima interdistancia para d1 y d2.
Para comprobar que !a relación de orden en disimilaridades se mantiene al
obtener distancias ultramétricas asociadas, demostraremos en primer lugar el
siguiente resultado.
Proposición ^
Si en el paso n-ésimo de la clasificación de tX, d,) y(X, d2) tenemos:
a)
cp^(/n )= cpz(/ñ )
b)
In<_ Iñ
d)
^(d^, d2 )`q
e)
^1 <_ b^
c)
d^ <_dz
f^f^Sf l^l)(^('c^^1TINt'![)A[) f-ti L.^^ ( f_:^^IFI( .^( Ic^ti Jt-.ft.^>EZ(^t lc ^^^^ ^ t I^I>^ -^1 11t 1c ^ ( ^ ^ ^ I f^^^^1 ^
siendo
^=min
{rE 1R^ t.q. r=^d(A^, A^)-d(Ak, A^)I,
con A;, A^, Ak, A, E P(X)}
b,,=min
{rE IR^ t.q. r=^dj (A,, A^)-d^ (Ak, A;)I
con A;, A^, Ak, A;E cp(/h )}
- ^d, ( x; , x )
d(A; , A^ )co n x; E A; , x E A^
N • N.
entonces, se cumple
a)
cp,(/„+^)-cp2(/„+, )
b)
In+^ <_ In+^
d)
^( d; + ^ , d 2+' ) <^
e)
^1 _< S„+,
C)
QI^
*^ < Q12 +^
Demostración
AI aplicar la proposición 1 al ^conjunto
cp^(l^ )=cp2(/ñ )={A^, A2, ..., Ah }
existe una pareja (A;o, A^o), tal que
In+^=d ;(A;o, A^o)=min {d n(A;, A^ ), A;, A^E c^^(l^ )}
,
ln+^=d2(A;o, A^o)=min {d2(A;, A^), A;, A^ECp2(1^)}
y al utilizar el criterio de clasificación resulta
cp,(h+^)={A^, ..., A;ovA^o, ..., A^}=^P2(^„'+,)
con
^n+^-d^ (A;o, A^o) ^ d2 (A;o, A^o)-^,^ *^
Así, a) y b) quedan probados.
{ `1 ^(^ItiTti ^ E ^f' ^ti^ i^ ^
Para el con ju nto A, U^ A1 °, se tiene
N o
N,o
d;'' (A, o u A^ o, Ak )= N+N d;(A, o^ Ak )+ N+N d;(^, o^ Ak )
^o
^o
ro
,a
,^
Ni0
n
+
No
^
_ n^1
n
N^ o+N o d 2(A1 °` Ak ) d 2 {A, o u A^ o, Ak )
- N^ o+N^ o d z(A' °' Ak )
y para conjuntos A,, Af distintos de AiO^A^o,
d ;+' (A, , A! }=d ; (A^ , A^ ) <_ d ^ (A^ , A^ )=d'2+' (A^ , A^ )
De este modo, en el paso n+1 el criterio de clasificación conserva el orden en
las distancias.
La distancia entre d^n+' y d 2' puede acotarse con la distancia entre d^ y d2 a
partir de la siguiente relación
d(d ^+', d 2')=max {^d ^'(A;, A^ )-d 2+'(A,, A^ )^; A;, A^ E^P^(^n+1)}^
^max
^
M'
^=^o,^a M +M
^o
^d1 n (Bi ^ Ak )-dn2 ($; ^ A k)^
^o
siendo
B^o=B^o=A^ cuando A^^A;ovA;o
B;°=A;° y B;°=A^°
cuando A^=A^ou A^©
M; el cardinal de B^
con lo que al aplicar o(d ;, d2}^r^ obtenemos
0(dn+'
,
^d n+')^^1
2
Finalmente, de considerar el resultado
- ^ d^(x^ , x )
d`' (A., A ) ^
'
^
N•N
i
^
para A.,^ A ^E cp^(/`7 )
obtenido en Arcas y Salicrú ( 1984), se obtiene de forrna inmediata la relación
^^Sn
Aplicando de forma recurrente la proposición 2 a los distintos niveles de
clasificación, hemos obtenido:
f'l:^l^^l^^O^^t ^^ ^ ^1^I1^11'^If),^^) t^^i t..-1 (^L.•^^;IF 1l :^( lu^i IF^ k^R^,^l ^^^ -^ ^^^^ ^^ E^^1^.-^ _^^^I ^tiil f t r^^^ ^ I f^^ ^ti1 ^^
^^) ^
Teorema 1
Para d, < d2 con ^(d,, d^) < r^, existen dos distancias ultramétricas d; y d2
asociadas a d, y d^ por el método UPGMA que verifican
*
*
d, <_ d2
Así, el método UPGMA garantiza invariancia ordinal en la construcción de
jerarquías.
3.
PSEUDOCONTiNUIDAD EN LA CLASIFICACION JERARQUICA
Por la forma de construir las jerarquías, puede comprobarse sin dificultad
que al proceso de clasificación
(X^ d }, (^P(^,)^ d'), (^(^2)^ d2), ..., (^P(^S)^ ds)
asociado a d, le corresponde el proceso de clasificación
(X^ ad )^ (^P(a/,), ocd')^ (^P(a/2), ad2), ..., (^P(als ), ad S)
asociado a ad, y por tanto, la función f
f: D
d
- DU
. f(d )_ {distancias ultramétricas asociadas a d por el método
UPGMA}={f^*(d), ..., f k(d)}
verifica
f *(ad )=af. (d ) para todo a>0
Por otro lado, al considerar la desigualdad
m-b
m
d<d'<
m+b
m
d
a todo b>0 y a toda pareja de disimilaridades d, d'E D.I. con 0(d, d')<b, siendo
H={sE IR+ t.q. s=d(x;, x ) con x,,
m
m=min H M=max H y b< ^
2M
X E i^ }
E ^1 -^l>I^ilc ^ k tif^ ^^.i ^ t ,^
se tiene
m-b
m d, d '
^
<_
2óM
m<^l
y al aplicar el teorema 1 a las disimilaridades
m-b d d,
Y
m
resulta
^
m'^ d < f* d.
m
^( )
m+b
d correspondienFinalmente, de considerar también la clasificación de
m
m-ó
, ^ m+b
d y la des^gualdad d_
, se obt^ene
te a
m
m
f*
,
m-ó d
m
^f* d, ^f*
,(
}-^
m+b d
m
y operando,
m-b f* d< f* d,< m+b f. * d
m ,( )-,( )- m ,( )
^•m
Así, para toda pare ^ a de disimilaridades d, d'E D.I. con o(d, d') < b y s<
2M
se cumple:
m+b
m-^
m d, f* m d <_
^ f*(d }, f*(d' ) <_^ f*
2b
< m max {f *(d }(x^ , xk )
con x, xk E X}<
2SM
m
quedando dernostrado el siguiente resultado:
Teorema 2
b'^>0 ^b*>0 t.q. 0(d, d')<b* ^^i, ^ t.q. 0[f *(d ), f*(d )]<^
siendo
m
ó*< 2M min
{^, ^.} y d, d'E D.I.
Pl^tiHl'^[^^ ^ t t ^ N'Tltil`IO:^t) E^^+ I.^^ (^l .^tilFl[^-^,^^f( ^ ti Jf^K-^k(,^ I!lc ^, .^^^^t^l^-^f)-^ ^^( tiiF T^ ^ f ^^^ I f'^^^1 1
Nota 1
Obsérvese que la metodología descrita en este trabajo es también utilizable
a otros métodos de clasificación jerárquica, ya que en general, escogiendo bien
las cotas b,, b2, ..., b,,, ... y r^, es posible canseguir distancias ultramétricas tan
próximas como se quiera manteniendo las relaciones de orden originales.
Nota 2
Si en el entorno de una disimilaridad el método de clasificación proporciona
una única distancia ultramétrica para cada disimilaridad inicial, entonces la
función f es continua en el punto.
Nota 3
La pseudocontinuidad demostrada en este trabajo no contradice en absoluto
el resultado de Benzecri (1976), en el que se pone de manifiesto la no continuidad de la función de clasificación, ya que en Benzecri (1976) se estudia la
función que asigna a cada disimilaridad la jerarquía indizada asociada, mientras
que en este trabajo se considera la función que asigna a cada disimilaridad la
distancia ultramétrica asociada.
BIBLIOGRAFIA
ARCAS, A.; SALICRI^ , M. (1984): «Sobre la no unicidad de la clasificación jerárquica asociada a una disimilaridad por los métodos del máximo y UPGMA».
Qiiestiió, 8, 3, 113-121.
ARCas, A.; CUADRAS, C. M. (1987): «Métodos geométricos de representación
mediante modelos en árbol». Publicaciones de Bioestadística y Biomatemática,
n.° 20.
BENZECRI, J. P. (1976): «L'Analyse des Données I. La Taxonomie. L'Analyse des
Données II. L'Analyse des Correspondences». Dunod, París.
BERGE, C. (1959): «Espaces topologiques. Fonctions multivoques». Dunod,
París.
^+`)-^
i ^ ( ^I^I^ I fi ^ I ^f' ^^^ ^ I ^
GowER, J. C. (1967): «A comparison of some methods af cluster analysis».
Biometrícs, 23, 623-637.
JARDINE, N.; S^BSOn,, R. (1971):
«Mathematical taxonomy». John Wiley, New
York.
JoHrvsoN, S. C. (^19fi7): «Hierarchical clustering schemes». Psychometrika, 32,
241-254.
LANCE, G. N.; WILLIAMS, W. T. (1967): «A general theory of classificatory sorting
strategies. I. Hierarchical systems». Computer J., 9, 373-380.
SALicRÚ, M. (1984): «Invariancia ordinal en la construcción de jerarquías». XIV
Congreso S E 10, 321-326.
SALICRÚ, M. (1984): «Consideraciones sobre desemejanzas y clasificaciones
asociadas». Publicaciones de Bioestadística y Biomatemática, n.° 14.
SALICRÚ, M.; ARGEMÍ, M. (1991): «Pseudocontinuidad en la clasificación jerárquica». XIX Congreso SE10, 141-142.
SoKA^, R. R.; MicHErvER, C. D. (1958): «A statistical method for evaluating systematic
relationships». Univ. Kansas Sci. Bull., 38, 1409-1438.
PSEUDOCONTINUITY OF THE HIERARCHIC CLASSIFICATION
ASSOCIATED WITH THE UPGMA METHOD
SUMMARY
The geometric representation of objects through tree models, is
based on order relations af the set of interdistances between individuals
belonging to the set to be classified. We, therefore, are studying in
this article, on the one hand the maintenance of order in close
distances and, on the other hand we are analysing the pseudocontinuity of the function assigned to an initial dissimilarity by the
ultrametric distance associated by the UPGMA method.
Key words: Cluster analysis, continuity.
AMS Classification: 62 H 30 .
Descargar