ESTADISTICA ESPAÑOLA Vol. 34, N ^ m. 131, 1992, págs. 383 a 394 Pseudocontinuidad en la clasificación jerárquica asociada al método UPGMA por MIQUEL SALICRU y PEDRO SANCHEZ Departamento de Estadística Universidad de Barcelona RESUMEN La representación geométrica de objetos mediante modelos en árbol se basa en las relaciones de orden en el conjunto de las interdistancias entre los individuos del conjunto a clasificar. Por eso, en este trabajo, hemos estudiado en primer lugar la conservación del orden en distancias próxirnas, y seguidamente hemos analizado la pseudocontinuidad de la función que asigna a una disimilaridad inicial la distancia ultramétrica asociada por el método UPGMA. Palabras clave: Cluster análisis, continuidad. Clasificación AMS: 62H30. 1. INTRODUCCION Uno de los objetivos principales del análisis de datos consiste en la representación geométrica de objetos a partir de una disimilaridad definida entre ellos. En este sentido, si queremos representar los objetos en un espacio de dimensión reducida (por ejemplo, en el plano) podemos utilizar técnicas como el análisis de coordenadas principales o multidimensional sca/ing, y si, por el contrario, queremos representar los objetos de forma que queden de manifiesto k ^T ^I^lti f Ic ^ t ^lr ^ti^ ^ l ^^ ;`^i-l las relaciones de semejanza entre ellos a partir de una estructura de clases o de una estructura evolutiva, entonces es necesario utilizar técnicas taxonómicas o árboles aditivos. La representación geométrica de objetos a través de la taxonomía numérica viene dada por dendogramas construidos a partir de la jerarquía indexada que obtenemos al realizar la clasificación por el algoritmo deseado. En este sentido, estudiamos en este trabajo la continuidad de la función que asigna a cada disimilaridad el conjunto de d'rstancias ultramétricas asociadas a las jerarquías indexadas correspondientes a ia disimilaridad inicial por aplicación del método UPGMA. Formalmente, para un conjunto X={x^, ..., x^} y para una función d d:X x X ^ IR pueden cumplirse, entre otras, las siguientes condiciones: 1) d(x, y)?0 dx, y E X z} d(x, y)=d(y, x) 3) d(x, x)=0 `dx E X 4) d(x, y)=o^x=y 5) dx, y E^x dX, y E x d(x, y)<max{d(x, Z), d(y, z)} b'x, y, z E X Si se cumplen las condiciones 1), 2) y 3), se dice que d es una disimilaridad; si la disimilaridad curnple la condición 4), se dice que es inyectiva, y si cumple la condición 5), se dice que es ultramétrica. La condicián de inyectividad impone a la disimilaridad que discrimine entre individuos distintos, y geométricamente, la condición ultramétrica exige a cada terna de puntos que formen un triángulo isásceles, siendo la base la longitud menor. En este trabajo, consideraremos los conjuntos D, Dl y DU definidos por D= {disimilaridades definidas sobre X} D^= {disimilaridades inyectivas definidas sobre X} DU= {disimilaridades ultramétricas definidas sobre X} el orden en D definido por 1't-^F^[;f^)r^(^(^N7^^[^II `If)^^f ) Fti l .^^ ^ ^1.^^^tilFl^ ^^f (^ ^ ^^•^ Jt^R 1ftt, ^ 1 I^ ^^ 1^^ ^ ( I ^I> ^ .^^,L ^1i^ ^C^ ^ ^ U^ ^ l f^^ ^^1 1 d1<_d2ad1(x, y)<_d^(x, y) ^!^^ dx, yE X y la métrica o definida en D por d(d1, d2)=sup {^d1(x^, x)-d2(x,, x)^ con x^ , x E X} Finalmente, para un conjunto X en el que tenemos definida una disirnilaridad inicial d, consideraremos el método de clasificación UPGMA definido por Sokal y Michener (1958), que se obtiene a partir del siguiente criterio recurrente: Si I 1 =min {d(x^ , x), x.^x , x,^ x ^E X}=d(xr0, x^0 ) es la mínima distancia entre los ^ ^ i elementos de X, consideramos el conjunto cp(^1)={{x1}, ..., {x,^} ^ {x o}, ..., {xn}} y definimos en cp{/1) la disimilaridad d' d1({x;}, {x })=d(x;, x) si {x,, x}n{x;o, x^o}=^ [1 ] d 1({x^ o} ^..^ {x o}, {xk })= 1 2 d(x; o, xk )+ 1 2 d{x o, xk ) Repitiendo de forma recurrente el proceso por el cual partiendo de (X, d) hemos obten ido (cp(/1), d' ), se obtienen (cp(/2), d 2), .. .,(cp(/S), d S) con cp(!S)=X y dk(A;, A^)=dk_1{A^^ A,) dk A. (^ovAio An ) - Ni 0 k_ 1 ♦ ^^ N ♦ N d (A,o^ An) N+N d ^o ^o ^o ^o k1 A^ a ^ A h ) siendo ^P(^k)={A1, ..., A;oUA^o, ..., Ar} N;o=card (A;o) Así, para un conjunto X y una disimilaridad inicial d, hemos obtenido la clasificación (jerarquía indizada) ^P(lo)={{x^}, ..., {xn }}, ^P(11), ..., ^P(!S )=X t til ^^OItiTi^ .^ F `+F';1ti ^^ 1 ^1 y la distancia ultramétrica d* definida por d"(x^ , x^ )=min {l^ t.q. ^TE P(X) con {x^, x^}cTE cp(l^)} quedando caracterizada la función multívoca f: D d ^ DU -^ f(d )_ {distancias ultramétricas asociadas a d por el método UPGMA}={fj (d), ..., f*(d)} Dando expresiones distintas a las disimilaridades definidas en [1] y[2], se abtienen además el métado dei mínimo (Johnson, 1967), el método del máximo (Johnson, 1978), el método de la media (Sokal & Michener, 1958), el método de la mediana (Grower, 1967), el método del centroide (Sokal & Michener, 1958) y el método fiexible (Lance & Williams, 1967), entre otros. Planteado así el problema, resulta interesante preguntarse sobre continuidad de la función f, pues caso de no ser continua, pequeños errores en la toma de datos podrían alterar la disimilaridad inicial y, en consecuencia, la clasificación final. Un estudio en este sentido ha sido realizado por Jardine & Sibson (1971) con la función unívoca correspondiente al método del rnínimo. Por otro lado, en Benzecri (1976) se estudia la continuidad de la función que asigna a cada disimifaridad la jerarquía indexada asociada a un método de clasificación, entendiendo por jerarquía indexada la sucesión de particiones (clusterings) correspondientes a los distintos niveles de clasificación. Finalmente, en Salicrú (1984) y en Salicrú & Argemí (1991) se presentan resultados relativos a la conservación del orden y la pseudocontinuidad de la función multívoca que a cada disimilaridad le asigna la distancia ultramétrica asociada al método del máximo. Así, el problema aqu í descrito introduce una nueva dimensión a los planteamientos ya existentes, ya que los estudios relativos a invariancia ordinal y continuidad en funciones de clasificación se reducen a funciones unívocas. La elección del método UPGMA es debida a que éste es el método jerárquico más utilizado y a que, dentro de los métodos jerárquicos, este método maxirniza el coeficiente de correlación entre los valores de la disimilaridad inicial y los correspondientes a la distancia ultramétrica asociada. 2. INVARIANZA ORDINAL Corno una primera aproximación a la conservación del orden a través de la función de clasificación por el método UPGMA, demostramos seguidamente I'f^tiF^l!U^^(^^1yT^ltil^^lf).^>[)f^-ti l^^l l^^tilf-I^ ^1( Itrti Jf.k^ft^^)I I^ .^^ ^^^ ^ ^ I.^I>^1 ^l ^1} 1^^^ ^ ^^t I'^^^1^^ que para dos disimilaridades suficientemente próximas existen dos puntos del conjunto X a clasificar de forma que la distancia entre los dos es mínima para d, y d1. En este sentido, hemos obtenido el siguiente resultado. Proposición 1 Para dos disimilaridades d1 y d2 definidas sobre X con d^ <_ d2 y o(d^, d2) < bo, siendo óo=min {rE IR^ t.q. r=^d^(x;, x)-d,(xk, x^)^ con x^, x^, xk, x^ EX} existe una pareja (xro, x o) cumpliendo dk(x;o, x o)=min {dk(x;, x); x;, x EX} para k=1,2. Demostración Observemos en primer lugar que si d^<_d2 y 0(d^, d2)<Sa, entonces se cumple . d2(x^, x. )<d^ (x; , x. )+bo para todo x; , x E X de donde resulta que si d1(x;, x)<d^(xk, x,) para x;, x, xk, x^ EX entonces se verifica d2(x;, x)<d^(x;, x)+óo<_d^(x;, x)+d^(xk, x^)-d^(x;, x)<_d^(xk, x,) Así, hemos probado que para disimilaridades próxirnas, el orden estricto en d^ se traslada también a d2. Por otro lado, si una o varias parejas alcanzan la mínima distancia para d^, con d^ <_ d2 y 0(d^, d2) < bo, entonces, al aplicar el resultado anterior, la pareja (x;o, x o) de las parejas anteriores, que alcanza la mínima distancia en d2, cumple d^(x;o, x o)=rnin {d^(x;, x.); x;, x EX} y d2(x;o, x.o)=rnin {d2(x;, x); x,, x EX} F:^I ^Ultilit ,1 F ^+F'^^ti1^1 ^ Así, queda demostrado que existe una pareja que afcanza la mínima distancia end,yd2. Ejemplo 1 Obsérvese que áa es en general la mayor ^ota posible, ya que al tomar por ejemplo el conjunto X={x^, x2, x^, x4} con las tablas de interdisimilaridades d1 X^ X2 X^ X4 d2 Xi X2 X^ X4 X^ 0 2 3 4 x1 0 3+^ 3 4 x2 2 0 4 5 x2 3+E 0 4 5 x3 3 4 0 7 X3 3 4 0 7 x4 4 5 7 0 X4 4 5 7 0 siendo ^ e IR+ un valor arbitrario, se tiene que para la disimilaridad d^ la pareja más próxima es {x,, x2} y para la disímíiaridad d2 fa pareja más próxima es {X^ , X3} . Así, al cansiderar las tablas de interdistancias anteriores se tiene a(d, , d2) _ ^ +^=bo+£ para todo ^ E IR+ no existiendo una pareja que alcance la mínima interdistancia para d1 y d2. Para comprobar que !a relación de orden en disimilaridades se mantiene al obtener distancias ultramétricas asociadas, demostraremos en primer lugar el siguiente resultado. Proposición ^ Si en el paso n-ésimo de la clasificación de tX, d,) y(X, d2) tenemos: a) cp^(/n )= cpz(/ñ ) b) In<_ Iñ d) ^(d^, d2 )`q e) ^1 <_ b^ c) d^ <_dz f^f^Sf l^l)(^('c^^1TINt'![)A[) f-ti L.^^ ( f_:^^IFI( .^( Ic^ti Jt-.ft.^>EZ(^t lc ^^^^ ^ t I^I>^ -^1 11t 1c ^ ( ^ ^ ^ I f^^^^1 ^ siendo ^=min {rE 1R^ t.q. r=^d(A^, A^)-d(Ak, A^)I, con A;, A^, Ak, A, E P(X)} b,,=min {rE IR^ t.q. r=^dj (A,, A^)-d^ (Ak, A;)I con A;, A^, Ak, A;E cp(/h )} - ^d, ( x; , x ) d(A; , A^ )co n x; E A; , x E A^ N • N. entonces, se cumple a) cp,(/„+^)-cp2(/„+, ) b) In+^ <_ In+^ d) ^( d; + ^ , d 2+' ) <^ e) ^1 _< S„+, C) QI^ *^ < Q12 +^ Demostración AI aplicar la proposición 1 al ^conjunto cp^(l^ )=cp2(/ñ )={A^, A2, ..., Ah } existe una pareja (A;o, A^o), tal que In+^=d ;(A;o, A^o)=min {d n(A;, A^ ), A;, A^E c^^(l^ )} , ln+^=d2(A;o, A^o)=min {d2(A;, A^), A;, A^ECp2(1^)} y al utilizar el criterio de clasificación resulta cp,(h+^)={A^, ..., A;ovA^o, ..., A^}=^P2(^„'+,) con ^n+^-d^ (A;o, A^o) ^ d2 (A;o, A^o)-^,^ *^ Así, a) y b) quedan probados. { `1 ^(^ItiTti ^ E ^f' ^ti^ i^ ^ Para el con ju nto A, U^ A1 °, se tiene N o N,o d;'' (A, o u A^ o, Ak )= N+N d;(A, o^ Ak )+ N+N d;(^, o^ Ak ) ^o ^o ro ,a ,^ Ni0 n + No ^ _ n^1 n N^ o+N o d 2(A1 °` Ak ) d 2 {A, o u A^ o, Ak ) - N^ o+N^ o d z(A' °' Ak ) y para conjuntos A,, Af distintos de AiO^A^o, d ;+' (A, , A! }=d ; (A^ , A^ ) <_ d ^ (A^ , A^ )=d'2+' (A^ , A^ ) De este modo, en el paso n+1 el criterio de clasificación conserva el orden en las distancias. La distancia entre d^n+' y d 2' puede acotarse con la distancia entre d^ y d2 a partir de la siguiente relación d(d ^+', d 2')=max {^d ^'(A;, A^ )-d 2+'(A,, A^ )^; A;, A^ E^P^(^n+1)}^ ^max ^ M' ^=^o,^a M +M ^o ^d1 n (Bi ^ Ak )-dn2 ($; ^ A k)^ ^o siendo B^o=B^o=A^ cuando A^^A;ovA;o B;°=A;° y B;°=A^° cuando A^=A^ou A^© M; el cardinal de B^ con lo que al aplicar o(d ;, d2}^r^ obtenemos 0(dn+' , ^d n+')^^1 2 Finalmente, de considerar el resultado - ^ d^(x^ , x ) d`' (A., A ) ^ ' ^ N•N i ^ para A.,^ A ^E cp^(/`7 ) obtenido en Arcas y Salicrú ( 1984), se obtiene de forrna inmediata la relación ^^Sn Aplicando de forma recurrente la proposición 2 a los distintos niveles de clasificación, hemos obtenido: f'l:^l^^l^^O^^t ^^ ^ ^1^I1^11'^If),^^) t^^i t..-1 (^L.•^^;IF 1l :^( lu^i IF^ k^R^,^l ^^^ -^ ^^^^ ^^ E^^1^.-^ _^^^I ^tiil f t r^^^ ^ I f^^ ^ti1 ^^ ^^) ^ Teorema 1 Para d, < d2 con ^(d,, d^) < r^, existen dos distancias ultramétricas d; y d2 asociadas a d, y d^ por el método UPGMA que verifican * * d, <_ d2 Así, el método UPGMA garantiza invariancia ordinal en la construcción de jerarquías. 3. PSEUDOCONTiNUIDAD EN LA CLASIFICACION JERARQUICA Por la forma de construir las jerarquías, puede comprobarse sin dificultad que al proceso de clasificación (X^ d }, (^P(^,)^ d'), (^(^2)^ d2), ..., (^P(^S)^ ds) asociado a d, le corresponde el proceso de clasificación (X^ ad )^ (^P(a/,), ocd')^ (^P(a/2), ad2), ..., (^P(als ), ad S) asociado a ad, y por tanto, la función f f: D d - DU . f(d )_ {distancias ultramétricas asociadas a d por el método UPGMA}={f^*(d), ..., f k(d)} verifica f *(ad )=af. (d ) para todo a>0 Por otro lado, al considerar la desigualdad m-b m d<d'< m+b m d a todo b>0 y a toda pareja de disimilaridades d, d'E D.I. con 0(d, d')<b, siendo H={sE IR+ t.q. s=d(x;, x ) con x,, m m=min H M=max H y b< ^ 2M X E i^ } E ^1 -^l>I^ilc ^ k tif^ ^^.i ^ t ,^ se tiene m-b m d, d ' ^ <_ 2óM m<^l y al aplicar el teorema 1 a las disimilaridades m-b d d, Y m resulta ^ m'^ d < f* d. m ^( ) m+b d correspondienFinalmente, de considerar también la clasificación de m m-ó , ^ m+b d y la des^gualdad d_ , se obt^ene te a m m f* , m-ó d m ^f* d, ^f* ,( }-^ m+b d m y operando, m-b f* d< f* d,< m+b f. * d m ,( )-,( )- m ,( ) ^•m Así, para toda pare ^ a de disimilaridades d, d'E D.I. con o(d, d') < b y s< 2M se cumple: m+b m-^ m d, f* m d <_ ^ f*(d }, f*(d' ) <_^ f* 2b < m max {f *(d }(x^ , xk ) con x, xk E X}< 2SM m quedando dernostrado el siguiente resultado: Teorema 2 b'^>0 ^b*>0 t.q. 0(d, d')<b* ^^i, ^ t.q. 0[f *(d ), f*(d )]<^ siendo m ó*< 2M min {^, ^.} y d, d'E D.I. Pl^tiHl'^[^^ ^ t t ^ N'Tltil`IO:^t) E^^+ I.^^ (^l .^tilFl[^-^,^^f( ^ ti Jf^K-^k(,^ I!lc ^, .^^^^t^l^-^f)-^ ^^( tiiF T^ ^ f ^^^ I f'^^^1 1 Nota 1 Obsérvese que la metodología descrita en este trabajo es también utilizable a otros métodos de clasificación jerárquica, ya que en general, escogiendo bien las cotas b,, b2, ..., b,,, ... y r^, es posible canseguir distancias ultramétricas tan próximas como se quiera manteniendo las relaciones de orden originales. Nota 2 Si en el entorno de una disimilaridad el método de clasificación proporciona una única distancia ultramétrica para cada disimilaridad inicial, entonces la función f es continua en el punto. Nota 3 La pseudocontinuidad demostrada en este trabajo no contradice en absoluto el resultado de Benzecri (1976), en el que se pone de manifiesto la no continuidad de la función de clasificación, ya que en Benzecri (1976) se estudia la función que asigna a cada disimilaridad la jerarquía indizada asociada, mientras que en este trabajo se considera la función que asigna a cada disimilaridad la distancia ultramétrica asociada. BIBLIOGRAFIA ARCAS, A.; SALICRI^ , M. (1984): «Sobre la no unicidad de la clasificación jerárquica asociada a una disimilaridad por los métodos del máximo y UPGMA». Qiiestiió, 8, 3, 113-121. ARCas, A.; CUADRAS, C. M. (1987): «Métodos geométricos de representación mediante modelos en árbol». Publicaciones de Bioestadística y Biomatemática, n.° 20. BENZECRI, J. P. (1976): «L'Analyse des Données I. La Taxonomie. L'Analyse des Données II. L'Analyse des Correspondences». Dunod, París. BERGE, C. (1959): «Espaces topologiques. Fonctions multivoques». Dunod, París. ^+`)-^ i ^ ( ^I^I^ I fi ^ I ^f' ^^^ ^ I ^ GowER, J. C. (1967): «A comparison of some methods af cluster analysis». Biometrícs, 23, 623-637. JARDINE, N.; S^BSOn,, R. (1971): «Mathematical taxonomy». John Wiley, New York. JoHrvsoN, S. C. (^19fi7): «Hierarchical clustering schemes». Psychometrika, 32, 241-254. LANCE, G. N.; WILLIAMS, W. T. (1967): «A general theory of classificatory sorting strategies. I. Hierarchical systems». Computer J., 9, 373-380. SALicRÚ, M. (1984): «Invariancia ordinal en la construcción de jerarquías». XIV Congreso S E 10, 321-326. SALICRÚ, M. (1984): «Consideraciones sobre desemejanzas y clasificaciones asociadas». Publicaciones de Bioestadística y Biomatemática, n.° 14. SALICRÚ, M.; ARGEMÍ, M. (1991): «Pseudocontinuidad en la clasificación jerárquica». XIX Congreso SE10, 141-142. SoKA^, R. R.; MicHErvER, C. D. (1958): «A statistical method for evaluating systematic relationships». Univ. Kansas Sci. Bull., 38, 1409-1438. PSEUDOCONTINUITY OF THE HIERARCHIC CLASSIFICATION ASSOCIATED WITH THE UPGMA METHOD SUMMARY The geometric representation of objects through tree models, is based on order relations af the set of interdistances between individuals belonging to the set to be classified. We, therefore, are studying in this article, on the one hand the maintenance of order in close distances and, on the other hand we are analysing the pseudocontinuity of the function assigned to an initial dissimilarity by the ultrametric distance associated by the UPGMA method. Key words: Cluster analysis, continuity. AMS Classification: 62 H 30 .