ESTADISTICA ESPAÑOLA Núm. 92, 1981, p^gs. 7 a 37 Panorámica actual del análisis discrirr^inante (*) por FRANCISCO AZORIN Instituto Nacional de Estadístíca RESUMEN E n esta panurámica se exponen lus antecedentes y fundamentos del análisis discriminante, y sus relaciones cc^n el reconocimiento de patranes. A cuntinuación se pasa revista a diferentes planteamientos, modelos y técnicas de clasificación y asignación, y se examinan algunos de los aspectus de mayor interés en las investigaciones actuales, tales cumo rubustez, contaminación, especificación, estimación de funciones de densidad y reglas nu paramétricas, y discriminación burrosa. Pulubrus c•lu ^ ^c^: díscríminación; asignación; análisis y funciones discriminantes. t. DEF=INIt'IONI~:S Y RELAC(()NES ENTRE ANALISIS DISCRIMINANTE Y REC'ONOC I M 1 ENTO DE PATRON E:S Bajc^ la denuminación general de c•lusr'j^c•uc•i^^i1 se cumprenden dus grandes tipos de a^tividad, investigación y estudiu: a) Arr^ílisis v f urmuc•ic^rt clc^ c•lusc^s c^ c•un^lurnc^radc^s (c•Irtst^rs), mediante la u^rupuc•ic^n de Ic^s elementc^s de un ^unjunt^ c^ la clr^^isivn de éste, en subcunjuntus. (*) Este artículu cuinc ide en parte con la punencia del mismo nombre presentada al Seminario subre Prugramac: ión Matemát ica PM' R t. ESTADISTICA ESPAÑOLA 8 b) IdentiJ^c•ac•ión y asignación de uncr v más elementcrs a una de ciertas c•lases estaólec•idas, como resultado de la observación de ciertos caracteres '. Se ll^ma carac•teriZación a 1a elección y determinación de dichos caracteres o características, que pueden ser cuantitativos o ^^ariaátes, con determinados valores posibles, y cualitativos o atrióutvs, con determinados estados o modalidades posibles. En una o más etapas se van tomando de las infinitas variables o atributos posibles, los más «expresivos^ o«distintivos^, para los elementos en estudio, como resultado de un previo examen de la situación 2. En lo que sigue se designa por p el número de caracteres. Una vez establecidos los caracteres, se procede a la medición, esto es, a la determinación de los valores o modalidades (según que se trate de variables o de atributos) de ca^la elernento, objeto, individuo o unidad que hay que asignar a una de las m clases, poblaciones o conjuntos. Se representa por xr; el valor de la variable j-ésima en el individuo i-ésimo. Para una muestra de n elementos [x^;] n, p sería la llamada matriz taxonámica fundamental, con una fila para cada elemento y una columna para cada carácter. En cuanto a las definiciones de análisis discriminante y de reconocimiento de patrones, debe indicarse que históricamente el primero responde a la pregunta ^a qué clase pertenece este elemento, y el segundo, ^,qué forma o configuración tiene este elemento, o a cuál se adscribe, entre las establecidas? Como en ambos casos se trata de una asignación o adscripción, a veces se considera que el reconocimiento de patrones es un análisis discriminante en que las clases son formas, tipos, modelos, etc., y otras que el análisis discriminante es un reconocimiento de patrones en el que se d ispone de una función llamada discriminante; de probabilidades, a privri y a posteriori, de pertenencia a las clases; y de muestras controladas, que facilitan la asignación de nuevos elementos. ' Un tercer tipo podña ser: c) Verificación de si un individuo estú r^gistradr^ Pn un ficheru (Chernoff, 1980), ^ Sobre la selección de variables o atributos puede verse el capitula 1 de la obra de L. Escudera { 1977) y el capítulo 4 de la obra de Goldstein y Dillon ( 1978). PANORAMICA AC?UAL DEL ANALISIS DISCRIMINANTE 2. 9 ESPACIO MUESTRAL Y ESPACIO DE PATRONES Hay dos tipos principales de representaciones: a) Espacio muestral Cada una de las diferentes muestras posi^bles de tamaño n toma un puesto en el espacio muestral, para cada una de las p variables consideradas. Si tiene así, para la primera variable: X 11, ..., Xnl y para la j-ésima (j = 1, ..., p) X ^^, .. ., Xn.i En un espacio euclideo de n dimensiones (con n ejes ortogonales) se representa un punto en los p valores o coordenadas de la variable j-ésima. Y p puntos para las p variables, con la misma muestra: (X ^^, ..., X^^^ X 2, Figuia 2.1 ESTAD{STICA ESPAÑOL,A Claro es que tarnbién podrían representarse varias muestras de tamaño n para una misma variable. En los primeros trab^jos de R. A. Fisher, sobre la distribución de muestras pequeñas, se representaban así la media y la varianza de la muestra, y también la correlacián entre dos variables; esto es , para una muestra bi variante de tamaño n:(x, ,, x, 2), .. ., (x„^, x,^2) o con otra (^gura 2.2) notación: (x,. y,), ..., (x,,, y,^). X n. FigWra 2,2 Designando por P,, P^ los pies de las perpendiculares desde X,, X2 a la recta bisectriz de coordenadas x, _... = x^. En dichas figuras puede verse que se verifica: n UX, _ ^: ^/2:r ^, Ú X,_ ^l l/2 X. ^x •, _^ x' ^ , u bien cc^n la 2.d nc^tación : ^i _ ^xr2 ^-x ' á - ^ OX = n^l2x (^Y = ni^2v jl X, P, = rt^ns ^^^ (s 2^^^ = E (-^^ i ^ :r • ^}2/rt) XM = ni/ziX X2 P^ = n ^/^S c2 ^ (s 2^z^ = E (xi2 - .x • ^)2In ) YN = n^ ^2Sy PANORAMICA ACTUAL DEL ANALISIS DISCRIININANTE 11 y que el coseno def ángu^o de las paralelas por 0 a X, P, , X2 P2 es: (X^^ ^X'^)(X^2-X'2) + ... + (x„I --x•,)(x^2-x^2). Cos V = ^x„ - X •,)2 + ... + (x,^l -- x' ^)^ (x,2 -- x•2)2 + ... + (x,^2 - z• o bien, con la otra notación: (x, - z)Cy, - y) + + (x^ - ^CY,^ - y) (x, - z)^ + ... + (x^ - x)^ (y, - y)^ + ... + (vM - y)2 Este coeficiente es el de correlacián entre ambas variables . b) Espacio de patrones Ahora se representa cada elemento de la muestra por sus p caracteres, en un espacio euclideo de p dimensiones (*). El i-ésimo elemento tiene por coordenadas: (X^I^ ..., x;p) Análogamente al punto o«patrón» anterior se tienen los n de la muestra, que constituyen una nube de puntos (fig. 2.3). Claro es que podrían obtenerse otros patrones para los mismos elementos con otros p caracteres (fig. 2.4). Y también podrian obtenerse correlaciones entre elementos de modo análogo a las correlaciones entre variables que antes se mencionan. Hay una matriz simétrica R de correlación entre los ñ entre los 3. 3.1. 2 p pares de caracteres, y otra matriz sirnétrica Q de correlación ? pares de elementas. INFORMACION DISPONIBLE, HIPOTESIS Y ESTIMACIONES CONSIDERACIONES PREVIAS Los métodos y procedimientos de discriminación que se consideran en la sección 4, dependen no sólo de los criterios que se establezcan, sino también de la información (*) Otra posible representación de un elemento por sus p caracteres es un «perfil» de barras equidistantes. ESTADiST1CA ESPAÑOLA 12 disp^onible y su estructura («structure of available knowledge^), de las hipótesis, y de las estimaciones que se efectúan. XP ^Xnt+ ^x11+ ..., Xlp^ 1Xrt. ..., XIp ^ X^^, ..., X^pÍ Figura 2.3 • ^ • / lX1t+ ..., X1p^ • • , x,p) • • • x, Figura 2.4 PANORAINlCA ACTUAL DEL ANALISIS DISCRI11/INANTE 1^ En el caso más simple, en el que se conoce la composición de las clases, la asignación de un elernento a los más «próximos^ puede hacerse según un criterio de distancia, como se verá en la práxima seccián. Los elementos, con sus valores en cada variable, pueden representarse en un cuadro o tabla de doble entrada. En situaciones menos favorables, pero más genera,les, sólo se tiene de las clases un conocimiento probabilístico. En primer lugar, en cuanto a la probabilidad a priori, de pertenecer a cada una de las clases. En segundo lugar, en cuanto a la distribucibn probabilística de los valores de las p variables en cada clase. Esto es, para m clases, exhaustivas y mutuamente ex'cluyentes: P(^c E n^) = rcti ; h= l, ..., m y P( X ^ x n ^), que correspande a una cierta función de probabllidad, ' o de densidad, .Í^h (x) • EI conocimiento o la especificación hipotética puede ser total o parcial. Pueden considerarse, además, los costes, cti^, pérdidas o penalidades, C(asignación a nh^x E n^) en que se incurre al identif;car un elemento de la clase h como perteneciente a la clase j; C(se asigna x a nh^x E nh) = 0. Es decir, son los valores de una función de pérdida. 3.2. MUESTRAS DE APRENDIZAJE Para conseguir información, o mejorar la información disponible acerca de los aspectos antes mencionados, pueden utilizarse muestras de aprendiz^je («tr_aining samples») como información suplementaria. Se distinguen diferentes casos: a) Muestras supervisadas o controladas, con elementos de los que se conoce la clase nh o población de procedencia. Si no se conoce nh, la probabilidad a priori se estima a partir de estas muestras. b) Muestras no supervisadas, con poblaciones o clases mezcladas. Se distinguen dos casos: i) ii) Se conocen las n h, probabil idades a privri , pero no F( X^ fi h); Se conocen las P(X^ (lh), pero no las nh. Puede distin,guirse entre los métodos supervisados (véase, por ejernplo, Escudero, 1977) según que se conozca o no F(X^ I^1 ti), los métodos paramétricos, los métodos i4 ESTADISTIC A ESNAÑOLA directos, que más adelante se consideran al tratar de distancia, y el análisis discriminante propiamente dicho. S. Das Gupia (Cacouilos, 19^3) distingue también casos en que fa decisión de asignación queda diferida, así como la preferencia a ciertas asignaciones, hasta conseguir nueva información, y casos en que se asigna a un grup^o de clases, sin distinguir a cuál de elias. 3.3. SUPUESTC^S SOBRE LAS DtSTRI8UC1ONES Por conc)cimientu previo, u basad^^ en las muestras de aprendizaje yue anteriurmente se mencionan, puede llegar.^e a establecer yue la distribucián en una o varias de las clases nh es de algunu de tus tipos ^-dimensiunales o^-vari^^ntes siguientes: N^^rmu! c^ c^E^ Lupluc•E^-Car^ss, c^)n la #unción de densidad [3.3. l ] ^h ^ -1^2 eXp .fh (x ) = (2n } -Pnl ^ ^ _ 1 (X _ µ h ,}, ^ ^ 2 u,^(X - µ th^} con: .ar = (x,, ..., x^) µ ^h ) _ (µ^lh ^ , ..., µ^h^) 2 6 1h _ . ^^ 12h ^ 1h tT^l 6 2h ''' ........... ... ............. CT^^h o bien: X ^ µ tf^ ^ ^^ ( x } ^ ( 2n } -P ^ ( ^ 1 h, . . . , ^ r,h ) -1 p ^^? e X p - ^h ^,^h ) X - N ^h Es la de usc^ más generalizado en las distribuciones cuntin^ias, especialmente pur consideraci^nes de convergencia asintótica. b) P^^linumiul u mrrltinumic^l. Es de usu generalizadu cuandu se trata de distribuciones discretas (véase [3.3.2]}. Suele admitirse yue la distribución es binUmial en cada variable dicotómica o atributu, y que éstus sun independientes entre si (mudelu de independencia de primer orden, G^ldstein y Dillon, 1 y7K}. ^ [3.3.2j Ph(x }- I I[ P^(^ = X^) ^1,, ]xJ[ 1 j= 1 - P.(^, - x^j n^1) PANORAMICA ACTUAL DEL ANALISIS DISCR[MINANTE IS o simplemente: ^ ^ l ^^ ^ { 1 _ E^ j) j=1 ^ -Xj con fl j= E(x j) c) Model^ de Bahadur (1961). Se considera como una generalización del anterior, para su mejor adaptacián, al admitir cierta independencia entre los caracteres o atributos (véase [3.3.3]). En muchas aplicaciones se supone que se anulan las correlaciones de orden superior, reduciéndose así el número de parámetros a estimar (Goldstein y Dillon, 1978). Este modelo tiene la ventaja de que los parámetros son de fácil interpretación. [3.3.3] P(x) - j I e^ (1 _ f^^) ^-xj[ 1 + EP^k^ ^k +... + P^,2... ^,^ ^ z• ..., ^] ^ ^ •P P j= l con: Zj ^ j ^ ^j = ^^^ j( 1 „ P jk = (.,,^ j^k) - Hj) d) Otr^as mvdelos para ^^ariables dicc^tómicas ^^ atribc^tus. Varios de estos modelos representan las distribuciones por combinaciones lineales de polinomi^s urtugonales. Lachenbruch y Goldstein { 1979) mencionan los siguientes, debidus a Martin y Bradley (1972), que utilizan los polinomios: ^(x) = 1. +^ j(x) = 2xj -- 1 „ ,j = 1, 2, ..., P y Dtt-Kronmal (1976) (*), que parten de los polinomios: ^r(X) _ (_ 1)x'r en donde r es un vector índice que toma valures en el espacio de los atributos. ^(x) = 1, ^^{ x) - 2xj - 1 j= l, 2, ..., p r ^^cx) = I I ^ ^jc X) v=(v ^, ..., v^) r= 2, 3, ..., p j= l El modelo de Martin y Bradley parece ser preferible cuandu hay escasez («sparseness») de observaciones, mientras que el de Utt-Kronmal facilita la decisión sobre si un parámetro determinado debe incluirse o nu en el modelo. (*) O bien, Krunmal-Ott-Tarter. ESTADISTK'A ESPAÑUL.A If) e) Modelvs lr^glineal^s. En estos mudelos se aprovechan resultados obtenidos en el análisis de la varianza ( Goldstein y Dillon, 1978) y en el de las tablas de contingencia pluridimensionales (Lachenbruch y Goldstein, 19?9). Se expresa el logaritmo de las probabilidades (*) como combinación lineal de los efectos principales y las interacciones (véase [3.3.5]), en donde los términos satisfacen restricciones similares a las del análisis de la varianza. Goldstein y Dillon emplean otra expresión análoga (véase [3.3.6]), en donde a representa el efe^cto general; aj, el efecto principal debido al carácter x^,; ocjk, la interacción de primer orden debida a xj, x,^, y así sucesivamente. 1 og p t^k = u + u,(i) + u2(j) + [3.3.5] + u^(k) + u12(ij) + + u 2a(jk) + u a,(ik} + + u12}(ijk) [3.3.6j --1) x^tX^ + 1 og p( X) = Ot + ,,,_ 1) a^ +xk OL jk + . . . + j <k + ( _ 1)x,+x^+...+xp0( , ..., P iz Es oportuno mencionar también a este respecto la expresión debida a D. R. Cox, y Day y Kerridge (J. A. Anderson, en T. Cacoullos, 1973) (véase [3.3.7]), para las probabilidades a pusteriori y que se puede generalizar a p poblaciones o clases (véase [3.3.8]) (*). [3.3.7] P(fl'^x) = exp (ao + a,x, + ... + apxp) • p,(Clz^x) p((7 2Ix^) = 1/[ 1+ exp (ao + a,x, +... + apxp)] [3.3.8J p(Ilh^x) = exP (X'ah)P. (nP^x) h= l, ..., p-i p-t p(C^P^x) = 1 / [ 1 + ^ exp (x'ah) h=! (*) (*) Por ejemplo, de la correspondiente a la casilla ijk^s`^` de una tabla de contingencia. Los modelos o representaciones loglineales permiten: a) emplear estadísticas de bondad del ^juste para la construcción de dichos modelos; 6) sustituir ceros por estimaciones no nulas en casos de clasificación con observaciones escasas, y c^) incorporar información relativa a la ordenación de modalidades en los atributos considerados (por ejemplo, cuando se trata de preferencias •^ actitudes. Véase Lachenbcuch y Goldstein, 1979). I% PANORAMICA ACTUAL DEL ANALISIS DISCRIM[NANTE Estas expresiones se relacionan ya con los rnodelos exponenciales y doble exponenciales, L. Escudera (1977) (véase [3.3.9]), y los que utiliza J. Tiago de 4liveira, en Cacoullos { l9?3), con base a la distribución de Gumbel (véase [3.3.10]^. [3.3.9] pti(x^) _ 1 . j = l, = l, ..., m, _e -uM1 ,. µ.1 •• p caso paRicular de: exp [a ti(8h}bw{xh) + cw(6h) + d^(x^)] [3.3.10] Fti(x;) = 1- e-^ (distribución de Gumbel) Fti(x^) = (funcián logística) 1 -}- a^^^°^ Ck,e'bti1zJ' .^ Fti(x^) = exp ( -e -X^) 4. (doble exponencial) CRITERIOS, METODUS Y TECNICAS 4.1. PROCEDIMIENTO GENERAL DE ASIGNAC16N POR REGIONES El criterio de hacer mínima la probabilidad de asignación errónea sugiere dividir el espacio p-dimensional de patrones en tantas regiones como poblaciones o clases. En el caso más simple, para dos clases, n,, n 2, suponiendo conocidas las distribuciones probabilísticas correspondientes, f,(x), f2(x), puede darse una regla de clasifcación, estableciendo una partición del espacia muestral en las regiones R,, R^, y fijarse las probabilidade5 de error o asignación errónea, a,, a2 (véase [4.1.1]). Se trata ahora de hacer mínima a, + aZ (si íos errores tienen importancia diferente, podría escribirse a, + ka2). O bien, si se introducen probabilidades a priori, n,, n2, hacer mínimo el riesgo n,a, + n2a2. [4.1.1] a, = f,(x)dx R2 a2 = .Í2(x)dx R^ f^(x) = CUnSt. const. ESTADISTICA ESPAÑU[.,.A ^$ El problema es elegir adecuadamente las regiones. Según el llamado lema o teorema de Neyman-Pearson, para toda tamaño o nivet de significación dado, la regresión crítica dada por la razón de verosimilitud es óptima (esto es, da máxima p^otencia o probabilidad de no cometer error en la hipótesis alternativa). En consecuenciz, conviene establecer una constante como cantorno que separe las regiones R,, R2, y que se base en la razón de verosimilitud. En este caso, la razán de verosimilitud dará como contorno separador de la regibn: .f,(x) = const., con la condición a, _ a2 ..Í^{x) (o bien, si se introducen diferentes probabilidades U pric^ri, n^, n 2: n,f^^(x) n af'2(x) = const . ). Se trata ahora de deterrninar esta constante. Si además introducimos el supuesto de normalidad en ambas poblaciones o clases, según el cual J'^(x) es N(x ^µ(,^, E) [4.1.2.j ,^2(x) es N ( x ( µ (2)^ ^) esto es, tienen distinio vector de medias µ^^), µ(2^ pero la misma matriz ^ de varianzascovarianzas, se verificará (véase Kshirsagar, 1972) camo se indica en [4.1.3j, que el doble del logaritmo de la razón de varianzas se expresa como función lineal de los vectores de medias, y la constante h que se trataba de determinar como contorno para la razón de varianzas vie ne dada por [4.1.4] . [4.1.3] 2 log^ ^ ^(x) . ( x) f^ , 1 , _ ^. x -- 2 [µ (^^ - µ ^2)] ^, en donde ^, = E ^'(µ ^,^^ - µ (z^) j4.1.4j 1 h = 2 ^'(µ (1^ + µ (2^) PANORAMICA ACTUAI. DEL ANALISIS DISCRIMINANTE 19 Pur consiguiente , se asigna la ubservación x a f i, o fI ^, según la desigualdad [4.1. 5] que se verifique ( *). Esta es 1a regla de clasificación u asignaci+^n adoptada. 1 ^. ' x > 2 ^c>> + µ ^2^), x a n ^ ' h x ^ 1 ( -2 1(y^ + µ(^^), x a n 2 Si [4.1.5] En cuanto al error de clasificación, viene dado pur [4.1.6], en donde Op es una expresión de distancia que más adelante se considera (*). Error de ciasificación: [4.1.6] para 0^ _ ^.'(N^I ^ - µcz^) = (µ^la -- µ^2^)'^-1(µ(^^ --- µ^2^) C'c>n estimaciunes insertas («plug-in») se sustituye a, + oc^ de [4.1.1] y[4.1.6] por el llamadu «error efectivu» ^ -^^ (X) ^^ ^ f^^(x)' ^, U2 (Guldstein y Dillan, 1978) ( * *) . 4.2. FUNCI(^N DISt'RIMINANTE LINEAL Una explicación intuitiva det criteriu basado en la función discriminante lineal es la siguienie: Se tiene dus distribuciunes normales unidimensíonales cun la misrna desviaeión típica y diférentes medias µ(^^, u^2^ representativas de las poblaciones o clases CI ^, f1^, y una ubservación x se asigna a la distribución cuya media esté más próxima. ( *) También pudría establece rse: .x a fl i ^1 R2, Si x E R, x E R, ^1 R^, x a[12_ x E(R, ^ R^) U(R,^} R2), se reserva el juicio. (*) Una división del espaciu en regiunes por bluyues estadísticamente equivalentes puede verse en Gessaman y Gessaman (1972). (**) Sobre ia estimación de f(x), véase apartado e} de ta sección 9, ESTADISTiCA ESPAÑOLA La probabilidad de error será tanto menor cuanta más separadas estén las medias, esto es, cuanto mayor sea (µ { ^) -- µ^i}) /^ . En consecuencia, la idea de R. A. Fisher fue ^ ha.ilar una combinación lineal de las p variables o caracteres considerados, de modo que hiciese máxima la razón o cociente de la diferencia de medias a la expresión de su variabilidad. El criterio es ahora hacer máxi^no este cociente como base de la regla de clasificación o asignaçión. Si la combinación lineal se designa por ^,'x, esto es, ^,x, + + 1^^x2 +,.. +^.pxv, se trata de hacer máxima la expresión [4.2.1] o bien ^,'BJ^./^.'w^. (*). [4.2.1) max ^ [µ(1^'x) en t7 ,^-- [µ t?^'x ) en n 2] = max [ var (^.' x )] v^ I ^' (é^ í^ t) ^ µ (2)) ( (^' ^ ^ } vz El valor máximo se obtiene derivando con respecto a^, de donde sale ^. _^-^ [4.2.2]. A1 sustituir en la razón o coci+ente se obtiene la expresión ©p . Estos resultados coinciden con los obtenidos con el criterio de fijación en la región critica con probabilidad mínima, que se desarrollá en la sección anterior. La razón de variabilidad entre clases y dentro de clases se escribe también con la notación D2IS, en donde D=^,,(^.^„ - ^ 12^ -^- . , . -^- ^1. p(µ p ^ - ^,1 p2} . [4.2.2] ^. _ ^-'(µ ^^^ - µf2)^) En la práctica no suele conocerse las medias µ^^^, µ^2^ ni las varianzas y covarianzas de la matriz ^. Si se dispone de muestra controlada o supervisada de i7 , y de f12, de tamaño n,, n^ se trata de obtener la función discriminante lineal muestral^ Z= l,x, + 12x^ +... + lpxp = 1'x y haciendo máxima la razón [ 4. 2 .4^ D2 S , para: D- Et(X11 - x12} -^ ... -F' Ip(Xp^ - Xp2} 2 S -- ^ ;_^ (Zlk - Z^)2 - n k_ é=1 ^; S W: + ^^ lh<<rh%SW^ S^h h<i ., Al derivar con respecto a las 1; _^.; para hacer máxima la razón, sale el sistema de p ecuaciones lineales con p incógnitas t;, de donde se obtiene el valor de estos coehcientes. (*) Para más de dos clases Cas soluciones de {8 - rW)3^ = 0 son ios valores propios de W;S. 21 PANORAMICA ACTUAL DEL ANAI.iSIS DISCRIMINANTE La regla de clasificación o asignación es ahora la siguiente: x se asigna a tl, si !'x - 1 2 1'{z^^^ + x^2^) >_ 0 1 ^ ^ n2si1'x- ^1„{x^^) + x^z, 2 !'X 1 > 2 (X^1^ -^- X^2^, Sl 1 1'x ^ 2 (x^,^ + x^i^), x a i12 en donde z^l^ _ (x`,,, ..., xP^) jIC^2) _ (X ^ 2, [4.2.5] . . . , XP2) Este es el llamado estadístico de clasificación de Anderson (véase Kshirsagar, 1972). La tabla o cuadro del análisis de la varianza que sirve de base al criterio de Fisher puede escribirse corno en [4.2.ó] . E1 valor máximo de la razón se obtiene, como se ha v i sto , para !-^o S-^^ d. ANALISIS DE LA VARIANZA PARA z= I'x g. de I. Suma de cuadrados Entre ciases ........... ........ Dentro de clases ............... 1 n, + n2 - 2 c•2(I'd)2 = c•ZI'dd'1' 1'SI Total .................... n, + n2 - I I'(S + cZdd')1 Fuente de variación [4.2.ó] en donde c es una const. indet., y d = i^- z2. Otro criterio relacionado con esta función es el de Penrose { 1947), quien sugirió considerar una función discriminante lineal óptima a partir de dos funciones lineales de x, dadas por: 1) la suma de componentes de x, y 2) un contraste (comparación) lineal de las mismas expresados en términos de sus desviaciones típicas {S. Das Gupta en Cacoullos, 1973), á las que dio el nombre de «tamaño» y«forma», respectivamente. Lo aplicó al caso de correlaciones iguales. ESTADISTICA ESPAIV()LA 22 Kshirsagar ( 1972} desarrc^lla este caso, en que la matriz E cc^mún a dos distribuciones normales p-variantes, t1 ^ y r-^ 2, es de ía forma: 1 PP •••P p 1 p ... p [4.2.7] E, _ _ (f - P)lp + PEPP L P P A continuación expresa la función discriminante ó' ^-`x, en donde ó es la diferencia de lus vectures cie las medias de fl ^, f12: d F^p i4.2.K] l h^x + P(1 - i^} i p E^ x 1+(P i ^)P P con ^d, h'x = E ^ j,d i,^ = x^ + ... + x^, Así pues, la función discriminante depende sulamente de los dos factores h'x y E lp = = x, + x2 +... («tutal siz.e»). + xP, yue Penr^se denomina «furma» («shape») y«tamañu total» En 1as aplicaciunes biulógicas del andlisis discriminante a órganos de seres vivus, cuandu ^ es del tipu particular [4.2.7], puede cunsiderarse c}ue E^Px mide ei tamañu del órganu y h`x su forma. Kshirsagar demuestra que estc^s factores de tamaño y f^^rma no estdn currelaciunadus, y pur tanto se distribuyen independientemente, y expresa la función discriminante de la fórmuia: ( 4. 2.y] á; cz ^ * n x + b`2 h'x ^2 cun ó*= dif. de medias c1e H^px í^ *= dif. de medias cft h'x a; = var(Ei^,x} _ ^r^(1 + ^^p - p) cs? = var ( h'xf = ^(1 - ^^) ^^ r^ . (^tnb12 ^sta expresión facilita la discriminación, yue sólo depende de dus factures, las varian^as y!as ciiferencias medias. Si ^ nu es det tipu particular [4.2.7], puede empe- PANORAMICA ACTUAL DE1_ ANALISIS DISCRlMINANTE 23 zarse por estandarizar cada una de las variables x; para que tengan varianza unitaria, y sustituir después las p; j, correlaciones entre x; ; xf , por el prumedio p de las correlaciones. Cuando las p;^ nu difieren mucho entre sí, comu c^curre en muchas aplicaciones biológicas y antropológicas, esta aproximación es económica y con poca pérdida de efíciencia. D ESARROL.LO DE C. R. R AO 4. 3. Designando como anteriormente pur n h las pusibilidades u pric^ri de pertenecer a la clase ^l h(h = I,.., m) y por C,,1 los costes o pérdidas al identiticar un elemento de clase h como perteneciente a clase j, se tiene como puntuación discriminante para la clase j-ésima Sj = - ^ nhfh (xk^hj h=1 [4.3.1) ( ji = l, 2, y el elemento se asigna a la clase para la cual es máxima Sj. Si se introduce el supuesto adicional de nurmalidad, cumo en la secc.^n 4.1, se obtiene, al prescindir de los c^hj, la puntuación discriminante [4.3.2] yue puede denominarse puntuación cuadrática de discriminación. Comu antes, se asigna el elemento a la clase que dé mayor valor a esta puntuación. [4.3.21 ^ 2 I ^I s^ _ - 1 lu8 ^^ 2 ^^ , - 1 (X ^ µ ^^^vl(x - Nij ^i - lc^grc. ^ Si además se supone que ^^ es la misma para tudas las clases, la puntuación discriminantes se reduce a[4.3.3], que vuelve a ser una expresión lineal. Este es el procedimiento que Lachenbruch (Cacoullos, 1973} denumina de la•func•ión disc•rimfnuntc^ múltiplE^ {MDF): [4.3.3j 5. 1 -I Sj = µ^j}E -' x--µtj) + lug n j 2 DISCRIMINACION POR DISTANCIA En el caso de conocimientu de las publaciones o clases, puede utilizarse cumu procedimiento toscu y rápido de asignación, la distancia mínirna ai centru de gravedad de cada clase. I 24 EST^IDISTIC.^1 ESPAÑC)L/^1 Ei cuadrado de la distancia euclidea del objetu a identi^car a la clase h-ésima viene dada por: (x+ - .z;h )2 = ^_^ js.l^ [Íh - ( -X' t - X 1 h ^ ^ -^- . . . -F- { XP _ x p,, ) 2 11r y de de^nición de Para utras expresiones de distancía como promedios, se pudrían obtener diferentes asignaciones. 1✓1 1lamadc^ cueficiente de similitud racial (Cuet^icient of racial likeness, CRL), intrcxlucidu pur ^.arl Pearson en 1926, incluía además ia tiispersión de las clases y tumaba comc^ distancia entre clases h y j ta expresión [5.2], o bien restandu ^ como currección. 1/2 [5.2] n {Xih - Xij^2 1 ^ ^ .^ - ^ 2 2 r, ^^ 1 S^h + ^^^ nh n^ I AI sustituir una de las clases por el ubjeto u elementu a clasificar, se obtiene la expresión [5.3j, ya que la ciispersión es cero para el objeto único que se considera. [5.3] ^, (X; - X;; S;^in^ La crítica más directa a estus prc}eedimientus se basa en que no tienen en cuenta las cc^rrelaciunes entre las variables, pero aún así sun de algún uso en el análisis de cunglumeradc^s. ^stas currelacic^nes se intrcxiucen en ia llamada distancia de Mahalanubis [5.4], que apareció cc^mc^ expresión del valur máxima de la razón en la sección 4.2. [ S.4] bp = (µ {, ^ - ^ ^2,) ^ - 1(µ ^ l, - µ c^>) D^ - (x^ ^^ - X^2^ )S- ^ (x^^ ^ -- x^2}) . (^tra expresión que tiene en c uenta la currelación es la de jvanovic [5.5], y existen utras, que como ésta pueden aplicarse a la distancia de un objetU o elemento a una clase. [5.5) (1 - ^j;. 12,...,j - t ) PANQRAMICA ACTUAL DEL ANAL.ISIS DISCRIMINANTE 2s C. R. Bose, en Krishnaiah (1977), pone de manifiesto que al definir la distancia de Mahalanobis por ^2 =-µ' ^- lµ , siendo µ el vecior de diferencias, la correspondiente 1 distancia muestral D; _- m'^ -'m[5.6] no es un estimador insesgado de d^. Para P que verifique la igualdad de esperanzas, se toma [5.7], introduciendo la recíproca de la media arrnónica. 1 02 = -µ' ^ 'µ P [5.6] D; _ ^ m'S -'rn ^ D2 = D2 - ? [5•?J ^ ñ en donde: 1 1 1 - _ - + ñ 2 n, I n^ R. C. Bose subraya la estrecha conexión entre la D2 y la T^ de Hotelling, generaliZación de la t de Student, y cómo la razón que max^miza R. A. Fisher es proporcional a D2. Otros procedimientos se basan en expresiones como la llamada u,finidud de Matusita (Cacoullos, 1973) entre dos distribuciones ,f',(x), f2( x) (véase [5.8]). Esta se relaciona con la [5.9] por la ecuación [5.10], y con la llamada distancia de Bhattacharya: arc cos [f^,(x),^^2(x)]'^2dx Y con la información de Kullback-Leibler: ltf^, , ,f z log ^` ^^ ,f ^ ^ dx se tiene ( Golsdtein y Dillon, 19?8): g P Ij P^ I(2: 1) _ ^P ^ 2^ log P^ P^^ 26 ESTADISTICA ESPAÑ4LA La expresión J ( l , 2) = ^ , ( P,^; - P^; ) 1og F^ mide divergencia, y facilidad de discriminación. Se usan tacnbién: t s . ^i P (1r^ ^ .f2 > = ,^ ^ ` .t^, ( x>f2t x> dx [5.9j ^tf^^ .^2> _ [^(`%.f,tx) -- v'.f2tx> zdx^ ^n d2 = 2[1 - Pl PCf,. ..., f„^) - ^ [f^(x), ... , .f,„(x)] [5.101 ^^^^^^ix 1^(x) = sup ( f f,(x}dx + ^ f^z(x)dxz^ J J. Tiago de (Jliveira (en Cacoullus, 1973} utiliza la distancia de Kolmogorov, Para el caso de variables discretas dicatómicas o binarias puede tomarse como distancia entre dos elernentos el cociente del número n de éstos que coinciden en tomar los valores uno y cero, por el número p de caracteres, La asignación de un elemento a una clase podria hacerse considerando las sumas de cuadrados de la diferencia de m valores, 0 ó 1, en cada componente, a la proporción de dicha clase. C.)tras posibles expresiones para atributos puede verse en Escudero (15^77). 6. EVALUACION DE RESULTAD()S La evaluación de los resultados puede basarse en el número o pruporción de errores cometidos, lo que suptane un previca trabajo de validación o comparación con la situación real. Estudios como la probabilida+d de clasifcación errónea en I^shirsagar ( í972}, que en caso de ser conocidos los parámetros de ias atribuciones normales de la clase viene dada por ^- 1^1p se basarian en el casu de dispuner solamente de muestras en 1 2 ^^ --- Dp . Ya se ciijo que D^p es un estimadur sesgadu que sobreestima ^ 2p , y por 1 2 consiguiente ^U ---Dp es una subestimación. Habría que sustituir el estimador inses2 gado mencionado en la sección 5. Sitgreaves ( en Cacoullos, 1973) prc^pone algunas características c^peratorias (C). C.) de las funciones discriminantes lineales, que pueden servir para su evaluación. PANt}RAMICA ACTUAL DEL ANALISIS DISCRIMtNANTE 2? Goldstein y Dillun (1y78) pruponen algunos métodos para la comparación de procedimientus, cun base a su efectividad relativa. Según la experiencia de estos autores, sólo aparecen diferencias significativas cuando lus procedimientos son muy diferentes en su aplicación a un cierto conjunto de datos. Se han efectuada estudios basados en simulación, o experimentos Monte Carlo de muestreo, pero no se ha llegada a conclusiones de carácter definiti vo y general sobre la superioridad de procedimientos. No ubstante, es de interés puner de rnanifiesto sus conclusiones: a) Los modelos lineales suelen dar resultados razonables, sin grandes diferencias entre lus que correspanden a distintus mudelus, pero la presencia de variables correlacionadas puede perturbar muchu su actuación. h) Yara vectures de medias parecidas, lus resultados nu fuerc^n buenUS, ni con los mudelos de función discriminante lineal, ni cun lus de Bahadur de primer urden. c^} Mejures resultadus se ubtienen cun lus mudelus de Martin-Bradley y con el de Bahadur en segundu urden. También se ubtuvierun buenos resultadvs cun lus procedimientus de distancia basados en lus cuaciradus de divergencia de Matusita. 7. ALG^ ^NOS ASPECTUS DE INTERES N N LA INVI-^,STIGACIUN i✓ n lu que se refiere a la situación y perspect^vas del análisis discriminante, pueden hacerse algunas cunsideraciunes generales. Desde los primeros trabajos clásicos de R. A. Fisher, en t936, no han cesadU de plantearse multitud de problemas, algunos de los cuales siguen siendo ubjeto de consideración y est^idic}. Sin embargo, pueden destacarse pur su mayur interés actual, algunus comu lus siguientes: a) fatirnuc^ic^ri clc^ lcjs ^urúrnf^tr^as a insertar («plug-in») en las funcic^nes discriminan- tes u utras expresiunes que se emplean en 1^^ asignación. Se supunen especificadas las distribuciunes, y adem^^s de lus prucedimientus clásicus, cumu el cie máxima verusimilit^^d, bayesianus, etc., siguen estudiánduse nuevus prc}cedimientus, así como el efecto de lus estimadures en lus errures de asignación y sus prubabilidades. b) Disc^^iu clc^ !u rr^rrc^stru, determinacicán de su tamañu, etc:., para c}btener dichas estimaciunes, e intvrmación general dt la situac;ión (^`). c) ^'stirriuc^ic^rz clc^ lcrs cc^stc-s, absc^lutus y relativc^s, de las asignaciunes incurrectas. (*) Un pr^^blc^ma que puede ^rt:sentarse es el de la esc^sez («spdrseness») de ubservaciones ante la abundancia c^ prulif'eración de estadc^s («state prulif'eratiun») u combinacic^nes pusibles de valc^res u mudalidades de ius ^^ tardctere s. zK ESTADISTICA ESPAÑOLA d) Métvd^as nr^ ^urum^tric^,s. t'uando nc) están especificadas las funciones de prababilidad, pueden estimarse por métodos coma el de los k puntos o patrones muestrales más próximos (* ), a par métvdos de funciones potenciales, como el de Parzen, etc. (véase Esc udero, 1977). Goldstein y Dillon destacan los trabajos de Gupta, basados en la distancia de Kolmogarov, los de dichos autores, aplicados a problemas pcsli o multinomiales, y los de Gorden y C^Ishen, que utilizan un algoritmo de particiones sucesi vas del es pac io m uestral. e) Los criterios hel^rr^^ ticc^s ( para hallar una salución «buena» aunque no sea óptima), entre los que deben citarse !os que determinan funciones lineales de separación (como en los del indremento fijo y de gradiente) (**), y los que se basan en distancias; entre é stas, las de distancia al punto más cercanu (SLC = N• N. = Mi • M. ó Single Linkage Cluster = Near^est Neight^our = Minimum Method), al más lejana (CLC = F.N. _ = Mx • M. o Complete LC • Furthest N= Max. M.) o pr©medios ( véase Escudero, 1977). A. K. Gupta c^nsidera el cas^ en que se efectúan replicaciones de cada abservación individual, la que constituye una situación típica en el diseño y aná.lisis de experimentos, especialmente en Bialogía y l^ ^^edicina. f) Sobre rnétodas sec•uenc^r'ales, basados originalmente en el SPRT de Wald, en 19d7, y más recientemente (196t^) en el métada modificado MSPRT, de Fu (véase Escuderu, 197?}. g) Sobre métodos bayesianc^s, además de su fundamentación (Escudero, 1977) y decisión basadas en el concepto de pérdida media, debe citarse el trabajo de Giesser en Van Ryzin (1977). Lachenbruch y Goldstein (1979) examinan algunos de los principales criterios de asignación, que tratan de establecer «buenas» reglas, como son las siguientes: 1. Minimizac•ivn del cc^ste dc^ usignacivn de indii^iduvs a poblaciUnes o clases. Se trata de elegir las regiones de asignación Dj para hallar: min ^ ^ P(Dj/ Ci;)p;cj, (D^) i j=- 1 esto es, para hacer minimo el coste de asignación. (*) Del vofumen de ta hipenesfera Vj =(2n)^^2 Dplr ^ , y siendo D la may©r distancia 2 de patrones al j-ésimo, se escribe h^(^,;) = 1/(Uj/K). (L. Escudero, 1977). (* *) En el primero se mod ifica el vector de coeficientes de la función discriminante lineal después de probar cada patrón, y en el segundo, después de una iteración completa. NANORAMICA ACTUAL DEL ANALISIS DISCRIMINANTE Suele admitirse que c•;; = 0, y que c^; se establece por el usuario o su asesor estadísticó. Muchas veces se toma c^; _ ! (si i ^ j) c ;; - 0 Así pues, este criterio minimiza la proporción general de errores («minimum overal! error rate», «minimum average errur rate»). Et inconveniente de esie criterio es que las proporciones de error pueden quedar distorsionadas. Así ocurre cuando se trata de diagnosticar una enfermedad muy poco frecuente, ya que en este caso, y cualquiera que fuese la observación, la regián asignaría casi todos los individuos a la clase de los no enfermos. 2. Minimización de los mcixirnc^s de las prcababilidades de c.•lusi•jic•uc•ivn ^rránea mi n (Dj ) 3. max ^ max ^ #' Y( D^/Il ;) Fijacicin de !a prvpc^rción de errures ^n (errur rutc^s) c^n [7 , y uc•eptac•ión de la proporc i©n que cc^rrespc^nde en ^! utrc^ ^rupr^. Esto supone fijar la sensibilidad o sensitividad y determinar la especificidad, en términos epidemiológicos. Así se hace cuando la asignación constituye un cribado 0 tamizado de primera línea, como en ius estudios (screening prujects) de tuberculusis. Una vez establecido el criterio, que puede o no ser alguno de los antes mencionados, la clasificación de métodos se refiere a lus supuestus relativos a la distribución que corresponde a cada clase o población. Estos supuestos pueden cruzarse a doble entrada cun lus criterios anteriures, y son los siguientes: u) Se cunucen !as distribuciones f,, f'^ de la variable aleaturia en cada clase o población ( especificación cumpleta). b) Se cunoce la familia u furma funciunal de las distribuciones, perc> nu el valur de un parámetru. c) No se conocen las distribuciunes. En el primer casu, la expresión a minimizar es una función de (j^, ,/4, D, , D^): p, ^ .Í',(x)dx + laz/'.^'2(x}dx JDz ./D' ESTADISTICr^1 ESPAÑOLA y la regla de decisión viene da^cia pur las regic^nes óptimas: D^ = x: f'lx} >_ ^` , D,^ _ .f^^(X^ 9. : ^^ .^z(X1 .Í^(x) ^ PZ P^ ALGUN^JS TEMAS DE INTERES ACTUAL . P. A, Lachenbruch y M. G^lcistein (197y) destacan algunas de las áreas de investigación de mayur interés actual, que se referen a lus temas siguientes: a) R^^bustez De acuerdv cun el significado general de rubustez, se considera que una regla de asignación es rubusta si apenas resultan afectadas las propc^rciones de errur cuando no se mantienen los supuestos básicos. Las investigaciones de Lachenbruch se refieren concretamente a los siguientes aspectc^s: - R^^bustc^; f'r^nte u lu c•lusífic^c-rc'iún c^rrcin^u dc^ lus mtcE^strus inic•iules, v d^ ^ntrenamientc^ o u^rendizuj^. Si 1a proporción de ciasificación errónea de estas muestras fuese la misma para ambas poblaciones, nc^ tendña efectu en la función discriminante lineal. - Rvbustez pvr nc^ uleutr^ri^dad de lu c•lasi^rucic^n errcinE^u inieiul. ^uando algunos individuos ^ie la i.lase Il, están mucho más próximos a la f12 que los demás de I7 ^, hay una notable distorsión en la proporción aparente de error, aunque no lo haya en la proporcián efectiva. - Robustez ,fr^nte u clasificuc'tUnPS inic•iul^s E^rrónc^us puru func•ic^n disc•riminunte cuudreática. Así comc^ la función discriminante lineal nc.a es sensible a errores de clasi^cación inicial, la cuadrática sí lu es, y ambas proporcic^nes de clasificación errónea resultan desfavorablemente afectadas. - Robustez frent^ u c•lusific•uc•ic^rtes inic•iulc's c'rrc^nc^u.s ^uru ,func•iunE^.s disc•riminantes c•utc^gvric•us . Cuando lus datos no son cuantitativus (caracteres cualitativos, atributus, variables cualitativas o categóricas) nu pueden utilizarse funciones discriminantes como las antes PAN(>RAMIt'A ACTL;A1. Uf-:l_ ANALISIS DISC'RIMINANTE 31 menciunadas, sinu m^^cielus categcíricu^ para la clasificación basada en vectures dicutómicus u pulicutómicuti. Te^davía nu se dispc^ne de estudius satisfacturiamente amplius subre lu^ efectos de lus errures en la clasificación inicial para funciunes discriminantes categóricas. Según Lachenbruch, sería de es perar que lus efectus nu fuesen muy diferentes de l^s que aparecen en lus estudius de clasificación errónea en tablas de cuntingencia múltiple. b) (^hsc^r^'clc•IUrINS urtvmulus Muy relacic?nadus cun lus aspectus de rubu:^tez están 1us de inclusión de ubserva- ciunes ^^nómalas u cuntaminación, entre lus cuales pueeíen distinguirse los siguientes: -- C'c^rtturrrir^clc•ic^rt c^c^ c^sc•ulu Se da este tipu de cuntaminación cuandu una u ambas clases u publaciones cuntienen una pequeña t^racción cun individuus que pruceden de una distribución con igual media peru mayur varianza ( uSU de instrumentus de medida cun diferente precisión). Subre cuntaminación cie escala puede verse el trabajc^ de Ahmed y I.achenbruch, en Van Ry^in, ed. ( 197K). - C^c^rtlurrtinuc'icyrt c^c^ j^c^sic'ltírl N ste tipu de cuntaminación se dehe a que hay medicias u lecturas sesgadas para una peyueña fraccic^n de lus individuus de una u ambas clases (usu de instrumentos c1e medida cun un errur sistemáticu u desviación en la calibración, u«slips ín calíbratiun») (*)• f:ste tipu de cuntaminación puede pruducir mciyur ef'ectu que la cuntaminación de c^scala, en particular cuandu la media de la distribución cuntaminante está al lado upuc^stu de la media de la publacíón nu cuntaminada. c) 1)i.ti•trihtcc•i^,ric^s c^ijc^rc^ntc^s clc^ lu rtr^rntul ^:ntrt^ Ic^s c^^^t^^ yut han sidu t^^t^Rdia^lus c^stán lus de variables dicutómicas, distribu- ciunes lugnc^rmale^, y utr^is ciistribuciunc^^ cun v^^lure^; medius u extremadus de la asimetría y c^t la c^irtc^sis. Se hallarún en varius casus prubabilidade5 de clasificación errónea (prupurción de errc^^ re^> ^^cperiures a las óptimas, cunveniencia de usar estima- (*1 Pi^ede cunvenir el emple^^ cie estimaclures rubustus: recc^rtacic^s, ^ ^^vinsurizadc^s, trieentílieos, Hudges-Lehman, u bien «hube rs» ,«harnpe ls» , etc ., cumu dicen Lachenbruch y Guldstein (1979). ^2 ^STAUtSTICA ESPAÑC)LA dores robustus (p. ej., medias y cuvarianzas recurtadas) si la distribución es muy asimétrica. d) Desiguulduwr^t en !US dispersrr^nf^s t^ rnutrices c.le ^ ^^riunzas-c^u ^ ^ur^an^us Es importante estudiar el efeeto en las funciunes discriminantes de la desigualdad en la dispersión. Esta situacitín, que ya fue estudiada pur T. W. Anderson y R. R. Bahadur ( 19fi2), y más adelante pvr Gilbert ( 19ó9) y otr^s, y se trata en obras com^ las de Kshirsagar (1972), ha sidu ínvestigada por Marks y Dunn (1972) en cuantu a su efecto en el camportamiento de la función discriminante. Para muestras pequeñas y diferencias generales, parece resultar más afectada la f. d. cuadrática que la lineal. e) Estimucéón d^ !as func^ic^n^s d^ d^nsidud y r^xlus nc^ purum^tric^us Para los métodos de ciiscriminación basados en la razón de verusimilitud f', /^f'2, se hace necesario estimar estas funciunes, si nu sun cunocidas cumo suele ucurrir en la práctica. En tal ^casión es interesante el estudiv de la precisión de esta estimación (véase, p. ej., Kshirsagar, 1972). Por otra parte, aunque sería preferible estimar directamente la razón de verosimilitud, este tipo de estimación nu está satisfacturiamente desarrollado. Sería conveniente extender el uso de estimad^res no paramétricos, estu es, sin especificación previa de f^(x). Puede verse a este respecto un trabaju de Wegman (1972) y otro de Wahba (1977) sabre algoritmus yue permiten cibtener, a partir de lus datus, estimaciones óptimas de ciertos parámetros de compensación o suavización (la uptimización debe entenderse en el sentido de mayur acuracidad, u sea, menur errur mediu cuadrático, ya que hay que llegar a una transacción entre precisión e insesgamientu} (*}. Por otra parte están las reglas no paramétricas, que no requieren estimar densidades, como en los métodos ya citados del «vecinu más próximu» . Deben mencionarse asimismu lc^s métodus que se basan en las distancias entre distribuciones, c^mu los de K. Matusita, D. S, Gupta, y más recientemente, Diliun y Groldstein (1978). En cuantu a métodus nc^ paramétricus deben menciUnarse también lvs de Gordon y Olshen (1978). Estos autures emplean una clase de regla de decisión basada en la partición adaptativa de un espaciu euclideu de ubservaciunes. ^.'un ciertas (*) Sobre estimación de f(x} puede verse Gessaman (1972>, D. Das Gupta en Krishnaiah (1977), página 462, y Lachenbruch y Golstein (197t3). Son clásicas las estimaciones nucleares (kernel estimates) y las cornbinaciones lineales de funciones de Hermite. PANORAMICA ACTUAL DEL ANALISIS DISCRIMINANTE 33 condiciones de suficiencia, la sucesión de reglas de decisión da probabilidades de error que al aumentar el tamaño de la muestra tienden a las que se obtendrían por métodos bayesianos. Otro aspecto interesante, desde el punto de vista teórico y no de aplicación práctica, es el caso de variables mezcladas, en el sentido de que los datos contengan componentes continuas y discretas. f} Selec•ción de caracteres (variables c^ artributc^s) La selección de caracteres, características o variables es previa a cualquier trabajo de clasificación, tanto en el sentido de formación de clases (análisis de conglomerados, taxonomía, etc.} como en el de discriminación. En la extensa literatura disponible sobre reconocimiento de patrones pueden verse consideraciones sobre este tema. L. F. Escudero (1977} da numerosos ejemplos prácticos de selección. Suele empezarse el estudio con gran número de caracteres para proceder después a una selección de los más expresivos, a veces en dos o más etapas, hasta conseguir la efectividad deseada en la clasificación. Como en otras ocasiones, reaparece el problema de la transacción entre desiderata: beneficio (información, discriminación, bondad de la clasificación) frente a coste (número de caracteres, su requerimiento de tamaño de muestra, volumen del trabajo, etc.). Una comparación detallada de procedimientos de selecciá ^ n puede verse en Goldstein y Dillon (1978), basados en la jerarquización de variables con diferentes criterios, en el riesgo de clasifcación errónea y en otras consideraciones. g) Discriminación bvrrvsa Otro campo en que la investigación presenta gran interés, es el de la que puede llamarse discriminación borrosa. J. C. Bezdek y S. D. Harris ( í978) han establecido conexiones entre particiones borrosas y relaciones de similitud, ya utilizadas en análisis de conglomerados. M. Roubens (1978) propone una presentación unificada de los algoritmos clásicos de conglomeración y taxonomía estadística y matemática, que pueden aplicarse a problemas de clasificación, tanto si son nítidos como si son borrosos. En esta línea debe recordarse que las reglas de decisión nítida ya han sido extendidas en diferentes trabajos a situaciones borrosas, lo cual las haría aplicables a problemas de discriminación. En efecto, se dan muchas situaciones reales en que la población o clases no tienen una línea de separación marcada, sino más bien zona de separación indecisa o borrosa. 34 lU. ESTADISTICA ESPA^^©LA COMENTARI(JS FINALES Además de los dos ^abjetivos principales de la clasificación en ,general, mencionados en la introducción, que son formar clases y asignar a clases, otro sería ei estudio en profundidad de las diferencias entre clases. Se podría así mejorar la aproximación a los dos objetivos anteriores. Como ha dicho A. K. Gupta (1974), todo procedimiento de clasificación debe ponerse al día después de utilizarlo durante cierto tiempo, por las posibles variaciones en los elementos que constituyen las clases. Lo que esto si,gnifica es que el estudio de las clases debe hacerse en continuidad además de en profundidad. Se ha señalado ( véase, p. ej ., S. Geisser, 1977) que el análisis discriminante es una técnica yue resulta más útil en ias etapas primitivas o laxas de una disciplina, cuando las nociones son borrosas, las mediciones toscas, y las relaciones vagamente entendidas. Estas consideraciones apoyan la importancia de introducir los conjuntos b©rrosos en ia técnica de discriminación, como se indica en el apartado g) de la sección anterior. Por otra parte, C. A. B. Smith ( i977) advierte a los usuarios del análisis discriminante que al enfrentarse con u n problema debe considerarse si éste constituye un instrumento más adecuado que otras posibles técnicas de investigación y de acción. Se pone de manifiesto en todo caso el aspecto mayéutico de estas técnicas, como de la Estadística en general , también mentora y ministra de las ciencias, y la necesidad de pensar y pesar antes de decid ir el camino adecuado. BIBLIOGRAFIA SOBRE ANALISIS DISCRIMINANTE (OBRAS) ANDERSON, T. W. (1972): An Introducti©n tv 11^lulti^^ariate Statistical Analysis. ANDERSON, T. W.: (1972). A Bibtir^graphy vf Multivariate Statistic•al Analysis {Oliver and Boyd} BARTLETT, M. S.: «Multivariate Analysis^, en Theoretical and Mathematical Biology, de Watermen and Morowitz (1965). BtsNOP, Y. M. M.; F[ENBERG, S. E., and HoLLAND, S. W. (1975}: Discrete Multivariate Analysis. Thervy and Practice (M IT Press). BLACKITH, R. E., and REYMENT, R. A. { 1971): Multivariate Morph^^metrics (Academic Press). CACOVLLOS, T., ed. (1973): Disc•riminant Analysis and Applic•ati^ns (Academic Press, N. Y.). Cox, D. R. (1970): ^he Analysis c^f Binary Data (Methuen). Cox, D. R., and HtNtc.t.EY, D. V. (1974): Theoretical Statistics (Chapman and Hall). DAVtD, F. N. ed. (196ó): Research Papers in Statistics Festsc•hrift for J. Newman (Wiiey). ESCUDERO, L. F. (1977): Reconc^cimientu de patrunes (Paraninfo, Madrid). ESCUDERO, L. F., ed. (1981): Avances en Prc^gramac•ión Matemátic•a (SEIOEI, Centro IBM-UAM). PANORAMICA ACTUAL DEL ANALISIS D[SCRtMiNANTE 3S GoLDSTErN, M., and DILLAN, W. R. (1978): I^iscrete Discriminant Analysis ( Wiley}. GuPTA, A. K. ( I974): Classifrcation by 11^ultiple Observation (Techn. Report. no. 42. The Univ. of Michigan) . HoEL, P. G. (1947): Introduction to Mathematical Statistics (Wiley). KEMPTHOiWE, O., et alia (1954): Statistics and Mathematics in Biology (The lowa State College Press). KEI^DALL, M. G. (1946): The Advanced Theory of Statistic•s (Grifiin). KRISHNAIAH, P. R., ed.: Multivariate Analysis (North Holland). KRUSKAL, W. H., and TANUR, J. M. (1978): International Encyclopediu of Statistics (Macmillan and Free Press). KsHIR,swGAR, A. M. (1972): Multivariate Analysis {Marcel Dekker). LACHENBRUCH, P. A. (1975): Disc•riminant Analysis (University of Michigan). RARO, C. R. (1965): Linear Statistic~al Inference and Its Applicutions ( Wiley). SKARABIS, H. { 19?0): Math. Grundlagen u paktische Apekte des Diskriminatiun und Klassifikatian (Physica Verlag, Wiirzburg). SoKwL, R. R., and SNEATH, P. H. A. (19ó3): Principles vf Numerical Tazvnomy (Freeman). So1.oMON, H., ed. (1961): Studies in Item Analysis and Predic•tion (Stanford Univ. Press). Vwtv RYZIN, J., ed. (1972): Classifrcation and Clustering (Academic Press). WATERMAN, T. H., and MoROwiTHZ, H. J., eds.: Theoretical and Mathematical Biolvgy (Blaisdell, P. C., N. Y.). BIBLIOGRAFIA SOBRE ANALISIS DISCRIMINANTE (ARTICULOS) AHMED, S. W., and LACHENeRUCH, P. A. (1977): Discriminant analysis when scale contan:ination is present in the initial sample (ver Van Ryzin). ANDERSON, T. W., and BAHwDUR, R. R. (1962): «Classification into two multivariate normal distributions with different covariance matrices» . Ann. Math. Stat. , vol. 33, p. 420. BAHADUR, R. R. (1961): «A repnesentation of the joint ditrib. of response to dichotomous items» . Ver H. Solomon, ec. BERKSON, J. (1955): «Max lik. and min-X2 estimation of the logistic function». JASA, 50, p. 130. BEZDEK, J. C., and HAttR^s, J. D. (1978): «Fuzzy partitions and relations» (Fuzzy sets and systems, vol. 1, n.° 2, p. lll). CHAtv, L. S., and DuNN, D. J.(1972): «The Treatment of Missing Values in D. A.» . JASA, vol. 67, p. 473. CHERNOFF, H. { 1980): «The identification of an element of a large population in the presence of noise» . The Annals of Statist., vol. 8, p. 1179. CocHRwtv, W. G., and HoPKtNS, C. E. (19b1): «Some classification problems with multivariate qualitative data» . Biometric s, 17, p. 10. 3ó ESTADISTICA ESPAÑOLA CoRNF3ELD, J. (19ó7): «Discriminant Functions». lnt. Stat. Rev., vol. 35, p. 142. Cox, D. R.: «Some pracedures associated with the logistic qualitative response curve». Ver David, F. N., ed. Cox, D. R., and BRwNnwoo^, L. (1954): «On a discriminatory problem connected with the works of Plata» . J. R. S. S. , B, vol. 2 l, p. 195. Dws GRU^rA, S. (1973): «Theories and Methods in classification: A riew» . Ver Cacoullos, T. DILIAN, W. R., and GowsrEnv, M. C. (1978): «On the performance of some multinomial classification rules». JAS.^, vol. 73, p. 305. FISHER, R. A. (193ó): «The Use of Multiple Measurements in Taxonomic Pt•oblems» . Annals of Ewgenics, vol. 7, p. 1?9. GESSwM^^N, M. P., and GESS^tNwN, P. H. (1972): «A comparison of some multivariate discriminant procedures». JASA, vcat. 67. GE1ssER, S. (1977): Véase Van Ryzin, J. GILBERT, E. S. (19ó8): «Un discrimination using qua]itative variables» . JASA, vol. 63, pp. 13-99. CiILBERT, E. S. (19ó9): «The ef^ect of unequal variance-covariance matrices of Fisher's linear d. f.». BiornPtrics, vol. 25, p. SOS. GoRDON, L.; C^LSHEivt, R. A. (1978): «Asymptotically efficient solutions to the clasification problem». Ann. af Stat., vol. ó, p. S 15. H1L1s, M. (1967): «Discrimination and allocation wíth discrete data». J.R.S.S.. C, vol. lb. Horx:ES, J. L„ Jr. (1950): «Discriminaiory Analysis: A survey». Rep. N. l, USAF School of Aviation Medicine, Randolph Field, Texas. IswACSON, S. L. (1954): Véase la obra recopilada por Kempthorne, (^. et alia. JOHN, S. C. (1%1): «Errors in discrimination» . Ann Math. Stat., 32, 4. KoPEC[NSx[, B.: «Discrimination by means of dendrites». Zastor. Math.> S, 3. KRZANOWSKI, W. J. (1975): «Discr^nination and classification using both binary and continuous variables» . JASA, vol. 70, p. 782. KRZANOWSKI, W. J. (1976): «Canonical representaiion of the location mo ^del for discrimination or classification» . .IASA, voi. 71, p. 845. KRZAN4WSK1, W. J. (1977}: «The p^erformance of Fisher's linear d. f. inder non-optimal condition>^ . Technvrnetrics, 19, p. 191. KSNIRSAC,wR, A. M., and ARS^vEN, F. (1975): «A note on the Equivalency of two Discrimination Procedures». The Amer. Statrst., vol. 29, p. 38. LACHENBRUCM, P. A., and GoLasTEav, M. (1979): «Discriminant Analysis». Biarnetrics, 35, p. 69. MwHwLwNOels, P. C. (1936): «On the Generalized Distance in Statistics» . Indias, 2. Prac . Nat. Inst. Sei. , MARxs, S., and DuNN, O. J.{ 1974): «Discriminant functions when covariance matrices and unequal» . JASA, vol. ó9, p. SSS. MATUSiTA, K. (19SÓ): «Decision n.lle, based on the distance for the classification Statist. Math., 8, p. ó7. p.» . Ann. Inst. PANORAMICA ACTUAL DEL, ANALISIS DISCRI^+IINANTE 37 MooRE, D. H. (1973): «Evaluation of five discrimination procedures for binary variables». JASA, vol. ó8, p. 339. NAIR and Mu^cEwl (1960): «Classification of natural and plantation teak> ^ . Sankhya, 24, 1, 2. OTTESTAn, P. (1975): «Discrimination Analysis^. Int. Stat. Re^}., vol. 43, p. 3U1 (1975). PENROSE, L. S. (1947): «Somes notes on discrimination^ ^ . Ann. Eugen., vol. 13, p. 228.. FEttE[RA, B. de B. (197^): «Discrim inating among Separate Models: A Bibliography» . Int. Stat. Re^^. , vol. 45, p. 163. PRO, R. (1976): «Aplicaciones del A. D. en la Banca^. Coloquio lnternacional de Estadística e I. O., Madrid . Rwo, C. R. (1948): «The Utilization of Multiple Measurements in Problems of Biological Classification^». J.R.S.S., B, vol. 10, p. 159. RoueENS, M, C. (1978): «Pattern classification problems and fuzzy sets» . f^'. S. and Systerns, vol. l, No. 4, p. 239. SoRUM, M. J. (1971): «Estimating the Conditional Problem of Missclassification>^ . Technc^mPtrics, vol. 13, p. 333. SoRUM, M. J. (1972): «Three probabilities of missclassification» . Technometrics, vol. 14, p. 309. STOLLER, D. S. (1954): «Univariate two-population distribution free discrimination^ . JASA, vol. 49, p. 770. VoN M^sES, R. (1945): «On the classification of observation data» . Ann. Math . Stat. , 16, p. 168. WAHSw, G. (1977): «Optimal smoothing of density estimates» . Ver J. van Ryzin, ed. ^ WALO, A. (1944): «On a Statistical Pmblem Arising in the Classifrcation of an Indificual into one of two groups>^ . Ann. Math. Stat.. 15, p. 145. WEGMAN, E. J. (1972): «Nonparametric probability density estimation I». Technometric•s, 14, No. 3, p. 353. WELCH, B. L, (1939}: «Note on Discriminant Functions» . Biometrika, 31, 218. SUMMARY This is a survey of the antecedents and principles of discriminant analysis and its relationship with pattern recognition. Different approaches, models and techniques of classification and assignment are examined, and some of the main aspects in current research, such as robustness, contamination, specification, estimation of density functions and non parametric rules, and fuzzy discrimination. Key words: Discrimination, assignment, discriminant analysis and functions. AMS, 1970 Subject Classification: 62H30.