ESTADISTICA ESPAÑOLA Vol. 36, Núrn. 137, 1994, págs. 327 a 387 Estimación robusta por RUBEN H. ZAMAR University of British Columbia RESUMEN En este artícula se presentan algunos enfoques recientes de la teoría de estimación robusta, particularmente resultados en el área de minimización del sesgo máximo. Se describen algunos estimadores robustos de regresión y se introduce la definición de curva de sesgo máximo. Se discute !a relación entre esta curva y la sensitividad a errores groseros. Estos conceptos se ilustran en el caso de modelos sencillos de posición y dispersión. Palabras clave: estimadores minimax, sesgo máximo, sensibilidad a contaminacíones. C/asificación AMS: 62Jxx, 62H12. 1. INTRODUCCION Una práctica muy común en estadística (tanto teórica como aplicada) es suponer que los datos han sido generados por un mecanismo aleatorio y que éste puede ser representado por un miembro F^ de la familia paramétrica de funciones de distribución ^={F^:HE O} [1] E^.^EAE^I^TI(^^1 E^^Ei,1tic)I„^ La característica más sobresaliente de estos modelos matemáticos es la suposición de que el mecanismo aleatorio que generó las observaciones es totalmente conocido a excepción del parámetro desconocido e. Naturalmente, el principal problema en estos casos es la estimación de e usando un estimador 6„ con buenas propiedades estadisticas: sesgo pequeño o nulo y varianza pequeña. Un método que, en general, satisface estos requerimientos es el método de máxima verosirnilitud. Muchos de los métodos de estimación usados en la práctica fueron derivados a partir de modelos paramétricos, notablemente modelos normales o gaussianos. Además, las prapiedades estadísticas de estos métodos han sido estudiadas a la luz de tales modelos. Desafortunadamente, ios mecanismos aleatorios que producen los datos en la práctica muy raramente obedecen con exactitud a un modelo paramétrico. En muchos casos, sin embargo, el modelo paramétrico provee una razonable aproximación del mecanismo estocástico F que cantrola la generación de las observaciones. En resumen, la utilización del modelo [1 ] y, consecuentemente, el empleo de ^ estimadores de máxima verosimilitud 8„ se justifica usualmente por los siguientes argumentos: a) EI modelo [1 ] se cumple aproximadamente. b) Las buenas propiedades del método utilizado para estimar 9{máxima verosimilitud) son continuas, de manera que, si el modelo es aproxima^ damente válido, entonces en es aproximadamente óptimo. Mientras que la propiedad (a ) es cierta con frecuencia, la propiedad {b } no lo es en muchos casos que incluyen el importante modelo normal. En efecto, puede demostrarse que la eficiencia de la media aritmética X{el estimador óptimo bajo el modelo de pasición normal} puede ser arbitrariamente próxima a cero para distribuciones que son arbitrariamente próximas a la normaf. Si, por ejemplo, tenemos veinte mediciones independientes X; = µ+ E; , diecinueve de las cuales son normales con desviación típica . 03 y una es un outlier x, y si el promedio de las diecinueve observaciones normales es 1.0, entonces X=.95 + +.05x ^^, si x-^ ^. Si, por ejempfo, x= 2.8, entonces X= 1.09, a pesar de que, en este caso, las diecinueve observaciones normales estarán típicamente contenidas en el intervalo (0.91, 1.09). Además, las densidades normales N(^, 6) y .95N (1, 6} + .05N ( 2.8, 6) (a = . 03) son prácticamente indistinguibles, EI ejemplo del párrafo anterior muestra que el estimador de máxima verosimilitud bajo el modelo normal ( en este caso, la media muestral) puede producir estimaciones muy ineficientes si los datos son producidos por una distribución que es próxima, pero no exactamente igual, a la normal. La conclusión, en mi opinión, es que el hecho de que el modelo normal es solamente una buena E•:ti^^fl?^^tAC'ION itOBt'S'fA ^?y aproximación del mecanismo aleatorio que generó las observaciones es algo que debe tenerse en cuenta explícitamente en el momento de escoger el estimador µn de µ. Una manera de incorporar explícitamente ia cuestión de la naturaleza aproximada del modelo paramétrico F,^ es suponer que la distribución F pertenece a la familia ^^ definida como .^E _ { (1 -- E) F^ + ^H : 8 E O} [2) donde o<^< 0.5 es fijo y H es arbitraria y desconocida. Esta familia de contaminación inicialmente propuesta por Tukey es rnuy simple y, además, re#leja fielmente situaciones en que la mayoría de !as observaciones provienen de! modelo [1 ], pero una pequeña fracción ^ de las observaciones son outlíers generados po r H. Por supuesto, hay otros tipos de entornos de F® que podrían usarse en lugar de [2]. Por ejemplo, entornos basados en distancias entre dístríbuciones como la distancia de variación total o la distancia de Levy. Sin embargo, el entorno de contaminación [2] tiene la doble ventaja de ser simple y apropiado. EI comportamiento de un estimador consistente 6„ de e, bajo el modelo paramétrico^ Fe , puede medirse de forma natural en términos de la varianza asintótica A V (e„ , Fg ). Por otro lado, cuand© uno supone que la distribución F es un ele^ mento de ^^, los estimadores 6„ serán en generai asintóticamente sesgados y, por lo tanto, el sesgo asintótico es un aspecto importante a considerar. Otro aspecto importante es el hecho de que la distribución F no está completamente especificada, puesto que H es desconacida. En lo que sigue supondremos que el es#imador 8„ depende de los datos únicamente a través de la distribución ernpí rica Fn (z) =n 1 ^ bz,(z) donde ^ Z (z )= 1 si cada elemento del vector z es menor o igual que el correspondíenté elemento del vector ^; , y b Z( z )= 0 en otro caso. Por lo tanto, 8n , puede escribirse corno ^^O E^_^^1^^^[^)I^^T^^I(':1^ f^S1'A:^i^E.,1 n También supondremos que el funcional H(F^ ) admite una extensión natural ^ H(F), con F en un conjunto de distribuciones que contiene a la familia F. Finalmente, supondrernos que el funcional 8 (F) es Fisher consistente: n 6(Fe)=8, b'6E O A y que e^ ( F^ ) es consistente: ^ ^ lim ^ (F^ } _ 9 {F), a.s. ^F] ^ para toda F E F. . Como, en general, H( F)^ 6 cuando F^^F , deberemos pres^ tar especial atención a la cuestián del sesgo asintótico de 8{F„ ). A menudo, el espacio paramétrico O tiene ciertas propiedades de invarianza (o equivarianza} que deben ser respetadas por la medida que se proponga para evaluar el sesgo asintótico. Por ejemplo, en el caso del modelo simple de posición y dispersión [^ _(µ, 6}J, las medidas del sesgo asintótico del estimador µ{F„ ) de µ y del estimadar á(F„ ) de 6 deben ser invariantes ante cambios de posición y escala. Por ejemplo, las medidas de sesgo lµ (F)-µl 6 Y ^s (F) ^ 6 -1^ poseen las propiedades de invarianza deseadas. En general, el sesgo asintótico del estimador 8(F) cuando F varia sobre .^t; , puede definirse coma ^ b^{F,e}=d[9((1 -^) F^+^H), 9] donde d es una distancia que respeta las invariancias naturales del espacio O. En este artículo únicamente consideraremos estimadores que tienen las propiedades de equivarianza requeridas por la naturaleza del espacio paramétrico. Por ejemplo, sólo trabajamos con estimadores de posición que son equivariantes ante cambios de posición y escala y con estimadores de dispersión que son invariantes con respecto a cambios de posición y equivariantes con respecto a cambios de escala. En vista de las propiedades de invarianza de la distancia d y de las propiedades de equivarianza de ios estimadores considerados en este ar- F:^f1^1,^^c'!c)ti Kc)Bl':^ 1 :^ ^^I tículo, podemos concentrar nuestra atención en un valor canónico Ho de H, como, por ejemplo, H^ _(0, 1) en el caso de rnodelos de posición y dispersión. Más precisamente: ^ bé (F, 8) = d^ 8((1 -- E) FA + cH), 8] ^ = d[ 6((1 -- E} Feo + EH ), 80] Por ejemplo, en ef caso de modelos de posición y dispersión, los sesgos del estimador µ( F) de posición y 6( F) de dispersión se reducen a lµ (F)-µl ^ =^µ(F)I a Y ^ 6 (F) ^ ,^ --1 (=^a(F)-1 ^ E6] respectivamente. Este trabajo está organizado como sigue. En la sección 2 discutiré los dos principales aspectos de la teoría de robustez: eficiencia y estabilidad. En esta sección también mencionaré brevemente los diferentes enfoques utilizados para medir la estabilidad de un estimador. En las secciones 3 y 4 describiré dos irnportantes familias de estimadores robustos de regresión. En la sección 5 ilustraré el cálculo de la función de sesgo máximo y la derivación de estimadores de sesgo minimax en el casa del modelo simple de posición. En la sección 6 daré algunas conclusiones. 2. DEFINICIONES DE ROBUSTEZ Ahora pasaremos a consíderar diferentes formas en que se puede medir ia ^ robustez del estimador 8 de 6. Habiando en términos generales y desde un punto de vista ampiio e infor^ mal, se puede decir que el estimador {o funcianal) 8 (Fn ) es robusto si su cornportamiento es relativamente bueno y estable cuando F varía sobre el entorno ^ ^f del modelo paramétrico F^. En otras palabras, el estimador 6(F^ ) debe poseer las siguientes dos propiedades: EF1ClENCIA: 6 (Fn ) se comporta bien cuando el modelo paramétrico central F = F^ se satisface. F^!i l A[)15.^ 1('r1 E-.^PA!^i()I^A n ESTAB/LIDAD: EI buen comportamiento de 6{F^ ) se preserva cuando F varia sobre _`^._ . ^ Para cumplir el requerimiento de eficiencia, 8{F„ ) debe ser comparabie con ^ el estimador de máxima verosimilitud ^(F^ ) cuando F= Fe. Más precisamente: ^ 1. 9(F} debe ser consistente en el sentido de Fisher ^ e(F^}=8,de ^ 6{ F) debe ser asintóticamente normal, con matriz de covarianzas C^( F) y 2. traza { C ^( FH }} ^ 1+ b traza { C ,^ ( F^ ) } [7] donde ^> 0 es un número pequeño (b = 0.05 y^= 0.10 son valores usuales de s). Notemos que la eficiencia asintótica de un estimador multivariante se puede medir de manera natural en términos de la traza de su matriz de covarianzas asintótica, esta es, de su «varianza asintótica generalizada». La formalización del requerimiento de estabilidad ha dada lugar a varios en#oques en la teoría de robustez: Robustez Cualitativa, Robustez Cuantitativa y Robustez Infinitesimal. Gada uno de estos enfoques será brevemente discutido a continuación. Robustez Cualitativa ^ Este enfoque, iniciado par Hampel (1971), considera que el funcionai 9(F} ^ es estable {cualitativamente robusto) si 8 es continuo en una cierta manera {los detalles técnicos pueden encontrarse en la referencia). Robustez cualitativa es una propiedad muy básica y, por lo tanto, estimadores que no poseen esta propiedad pueden ser descartados desde el punto de vista de la robustez. Por otro lado, esta teoría no es completamente satisfactoria por cuanto no permite comparaciones dentro de la clase de estimadores que son cualitativamente robustos. Robustez Cuantivativa Este enfoque, originado por Huber ( 1964), intenta cuantificar la estabilidad ^ de 9(F). Esto puede ser hecho en términos del sesgo asintótico máximo: B ^ (E)=supbe{F,9) FE 'tt. E:S"T1!vfAClON RC)Bl!S"1^.A o en términos de la varianza asintótica generalizada máxima: AVé (^} = sup traza (C^ (F)) F E .`j F EI punto de ruptura: E*=sup{^:Be( ^ representa la mayor fracción de contaminación que el estimador e puede tolera^r antes de camenzar a comportarse en forma totalmente aberrante. Para que ^ pueda ser considerado estable cuantitativamente robusto de acuerdo con esta teorí a, el sesgo máximo B' ^(^) y la varianza máxima AV ^ (^) deben ser relativamente pequeños. ^bsérvese que el requerimiento de que B^ (^) sea pequeño er^uivale a que la primera condición de eficiencia la consistencia en el senn sea relativarnente preservada cuando Fvatido de Fisher de 9 (b,^ (Fe , 8) = 0) ría sobre ^^. Similarmente, el requerimiento de que AV ^(^) sea pequeña es equivalente a que la segunda condición de eficiencia sea relativamente preservada cuando F varía sobre ^E. Huber ( 1964) encantró los estimadores que minimizan B ^(E) y AV ^(^) en la ciase de estimadores M de posición y abrió el camino para el desarrollo de la teoría de robustez cuantitativa. Como estos estimadores minimizan el sesgo máximo y la varianza máxima, son Ilamados estimadores minimax. ^ En general, la desviación típica de un estimador 6^ es típicamente de orden /^, mientras que su sesgo asintótico, si existe, es de orden uno. Entances, el sesgo asintótico máximo será el término dominante del error cuadrático medio máximo cuando se permite sesgo asintótico bajo ^E. Es precisamente por esta razón que Huber ( 1964), para poder derivar su famoso resultado sobre varianza minimax, evitó ia posibilidad de sesgo asintótico restringiendo la familia }^^ al subconjunto de funciones simétricas. Finalmente, como todos los estimadores que consideraremos en este trabajo son equivariantes, no hay pérdida de generalidad en suponer que 80 = 0. Entonces, el argumento «8» será, de ahora en adelante, omitido en b y B. La distribución bajo el modelo paramétrico central será denotada Fo. Robustez Infinitesimal Una manera muy útil de simplificar el estudio del sesgo máximo es aproximar linealmente B^ (^) cerca de cero: B ^ (^) = B' ^ (0} ^ + o (^) y concentrar la atención en la cantidad B' é( F.S"T^,^1C)15^1^1C'A F-:tiE'ANOL^1 Sea bz la función de distribucián que asigna masa uno al punto z. La función ^ ^ de infJuencia, IF (^ , z), y la sensibilidad a errores groseros, y(e), fueron definidas por Hampe! t 1974} como ^ lF {8 , z ) = lim F --^o ^ ^ 8((1 --E) Fo+E^=)-6(Fo) ^ Y ^ ^ y(e) = suP II ^F(e, z) II z respectivamente, suponiendo que ei límite existe. A pesar de ciertas diferencias formales descritas a continuación, cuando y{8} es finita (caso regular^ se cumple que ^ r (e) = B' ^ (o) ^ ^as diferencias formales entre y(6) y B'^ (0) radican en: a) el orden en el que se aplican la derivada y el supremo, y b) los conjuntos considerados para calcular el supremo. En e! caso de B',^ (o) el supremo se aplica primero y la diferenciacián después, mientras que en el caso de y(9} Ca diferenciación se apCica primero y el supremo después. Con respecto a b), en el caso de B',^ {o) el supre^ mo se aplica sobre el entorno completo ^^, en el caso de y(9) el supremo es aplicada sobre el sub-entorno incluyendo distribuciones de masa puntual únicamente. Durante muchos años, las propiedades de «tener influencia limitada» (y (8) finita) y de «ser robusto» fueron consideradas como propiedades equivalentes. Sin embargo, la influencia limitada no es una condición necesaria ni suficiente de robustez: existen estimadores robustos con influencia ilimitada y estimadores no robustos con influencia limitada. Los estimadores MM y Tau de regresión descritos en la sección 3 son ejemplos de los primeros. A pesar de tener función de influencia no acotada, estos estimadores son eficientes bajo el modelo normal y estables cuando este modelo no se cumple. EI alto punto de ruptura y la eficiencia de estos estimadores es independiente del número de variables independientes y de su distribución. Un ejemplo triviaC de estimadores no robustos con influencia acotada lo ofrecen los estimadores M de posición que usan la desviación típica como estimador auxiliar de dispersión. Un ejemplo más interesante lo ofrecen los est'rmadores M generalizados de regresión (GM) descritos en la sección 4, cuando el númera de variables independientes es grande. Los Es^r^irwAC^c^^N Kc^^^!s^r.A 335 estimadores GM tienen influencia acotada, pero Maronna, Bustos y Yohai (1979) mostraron que el punto de ruptura de estos estimadores es menor o igual que 1/^p , donde p es el número de variables independientes. 3. ESTIMADORES QUE MINIMIZAN UNA FUNCION DE LOS RESIDUOS Una buena parte de la teoría de robustez se ocupa del problema de estimación robusta en el modelo de regresión lineal. Existen muchas propuestas de estimadores robustos de regresión y en esta sección nos ocuparemos sólo de algunas de ellas: estimadores S, ^ y MM, definidos por Rousseeuw y Yohai (1984), Yohai y Zamar (1988) y Yohai (1987}, respectivamente. Estos estimadores tienen la propiedad de minimizar una función objetivo que depende de los datos únicamente a través de los residuos. En la próxima sección nos ocuparemos de otra clase de estimadores de regresión Ilamados estimadores M generalizados. Estos estimadores minimizan una función objetivo más compleja que depende de los datos a través de Ios residuos y de las variables independientes. Los estimadores S no pueden ser estables y eficientes al mismo tiempo, pero tienen la importante ventaja de poder calcularse directamente a partir de los datos sin necesidad de estimadores iniciales de regresión ni dispersión. Por esta razón, los estimadores S son a menudo utilizados como estimadores iniciales en los algoritmos de cálculo de estimadores robustos. Los estimadores ^ y MM pueden cornbinar las propiedades de estabilidad y eficiencia y se calculan a partir de estimadores S. Para poder definir los estimadores S de regresión se definirán primero los estimadores M de escala y dispersión. Estimadores M de Escala Huber (1964) definió los estimadores M de la escala de las observaciones ..., r^ como la solución de la ecuación =b La función x normalmente satisface las siguientes condiciones: i) x(y )= x(-y ); ii) x es no-decreciente en [0, ^}; iii) x es continua excepto en un número finito de puntos, y iv} x(^) = 1. Por otro lado, la constante b se toma normalmente igual a , Fo x( Y), donde Fo es una distribucion especificada ( e.g. Fo (y) = 1- e-y }. F^S^I^A[.)IS^^I.ICA ESF',=^Iti(}LA Martin y Zamar {1989} mostrar-on que, cuando las observaciones r; son positivas, Mediana {r; } I Fó ' (0.5) es aproximadamente minimax entre ios estimadores M de escala. Observamos que la mediana carresponde al caso en que la función ^ es del tipo 0-1 : x(r )= 0, = 1, cuando y<_ a [9] cuando y > a con a= F^ '(0.5). En efecto, cuando n es par y la función x es definida por [9J, b=EFox(Y}=PF^{Y>F^' (.5)}=0.5 Y 1 ^ ^ {número de observaciones con r; > á F^ ' (0.5}} ^x(r.lcs)=0.5 n ;^, ' n Esta última igualdad, evidentemente, se verifica si á= Mediana {r; } l F^ ' (0.5}. Un argumento similar combinado con una definición mós amplia de estimadores M de escata ( ver Huber, 1981) se aplica en el caso en que n es impar. Estimadores 1'VI de Dispersián Supongarnos ahora que (y; , x; ), con x; E RP, satisfacen el madelo y;=g(x;, 8} +aE; dande g es una función que podemos supaner conocida, por simplicidad. Por ejemplo, g(x^ , 9} = x; ^ o g{x; , 9} = e X'^ ^ I{1 + e X "^ e}. EI parámetro c^ representa la dispersión de los residuos r; (9) = y; - g (x; , 8}, n i = 1, . . . , n n [11J n Si 6 es un estimador de 8, entonces r; = r; {8) - y; - g(x; , e) son los residuos estimados y el estimador M de dispersión se defíne como la solución s de la ecuación n ^ x ^ s / b [12] H^^rtM^^c^io^v ttc^Ht^s'r^t^ Martin y Zamar (1993) consideran el problema de estimación minimax en la clase de estimadores M de dispersión cuando g(x; , E^) es constante (modelo de posición y dispersión). La extensión de estos resultados al caso general podría ser de cierto interés. Estimadores S de Regresi^Sn Sea r^ (t )= y; - g(x; , t), donde t E R P varía libremente, y sea S( t) el estimador M de escala de los números r; (t), i= 1, ..., n. Esto es, S(t) es la solución en s de la ecuación ^12] con r; = r; (t ). EI estimador S de regresión se define ^ ahora como el vector 8„ que minimiza la escala S(t). Esto es, 8„ satisface la desigualdad ^ S( t)> S {8„ ), para todo t E R p Ademés, el estimador S de dispersión, á, se define simplemente como [ 13] Cuando la función x es de la forma [9] con a =^-' (3/4) y b= . 5, entonces S (t) = Mediana {r; (t)} y el estimador S de regresión en este caso minimiza la mediana ( en lugar de la media) de los valores absolutos de los residuos. Un estimador muy parecido que tiene la propiedad de minimizar la mediana del cuadrado de los residuos fue definido por Rousseeuw ( 1984) y designado con las siglas LMS (least median ©f squares). ' EI cáiculo de estimadores S en forma exacta es un problema numérico muy complejo, puesto que uno debe encontrar el minimo global de una función no convexa. Rousseeuw y Leroy (1987) proponen un algoritmo basado en sub-muestrea que praporciona una solución aproximada en el caso del estimador LMS. En lugar de considerar todos los valores posibles de t, una se concentra en el conjunto finito t,, ..., tM de vectores que ajustan exactamente grupos de p+ 1 puntos (entonces M= n! l[(p + 1)! ( n -- p-- 1)!]). Algoritmos anélogos también pueden utilizarse para calcular aproximadamente estimadores S. Observemos que para cafcular S(t^ ) debemos resolver la ecuación no lineal [12] y, cuando M es grande, el tiempo computacional requerido puede ser prohibitivamente alto. Afortunadamente, S(t^ ) necesita ser calculado en promedio /og (M) veces, únicamente cuando 1 r; ( tk ) ñ ^ x * < b s [14] H.^^t a^ i»s^r^c;^ r:s^AVC^i..a dande s* -- min (s^, ..., sk _^} y s^ es la solución de [12j con r, = r; {t^ ). Estimadares Tau de Regresián Desafortunadamente, los estimadores S de regresión no pueden ser simultáneamente robustos y eficientes bajo modelos narmales. Si la función ^ se escoge de manera que b(x) = 1/2, el correspondiente estimador S será robusto (BP (x) = min {b (x), 1 -- b(x)}), pero la eficiencia bajo modelos normales será rnuy ba^ a. La única manera de alcanzar alta eficiencia es usando una función ^ con b{^) grande (cerca de uno) y, por lo tanto, el correspondiente estimador no será robusto. Los estimadores Tau de regresión (así como los estimadores MM de regresión) fueron definidos con el objeto de alcanzar eficiencia y robustez simultáneamente. Sea S(t ) un estimador de escala de los residuos r; (t } y sea p una función con !as mismas propiedades i)-iv} de x. E! estimador Tau de regresión se define por !a propiedad de minimizar !a siguiente medida de la escala de !os residuos r^ ( t }: r; {t} ^ (t} = s^ (t} n^ P S t (} [15] ^.a idea intuitiva que motivó la definición de estas estimadores es !a siguiente: supongamos que !a función p es aproximadamente cuadrática cerca de cero. Si fos residuos tipificados r; (t ) l S( t ) son relativamente pequeños, entonces S^{ t) p{r; { ^t )! 5( t}) = r,? ( t) y!a medida de escala ^( t} no será muy diferente de la función cuadrática ^ r;2 (t }. Por otro lado, si r; ( t )/ S(t } es grande, entances la influencia del punto i es reducida. Por lo tanto, los estimadores Tau serán aproximadamente eficientes cuando los datos son aproximadamente normaies y resistentes a la presencia de outlíers, supuesto que !as funcianes ^ y p sean escogidas convenientemente. Por ejemplo, si x y p son de la familia bi-cuadrada propuesta por Tukey, los valores apropiados de las constantes ci y c2 de ^ y p para alcanzar punto de ruptura de 1/2 y 95°lo de eficiencia san 1.^4 y 6.4, respectivamente. ESTI^IA('1()N R()Bl'S"1`A ^i ^ y Estimadores M de Regresión can Dispersión General Sea r; (t ) definido como antes y sea ^s un estimador de la dispersión de los residuos r; (^) (por ejemplo, [13]). EI estimador M de regresión con función de pérdida p(definida como en la sección anterior) y estirnador de dispersión á, se define por la propiedad de minimizar en t r; (t) 1 n ^P^ á I [16] Cuando á está dada por [13] se obtiene el estimador MM (estimador M de regresión combinado con un estimador M de dispersión). Yohai ( 1987) probó que en este caso el punto de ruptura está completamente determinado por la elección de la función x y que la eficiencia bajo errores normales está completamente determinada por la elección de la función p. Por lo tanto, estos estimadores pueden ser simultáneamente robustos y eficientes. Si x y p son de la familia bi-cuadrada propuesta por Tukey, los valores apropiados de las constantes c1 y c2 de x y p para alcanzar punto de ruptura de 1/2 y 95% de eficiencia son 1.04 y 4.7, respectivamente. Punto de Ruptura, Sensibilidad y Sesgo Máximo Martin, Yohai y Zamar (1989) probaron que el estimador LMS es aproximadamente minimax entre todos los estimadores M de regresión can escala general. Yohai y Zamar (1993) probaron que esta propiedad minimax se extiende a la clase de estimadores que dependen únicamente de los residuos (esto excluye estimadores que reducen la influencia de puntos con alto leverage). EI punto de ruptura de estos estimadores es independiente de la dimensión p d e x. La función de sesgo máximo B(E) de los estimadores de regresión con dispersión general sólo se conoce para el caso de los estimadores S y cuando la distribución de x bajo el modelo central es elíptica ( ver Martin, Yohai y Zamar, 1989). Yahai y Zamar ( 1993) muestran que B(>~) =y^+ o(^} en el caso de estimadores M de regresión con dispersión general. Este resultado no requiere la hipótesis de que x tiene distribución elíptica bajo el modelo central. Fs^rf^^^^s^ric^t^ t^s^,^NC^^..^ 4. ESTIMADQRES DE REGRESfON CON INFLUENCIA ACOTADA Estos estimadores fueron introducidos con el objeto de limitar la influencia no solamente de outliers, sino también de puntos con alto /everag^e. En general, son definidos implicitamente por la ecuación 1 ^ ^ r' (tk ) , (^ x. ^^ x. n ' ' s* ^ ^ donde ^^ x ^^2 = x' ^ r' x y donde ^ es un estimador robusto de la matriz de covarianzas de x. La funci+án r^ (r, x} se supone: i) continua; ii} impar y no-decreciente en r; y iii) acotada, con sup r X r^ {r, x)= 1. Todas las funciones ^ propuestas hasta ahora son de la forma ^ (r, x) = y! (rv(x)) w(x) donde la función y^r es como las de los estimadores M de posición. Los estimadores de influencia acotada se obtienen escogíendo la función w o ia función v con la prapiedad que sup w {x } ^( x^^ <^ o sup v (x ) ^^ x^(<^, Este es el caso con los estirnadores propuestos por Mallows y por Andrews (ver Hill, 1977) que tienen v (x )= 1 y w( x )= 1, respectivamente. Hill y Ryan (ver Hill, 1977) propusieron usar w{x )- v{x ), y finalmente Schweppe (ver Merril! y Schweppe, 1971 } sugirió tomar v(x )= 1/ w(x ), con la idea de que los puntos con valores de (( x I I grandes pero que satisfacen el modelo apropiadamente no vean su infiuencia limitada. Los estimadores propuestos por Huber (1973} tienen w(x )= v(x ) = 1, y por lo tanto no tienen influencia acotada. Estas estimadores son también Ilamados estimadores M generalizados (estimadores GM, usando las siglas en inglés} y se pueden calcular usando el método de Newton y Raphson. Antes de poder calcular estos estimadores, sin embargo, debemos contar con estimadores robustos de á y de ^. La estimación ron busta de ^ irnplica problemas nurnéricos muy serios que pueden resoiverse, al menos aproximadarnente, usando métodos de re-muestreo similares a!os descritos en la sección anterior. ^a estimación de á, por otro lado, tiene que basar^ r; {H) y, por lo tanto, se requiere conse necesariamente en residuos estimados ^ tar con un estirnador robusto 8. A diferencia de los estimadores de regresión descritos en la sección anterior, la eficiencia de los estimadores GM depende de la distribución conjunta del vector de variables independientes x. Por ejemplo, estimadores ^M que en principio disfrutarian de una eficiencia del 95% cuando x tiene distribución normal f:S"i'IMAC`1ON ROHI.'STA ^41 multivariante pueden resultar muy ineficientes si la distribución de x no es normal {ver Maronna, Bustos y Yahai, 1979). Notemos que mientras la hipótesis de normalidad de los errores s^; bajo el modelo central puede parecer razonable, la suposición de que x es normal multivariante bajo el modelo central puede ser injustificada en muchos casos. Punta de Ruptura, Sensibilidad y Sesgo Máximo A diferencia de los estimadores de regresión descritos en la sección anterior, el punto de ruptura, la sensibilidad y la función de sesgo máximo de los estimadores GM depende de la dimensión del vector de variables independientes x (ver Martin, Yohai y Zamar, 1989). A pesar de que, en general, BGM (E) = ^^ ^ + O (E) esto es, la función de sesgo máximo se comporta linealmente cerca de cero, esta función (y el punto de ruptura) se deterioran rápidamente cuando la dimensión de x crece. Un punto de ruptura de 1/2 y un deteriora menor de la función de sesgo máximo puede conseguirse calculando una sola etapa en el algoritrno de Newton y Raphson, a partir de un estimador inicial 8 con punto de ruptura 1/2 y función de sesgo máximo de orden mayor o igual a 1/2 cerca de cero (ver Simpson y Yohai, 1994). Estimadores GM calculados de esta forma han sido propuestos recientemente por Simpson, Ruppert y Carroll (1992) y por Caakley y Hettmansperger (1993). 5. CALCULO DE LA FUNCION DE SESGO MAXIMO Y SUS DERIVADAS En esta sección ilustraremos el cálculo de la función de sesgo máximo B{^) en el caso sencillo del modelo de posición pura (dispersión conocida). También mastraremos cómo se puede derivar el estimador M de posición con sesgo minimax e ilustraremos la derivación de aproximaciones lineales y cuadráticas para B (E) . Modelo de Posición Pura Este es un modelo muy simple y será usado para ilustrar cómo obtener la función B(^) y sus aproximaciones cerca de cero. EI modelo paramétrico central está dado por E^:S"iAUiS"1^IC`A f^Si'A!^f()1.r1 donde Fo está completamente especificada y es conocida (por ejemplo, F^ _ ^ N (q,1)) y las observaciones Y,, ..., Y^ se supanen independientes e idénticamente distribuidas con distribucián F^^^. Estimadores M Los estimadores M de posíción fueron definidos por Huber (1964) como la solución de la ecuación dande yl es una función no decreciente, impar y acotada. Por ejemplo, la famosa función ^.^r de Huber: si (y^<c W H {Y ) = Y^ = signo (y } c, si^yj>c [^ 8] donde c >_ Gl es una constante que puede tomarse igual a 1.345 si se desea una eficiencia del 95% en el caso normal. Sea ^^,(t, F) =-EF{yf(Y-t)} [19] Huber ( 1964, 1981) prueba que, si existe un único punto ^{F) tal que la función ^.^, (µ (F}, F} ! 0 entonces el estimadar M, µ„ = µ(F„ }, converge casi seguramente a µ(F}, esto es, µ {Fn ) -^ ^ (F), a.s. [F] [2qj Además, si ^,^, (t, F) es cont^inuamente diferenciable en un entorno de µ(F} y si ^.^, ( µ(F), F) ^ q, entonces µ(F^ ) es asintáticamente narmal con varianza asintótica All(yf, F}= EF { y^2 ( Y- µ (F)}} ^ [(d / dt) ^,^, ( µ (F), F)]2 {21 ] ES'T'IMAC'IC.)l^ ROBUSTA ^4 ^ La función gw ( t)=^.^, ( t, Fo) juega un papel importante en el cálculo de B^, (^). Usando la simetría de Fo y y, se verifica fácilmente que g^, (t ) es impar, estrictamente creciente y g^, (t) > 0 para todo t> o. Además, ^ 9,^ ( t ) _ -EFo ^ ( Y - t ) _ -- ^ lV (Y - t ) fo (Y ) dY ^ -0 4^(Y)[fo(Y-t)-fo(Y+t)^dY donde [fo (y - t)- fo (y + t)] > O para todo par (y, t) con y> O y t> 0. Sea F =(1 -^) Fo + E H. Por definición de µ( F), ^w(µ{F)^ F)=(1 -E)gW(µ(F))+E^,W(!^(F), H}=0 De aquí se sigue que 9',^(µ(F))=_`[^/(1 -E)^^^,(µ(F)^ H)=[^/(1 --E)^ EH^(Y--µ(F)) ^[E/(1 -^)]E^,^(Y-µ(F))=[£l(1 -^)lV^(°°) Usando la monotonía de g^, (t } concluimos que el sesgo máximo del estimador M de posición con score yr, B^, (E) = sup µ (F), FE f̀t. satisface la ecuación 9',^ (B^, (E)) _ [E / (1 -- ^)] ^ (°^) [22] En la figura 1 presentamos las curvas de sesgo máximo de la mediana y del estimador de Huber con c= 1.345 y eficiencia del 95%. Observernos que la curva de la mediana (línea Ilena) es uniformemente menor que la del estirnador de Huber (línea quebrada). En la sección siguiente se muestra que, en realidad, la mediana es el estimador minimax de posición. ^4^ ^STAE)tSTIC'A ^:SPA?^JC)LA Figura 1 SESGO MAXIMO DE LA MEDIANA (iínea iiena) Y DEL ESTIMADOR DE HUBER CON o - 1 .345 {línea quebrada) 2.5 2.0 1.0 ^.5 fl.0 0.0 0.1 a.2 0.3 o.a 0.5 Epsilon Estimador M de Posición de Sesgo Minimax Supongamos, sin p^rdida de generaiidad, que ^ (^) = 1. Se deduce fácilmente que si 9'^^. (t) ^ 9',^, (t), d t>_ 0 8,^^ {E) <_ Bw2{E} b' ^ >_ 0 entonces Puesto que la función de score de la mediana es y^Med;a» ( t)= signo ( t) se sigue inmediatamente que (usando que [fo (y- t) gw ( t ) ^ g`^,^^;^^ ( - fo (y + t}] ? 0} t ) _ ^ _ [ ta (Y - t ) -- fo (Y + t ) ] dy = 2 Fo { t } -- 1 Por lo tanto, B^ (£^ C ^^Median ^ ^ ^ O (^^ ES"T'IMA(^'IC}N ROBl`STA ^45 y la mediana minimiza el sesgo máximo (es minimax) en la clase de los M-estimadores de posición. Usando un método de prueba muy ingenioso (que no requiere el cálculo de las funciones de sesgo máximo), Huber (1964) obtuvo un resultado aún más general: la mediana es minimax en la clase de todos los estimadores de posición T que tienen !a propiedad T(Y^ +b, ..., Y^+b)= T(Y^, ..., Y^)+b Desafortunadamente, el método de Huber no se puede aplicar a otros modelos uniparamétricos (por ejernplo, escala o dispersión) ni multipararnétricos corno posición multivariante y regresión. Sin embargo, el método de prueba descrito aquí sí puede aplicarse con éxito en otros modelos uniparamétricos y multiparamétricos. Ver, por ejemplo, Martin y Zamar (1989, 1993a y 1993b) y Martin, Yohai y Zamar (1989). Sensibilidad a Contaminaciones y Aproxirnaciones de Segundo orden Naturalmente, la función de sesgo máxirno B^, (^) puede aproximarse cerca de cero usando, por ejemplo, una expansión de Taylor de segundo orden: 2 B^ (E) = Y; (W) £ + ^2 (^) ^ + o (E2) 2 Observando que g^, (t )_ ^ ^ [23^ ^r (y ) fo ( y+ t) dy , se obtiene ^ 9w(^)_ ^ ^ {Y ) f^ (Y ) dY Y ^ 9'';^ (^) = ^ ^ (Y ) f^' (Y ) dy = 0 Diferenciando dos veces los dos lados de [23] con respecto a^ y poniendo ^= o, obtenemos 0 9;^(^) r:s^rA[^is^ric^A ^-.^^Ar^c^t.a Y Y^ _ !g W (p ) _ 9W (0) Por lo tanta, ^23] puede escribirse com© ^ Bw tE} _ ^ ^ ^ ^ ^ ^ tY ) fo £ ^ ^ + £) + Q ^£ 2) (Y ) dY EI factor ^ 4^ (Y } f© (Y ) dY se obtiene también como resultado dei siguiente procedimiento: primero se ca!cula e1 iimite lF(y, yf) = lim E--^o ,bµ({1 -£) Fo+^Sy) £ (donde Sy es una contaminación de masa uno en y} y luegc^ se calcula el supremo ^ n y* (8) = sup iF (y, 9) Y Hampel (1968) conjeturá que Be(£}^y*£ Noternos que debido al orden en que ei f imite y ei supremo se aplican en e1 cáiculo de y*, en general, Aunque no existe una prueba formal de este hecho, y* _^y1 en todas los casas en que B^, (^) es aproximadamente lineal cerca de cero, esto es, cuanda 8,^ (^) = C ^ + o {^) E:STIMAC'1ON kOHUS'TA En la figura 2 comparamos las aproximaciones lineat (línea de puntos) y cuadrática ( línea quebrada) en el caso del estirnador de Huber con c= 1.345. Observamos que la aproximación lineal B,^(^) - c 2^^ (c)-1 ^ es ampliamente superada por la aproximacián cuadrática B (E) ^ `^ c 2^(c)-1 ^ (1 + ^) También notamos que la aproximación cuadrática es muy buena para valores de ^ menores que .20. Figura 2 APROXIMACION LINEAL ( línea de puntos) Y CUADRATICA (línea quebrada) A LA FUNCION DE SESGO MAXIMO (línea Ilena) 5 4 3 2 1 0 0.0 0.1 0.2 0.3 Epsilon 0.4 0.5 E^S'TAUIS`T'1C`A E5F'A!VC)I.A fi. COMENTARIt^S FINALES Aunque ya han transcurrido treinta años desde el inicio de fa teoria cuantitativa de robustez can el trabajo pionero de Huber (1964), esta teoría no está completada, ni mucho menos. Las curvas de sesgo máximo de estimadores robustos de regresión aún no se conocen en la mayoría de los casos irnpartantes (por ejemplo, en el caso de los estimadores MM y T). En los pocos casos en que esta curva se conoce (estimadores S y estimadores GM) las resultados son parcialmente satisfactorios, puesta que sólo valen bajo condiciones restrictivas. En el caso de los estimadares S debe asumirse que la distribución conjunta de las variables independientes es esférica. En el caso de los estimadores GM debe asumirse, adem^s, que la dispersián de los residuos y que la matriz de covarianzas de las variables independientes son conocidas. La función de sesgo máximo de estimadares robustos de la ordenada al Origen no se conoce aún en . ningun caso. C7tra cuestión importante es que la curva de sesgo máximo captura sbio uno de los dos aspectos irnportantes del concepto de robustez, el de la estabilidad. EI otro aspecto importante es el de la eficiencia bajo el modelo y en sus inmediaciones. Desde ese punto de vista, la teoría de sesgo minimax sin condiciones laterales de eficiencia está incompleta. Puede considerarse como una teoría de estabilidad pero no como una teoría global de robustez. • REFERENCIAS . (1993): «A bounded influence, h'rgh breakdown, efficient regression estimator», J. Amer. Statist. Assoc., 88, 872880. CC}AKLEY, W. C., y HETTMANSPERGER, T. P HAMPEL, F. R. {1968): «Contributions to the theory of robust estimation», Ph. D. thesis, University of Galifornia, Berkeley. (1971 }: «A general qualitative definition of robustness», Ann. Math. Statist., 42, 1$87- ^1896. (1974): «The influence curve and its role in robust estimation», J. Amer. Statist. Asscac., 69, 383-393. Hi^^, R. W. (1977): «Robust regression when there are outliers in the carriers», Unpublished Ph. D. dissertation, Harvard University, Dept. of Statistics. E^STIMAt'ION R(:)Bl.!STA i49 HUBER, P. J. (1964}: «Robust estirnation of a location parameter», Ann. Math. Statist., 35, 73-101. -- (1973) :«Robust regression: Asymptotics, conjectures and Monte Carlo», Ann. Statist., 1, 799-821. -- (1981) : Robust Statistics, Wiley, New York. LI, B., y ZAMAR, R. H. (1991): «Min-max asymptotic variance when scale is unknown» , Statist. and Probability Letters, 11, 139-145. R. A. (1981): «Robust M-estimators of multivariate location and scatter», Ann. Statist., 4, 51-67. MARONNA , MARONNA, R. A.; BusTOS, o. H.., y YoHAI, V. J. (1979): «Bias- and efficiencyrobustness of general M-estimators for regression with random carriers», en T. Gasser y M. Rosemblat (eds.), Smoothing Techniques for Curve Estimation, Springer-Verlag, New York. MARTIN , R. D.; YoHAI, V. J. , y ZAMAR , R. H. (1989): «Min-max bias robust regression», Ann. Statíst., 4, 1608-1630. MARTIN, R. D., y ZAMAR, R. H. (1989): «Asymptotically min-max bias-robust M-estimates for positive random variables», J. Am. Statist. Assoc., 17, 494-501. -- (1993a): «Efficiency-constrained bias-robust estimates of location», Ann. Statist., 1, 338-354. (1993b): «Bias-robust estimates of scale», Ann. Statist., 2, 991-1017. MERRILL , H. M., y SCHWEPPE , F. C. (1971): «Bad data supression in power sys- tem static state estimation», IEEE Trans. Power App. Syst., PAS-90, 27182725. RoussEEUw, P. (1984): «Least median of squares regression», J. Am. Statist. Assoc., 79, 871-880. RoussEEUw, P., y LEROY, A. M. (1987): Robust regression and outlier detection, Wiley, New York. RoussEEUw, P., y YoHAI, V. J. (1984): «Robust regression by means S-estimators», en J. Franke, W. Hardle y R. D. Martin (eds.), Robust and Nonlinear Time Series Analysis. Lectures Notes in Statistics, 26, Springer, New York, 256-272. SIMPSON, D. G.; RUPPERT, D., y CARROLL, R. J . (1992): « On one-step GM estima- tes and stability of inferences in linear regression», J. Am. Statist. Assoc., 87, 439-450. SIMPSaN, D. G., y YoHAI, V. J. (1993): «Functional stability of one-step GM estimators in linear regression». Unpublished manuscript. F^sr^[^is^r^c^A FsPAÑC^^.A ^5() YoHA^, V. J. {1987): « High breakdown point and high efficiency robust estimates for regression», Ann. Statist., 15, 642-656. YOHAI, V. J., y MARC}NNA , R. A. (1979) : «Asymptotic behavior of M-estimators for the linear model», Ann. Statist., 7, 258-268. YOHAI, V. J., y ZAMAR , R. H. (1988): «High breakdown point estimates of regres- sion by means of the minimization of an efficient scale», J. Amer. Statist. Assoc., 83, 406-414. (1992}: «Optimally bounding the gross error sensitivity of unbounded influence M-estimates of regression», Tech. Rep. 92-44, Departamento de Estadistica y Econometría, Uníversidad Carlos 111, Madrid. (1993}: t^A minirnax property af the least a-quantile estimates», Ann. Statíst., 21 , 1824-1842. ^AnnaR, R. H. {1992): «Bias robust estimation in orthogonal regressian», Ann. of Statist., 4, 1875-1888, R4BUST ESTIMATION SUMMARY The present paper presents some recent approaches of the robust estimation theory, in particular the results in the area of maximum bias minimization. A description is made of some regression robust estimators and the definition of maximum bias curve is introduced, The relation between thís curve and the sensítivity to gross errors is discussed. These concepts are explained in the case of simple position and dispersion models. Key Words: minimax estirnators, maxirnum bias, sensitivity to pollutíons. AMS Classificati©n: 62Jxx, 62H 12. ^^.5'fIMA('IOti ROBl SIA CO MENTARIO S ANTONIO CUEVAS Universidad Autánoma de Madrid La teoría de la robustez ha conocido, al igual que otras muchas disciplinas científicas, una época de auge seguida de un período de relativo estancarniento que, con una visión positiva, podría considerarse como una crisis de madurez. En la actualidad, la teoría y la práctica de la estadística robusta se desarrollan a un buen ritmo. Los trabajos de Rubén Zamar sobre sesgo minimax son un buen exponente de esta recuperación. Es un honor para Estadistica Española contar con un artículo invitado de este autor, componente destacado de la excelente escuela argentina de estadística robusta creada en torno a Víctor Yohai (Graciela Boente, Oscar Bustos, Nélida Ferretti, Ricardo Fraiman, Ricardo Maronna...). Mi comentario está, inevitablemente, sesgado por mi experiencia personal sobre el tema y se dirige hacia la fundamentación maternática de los conceptos de robustez, con mayor énfasis en algunas ideas que rne parecen especialrnente atractivas. Me interesa también destacar las relacianes de la estadística robusta con otros campos de la investigación estadística o maternática, ya que, en mi opinión, el valor de una teoría está muy relacionado con su capacidad para «salir de sí misma» e interaccionar con otros temas. En beneficio de una mayor claridad dividiré mi discusión en apartados. 1. Funcionales estadisticos ^os desarrollos teóricos en estadística robusta han contribuido a popularizar entre los investigadores la noción de estimador considerado como restricción de F.^r.•>t^iti^ic^r^ ^^.^t}}^,!^t>i.f^ un funcional (definido sobre el espacio de funciones de distribución) al conjunto de las distribuciones empiricas. Esta idea no es nueva, ya que está implícita en la noción de consistencia propuesta por Fisher en los años veinte (y mencionada por ^amar en la introducción del artículo}; sus implicaciones estadisticas se desarrallan con detalle por primera vez en el clásico trabajo de von Mises (1947). Sin embargo, la explotación sistemática de este atractiva «enfoque funcional^^ no se ha generalizado hasta los años setenta, coincidiendo con el desarrollo de la estadística robusta. Así, la manera natural de definir y estudiar los Ly los M-estimadores es mediante funcionales estadísticos. Las propiedades de difPrenciabilidad de estos funcionales prop©rcionan una metodologia general para estudiar la distribución asintótica de los estimadores asociadas [ver, por ejemplo, Fernholz (1983}]. EI aspecto que me interesa destacar aquí es, no obstante, que la metodología basada en la diferenciación de funcionales ha demostrado ser útil en otros desarrollos estadisticos, no directamente vincufados a la robustez; por ejemplo, el trabajo de Parr (1985) proporciona una ele+gante y sencilla aplicación al estudio de las condiciones de validez asintótica del bootstrap. Gill (1989) utiliza métodos de diferenciación funcional en estimación no paramétrica y, en particular, extiende a este cantexto el clásico «método delta» para obtener distribuciones asintóticas de estimadores. 2. Robustez cualitativa Rubén Zamar menciona este concepto de manera muy esquemática, ya que está quizá un poco apartado de su linea expositiva general. Por mi parte, sólo quiero cornpletar y matizar con brevedad su comentario. Como señala ^amar, en el caso de las estirnadares generados por un funcional, la continuidad de éste es la condición suficiente natural para ia robustez cuaiitativa. Esto se sitúa en la linea, comentada en el punto anterior, de traducción estadistica de propiedades analiticas del funcional. Un paso más en esta dirección puede encontrarse en Cuevas y Ramo (1993}, donde se demuestra que la continuidad uniforme (respecto a la distancia bounded Lipschitz) es una condición suficiente para la robustez cualitativa de ias aproximaciones bootstrap a la distribución en el muestreo: se trata, por tanto, de una aplicación na pararnétrica del concepto. En este mismo trabajo pueden encontrarse algunas referencias interesantes sobre otras extensiones de la noción de robustez cualitativa. Por ejernplo, Boente et al. (1987) estudian la robustez cualitativa en el caso de observaciones dependientes. Respecto al significado de la robustez cualitativa, Huber (1981, p. 10) señala que, desde un punto de vista matemático, este concepto impone un requerimiento de continuidad análogo a la noción de estabilidad en un sistema controlado par una ecuación difereneiai ordinaria. Se trata, por tanto, de una idea básica muy arraigada en diferentes contextos. F:ST'11^1A('IOti KC)F3l1S.i_•i ^5 i A propósito del comentario de Zamar «... esta teoría (...) no permite comparaciones dentro de la clase de estimadores que son cualitativamente robustos», quisiera matizar que, en cierto modo, el punto de ruptura [ver, por ejemplo, Huber (1981)] es una noción complernentaria que cumple la función de cuantificar la robustez. EI punto de ruptura es, en términos intuitivos, !a máxima cantidad de contaminación en la distribución subyacente que puede tolerar un estimador de manera que todavía proporcione alguna información sobre el parámetro de interés. Creo que este concepto no ha sido aún estudiado con la profundidad que merece. Hay varias cuestiones, como la definición de aproximaciones rnuestrales satisfactorias o la extensión a diferentes contextas (incluyendo la inferencia bayesiana), que son aún, básicamente, problemas abiertos. 3. La curva de influencia Este es, sin duda, uno de los conceptos más populares y fecundos dentro de la teoría de la robustez. De hecho, es el eje central del libro de Hampel et al. (1987) sobre estadística robusta. ^as observaciones que siguen pretenden simplemente completar los comentarios de Rubén Zamar sobre el tema. Desde el punto de vista matemático, la función de influencia es para un funcional estadístico lo que el vector gradiente es para una función real de n variables. La función de influencia proporciona el término lineal de los desarrollos de Taylor de primer orden [ver Fernholz {1983)] que permiten probar la normalidad asintótica para los estimadores definidos como restricción de un funcional diferenciable. Coma consecuencia, la varianza asintótíca aparece en estos casos como la media del cuadrado de la función de influencia. Este hecho puede utilizarse para estimar la varianza asintótica, supuesto que se dispone de un estimador adecuado de la curva de influencia. EI estimador más popular es la así Ilamada curva de sensibilidad. Curiosamente, el estudio de sus propiedades asintóticas permanece casi inédito; una referencia reciente sobre este tema es Cuevas y Romo (1995). Recordemos, por último, que la curva de influencia tiene una interesante relación con el método de remuestreo denominado jackknife [ver Efron (1992)]; en particular, se puede obtener una aproximación muestral de la curva de influencia como subproducto de los cálculos necesarios para obtener la versión jackknife de un estimador. 4. Estirnadores de mínima distancia Los ejemplos presentados en el artículo se centran en modelos de posición/escala y regresión. En este tipo de modelos los estimadores considerados E^^.:4^I ^1[)f:^^t^l(^.^ ^-.S(',^\ti'O1^,^ {principalrnente los de tipo M) ocupan, sin duda, un papel protaganista. Hay, sin embargo, otras situacianes (por ejemplo, Ios modelos paramétricos de mixturas) en que resulta útil considerar !os estimadores Ilarrtados «de mínima distancia» que, bajo condiciones bastante amplias, son robustos. EI trabajo de Parr y Schucany (1980) es una referer^cia clásica sobre el tema. La forma general de estos estimadores es: ^ 8„ = argmin ó (F,,, F^), donde F^ es la distribución empírica, F^ es el modelo teórico y S es una medida de discrepancia (no necesariamente una métrica) entre funciones de distribu- ción Una idea bastante natural {aunque, sorprendentemente, no estudiada hasta ahora) es considerar una versión «suavizada» de la anterior definición en la que FH es reemplazada par la densidad f^ (cuando esto tenga sentido} y F^ se reemplaza por un estimador no paramétrico (de tipo núcleo, por ejemplo) de fe. La discrepancia b se cambiaría entonces por una distancia natural (por ejemplo, L^ o L2) entre densidades. En Cao et a!. (1995) se analizan algunas aspectos teóricos (consistencia, normalidad asintótica, robustez) y prác#icos (comparaciones por simulación} de esta modalidad de estimadores de mínima distancia. Los resultados son, en general, bastante alentadores. Comentario final: un asunto de relaciones púbiicas Ctuisiera concluir estas líneas con una reflexión acerca de un asunto que tiene, según creo, cierta importancia práctica: la creciente disponibilidad de medios computacionales baratos y eficientes ha estimulado la aparición de una amplia demanda de análisis estadísticos por parte de un público usuario formado mayoritariamente por no profesionales de la estadística. Este público, a su vez, contribuye a orientar la investigación planteando sus propias demandas, na siempre fáciles de satisfacer. Una consecuencia de este hecho es que cualquier teoría estadística que no consiga, en alguna medida razonable, comunicarse can los usuarios y«vender su producto» está condenada a mantenerse en el g^hetta de las revistas especializadas y, quizá, a desaparecer. No creo que ésta sea exactamente la situación de la estadística robusta, pero sí considero que los expertvs en este tema han tenido mucho más éxito en la elaboración de una teoría sólida y elegante que en facilitar su acceso al público usuario. Por ejemplo: hay actualmente centenares de estimadores robustos exhaustivamente estudiados en diferentes contextos, pero los especialistas no parecen ponerse de acuerdo en seleccionar un reducido número de ellos para su implementación en !os paquetes estadísticos más usuales. Hay, asimismo, algunos conceptos t:ti'1'Iti1A(^1Oti ROfil'^"^ A ^55 como el de punto de ruptura o el de curva de influencia que tienen una gran potencialidad desde el punto de vista aplicado: una vez más, su popularización dependería de su presencia en el software comercial. Se trata, en último términ©, de un problema de divulgación que, por otra parte, no es exclusivo de la estadística robusta. Estoy convencido de que un investigador de la categoría de Rubén Zamar puede hacer aportaciones muy interesantes en este sentído. REFERENCIAS Qualitative robustness for stochastic processes», Ann. Statist., 15, 1293-1312. BOENTE, G.; FRAIMAN, R., y YOHAI, V. (1987): « CAO, R.; GUEVAS, A., y FRAIMAN, R. (1995}: <tMinimum distance density-based estimation^>, Comp. Statist. & Data Analysis (en prensa). CuEVAs, A., y RoMO, J. (1993): «pn robustness properties of bootstrap approx'rmations» , J. Statist. P/ann. lnference, 37, 181-191. -(1995): «On the estimation af influence curve», Canadian J. Statist. (en prensa). EFRON, B. {1992): «Jackknife-after-bootstrap standard errors and influence functions» , J. R. Statist. Soc. B, 54, 1, 83-127. FERNHOLZ, L. T. (1983): Von Mises Calculus for Statistical Functionals, SpringerVerlag, New York. GILL, R. D. (1989): «Non- and semi-parametric maximum líkelihood estimators and #he von Mises method (Part I}», Scand. J. Statist., 16, 97-128. HAMPEL, F. R. (1971): «A general qualitative definition of robustness», Ann. Math. Stat., 42, 1887-1996. I-iAMPEL, F. R.; RONCHETTI, E. M.; ROUSSEEUW, P. J., y STAHEL, W. A. (^ 987): RO- bust Statistics. The Approach Based on /nf/uence Functions, Wiley, New York. HusER, P. J. (1981) : Robust Statístics, Wiley, New York. MIsES, R. von (1947): «On the asymptotic dístributions of differentiable statistical functions», Ann. Math. Statist., 18, 309-348. PARR, W. C. (1985): «The bootstrap: some sample theory and connectíons with robustness» , Stat. Prob. Letters, 3, 97-100. PARR, W. C., y SCHUCANY, W. R. (1980): «Mínimum distance and robust estimation», J. Amer. Statist. Assoc., 75, 616-624. ^^ ^ E^ F-.^^r ,tii^r^^rrc^ ^^ r-tir^,^^^v^,r.^^ ALFCrNSO GOF^UALIZA Universidad de Valladolid Quisiera comenzar expresando mi reconocimiento al profesor Zamar por las importantes aportaciones realizadas en ios últimos años al campo de la estimación robusta, de las cuales una pequeña muestra es objeto de estudio y discusión en la parte f'rnal de este artículo. EI trabajo se estructura en tres partes. Una primera parte (secciones 1 y 2) donde, de una manera sencilla y clara, se hace una introducción a la teoría de la estimación robusta, presentando las diferentes teorías existentes e incidiendo, sobre todo, en el compromiso estabilidad-eficiencia que representa y en las ideas de invariancia presentes en todo problema de estimación. Este tipo de introducciones pueden contribuir a paliar la escasez de referencias a la robustez en los textos básicos, donde cada vez se hace más necesario introducir algunas nociones como hace, por ejemplo, Peña (1991), con las limitaciones lógicas derivadas del tipo de lector a quien va dirigido. La segunda parte (secciones 3 y^4) presenta, de una manera escalonada y motivada, una serie de familias de es#imadores que están mostrando un mejor comportamiento en el intento de extender las ideas de robustez al contexto de regresión y estimación multivariante. Esta parte tiene, sobre todo, el mérito de ayudar a los recién incorporados al estudio de la robustez a conducirse entre una verdadera maraña de siglas. En la tercera parte (sección 5} es donde realmente se discuten recientes enfoques de la teoría de la estimación robusta, como se anuncia en el aóstract. Mis comentarios se centrarán especialmente en esa parte del artículo. Como los artícuios invitados que publica Estadística Españo/a tienen un carácter eminentemente divulgativo y, en consecuencia, parte de sus lectores probablemente no serán grandes conocedores del desarrollo de la teoría de la estimación robusta, comenzaré haciendo un breve recordatorio de las fases por las que ha pasado dicho desarrollo que, de alguna manera, será el hilo conductor de mis comentarios. EI desarrollo de la teoría de la estimación robusta está marcado, a mi juicio, por los importantes .altibajos que ha experimentado. P. H. Huber (1981) recoge muy bien en el prólogo de su libro la desconfianza inicial por parte de la comunidad de estadisticos teóricos hasta que Ilegó el reconocimiento {años 65-75}, gracias, sobre todo, a las aportaciones de Huber (19f4) y Hampel F:^"I^IMA('It)N R()K('tiTA (1968, 1971, 1974), y el posterior intento de «subirse al carro de la robustez» de buena parte de los estadísticos. La descon#ianza inicial se debió a la escasa seriedad que, desde el punto de vista maternático, parecían ofrecer las alternativas robustas, y por ahí, precisamente, Ilegó e! reconocimiento, gracias al esfuerzo de Huber y Hampel por dar #orma matemática a las ideas de robustez, especialmente en el contexto de localización univariante. Se habían dado los primeros pasos, pero quedaba todo el camino por recorrer: sustituir los abundantes resultados heurísticos por teoremas, conectar rigurosamente las distintas teorías, extender las ideas a otros contextos (regresión, estirnación multivariante...), etc. Lamentablemente, la subida masiva de estadísticos al «carro de la robustez» no se tradujo, salvo excepciones, en avances significativos en Ios aspectos mencionados, sino que, más bien al contrario, se produjo una desviacíón ^^peiigrosa» hacia el análisís de datos (las publicacianes sobre robustez desaparecen prácticamente de Annals of Statistics} sin un avance paralelo de la vertiente estadístico-matemática de los problernas, lo que vuelve a suscitar recelos en la comunidad de matemáticos estadísticos. Afortunadamente, en los últimos años ha vuelto a cobrar importancia el desarrollo estadístico-matemático de la Estadística Robusta, produciéndose notables avances. Entre los más relevantes están los conseguidos en la línea de trabajo a la que pertenece el profesor Zamar, y la sección 5 de este artículo muestra una pequeña pincelada de sus logros. Esta línea de trabajo reabre el problema de la medición de la robustez de estimadores a partir de la curva de sesgo máximo y la obtención de estimadores de sesgo minimax. Estos problemas estuvieron abandonados durante veinte años, a raíz de que Huber desestimara el probfema del sesgo máximo en favor del de la varianza por considerar este último como un problema más profundo. Huber resalvió el problema del sesgo minimax en localización univariante con una demostración ingeniosa y brilfante pero basada en argumentaciones geométricas que no permiten una extrapolación a otros contextos. Además, coma !a solucián era siempre la mediana (para distintos tipos de entornos y para cualquier radio), Huber consideró camo t<aburrido» el problema del sesgo máximo y se pasó a utilizar simplemente un «resurnen grosero» de fa curva de sesgo máximo como es el punto de ruptura asintótico, que tiene su antecedente en la noción análoga introducida por Hampel (1968, 1971). Incluso se establecen versiones muestrales de dicha noción, cuyas conexíones con las nociones poblacionaies nunca se establecen de manera rigurosa y cuya utilidad real queda bas#an#e en entredicho a raíz de algunas publicaciones como, por ejemplo, la de Hettmansperger y Sheater (1992). ^5x E-:s r.^r^r^ i rc^.> E-.:^r^,>tic^i.,^ EI método alternativo para tratar el problema del sesgo máximo que se recoge en este artículo, tiene la doble ventaja de ser extensible a otros conceptos y de arrojar alguna luz sobre las relaciones entre las teorías minimax e infinitesimaí, por medio de la derivada de la curva de sesgo máximo y el supremo de la función de influencia. Existen otros enfoques, igualmente actuales, en la teoría de la estimación robusta, y se echa de menos siquiera una referencia a los misrnos en este artículo. Me refiero especialmente al artículo de Davies (1993) en ef que se defienden posiciones de alguna manera encontradas con la línea de trabajo minimax que se discute en este artículo y se ofrecen vías alternativas. EI articulo de Davies contiene, entre otras cosas, notas críticas sobre robustez y optimalidad, sobre el uso de métricas y entornos de contaminación y sobre las distintas nociones de punto de ruptura. Davies defiende que ia estabilidad de la inferencia no se consigue obteniendo funcionales óptimos sino construyendo funcionaies con propiedades especificadas. También defiende que los estimadores óptimos son fronteras que delimitan la posible y no son utilizables para aplicaciones a datos reales, donde la único razonable es utilizar estirnadores que sean un compromiso. Asimismo critica ios entornos de contaminación por violar el espí ritu de la robustez y, en su lugar, aboga por el uso de métricas, lo que también serviria para reconducir a sus orígenes la noción de punto de ruptura. Davies hace propuestas de estimadores de dispersión y de regresión en la línea de «estimadores compromiso» mencionada anteriormente. Es de reseñar, no obstante, que las críticas a la teoría minimax no son del todo nuevas, como puede verse, por ejemplo, en Huber (1972) o en Hampel, Ronchetti, Rousseeuw, Stahel (1986}. REFERENCIAS DaviES, P. L. (1993}: «Aspects of Robust Linear Regression», Ann. Statist., 21 , 4, 1843-1899. HAMPE^, F. R. (1968}: Contributions to the theory of robust estimation, Ph. D. Thesis, University of California, Berkeley. (1971 }: «A general qualitative definition of robustness», Ann. Math. Statist., 42, 1887-1896. (1974): «The influence curve and its role in robust estimation», J. Am. Statist. Assoc., 69, 383-393. F:ST'1ti1AC'1c)N R()E3l'STA HAMPEL, F. R.; RONCHETTI, E. M.; ROUSSEEUW, P. J., y STAHEL, W. A. (1986): RO- bust Statistics: The approach based on inf/uence functions, Wiley, New York. HETTMANSPERGER, T. P., y SHEATHER, S. J . (1992): ^<A cautionary note On the method of least median of squares» , Americ. Statist., 46, 79-83. HUBER, P. J. (1964): «Robust estimation of a location parameters^, Ann. Math. Statist., 35, 73-101. -(1972}: «Robust Statistics: A review», Ann. Math. Statist., 43, 1041-1067. -(1981): Robust Statistics, Wiley, New York. PEÑA , D.(1991) : Estadística. Modelos y rnétodos, vol . I, 2. ^ ed . JULIAN DE LA HORRA Universidad Autónoma de Madrid Para mí es un placer esta oportunidad que me brinda Estadística Española de poder contribuir con algunos comentarios al trabajo del profesor Zamar sobre Estirnación Robusta, que me ha parecido interesante por muchas conceptos. EI trabajo del profesor Zamar se centra, particularmente, en resultados sobre minimización del sesgo máximo. Es decir, estudia el problema que se plantea cuando se trata de encontrar un estimador que <tminimice» el «rnáximo» sesgo asintótico, lo cual es una aplicación del principio «minimax». Mi aportación irá dirigida a señalar la interesante aplicación que tiene también el principio t<minimax» en robustez bayesiana. Entre los dos enfoques hay semejanzas y diferencias que se pondrán de manifiesto a continuación. Wasserman (1989) estudió el problema que se plantea cuando se quiere encontrar una región de confianza bayesiana y se tiene cierta incertidumbre sobre la distribución a priori; en concreto, se considera como clase de distribuciones a príori la clase de ^-contaminación alrededor de una distribución a priori central. Obsérvese que aquí la falta de seguridad radica en la distribución a priori (no en el modelo de muestreo), pero se formaliza de rnanera análoga (a través de !a clase de ^-contaminación}. Una diferencia adicional es que Wasserman no tra- ^6C } E^S^i AU1tiT1C'A E`iF'Ati()l.A baja con estimadores puntuales, sino con regiones de confianza; en concreto, considera la clase de regiones de confianza que tienen un contenido de probabifidad a posteriari (calculado a partir de la distribución a priori central} fijo {digamos Y,^). EI objetivo de Wasserman es encontrar la región de confianza (dentro de la clase indicada} que «minimiza» la «máxima» diferencia posible de contenido de probabilidad a pQSteriorí (cuando la a priorí recorre fa citada clase de ^-contaminación). C}bsérvese el parafelismo con buscar el estimador que «minimice» el «máxima» sesgo asintótico. Señalemos, para acabar, que Wasserman prueba que la región buscada es la región de máxima verosimilitud. Este tipo de estudios ha sido continuado en De fa Horra y Fernán+dez (1994a}, donde se consideran otras clases de regiones de confianza. En primer lugar, se considera el conjunto de regianes de confianza con un contenido de probabilídad a posteriori entre dos valores fiijados, pasando después a analizar fa clase que parece más natural: {a que incluye aquellas regiones de confianza con un contenido de probabifidad a posteriori superior a un valor ^yo y con una medida de Lebesgue inferior a un valor lo. Pero el objetivo es siempre el mismo: «minimizar» la «máxima» diferencia posible de contenido de probabilidad a pvsteríori. La solución a estos problemas siempre está ligada a la nocián de región de máxima verosimilitud. Posteriormente, en De la Horra y Fernández (1994b) se estudian estos problemas en relacián con la existencia de parámetros perturbadores. Espero que estos comentarios hayan servido para poner de manifiesto las semejanzas que a veces hay entre enfoques originalmente muy diferentes. REFERENCIAS EIV LA DISCUSION C. (1994a): «Bayesian analysis under s✓ -contaminated priors: A trade-off between rabustness and precision», J. Statist. Plan. DE LA HORRA, J., y FERNÁNDEZ , lnf., 38, 13-30. (1994b}: «Bayesian robustness of credibfe regions in the presence of nuisance parameters» , Commun. Statist. -Theory Meth., 23, 689-699. WASSERMAN, L. {1989) :«A robust Bayesian interpretation of likelihood regions», Ann. Statist., 17, 1387-1393. EST'IMAC'It)N ROHl'S"I^A ALFONS^ GARCIA PEREZ Departamento de Estadística Facultad de Ciencias. UNED EI trabajo del profesor Zamar recoge, de forma acertada, algunas líneas de análisis de la robustez de estimadores por punto T„ que dependen de la muestra a través de la distribución empírica F„ = 1/ n^;'` , bX; ; es decir, que pueden ser expresados de la forma T^ = T(F„ ), con T algún funcional cuyo dominio no sólo es el espacio de las medidas empíricas, sino que, de forrna habitual, suele extenderse a(un subconjunto de) el espacio ^(X ) de todas las medidas de probabilidad definidas sobre el espacio muestral X. De las líneas de análisis tratadas, el autor centra su trabajo, fundamentalmente, en la desarrollada por él y los profesores Martin y Yohai, la cual utiliza como medida de la robustez de un estimador, básicamente, la función de sesgo máximo, BT (€) = sup d [ T ((1 - €) Fe + € H ), T (FA )] H = sup d [ T( G), 9^ G E iF en donde ^^(Fe)={G^G=(1 -€) F^+€H, HE ^(X)} es un «entorno» en el modefo de contaminación. Con dicha función de sesgo máximo, BT (€), generalización de la definida por Huber ( 1964), es posible analizar el va/or asintótico del estimador T(F„ }, en función de la cantidad de contaminación fijada, €, permitiendo además interesantes representaciones gráficas, como la figura 2 del autor ( donde, por cierto, cabe mencionar que la asíntota vertical corresponde al punto de ruptura €*). Como bien dice el autor, habitualmente, esta función puede aproximarse linealmente cerca de cero de la forma BT(€)=y*(T)•€+o(€)^y*{T)•€ siendo y*(T)=sup^^/F(x; T)II X la sensibilidad a grandes errores definida por Hampel (1974). C^:^`f A[)ISI'tC'A f-.5F':;ti()F_:^ No obstante, el análisis de un estimador debe basarse no sólo en un estudio de su sesgo (asintótico}, sino también de su varianza (asintótica), V( T, F^ }. Parece, por tanto, razonable d+efinir una función de varianza máxíma que fuera del tipo VT (^) = sup d [ V( T, G}, V( T, FQ }^ G E '^^ En esta situación, sería razonable tratar de determinar también el ó ptimo en el sentido minimax. Pero, probablemente, io más interesante, en línea con el trabajo del autor aqu í comentado, fuera aproximar linealmente dicha funcitín de varianza máxima mejor dicho, su logaritmo por la sensibilidad al cambio-devarianza k*{ T)= k*( T, F^ ), concepto i ntroducido por Peter Rousseeuw (1981) en su tesis doctoral y más tarde generalizado por Collins (1976, 1977} y Collins y Portnoy ( 1981). Si esta idea #uera viable, permitiría, posiblemente, una aproximación del tipo VT (E} ^ V ( T, FH ) • exp {^ • k * ( T, F,^ )} es decir, que, en analogía con la aproximación a la función de sesgo máximo, fuera k* ( T) la pendiente de la tangente en cero, ahora de la función In VT {^), función ésta que probablemente deberia tener una asíntota vertical en el, (Huber, 1981 }, punto de ruptura +de fa varianza (asíntótica), ^**. En esta situación, entiendo que también sería viable una aproximación cuadrática a la función de varianza máxima, corno la que hace el profesor Zamar en su artículo con función de sesgo máximo. Respecto a las aproximaciones, suele tomarse como regla práctica en cuanto a la vatidez de la aproximación lineal para ia función de sesgo máximo BT (^), valores ^<_ ^* 1 2. ^,Qué ocurre con la aproximación cuadrática? ^Qué ocurriria con las hipotéticas aproximaciones a In VT (^)? Todo esto en lo referente a«entornos» de contaminación, pero ^se podrian extender algunos resultados a verdaderos entornos en la topologia débil, en la dirección seguida por Rychlik y Zielinski o Riedel? Otra cuestión que afecta no sólo a este artículo, sino de forma bastante generalizada a la Estadística Robusta, es la relacionada con la posibilidad de evitar resultados ( totalmente} asintóticos, los cuales, en mi opinión, no son enterarnente satisfactorios. Estos, aunque simplifican notablemente el problema, en no pocas ocasiones equiparan comportamientos de estimadores claramente diferentes cuando se emplean tamaños muestraies pequeños. E-:S ( I;^1.^C'IC ^N ROt3l;S I:^ ^ fa.i Como la suposición de tamaños muestrales finitos resulta en muchos casos imposible, sugiero al autor la posibilidad de aproximar la distribución del estimador T(F„ )(al menos, cuando éste sea un M-estimador) rnediante las denominadas small-sample asymptotic techniques (Field y Hampel, 1982), las cuales, utilizando palabras del propio Huber (1981, p. 48), «... parecen dar aproximaciones fantásticamente precisas hasta tamaños muestrales muy pequeños (n=3ó4}». Mi último comentario es de gratitud, primero, hacia el profesor Zamar por el esfuerzo realizado al resumir de forma precisa y amena un tema tan fundamental y de tanta actualidad en la Estadística corno es el de la robustez y, segundo, al director de la Revista por haber conseguido la colaboración de tan distinguido especialista. REFERENCIAS COLLINS, J. R. (1960): «Robust estimation fo a iocation parameter in the presence of asymmetry», Ann. Statis., 4, 68-85. (1977): «Upper bounds on asymptotic variances of M-estirnators of location», Ann. Statis., 5, 646-657. J. R., y PORTNOY , S. L. (1981): «Maximizing the variance of M -estimators using the generalized method of moment spaces», Ann. Statis., 9, 567- COLLINS , 577. FIELD, C. A., y HAMPEL, F. R. (1982): «Smali-sample asymptotic dis#ributions of M-estimators of location», Biametrika, 69, 29-46. HAMPEL, F. R. (1974): «The influence curve and its role in robust estimation», J. Am. Statist. Assoc., 69, 383-393. HUBER, P. J. (1964): «Robust estimation of a location parameter», Ann. Math. Statis., 35, 73-101. (1981) : Robust Statistics, Wiley. RoussEEUw, P. J. (1981): «New infinitesimal rnethods in robust statistics», tesis doctoral, Vrije Universiteit, Bruselas, Bélgica. ^f^ ^-;^;"i A[^15"i^lc^r^ h^F?.^Nc ^1..^^ RICARDC^ A. MAR4NNA Universidad Nacional de La Plata y CICPBA E1 interesante artículo del profesor Zamar trata del modelo de posición y escaia univariados y, en general, del modelo lineal con respuesta univariada. C^uisiera hacer aquí algunas consideraciones sobre el modelo lineal multivariado Bx; + e; , ti- 1, ..., n} [1] donde y; E RQ, los e; E RQ son vectores i.i.d. con matriz de covarianzas ^, B E RQ x p es la matriz de parámetros desconocidos, y los x; E Rp son, o bien fijos, o b+en aleatorios i.i.d. e independientes de los e; . En la teoría clásica se supone que los e; son normales, con lo que el estimador de mínimas cuadrados (EMC) es el de máxima verosimilitud y resulta óptimo no sólo asintóticamente, sino también para n finito. Bajo condiciones bastante generales, el EMC es asintóticamente normal con matriz de covarianzas ^ ^ (x^ x}-1 ^2] donde ^ es el producto de Kronecker y X E Rn X p es la matriz de las x; . Perv cuando las observaciones (x; , y; ) pueden tener datos atípicos, el EMC presenta todos los inconvenientes ya conocidos para el caso univariado, con el agravante de que el carácter multidimensional de las y; puede hacer la detección de observaciones atípicas aún más dificil. Sería entonces deseable obtener estimaáores que tuvieran: 1} alta eficiencia para e normal; 2} punto de ruptura S* alto; 3) equivariancia para transformaciones lineales de las x; y de ias y; , y^} cálculo numérico factible. Si se quiere estirnar eficientemente todas las combinaciones lineales de los coeficientes B, la condición 3) es necesaria para la ^}. Como muestra Zamar en su artículo, se dispone de estimadores que cumplen las cuatro condiciones mencionadas para el caso q= 1; y, por lo tanto, sería naturaf pensar en estirnar cada fiia de B separadamente usanda un estimador robusto univariado. Pero este procedimiento no sería equivarian#e bajo transforrnacíones de las y, por lo que no sería eficiente para combinaciones lineales arbitrarias de B. Hace falta entonces otro enfoque. En el caso q^ = 1, si bien la situación no es sencilla, se han hecho al menos considerables progresos y se cuenta con estimadores confiables; y se puede encarar el problema de la optimalidad. En cambio, en el caso multivariado el terreno es prácticamente virgen. EI principal interés del caso multivariado está en seemingly unrelas aplicaciones econométricas, en particular e1 modelo SUR E:^"I'IMAC'1(3N R()B(_!S"T^, 3f^5 lated regressions (regresiones aparentemente no relacionadas); ver Koenker y Portnoy (1990) y Ecuaciones Simultáneas (Maronna y Yohai, 1995a). Si bien estos dos modelos contienen al modelo lineal multivariado como caso particuíar, preferimos limitarnos a éste para no complicar la exposición. Los M estimadores para este modelo son de 1a forma n ^U^(d;)r;i0 i^ 1 n ^u^(d;)r; r;=n^ ^-, [4] donde r; son los residuos: r;=r; (B)=y;--Bx; las d; son las «distancias de Mahalanobis» =d;(B,^)= (B)`^-^ r; (B) C5] y u1, u2 son funciones decrecientes. Los M estimadores son asintóticarnente normales, con matriz de covarianzas de la forma (??}, pero con ^ reemplazada por una matriz S que tiene la forma de la matriz de covarianzas de un M estimador de posición multivariada. Si bien la expresión general es complicada, para e; con distribución simétrica se reduce a S= D-' A(D-')' [6] con D=2 Eu^ (d) ee' V-' + Eu^ (d) I y A= E u1 ( d) 2 e e' donde d= e' V-' y V se defi ne como V=Eu2(d)ee' Pero el punto de ruptura de estos estimadores es 0, pues no tienen robustez frente a x; atípicos. ^%^ F:^`I A[)Iti`i l(^A t^.S}^:^^()[_A Notemos que, en el caso univariado, casi todos los métodos de estimación se basan en minimizar una medida de la escala de los r; . EI EMC minimiza la rnedia de los cuadrados, y los estimadores de tipo S o t minimizan una escala robusta de los residuos. En el caso multivariado, si se conociera ^, se podría obtener un estimador robusto minimizando una escala robusta s(d ) donde d= _(B ,^) _{d,, ..., dn }. La forma de tener en cuenta también a^ la encontró Lopuha^ (1992) en el caso particular de posición y dispersión multivariadas, para ef que definió T-estimadores. La extensión natural al caso general es la siguiente: n det ( ^) _ ^ p2 (d;)}q = rnin ;= ^ [10] bajo la condición n ^ p1 (d; ) = n ^_, donde p, y p^ son funciones no decrecientes y acotadas con p; {0) = 0. Eligiendo p^ adecuadamente, se puede obtener un punto de ruptura S* arbitrariamente alto (<_ 4.5). Se puede probar (Maronna y Yohai, 1995b} que estos estimadores son asintóticamente normales, con matriz de covarianzas de la misma forma que los de un M estimador, donde las funciones u1 y u2 dependen de p^ , p2 y la distribución de e. EI cálculo numérico se puede realizar en forma aproximada usando las mismas ideas que en el caso univariado. REFERENCIAS KOENKER, R., y PoRTNOY, S. (1994): «M Estimation of Multivariate Regressions», Journa/ of the American Statistica/ Association, 85, 1060-1068. LOPIJHA,4, H. (1992}: «Estimation of Location and Covariance with High Breakdawn Point», tesis doctoral, Technische Universiteit Delft. MARC}NNA , R. A., y YoHAi, V. J. (1995a): «Robust Estimation for Simultaneous Equations Models», presentado para publicación. (1995a}: «Tau-estimators for Simultaneous Equations Models», trabajo en preparaci+ón. .ifi7 F:S^^1^1^1A('I^)ti ROfil^ti"^fA ELIAS MORENO Universidad de Granada JUAN ANTONIO CANO Universidad de Murcia Es un placer expresar nuestra felicitación y agradecimiento al profesor Zamar por brindarnos este excelente artículo sobre Robustez Local de un procedimiento de estimación 6(^), que con tanta claridad expone. G?uede también nuestro agradecimiento al profesor Daniel Peña, editor de Estadística Española, por brindarnos la oportunidad de comentar sobre este artículo. No deja de ser curioso que la motivación utilizada por el autor ( motivación que compartimos) se base en unas determinadas observaciones muestrales y que, sin embargo, todo el desarrollo posterior dependa exclusivamente de la forma estructural del modefo considerado F^ ={F : F=(1 -^) Fo + F H, H(arbitraria)} tales como B^ {0) = lim sup [ 8 ((1 - ^) Fo + E H} - 6 (Fo )] / ^ F --^ 0 H ó-EFo yr ( Y- B y^ ( E}) para el score y^. Hay aspectos de la incertidumbre sobre 8 que la clase F^ trata de modelar que no se hacen notar con este tipo de herramientas locales, pero que se advierten si adoptamos un punto de vista global y condicional de la inferencia. Con esto queremos decir lo siguiente. Supongamos que estamos interesados en hacer inferencia sobre un cierto conjunto A de valores de 8(que pudiera ser la hipótesis nula de un test), condicional a las observaciones x^, x2, ..., x^ . Supongamos que las observaciones son i.i.d. según f (x ^ 8) _(1 - c) fo (x ^ e) + +^ q(x ^ 6), en donde fo está fijada, 0<^< 1, y q(x ^ E^) E Q; es decir, cada observación x; proviene de fo (x ^ e) con probabilidad {1 -^) y de q(x ^ H) con probabilidad c. Q podría ser la banda Qb={q(xl e) ^fo(xle)-b^q(xle)^f^(x^e)+s,s>o} Q^ nos dice que la verosimilitud de 6 para el dato x; está próxima (^) a la dada por el modelo base fo (x; ^ e). Para las observaciones x=(x1, x2, ..., x„ ), la clase de verosimilitudes viene dada por ^Eh ={f (x ^ e) : f(x ^ e} = n; f (x; ^ e), f(x; ^ ^) _( 1- ^) fo (x; ^ e) +^ q(x; ^ e), q E Q^ } F-,ti I:^F)1`^ I I(^r1 F-.^F'AN()F...^1 ;fa,?^ clase, por otro lado, bastante razonable y más pequeña que la considerada en el artículo. Supuesto que nuestra información a priori sobre 8 viene representada por n(H), la robustez global a posteriori (o incertidumbre a posteriori) de nuestra inferencia vendría medida por R{A j x}= sup f E `j.s P^ {A ^ x}- Pf (A ^ x) inf f E `^^_^ conPtn(A^x)=^Af(x^H)n(8)d8/jc,f(x^8)n{6)d8. EI siguiente ejemplo muestra un resultado de este tipo y, aunque muy sirnplista, ilustra un problema de incremento de incertidumbre a posteriori a pesar de que aurnente nuestra información muestral. E^emplo Sea el espacio rnuestral X={x^ , x2 } y el espacio paramétrico O={61, 82 }. Supongamos rc (9; )= 0.5, i= 1, 2, y sea la función de probabilidad fo (x ^ 9) la dada por los valores de la tabla ^. Tabla 1 VALORES DE fo (x ^ 8) x2 8^ 0.37 0.63 62 0.38 0.62 Supongamos que estamos interesados en A={91 } y que hemos observado x1. Entonces nuestra inferencia para el modelo base fo resulta P^^ (81 ^ x^ )= 0.49, 0 y para la clase ^^^ con ^= 0.2 y S= 0.1 obtenemos inf fE ^j21 Pf (H1 ^ x1 )= 0.47, sup Pf (81 ^ x1 )= 0.52 fE '^.21 La robustez en .`^21 de nuestra inferencia vale, pues, R(H1 ^ x1 )= 0.05. Para la observación muestral x=(x1, x1, x^ ), la probabilidad a posteriori de H1 resulta Pf^ (8y ^ x1, x1, x1 ) = 0.48 y la robustez en la clase ^°1, ^f^y E^"1'I!^^1A('IOti ROHl'ti^I:l R(e, ^ x1, x^ , x^ ) = 0.16, Es decir, al aumentar la información rnuestral el rango de la probabílidad a posteriori de e, aumenta de 0.05 a 0.16. Es claro que R(82tx^)=0.05yqueR(82^x^,x^,x^)=0.16. Es fácíl probar que cualquiera que sea ^(0; )> o, i= 1, 2, hay sucesiones x^n ^ para las que lim inf Pf (61^x^^^)=0, i=1,2 n-,^ fE %j21 lim n --^ ^ sup fE `J2 Pf (E^1 ^ X^^ ^)= 1, i^ 1, 2 Esta falta de robustez a posteriori se debe a la no identificalidad de 8 por ,^2' . Es claro que este problema es más serio si G? es la clase de todas las medidas de probabilidad. Nos gustaría oír la opinión del profesor Zamar al respecto, la que de antemano agradecemos. JOAQUIN MUÑOZ-GARCIA Departamento de Estadística e Investigación Operativa Universidad de Sevilla Quisiera comenzar agradeciéndole al Director de la Revista la oportunidad que me brinda de poder participar en el posible debate que surgirá de los comentarios de este artículo sobre estirnación robusta; en él se recopilan muchos de los resultados obtenidos por H. R. Zamar sobre esta materia. Ello ya es motivo suficiente para felicitarnos por ia realización de este trabajo. En 1971, Hampel propuso una definición formal del concepto de robustez que respondía al concepto intuitivo de lo que los estadísticos entendían por estimador robusto y, aunque a la definición dada no cabe plantearle objeciones desde un punto de vista formal, es conveniente advertir la dificultad que tiene decidir a partir de ella si un estimador es robusto o no. Esto hace que las investigaciones en robustez se dirijan principalmente a cuantificar la misma, tendiendo a utílízar estimadores cuantitativamente robustos, construidos mediante métodos que minimicen el sesgo o/y la varianza asintótica. Para estudiar la robustez se ha considerado en el artículo una familia de distribuciones definida en [2], la cual puede ser considerada simple para explicar las observaciones muestrales, aunque no conviene olvidar que el estudio y la t ti I^I>l^ ^ It ^ F.^I^,^^tic^l.^^ comprensión ^ie tales modelos son fundamentales para la explicación de modelos más complejos. N© obstante, como es un modeio que trata de explicar las posibles observaciones out/iers, es necesario traer a colación la conjetura de Anscombe (196Q) sobre la variabilidad propia del modelo poblacional inicial; ésta Ilevaría posiblemente a perturbar la fracción de contaminacián del modelo. Este es un aspecto que en las Ilamadas técnicas de acomodación (estimación robusta} de outliers, según la clasificacián propuesta por Barnett y Lewis (1994}, no suele considerarse tanto desde un punto de vista teórico como práctic©. AI introducir los distintos tipos de robustez habría sido oportuno, en un trabajo de este tipo, recoger la definición de punto de ruptura de un estimador y su relacián con aquellas otras medidas que se introducen en torno a las distintas ramas de la robustez, como indica el autor; asimismo, pienso que se deberia haber empleado el térmíno «robustez global», como ya se indica en el trabajo de nJlartin, Yohai y Zamar (1989). En la estimacián robusta deben plantearse dos niveles de protección, la correspondiente al modelo pobfacional del que se ha extraído ia muestra, o más simplernente de la muestra en sí, y la correspondiente a la técnica estadistica que se aplicará a los datos; esta apreciación la hago desde la definición de observación outlier dada por Muñoz-^arcía, Moreno-Rebollo y Pascual-Acosta (1990}: «Un outlier es una observacián que siendo atípica y/o errónea se desvía rnarcadamente dei comportamiento general de los datos experimentales con respecta al criterio por el que han de ser analizados.» Y ella me Ileva a hacerme algunas consideraciones dentro del problema de la estimación robusta. Los das niveles de protección pueden interaccionar o pueden enmascararse, pueden perderse propiedades de optimalidad o de proteccián cuando los estimadores obtenidos para un nivel son modificados para utilizarlos en el otro, etc. Cuestiones similares a éstas me planteo con los ^ñ11 estimadores, por el hecho de tener una estimación robusta (la varianza o la matriz de covarianzas} dentro de un esti mador robusto, y a las que añado el análisis del posible efecto que pueden presentar en los procesos de convergencia de estos estimadores robustos. BIBLIO^GRAFIA AtiscoMe^E, F. J. {1960}: «Rejection of outliers», Technometrics, vol. 2, 123-147. BARNETT, V., y LEwis, T. {1994}: Outliers ín Statistical Data (3rd Edition), Ed. John Wiley & Sons. R. D.; YoHA^, V. J., y zAMAR , R. H. {1989}: «Min-max bias robust regression^>, The Annals of Statisties, val. 17, 1608-1630. MARTaN , MUÑOZ- C` ..aARCÍA, LJ.; MORENO-REBOLLO, J. L., ^/ PASCUAL-ACOSTA, A. (1 99O}: «OUt- liers: A formal approach», lnternational Statistical Review, vol. 58, 215-226. E-:ti l 1ti1.^^('It)ti Et( )Eil !, E;> MANUEL ANTONIO PRESEDO QUINDIMIL Departamento de Estadística e Investigación Operativa Universidad de Santiago de Compostela Quisiera agradecer, en primer lugar, a Estadística Española el ofrecirniento para partícipar en esta discusión. También quiero felicitar al profesor Zamar por este artículo que, en mi opinión, trata con gran claridad un problema tan complejo y a la vez tan interesante como es el de la estimación robusta, campo en el que el autor posee una dilatada experiencia, como prueba la cantidad de trabajos publicados en los últimos años. En particular, quisiera destacar la cuidada introducción al problema de la estimación robusta, presentada a lo largo de las dos primeras secciones de este artículo, que permite que cualquier lector no iniciado en este tema pueda adquirir una idea clara acerca de lo que se pretende con su estudio, así como de los distintos enfoques que se han venido desarrollando a lo largo de los últimos años para el tratamiento de este problema. En lo que sigue me voy a limitar a exponer un aspecto de la estimación robusta que entiendo que debe ser tratado en esta discusión: La idea de los modelos paramétricos corno aproximaciones de la realidad justifica la búsqueda de estimadores que sean «estables» ante pequeñas desviaciones del modelo supuesto. Aunque no existe un único criterio de robustez, la búsqueda de estimadores robustos trata de resolver un compromiso entre la «estabilidad» y la eficiencia del estimador, lo cual introduce una notable complicac'rón en los métodos desarrollados que dificulta su aplicación en la práctica. Dejando aparte el aspecto computacional de ios estimadores robustos (na siempre fácil de resolver en la práctica), que sólo puede abordarse con !a ayUda del soporte informático, para su cálculo (como puede observarse en los distintos casos tratados en las secciones 3 y 4 de este artículo) es necesario especificar ciertas funciones y constantes que son elegidas por el interesado. Así, para el estimador de Huber, al que se refiere el autor en la sección 5 de este artículo, el valor de la constante c determina la eficiencia y la robustez del M estimador resultante y deberá ser propuesta por el interesado jen Hampel (1986, p. 138) puede verse una extensa tabla en la que se relacionan distintas rnedidas de robustez, incluida la sensibilidad máxima a«gross errors», y la eficiencia en el modelo normal del estimador de Huber para diferentes valores de la constante c]. Por lo anteriormente expuesto, sería deseable disponer de algún criterio objetivo (basado en la información muestral) para la elección de tales funciones y constantes. Me gustaría que el autor pudiera formularnos alguna indicación sobre este aspecto que facilite la aplicación en la práctica de los métodos de estimación robusta. E.^ t^ ^r^l^, r t(':^ t-^E^:ti^v(>1-:^^ ^7^ Por mi parte, nada más. Espero que este breve comentario pueda contribuir a completar esta discusión s©bre el tema tratado en este artículo def profesor Zamar, al cual reiter© una vez más mi feficitación. REFERENCIAS HAMPE^, R. I'i.; RONCHETTI, E. M.; ROUSSEEUW, P. ^J., ^/ STAHEL, W. A. (1976}: RO- bust Statistics. The Approach Based on Inf/uence Functions, Wiley. MANUEL DEL RIO Departamenta de Estadistica e i. O. Universidad Complutense, Madrid í. Introducción Mis felicitaciones af profesor Zamar por esta interesante exposición. Con certeza, su visión de especiaiista en el problema de estimación robusta en sesgo animará a 1os estudiosos y usuarios de las métodos de regresión a incorporar a sus planteamientos habituales las ideas y métodos expuestos, así eomo a la consideración de métodos robustos, compensando el excesivo peso que se suele dar al criterio de mínimos cuadrados. EI comentario intentará complementar, sin entrar en aspectos muy específicas o técnicos, algunos de los temas expuestos en el trabajo, planteando finalmente algunas cuestiones relativas a aspectos de diagn+óstico. Como es sabido, existen dos planteamientos básicos al tratar la robustez frente ai sesgo cuando las distribuciones pertenecen a un entorno de cantaminación: a) EI enfoque local, consistente en el estudio del sesgo causado por una pequeña proporción ^ de contaminación; está ligado al concepto de curva de influencia, introducido por Hampel (1974), que proporciona una aproximación lineal váiida para el sesgo producido por una contaminación ^^ g. b) EI enfoque g/obal, que atiende al sesgo causado tanto por valores pequeños como grandes de ^. Dentro de él, una medida importante de la robustez (ligada al máximo sesgo asintótico} es el punto de ruptura PR , in#roducido por Hampel (1971) y ^s^riti^f^c^ic^^rv Ko^^'^s^r;^ que permite controlar lo peor que puede ocurrir en entornos «grandes» . En Donoho y Huber (1983) puede encontrarse una defensa de la utilización de este concepto (muestras finitas) que, por diferentes razones, no fue muy considerado en los comienzos del estudio de los métodos robustos. En los últimos a^ios se han presentado diversas propuestas de estimadores con PR alto en modelos de posición y de regresión; algunas de ellas han contado con la intervención del profesor Zamar y han sido revisadas en su trabajo. Aun a riesgo de reiterar alguna de las exposiciones, consideraremos inicialmente el desarrollo histárico de estos estimadores restringiéndonos al caso de modeios de regresión. 2. Estimadores con punto de ruptura máximo Comencemos recordando que tanto los M-estimadores de regresión como su mejora mediante los GM-estimadores, diseñados para controlar el efecto de regresores con alto potencial, no resuelven satisfactoriamente la cuestión de! PR. La razón básica reside en que éste decrece en modelos con gran número de regresores, justamente cuando existen más posibilidades de casos con alto potencial. EI primer estimador con PR máximo ( 50%) es el estimadar de medianas repetidas, Siegel {1982). Puede ser calculado explícitamente, si bien su obtención es costosa, pues precisa considerar todos los subconjuntos con p observaciones, siendo p el número de regresores. CJtro inconveniente reside en no ser equivariante bajo transformac'rones lineales de los regresores. Rousseeuw {1984} íntroduce el estímador consistente en minimizar la mediana de los cuadrados de los residuos least median of squares ( LMS) : med r,?. Este estimador alcanza PR máximo y es equivariante; sin embargo, su eficiencia asintótica es baja debido a su lenta tasa de convergencia (n-'^3 }. Para solventar este inconveniente, Rousseeuw ( 1984) propone el estimador de mínima suma truncada de cuadrados least trimmed squares ( LTS) , consistente en minimizar ^ ;'_ ^ r ^^ ; „? , donde r ^^ ; ,^ ^ < . . . ^ r ^^ : ^ ^ son los cuadrados ordenados de los residuos. con PR máximo, su tasa de convergencia es la habitual ( n-'^2 ). Sobre la elección óptima de h puede consultarse Rousseeuw y Leroy (1987, páginas 132-134}. Notemos que la idea que subyace en la construcción de los dos últimos estimadores es «robustecer» la medida de error del criterio mínirno-cuadrático mediante una rnedida robusta de la dispersión de los residuos. Manteniendo este planteamiento, Rousseeuw y Yohai (1984) consideran los S-estimadores de regresión, basados en minimizar un M-estimador de escaia para los residuos aso- F^ F.^[)Iti F Ic':^^ F-:tiF',^^Jt ^l ,1 ciados al vector de regresión genérico ^3. Los S-estimadores pueden alcanzar un PR máximo, si bien a costa de perder eficiencia, siendo su comportamiento asintótico similar al de los M-estimadores de regresión. Una completa exposición de Ias propiedades de estos tres tipos de estimadores puede verse en Rousseeuw y ^eroy ( 1987, pp. 112-145), donde se incluye asimismo una discusión sobre su relación con las técnicas denominadas projection pursuit. Con el objetivo de conseguir eficiencia alta para estimadores con punto de ruptura alto, Yohai (1987) propone los denominados MM-estimadores. Se definen en tres etapas, las d©s primeras buscan alcanzar un PR alto y la última obtener eficiencia. En primer lugar, se considera un estimador j3* con punto de ruptura alto {p. ej., LMS o LTS); a continuación, utilizando los residuos de este ajuste, se obtiene un estimador de escala 6^ con PR = 50%; finalmente, se define e! MM-estimador de los parámetros de regresión como cualquier solución que minimice S(^i} _^ p{r; {^i} / 6„ } y sa#isfaga S(^3} < S( ^3*), siendo p función del tipo utilizado en S-estimación. ^a última etapa permite alcanzar eficiencia alta, pues la función p puede ser muy diferente de la usada para el estimador de escaia c^„ de 1a segunda etapa. Esta idea de combinar PR alto con eficiencia alta es también utilizada por Yohai y Zamar ( 1988) para definir 1os ^-estirnadores de regresión expuestos en el trabajo. Apuntemos que la definición de PR en regresión no lineal presenta dificultades relacionadas con su estabilidad frente a reparametrizaciones; en Stromberg y Ruppert (1992) puede encontrarse una discusión de este problema junto con una propuesta de solución. En relación con el aspecto computacional, notemos que la mayoría de las algoritmos para calcular estimadores de regresión con PR afto se basan en realizar ajustes minimo-cuadráticos en un número elevado de subconjuntos de p puntos {ver Rousseeuw y Leroy, 1987, cap. 5}. AI ser este planteamiento impracticable en regresión no lineal, Stromberg ( 1993) ha considerado un nuevo algoritmo {de hecho, una modificación del conocido algoritmo PROGRESS) que requiere un número de ajustes bajo. EI algori#mo se utiliza para calcular los estimadores LMS y MM, incluyéndose resultados de simulación que comparan el comportamiento de ambos estimadores en tres modelos no lineales clásicos. También se presentan ejemplos mostrando cómo estos estimadores son útiles para detectar observaciones anómalas en el caso no lineal. 3. Estimadores con sesgo minimax Tanto la función de influencia camo el PR pueden ser insuficientes para describir adecuadamente el sesgo de un estimador. Para conseguir protección r.s-rrtit^^c^r^^?v kc,Hi ^^; r :^ frente a distribucior^es en un entorno, puede ser más adecuado trabajar directamente con el sesgo bajo contaminación y utilizar el máximo sesgo asintótico para fracciones de contaminación inferiores al PR. Esto conduce a la búsqueda de estimadores minimizando el máximo sesgo asintótico en un ^-entorno de contaminación. Recordemos, como hace el profesor Zamar, que esta idea ya fue considerada por Huber, si bien esta aproximación a la robustez global parece haber sido dejada de lado hasta hace unos años; varios resultados e ideas interesantes en problemas de localización y regresión se exponen en su trabajo. Sin entrar en detalles, revísaremos brevemente algunos resultados recientes obtenidos bajo este planteamiento en modelos de regresión. En Martin, Yohai y Zamar (1989} se presentan estimadores robustos con sesgo minimax para dos clases diferentes de estimadores de regresión: i) Mestimadores basados en funcíones p acotadas y con estimador de escala general para los residuos (estos estimadores pueden ser considerados S-estimadores y tienen la misma tasa de convergencia que el estimador LMS); y ii) GM-estimadores con curva de influencia acotada. En particular, se rnuestra que para la regresión simple a través del origen (p - 1), el GM-estimador minimax es la mediana de las pendientes ( y; l x^ ), siendo este estimador también minimax en la clase de los estimadores equivariantes por transformaciones lineales. EI trabajo incluye una comparación, para distintos valores de p, de los sesgos rninimax para los estimadores S, GM y LMS bajo el modelo normal multivariante. En Zamar (1992) se consideran modelos de regresión con errares en !as variables. En este contexto, se analiza el comportamiento del máximo sesgo de M-estimadores en entornos de ^-contaminación con distribución central Fo - N (µ, E+ a2 /}, obteniéndose el correspondiente estimador óptimo. Indiquemos que los M-estimadores en el contexto citado fueron previamente consíderados por Zamar (1989). Citemos, finalmente, el trabajo de Maronna y Yohai (1993), en donde se introduce y estudia un nuevo tipo de estimadores de regresión con robustez aita respecto al sesgo (ver también Maronna y Yohai, 1991). Estos estimadores, denominados por los autores P-estimadores, se construyen partiendo de un estimador robusto y equivariante por transformaciones iineales del parámetro de regresión simple a través del origen. A continuación, se obtiene un óptirno al considerar las regresiones simples de la respuesta frente a todas las proyecciones unidimensionales de los regresores. En particular, se prueba que utilizando como estimador inicial la mediana de las pendientes, el estimador resultante es robusto frente al sesgo, obteniéndose una cota superior para su máximo sesgo. E:S"TAUIti ^'1('A }^,SF'Ati()LA 4. Diagnóstico y regresión robusta Las técnicas de diagnóstico, diseñadas para un estudio crítico de distintos aspectos del modela, así como de la influencia de los casos en el análisis, tienen un gran interés en la valoración a posteriorr del ajuste de un modelo a un determinado conjunto de datos. Una revisión condensada de la numerosa li#eratura sobre estas técnicas puede verse en Del Río (1990}. Huber {1991) analiza la relación entre robustez y diagnóstico, así como sus papeles complementarios en el análisis de regresión. Los dos volúmenes donde se pubiica el último trabajo citado cantienen interesantes aportaciones sobre diagnóstica en/y regresión robusta. En el árnbito del presente comentario, indiquemos que los estimadores con alto PR, particularmente e! estimador LMS, han sido utilizados en distintos contextos para identificar observaciones anómalas y revelar problemas de especificación incorrecta o enmascaramiento que otras técnicas pueden no detectar (ver, por ejemplo, Atkinson, 1986, 1988; Rousseeuw y Van Zomeren, 1990; Cook, Hawkins y Weisberg, 1992). Los residuos son una herramienta básica del diagnóstico y su utilización más simple en ajustes mínimo-cuadráticos la constituyen los diversos gráficos de residuos propuestos. Una cuestión importante es analizar si Ios gráficos de residuos construidos a partir de un ajuste robusto tienen interpretaciones similares a las de sus análogos mínimo-cuadráticos. En McKean, Sheather y Hettmansperger {1993} se presenta un interesante estudio de las propiedades de los residuos y valores ajustados bajo el modelo correcto y modelos alternativos para M y GM-estimadores. Sus conclusiones básicas son las siguientes: la interpretación en el caso de M-estimación con funciones monótonas es similar al caso mínimo-cuadrático; la interpretación para ^M-estimadores no es tan directa debido a que la matriz de diseño está involucrada en la aproximación de primer orden que se utiliza en el trabajo; por otra parte, los resultados de simulación muestran poca capacidad de los residuos para detectar no aleatoriedad. ^os dos párrafos anteriores conducen de modo natural a ias siguientes cuestiones. Primeramente, ^son útiles como elemento de diagnóstico, en la línea del estimador LMS, los estimadores revisados en el trabajo, como los M-estimadores de escala, los S y i-estimadores y los dos tipos de estimadores de Martin et al. {1989)? Su igual o mejor comportamiento teórico hace suponer una respuesta esperanzadora. En segundo lugar, Lcómo obtener resultados sobre el comportamiento de los residuos obtenidos tras ajustes que utilicen los últimos tres tipos de estimadores citados? Finalmente, y recordando el trabajo de Stromberg (1993) comentado anteriormente, ^,cuál puede ser la utilidad de esos tres estimadores para detectar observaciones anómalas en mod'eios de regresión lineal y no lineal? #^S"I'IMAC'IC)N kO^3US'f^^A REFERENCIAS ADICIONALES ATKINSON , A. C. (1986): «Masking unmasked», Biometrika, 73, 533-541. (1988): t<Transformations unmasked», Technometrics, 30, 311-318. COOK, R. D.; HAWKINS, D. M., y WEISBERG, S . (1992): «Comparison Of model misspecification diagnostics using residuals from least median of squares and least median of squares fits», J. Amer. Statist. Assoc., 87, 419-424. DorvoHO, D. L., y HUBER, P. J. (1983): «The notion of breakdown point», en A Festchrift for E. Lehman, P. Bickel, K. Doksum y J. L. Hodges (eds.), Wadsworth, Belmont, CA. HAMPEL, F. R. (1971): «A general qualitative definition of robustness», Ann. Math. Stat., 42, 1887-1896. HUBER, P. J. (199^ ): «Between robustness and diagnostics», en Directions in Robust Statistics and Diagnostics, Part l, W. Stahel y S. Weisberg (eds.), Springer-Verlag, New York. MARONNA, R. A., y YOHAI, V. (1991): «Recent results on bias-robust regression estimates», en Directions in Robust Statistics and Diagnostics, Part 1, W. Stahel y S. Weisberg (eds.}, Springer-Veriag, New York. -- (1993): «Bias-robust estimates of regression based on projections», Ann. Statist., 21, 965-990. MCI'CEAN, J.; SHEATHER, S., y HETTMANSPERGER, T . (1993): «The use and interpre- tation of residuals based on robust estimation», J. Amer. Statist. Assoc., 88, 1254-1263. DEL Río, M. (1990}: ^CDiagnóstico en modelos de regresión», Rev. Real Acad. Diencias Ex., Fís. y Nat., 84 ( 3), 521-524. RoussEEUw, P. J., y YOHAI, V. (1984): «Robust regression by means of S-estimators», en Robust and Nonlinear Time Series Ana/ysis, J. Franke, W. Hardle y R. D. Martin {eds.), Springer-Verlag, New York. RoussEEUw, P. J., y VAN ZOMEREN, B. C. (1990): «Unmasking multivariate outliers and leverage points», J. Amer. Statist. Assoc., 85, 633-639. SIEGEL, A. F. (1982): «Robust regression using repeated medians», Biometrika, 69, 242-244. STROMBERG, A. J. {1993): «Computation of high breakdown nonlinear regression parameters», J. Amer. Statist. Assoc., 88, 237-244. STROMBERG , A. J., y RUPPERT, D. (1990): «Breakdown in nonlinear regression», J. Amer. Statist. Assoc., 87, 991-997. ZAMAR, R. H. (1989): «Robust estimation in the errors in variable models», Biometrika, 76, 149-160. ;^x ^^.ti^l -^C)t!i^t i( ^ ^ E^:^f':^^ ^ ti't ^ [_ ^^ SANTIAGO VELILLA (*} Departamento de Estadística y Econometria Universidad Carlos III de Madrid Agradezco, en primer lugar, a la Revista Estadístiea Españala por la oportunidad de participar en la discusión del trabajo invitado «Estimación Robusta» y, por extensión, en un debate ampiio sobre las técnicas de estimación robustas. EI articulo del profesor Zamar comienza con una motivación sobre la necesidad de introducir técnicas robustas, el contexto en el que éstas se han de construir y la discusión de varios criterios de robustez. La segunda parte del artícula revisa varias propuestas de estimadores robustos en regresión (estimadores M, S y i, y estimadores con influencia acotada), para terminar con una presentación de resultados recientes sobre (a función de sesgo máximo y el cálculo de estimadores con sesgo minimax. Mis comentarios se refieren tanto al artículo como a cuestiones que creo de interés en un debate general sobre estimación robusta, y se dividen en tres apartados: 1) Motivación y aspectos generales; 2) Elección del criterio de robustez; y 3) Aspectos numéricos. Motivación y aspectos generales Es una idea clásica en robustez argumentar la insuficiencia de un modelo «central» paramétrico {,^H }^ E ^ para explicar un conjunto de datos X; , i= 1, ..., n, y proponer como alternativa el modelo de contaminación de Tukey ^^_{F:F=(1-^)F^+€H,OEO} [1] donde 0< E<.05 es fijo y H es arbitraria y desconocida. EI artículo ilustra una aplicación de [1 ] al caso de la media muestral X=^ X; / n, cuando se toma i=1 como modelo central una N(µ, 6), H es N(µ + 6, a) y^_.05 (µ = 1, 6= .03}. Es inmediato que las propiedades de eficiencia de X se deterioran sustancialmente en el paso de fo ^ N(µ, cs) a(1 -^) fo +^ f^ , donde f^ ^ N(µ + 6, a), pese a que, como argumenta Zarnar, las densidades fo ^ N(µ, a) y(1 -^) fo +^ f1 son prácticamente indistinguibles. Por ejemplo, la distancia del supremo entre fo y f^ es trivialmente menor que 2^ / 6(2^)'^2. Sin embargo, creo que debería insistirse en que esta deficiencia es un mero reflejo de la falta de continuidad (en cierto sentido) de X respecto a una medida de la distancia entre las posibles densidades generadoras de los datos. Pese a que j ^ fo - f1 ^^^, es pequeña, las densidades fo y la mixtura (1 - c) fo +^ f^ producen, en general, conjuntos de datos muy diferen(*) Trabajo financiado en parte por el proyecto PB93-0232 de la DGICYT. f-:S"f Iti1At'1()!^ Kc)fil ti l;^ .^ 7 ^) tes. Para ver esto, basta considerar el siguiente ejemplo. Sean {X; o, i= 1, ..., n} datos de N(µ, 6) y sean {X; ^, i= 1, ..., n} datos de N(µ + 6, 6). Se definen ( E;) X;o+^;X;^ [2] donde los {E; } son variables que toman valores 0 y 1 con probabilidades 1-^ y £, respectivamente, y tales que las ternas (^; , X; a,X; ,) son i.i.d., donde, además, ^; es independiente del par (X; o, X;1 ) . Es inmediato que los {X; } son una muestra del modelo (1 - E) fo + c f1 . Para los casos ^_.05 y .10, µ= 1 y a=.03, la tabla 1 recoge n= 30 datos simulados de fo ( Xo ), de f1 (X^ ) y de la mixtura (1 - E) fo +^ f1 (XX^ , XX2 ) de acuerdo con la técnica [2]. Es inmediato que las columnas Xo y (XX1 , XX2 ) difieren en la aparición de las observaciones anómalas 19 y(24, 27), respectivamente, que están rnuy alejados de la media µ= 1 del modelo central. Los datos hablan por sí solos de la necesidad de construir un estimador T„ = T„ [X1 ,..., X„ ] para µ, alternativo a X y que sea menos sensible ante la aparición de datos anómalos. Otro punto de interés relativo al entorno [1 ] es la interpretación del modelo de perturbación, en particular de la distribución H responsable de las desviaciones dei modelo «central», y la interpretación de los resultados de un análisis robusto o, en otras palabras, dado el valor observado de un estimador robusto T„ = t„ = T„ [x1 ,..., xn ], qué parámetros se están estimando. En el caso simple en el que {^e }^ E ^ es un modeío de posición en ^^, un estimador robusto natural es med ( X;), que resulta ser un estimador de la posición 9, libre del efecto de la perturbación H. Cuando la dimensión de los datos aurnenta, la respuesta, en rni opinión, no es tan sencilla. En un problema de regresión en el que los datos z; presentan una estructura natural de la forma z; _ (y; , x; )' donde y; es una respuesta escalar y x; es un vector de regresores, el significado del estimador depende de varios factores; entre otros, la elección de: a) ia distribución marginal Go (x ) de los regresores bajo el modelo central Fo (y , x); b) la distribución condicionada Ho (y ^ x) en el modelo Fo (y , x ), y c) los análogos G(x ) y H(y ^ x) en la distribución de perturbación F(y , x). EI punto c) implica una caracterización de puntos anómalos tanto en el espacio de las variables {y; } como en el espacio de los regresores {x; } que es siempre delicada, en particular en dimensión p >_ 3. Por ejemplo, la construcción de un M-estimador de regresión obtenido como solución de una ecuación de la forma n (1 /n).^,x; y^[(Y; -x; [3)/cs] =0 [3] ^=1 donde la función yr = p' y p(t )= t 2 / 2 (^ t ^ < c); p(t )= c ^ t ^(^ t ^> c), depende críticamente de la elección de !a constante c> 0 que, irnplícitamente, caracteriza el urnbral a partir del cual los residuos r; (^i) = y; - x; R se consideran gran- des en magnitud y su intervención en la ecuación de estimación [3] se toma ES)Al)Iti"II('.A ESPAtiO1.,^1 T^bl^ 1 MUESTRAS SIMULADAS DE TAMAÑO n= 30 DE LAS DENSIDADES fo (Xo ), f^ (X^ } Y (1 - ^) fo + F f^ , DONDE fo ^- N (1, .03), f^ ^ N (7, .03} Y^=.05(XX^)Y.10(XX2) i Xo x, 1 1.0213 2 .9441 3 .9776 6.9824 7.0123 6.9799 4 5 .9588 .9627 6 ^ . oso4 7 8 9 10 1.0013 1.0330 1.0352 1.0357 11 1.015$ 12 1.0341 13 14 .9788 1.0463 15 1.0481 16 17 18 .9826 .9889 .9810 19 .9737 20 21 22 23 24 25 26 .9566 .9551 1.0035 1.0076 .9700 1.0179 .9949 27 .9875 28 29 30 1.0126 .96E6 .9987 7.0448 7.01 1 E 7.0590 7.0066 7.0324 7.0289 7.0087 7.031 1 6.9246 7.0359 6.9887 7.0156 7.0405 6.9660 7.071 1 6.9905 7.0163 6.991 1 6.9845 7.0030 7.0194 6.9439 6.9806 6.9996 6.9931 6.9857 6.9801 .0 .0 .0 .0 .0 .0 .0 .a E2 X^C1 xx2 .0 .0 .0 .0 1.0213 1.0213 .9441 .9776 .9588 .9441 .9776 .9588 .o .o .o .o .o .9627 .9627 1. 0604 1.0013 1.0330 1. a352 .0 .0 1.0357 1.0158 1.0604 1 .0013 1 .0330 1 .0352 1 .0357 1 .0158 .0 .0 .0 .0 .0 .o 1.0341 1.0341 .0 .a .o .9788 1.0463 .9788 1 .0463 .0 .0 1. 0481 1 .0481 .o .o .0 .0 1.0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 1.0 .0 .0 1.0 .0 .0 .9826 .9889 .9826 .9889 .9810 .9810 6.9905 .9566 .9551 1.0035 1.0076 .9700 1.0179 .9949 .9875 .9949 6.9996 1.o12s 1.0126 .9626 .9987 .9626 .9987 .9737 .9566 .9551 1.0035 1 .0076 7.0194 1.0179 constante e igual c. Una elección incorrecta de c puede ir en serio detrimento de ^ las propiedades de robustez e interpretabilidad del M-estimador [in obtenido al solucionar [3]. FSTIti1AClON RUBI_-STA 2. Elección del criterio de robustez EI artículo del profesor Zamar se concentra en recientes trabajos sobre la construcción de estimadores con sesgo minimax. Minimi2ar el sesgo asintótico es una forma de paliar el efecto de la perturbación en la estimación, dado que el sesgo asintótico se define como IIT[F]-eIIM [4] donde M es una matriz definida positiva, elegida usando argumentos de invarianza, T[F ] es el funcional asociado a la definición del estimador T„ [X^ ,..., X„ ]= T[F„ ] como función de la distribución empírica de los datos y ^ ^ a ^ ^M = _{a' Ma )'^2 es la norma elíptica asociada a M. Se observa que [4] involucra explícitamente que la convergencia de T[F,^ ] es hacia T[F ] que, para F general en el entorno [1 ], será diferente de 9 0, en otra ^ palabras, que los estimadores T[F^ ] son inconsistentes para e pese a imponer la restricción de consistencia Fisher T [Fe ]= 8 en el modelo central. La curva de sesgo asintótico máximo B{T, ^) = suP F E ^^. II T[F] - 9 IiM [5] se relaciona también de forma inmediata con el punto de ruptura de T[F ][Martin, Yohai y Zamar ( 1989)]. La teoría basada en la minimización de [5] conduce a resultados interesantes, pero creo que debería complementarse con algún resultado de convergencia asintótica del tipo n 12 [T^ - 8] ^ Np [o, ^], donde p es la dimensión del parárnetro e, que permitiera estudiar y comparar las eficiencias, bajo el modelo central {^^ } e E o, de T^ con el estimador de máxima verosimilitud. Este parece ser el contexto de recientes investigaciones [Coakley y Hettmansperger ( 1993); Croux, Rousseeuw y Hóssjer ( 1993)] en la búsqueda de estimadores de regresión eficientes y de punto de ruptura próximo a 1/2. Aspectos numéricos Esta es una cuestión fundamental, puesto que la determinación de los estimadores robustos depende siempre de técnicas computacionales más o menos sofisticadas y, en ocasiones, de la minirnización de funciones no convexas con mínimos locales. La complejidad del problema aumenta en dimensiones altas (tanto en el número n de datos corno en la dimensión p del parámetro), como ilustra un reciente trabajo de Woodruff y Rocke (1994). La elaboración de algoritmos manejables, que implementen en la práctica la computación explícita de los diferentes tipos de estimadores propuestos, facilitaría la comprensión y asimilación de las técnicas robustas por una audiencia mayor de estadísticos. E,ti l.t[)1^ I I('t> F-tiF'Ati()1.,1 REFEREI^ICIAS ADICIONALES EN LA DISCUSION . (1993): <^A Bounded Influence, High Breakdown, Efficient Regression Estimator», JASA, 88, 872-880. COAKLEY, C., y HETTMANSPERGER, T CROUx, C.; RoussEEUw, P., y Hc^ss^ER, O. (1993): «Generalized S-Estimatars>^, Report No. 93-a3, revised version, Dept. o# Mathematics & Computer Science, University of Antwerp, Bélgica. WOODRUFF, D. L., y RocKE, D. M. (1994}: «Computable Rabust Estimatian of Multivariate Location and Shape in High Dimension Using Compound Estimators>^, JASA, 89, 888-89fi. VICTOR J. YOHAI Universidad de San Andrés y Universidad de Buenos Aires Quisiera felicitar a Rubén Zamar por su excelente exposición sobre los métodos estadísticos robustos para los modelos de posición y regresión. En mi comentario me referiré a otro enfoque para obtener estimadores con buenas propiedades de robustez para problemas de regresión múltiple: las estimadores basados en proyecciones. Sea z; _ ( y; , x; ), 1^ i<_ n, y E I^ , x; E I^.p una muestra correspondiente a un modelo de regresión lineal; por lo tanto, se tiene + u; [1] Antes de definir el estimador basado en proyecciones, consideraremos las transformaciones que dejan invariante el problema de regresión. Apliquemos la siguiente transformación a!os elementos de la muestra = a y; + y' x; , z;*=(Y;*^x;*)^ ^ ^i donde A es una matriz de p x p no singular, y ^ I^^P y a E I^ . Luego es inmediato que las z;* también satisfacen el modelo de regresión [1 ] con parámetro 8= A-1' {a 8 + ^y} y u;* = a u; . Por io tanto, resulta natural exigir que un estimador ^ 6 satisfaga la siguiente propiedad ESTIMAC'1ON ROBC'5^^1^^A 9(Z^*, ,..,Z„)=A-''(a6(z^, ...,2„)+Y) [2] Un estimador que satisface [2] se denomina equivariante. Martin, Yohai y Zamar (1989) encontraron el estimador minimax en la ciase de estimadores GM definidos por la ecuación [17]. Este corresponde a la función ^(r,x)=signo(r)x. Para el modelo de regresión univariada que pasa por el origen, es decir, cuando p= 1, el estimador minímax GM puede expresarse como Y; , 1 <_ i <_ n x; mediana [3] Maronna y Yohai (1993) prueban que este estimador también es minimax en la clase de todos los estimadores equivariantes. Vamos a generalizar este estimador para p > 1. EI estimadvr dado por [3] también se puede definir por ^ r; (e) mediana x; , 1 <_ i <_ n Una forrna de generalizar esta ecuación sería definir un estimador por ^ r; {e) mediana ^, x, 1<_ i<_ n= 0 ^ d^, E I^p [4] n Esta ecuación está expresando que se busca un valor 6 de tal manera que los residuos r; (9) no tengan ninguna estructura de regresión con ninguna combinación lineal ^.' x, y por lo tanto que, al aplicar el estimador ^de regresión dado por [3], tomando como variable dependiente los residuos r; (9) y como variable independiente las proyecciones ^' x; , éste da el valor cero. Sin embargo, como en general^[4] no tendrá solución, se definirá el estimador de proyección por aquel valor 9 para el cual esta ecuación esté «más próxima» a ser satisfecha. EI significado exacto de la expresión «más próxima» se precisará a continuación. Para esto definimos n A (^) = sup s (^,) Á, E ]E8 ^ mediana r; (e) ^,' x; , 1 <i<_n [5] t-.S I Al)Iti"1 1{',3 ^-^51'r^Nt)L:^ donde s(^) es un estimador de la escala de las proyecciones ^.' x; y que puede estar dado por s (^.) = mediana {^ ^,' x, ^, ..., ^ ^,' x„ j^ EI propósito de utilizar esta escala en [5j es hacer que el estimador resulte equivari ante . ^ La ecuación [4j puede ser escrita como A(8) = 0. Como, en general, esto no es posible, Maronna y Yohai {1993) definen el estimador de proyección {estimador P) por argmin ^ ^ ^R A (8) ^ Se puede demostrar que si 6 es el estimador P, entonces para todo otro esti^* mador equivariante 6 se tiene que 8 ^ {£} < 2 B ^- (E} + o (^) donde o(^) /^---^ 0, y por lo tanto B' ^ io) <- 2^' é' ío) EI punto de ruptura del estimador P es o.5. Su orden de consistencia es n'^2, pero la distribución asintótica no es normal. Maronna y Yohai (1993} dan un algoritmo para computar el estimador de proyección basado en submuestreo, similar al utilizado por Rousseeuw y Leroy {1987) para estirnadores S, aunque de mayor compiejidad computacional. Si t es el tiempo necesario para computar un estimador S, entonces el tiempo para computar el estimador P es aproximadamente t log (t}. Finalmente, compararemos los sesgos máximos y ia sensibilidad a errores groseros para distintos estimadores. En 1a tabla 1, sacada de Simpson y Yohai (1993), están los sesgos máximos del estimador minimax GM. En la tabla 2 están los sesgos del LMS y del estimador minimax S, que fueron obtenidos de Martin, Yohai y Zamar (1989); y también los sesgos máximos del estimador P, obtenidos de Maronna y Yohai {1993). Observarnos que los P estimadores se comparan favorablemente respecto del LMS y del estimador minimax S para todo p. También resulta que el estimador P tiene menor sesgo que el minirnax GM para p? 4. Usando ideas similares a las desarrolladas aqui, Maronna, Yohai y Stahel (1992) definen estimadares de proyección equivariantes para matrices de covarianza. F^^^r^^^^c^^^^^v K^^^^^^-^^.^ Tabla 1 MAXIMtJS SESGOS DEL ESTIMADOR GM MINIMAX p y F=.05 F=.10 E=.15 e=.20 1 2 1.57 2.00 0.08 0.10 0.18 0.27 0.28 0.47 0.41 0.83 3 4 5 10 15 2.35 2.67 2.94 4.06 4.94 0.15 0.17 0.18 0.27 0.33 0.34 0.43 0.49 0.83 1.30 0.67 0.92 1.29 ^ ^ 1.72 ^ ^ ^ ^ 20 5.66 0.41 2.31 ^ ^ Tabla 2 MAXIMOS SESGOS DE ESTIMADORES S Y P Todo p y E=.05 ^=.10 ^=.15 ^=.20 Minimax ^ 0.49 0.77 1.05 1.37 LMS ^ 0.53 0.83 1.07 1.52 3.14 0.16 0.36 0.56 0.82 P REFERENCiAS (1992): «BiaS-robust estimators of multivariate scatter based on projections», Journal af Multivariate Ana/ysis, MARONNA, R. A.; STAHEL, W. A`, y YOHAI, V. J . 42, 141-161. MARONNA, R. A., y YoHAi, V. J. (1993): «Bias-robust estimates of regression based on projections», Annals of Statistics, 21, 965-990. MARTIN, R. D.; YOHAi, V. J., y ZAMAR, R. H. (1989): «Min-max bias robust regression», The Anna/s of Statistics, 17, 1608-1630. RoussEEUw, P. J., y LEROY, A. M. (1987}: Robust regression and outlier detection, Wiley, New York. SIMPSON, D. G., y YoHAi, V. J. (1993): «Functional stability of one-step GM-estimators in linear regression», Technical Report #71, Department of Statistics, University of Illinois Urbana-Champaign. .^?^fl F;^T Aí)I^ C`FC A E.SPAtii.)t_A CO NT ESTA C I O N En primer lugar, quiero agradecer al profesor Daniel Peña y a la Revista Estadística Española por esta oportunidad de discutir uno de mis temas favoritos: estadística robusta. También quiero agradecer a los distinguidos comentaristas por prestigiar rni contribucián con sus comentarios y sugerencias. Mi trabajo no es una revisión de la teoría de robustez, sino una introducción a ia misma. Consecuentemente, muchas cantribuciones importantes han sido intencionaimente omitidas con el objetivo de simplificar la exposición y resaltar las ideas centrales. Algunas de esas omisiones fueron recogidas por los comentaristas en sus comentarios. EI profesor Victor J. Yohai describe una clase rnuy interesante de estimadores Ilarnados estimadores de proyección, el profesor Ricardo Maronna resalta la importancia e interés de ciertos problemas multivariados, el profesor Manuel del Río discute posibles aplicaciones de los métodos robustos en problernas de detección de outliers, y los profesores Elías Moreno, Juan Antonio Cano y Julián de la Horra enfatizan las posibles conecciones con el área de robustez bayesiana. La teoria de robustez presentada en mi articulo está basada en el concepto de sesgo asintótico máximo y, por lo tanto, es de naturaieza global. EI resuitado del ejemplo presentado por los profesores Moreno y Cano puede deberse a la alta proporción de autliers en la muestra. Si las probabilidades condicionales de x^ y x2 son apraximadamente iguales {bajo los dos escenarios posibles), entonces muestras muy desequilibradas, como por ejemplo x1 , x1 , x1 , ..., x1 , serán muy atípicas y el consecuente colapso de la inferencia basada en tales rnuestras no sería entonces sorprendente. Otros comentaristas resaltan ciertos problemas que aún subsisten y constituyen, en mi opinión, interesantes desafíos. Los profesores Alfonso García Pérez y Santiago Velilla critican la naturaleza eminentemente asintótica de la teoría de robustez. Puesto que una teoría basada en muestras finitas no será factible en el futuro previsible, creo que se deberia prestar mayor atención al grado de uniformidad y a la velocidad de la convergencia de los estimadores robustos hacia sus respectivos funcionales asintóticos. Martin y Zamar {1993) es un modesto ^-;5"1"INIA('I()N R()KIJS 1 :1, paso en esa dirección. Los profesores Joaquín Muñoz García, Quindimif y Antonio Cuevas mencionan los problemas computacionales y la conveniencia de incluir métodos robustos en paquetes estadísticos comerciales. Yo concuerdo plenamente con ellos. EI interesante comentario del profesor Alfonso Gordaliza sitúa mi trabajo en un contexto m^s amplio dentro de la teoría de robustez y pone de relieve algunos aspectos que encontré muy interesantes.