ESTADISTICA ESPAÑOLA Vol. 34, Núm. 131, 1992, págs. 395 a 405 Una nota sobre el método de máxima verosimilitud por VICENTE NOVO y LUIS RODRIGUEZ MARIN Departamento de Matemática Aplicada ETSI Industriales (UNED) RESUMEN Se utilizan técnicas de diferenciación generalizada para obtener estimadores de máxima verosimilitud cuando la función de verosimilitud no es diferenciable en el sentido clásico. Palabras clave: Estimador, máxima verosimilitud, derivada generalizada. C/asificación AMS: 62F 10. 1. INTRODUCCION Dada una variable aleatoria x con dístribución de probabilidad f(x;U) (discreta o continua) dependiente del parámetro nE S2 (escalar o vectorial) desconocido, se plantea el problema de definir estirnadores de dicho parámetro. Uno de los métodos clásicos es el de máxima verosimilitud, consistente en definir como estimador de O el valor O que hace máxirna la función de verosimilitud L:S^-^R dada por L(U; x^, ..., xn )=f(x^, ..., x^; O) cuando tal valor exista. Se trata, por lo tanto, de un problema de optimización. Si L(• ; x^, ..., x^ ) es diferenciable en cada punto de S2, son aplicables las técnicas de optirnización del cálculo diferencial clásico. Sin embargo, no existe un método general aplicable al caso en que L no sea diferenciable. f`^T ^^I)I^+I I( ^ f tif'^\til y^ ^ Z^)f^ Las teorías de diferenciación generalizada desarralladas en los últimos años ---véanse Rockafellar (197^0), Aubin (1978), Clarke (1981) (1990), Hiriart-Urruty (1985), Cominetti Correa (1990), Novo (1990)- proporcionan técnicas matemáticas para el estudio de problemas de optimización de funciones no diferenciables. EI propósito de este trabajo es la descripción de una técnica para obtener estimadores de máxima verosimilitud para una clase de funciones de verosimilitud más arnplia que las diferenciables, a las que denorninaremos fuertemente continuas, y que contiene además a las funciones convexas, cáncavas y localmente lipschitzianas. Esta técnica se basa en la utilización de una derivada generalizada, in#roducida en Novo (1990), que denorninaremos G-derivada, de forma que la técnica clásica es un caso particular debido a que la G-derivada se reduce a la derivada clásica para funciones derivables. Se trata únicamente el caso unidimensional, es decir, cuando s2cR, aunque 1as definiciones y propiedades de la G-derivada han sido extendidas al caso de funciones entre espacios de dirnensión finita y al caso de funcionales reales definidas sobre un espacio normado - Novo (1990); Novo, Rodríguez Marín (1991) . EI trabajo se estructura como sigue. En 2 se dan las definiciones y propiedades básicas de la G-derivada; en 3 se recogen condiciones de extremo para funciones fuertemente continuas en términos de G-derivadas, y en 4 se ilustra 1a aplicación de estos resultados obteniendo estimadores de máxima verosimilitud ( MV) para una distribuc^ón de Laplace. Se utilizan las notaciones siguientes. IcR es un intervalo abierto o cerrado con la topología inducida, f:l--^R. Conv(I ), LL(l ), CF(I ) y C(/ ) representan los conjuntos de funciones convexas, localmente lipschitzianas, fuertemente continuas y continuas en l, respectivamente. f+'(x), f'(x), f'(x} son las derivadas clásicas; aRf(x) es la derivada en el sentido del análisis convexo --Rockafellar (1970)-, y ^f(x) es la G-derivada. Dados x, yE I denotaremos F(x^ Y)=^f (Y)-f (x)J^(Y-x}. 2. G-DERIVADA. PROPIEDADES Definición 2.1 f es de clase CF en a E I si existen un entorno reducido V de a y una constante k>0 tales que ^F(a, y)^<_k, para todo yE V Se demuestra fácilmente que Conv(I )cLl(1)cCF(I )(I abierto), siendo los contenidos estrictos, que la composición de funciones de clase CF es una l'ti,^ ^1^)^f,^ S(^ ^ E3FtE E-.L ^tE^T^^^)[)^^^) LaE^ ^1^^\fti1^^ ^.^f^^k^)ti11111 1^11 ^[> función de clase CF y que [CF (I ), +, •] es una subálgebra densa en C(/) (/ cerrado) que contiene a las funciones derivables y, en particular, a las polinómicas. Definición 2.2 Se dice que (x„ )--^a, xn E l, es una sucesión de G-derivabilidad de f en a si existe y es finito el límite 1( f, a, x^ )=^i m F( a, x^ ) Se denota por S(f, a) el conjunto de sucesiones de G-derivabilidad de f en a. A partir de la definición 2.1 es claro que si f es CF en a, entonces cada sucesión (xn )-^a de elementos de I contiene una subsucesión de G-derivabilidad de f en a, lo que hace que tenga sentido la siguiente definición de G-derivada. Definición 2.3 Se Ilarna G-derivada de una función f de clase CF en a al siguiente conjunto no vacío de números reales c^f (a)=CO {! ( f, a, xn ): (xn )E S(f, a)} en donde co A denota la envoltura convexa de A. Análogamente se definen las G-derivadas laterales ^+f y^-f utilizando sucesiones ( xn )cl convergentes a a por la derecha y por la izquierda, respectivamente. ^f(a), ^+f(a) y ^-f(a) son subconjuntos no vacíos, convexos (por definición) y compactos de R. ^f(a)=co {a+f(a) ^ c^-f(a)}. En Novo (1990) se demuestra que la G-derivabilidad de f en a es equivalente a que f sea CF en a, que la G-derivada de f en a se reduce a la derivada clásica si f es derivable, coincide con la derivada del análisis convexo si f es convexa y se cumple la siguiente regla de la cadena ^(f^9') (a)c^^f[9'(a)J•^^9(a) F^`^ T:^t)I`^ill ^^ F^^P^^ti^ ^ I ^1 yh En la proposición siguiente se recogen las reglas de cálculo de G-derivadas, Como las demostraciones son sencillas, sólo desarrollamos una de ellas. Proposición 2.4 Dadas f y g de clase CF en a y rE R, se verifica {i) (ii) (iii) (iv) rf es G-derivable en a y a(rf)(a)=raf(a). f+g es G-derivable en a y ^(f+g}(a)caf(a)+ag(a). fg es G-derivable en a y a(fg)(a)cf(a)^g(a)+g(a))f(a). Si además g(a)^0, f/g es G-derivable en a y ^^(f/g) (a)^[g (a)^f (a)-f (a)^g (a) ] ^ [9'(a)l2. Demostración (ii) Como f y g son CF en a, f+g es CF en a y, en consecuencia, G-derivable en a. Sea (x^ ) E S (f+g, a). AI ser f G-derivable en a, existe una subsucesión (xp ) de (x„ ) con I{f, a, xP ) finito, y corno g es G-derivable en a, dada la sucesión (xp ), existe una subsucesión (xq ) de ésta con 1(g, a, x^ ) finito; luego 1(f+g, a, x^ )=1(f+g, a, xQ )=1(f, a, xq )+l (g, a, xq ), de donde 1(f+g, a, xn )E ^f{a)+ag(a} para toda (xn ) E S{f+g, a). Por ser a(f+g)(a) y af(a)+ág{a) conjuntos convexos, se tiene finalmente que ^(f +g)(a)c^f(a)+^9'(a) Esta propiedad ( ii) se extiende de forma natural a ia suma de una familia finita de funciones CF en a. En general, los contenidos anteriores son estrictos. Por ejemplo, considerando f(x)=(x^ y g (x)=-^x^ se tiene que ^(f+g)(Cl)=0, mientras que af(o)+ag(^}=[-2,2]. Es de gran interés el estudio de las condiciones en las cuales se dan las igualdades. En la siguiente proposición se estudia una condición suficiente para que se verifique la igualdad en el caso de la suma. Proposición 2.5 Sean / abierto y f:l --^R, i=1, 2, ..., k. Si f. es convexa (cóncava) para cada i=1, 2, ..., k, entonces ^(f^+f2+...fk )(a)=t^f^(a)+^^f2(a)+...+^fk (a) para cada aE/ l^N^^ tiOiA tiOi;Kt EL_ ti1ETO[)O I)E ^1.^^1^1,^ ^ f ft^^ti1^111 lil'[^ 3y^) Demostración Como para cada i, f es convexa, resulta que f E CF(1) y, en cansecuencia, G-derivable en cada punto de /; luego por 2.4.(ii) se tiene el primer contenido. Por otra parte, al tratarse de funciones convexas, ^f (a)=aR f(a) para cada i y cada a E/. En estas condiciones, un resuttado conocido del análisis convexo -Rockafellar ( 1970), 23.8--- nos permite asegurar que ^R f(a)^ ^R f, (a)+d R f2(a)+...+t^R fk (a) para cada aE/. AI ser f suma de funciones convexas, es convexa, con lo que ^f(a)=^Rf(a) para cada a E I y se tiene la igualdad. Para f cóncava basta tener en cuenta que -f es convexa y que por 2.4.(i) ^(-f )(a)=-^f (a). Ejemplo 2.6 Sean f (x)=^x-1 ^ y g (x)=^x-2^, (f+g)(x)=3-2x si x<1, (f+g)(x)=1 si 1<_ x<_ 2 Y (f+g)(x)=2x-3 si x>2. ^f (x)=-1 si x< 1; af (1)=[-1,1 ]; ^f (x)=1 si x> 1. ^g (x)=-1 si x<2; ag (2)=[-1,1 ]; ^g (x)=1 si x >2. ^(f+9)(x)=-2 si x<1; a(f+9')(1)=[-2,OJ; ^(f+9')(x)=0 si --1 <x<1; ^(f+g)(2)=[0^21^ ^(f+9')(x)=2 si x>2. Se comprueba fácilmente que ^(f+g)(x)=^f(x)+^^g(x) para cada xE R. Nótese que f y g son convexas en R. 3. OPTIMIZACION DE FUNCIONES NO DERIVABLES En Novo (1990) se demuestra la siguiente versión del teorema del valor medio en este contexto. Si fE CF [a, b], entonces existen c E(a, b) y A E^f(c) tales que f(b)-f(a)=A(b-a). Proposición 3.1 Si fE CF ( 1) (I abierto) y a E I es un extremo refativo de f, entonces OE ^^f (a). -ll)() E-^^ T.aDI^^T lc^:t F^P.^wc ^l ,^ Demostración Supongamos que a es un mínimo reiatívo de f, existe b>0 tal que f(x)-f(a)?0 para todo x con +x--a^<b. Sea (x,^) E S'(f, a), como {xn)--^a' para n suficientemente grande se tiene que f(xn)-f(a)>o; luego F{a, x„ )>_0 y I+(f, a, xn )?o, es decir, que a`f(a) contiene al menos un número no negativo. An^logamente se demuestra que a!f(a) contiene al menos un número no positivo, y al ser ^f(a)=ca[a^f{a) ^^`(a)], resulta que 0^ af(a). La demostración es similar si a es un máximo relativo d e f. Esta condición necesaria de extremo contiene como caso particular a la clásica f'(a)=0 si f es derivable. La siguiente proposíción establece un criterio de monotonía para funciones CF utilizando G-derivadas. Proposición 3.2 Sean f^ CF[a, b] y h, kE {a, b) h<k, si para todo xE (h, k), áf(x) c R+ (resp. R^), entonces f es estrictamente creciente ( resp. decreciente) en (h, k}. Demastracíón 1/eamos únicamente el primer caso. En efecto, si x^, x2 E(h, k) con x2-x^>0, por el teorema del valor medio indicado an#eriormente, existen c E(x^, x2} y A E af(c) tales que f (x2}-f (x1)=A(x2-x^ ) y como af(x)cR+ para todo x E(h, k), A > 0 y f es estrictamente creciente en {h, k). Se enuncian a continuación dos condiciones suficientes de extremo relativo, cuyas demostraciones pueden verse en Novo (1990). La primera es una extensión natural de la teoría clásica, mientras que la segunda es propia de esta teoría. Proposición 3.3 Sean I abierto, fE CF (/) y a E 1 tal que OE df(a). Si existen l^=(a-b, a}c/ e 12=(a, a+b)cl tales que ^f(x)cR+ ( resp. R-} para todo xE I^ y^f(x)cR ( resp. R+} para todo xE 12, entonces a es un máximo ( resp. mínimo) relativo de f. U!^fA f^t)^^I^A SUF^31tF: E^^L_ MET(1[)O DE ti1A^lti1^^ ^`Fkt ^ ^I1tll_ITI^C:) -^OI Proposición 3.4 Dada fE CF ( I ), se verifica: (i) Si OE af(a}^[^`f(a)^c^^f(a)], a^f(a)cR^- ( resp. R+) y^`f(a)cR4 ( resp. R-), entonces a es un mínimo ( resp, máximo) relativo de f. (ii} Si OE Int ^'f(a)vlnt ^-f(a), entonces a no es extremo de f. En el caso en que OE Fra'f(a)^Fr^^f(a), nada se puede asegurar sobre la naturaleza del punto a. 4. APLICACION AL ESTUDIC^ DE ESTIMADORES MV Estas técnicas de optimización basadas en el uso de G-derivadas nos permiten obtener estimadores MV en el caso de una función L(^; x,, ..., x^ ) de clase CF en S2 no necesariamente derivable, de forma que la técnica clásica queda engiobada en ésta como caso particular. Con objeto de ilustrar ei método, consideremos una población descrita por la variable X con distribución de Laplace de parámetro O desconocido, cuya función de densidad continua viene dada por f(x; O)= -i exp [-^x-p ]; -^<x<^, OE R ( 2 Dada una muestra aleatoria simple, supondremos por comodidad que ya está ordenada y que, además, todos los elementos son distintos, es decir, x^<x^<...<xn . La función de verosimilitud L(^; x,, ..., x^ ): R-^R en este casa es L(O; X^, ... , xn )= 1 2n exp n -^ ^X^-O) i=1 Por brevedad pondremos L(O). Como L no es derivable, no se pueden aplicar los criterios clásicos de optimización; sin embargo, al ser LE CF(R), podremos utlizar las técnicas anteriormente indicadas. Lo mismo que en el caso clásico obtendremos el máximo de IogL, que coincide con el de L por ser log una función monótona. n 1 La función IogL(O)=nlog- ^^x;-O^ es la suma de n+1 funciones cóncavas, 2 i=1 la primera constante y n del tipo - ^x; -O^, de forma que la G-derivada de IogL(O) es, por 2.5, la suma de las G-derivadas. Como ^(nlog 1 /2)=0 para cada O E R y para cada i=1, ..., n(véase ejemplo 2.6) t ^r a«i^Tic ^^ E^s^^,^tit ^t ,> -^^ ^ ^? ^l^xr-U^= -1 si C)<x , ^-1, 1] si (^=x , 1 si C)>x ^ resulta que la G-derivada de IogL es n si 4<min (x^, ..., xR ) [n-^ w nl n-2 si si U=x, x1 <O<x2 En-^, n-2] si 0=x^ n-4 si x2<O<x3 -n+2 si x^ ._, <^<x„ [-n, -n+2] si U=xn -n SI O>max (x1, ,.., xn } Supongamos que el tamaño muestral n es impar; en este caso, e! único valor de O que anula la G-derivada es xtn +1^^2, de forma que o E ^IogL(x^n+,,,^)=[-1,1 ] con G-derivadas laterales ^^ IagL(x^^ ^ +,^,2)=1 cR+ y^+ IogL(x^n+,^,2)=-1 cR . Por 3.^4.(i) se concluye que 0=xt„+,^,2 es un máximo de IogL que, además, es única; pero x^,^+^^,2 es la mediana muestral {med.), luego el estimador MV de (J es 0=med {x^, ..., xn ) Si n es par OE ^ IogL(O) para tado O E [xn,2, xn^2+,]. Por 3.2 se tiene que IogL es creciente si O<xn^2, puesto que 71agL(C))cR+ y es decreciente si U>Xn^2+1 al ser a logL(O)cR ^. Además, como ^ IogL(O)=0 para todo O E (x^^2, xn^2+^), resulta que cualquier valor del intervalo [x^^2, xn,^+^] es máximo de IogL, can lo que cualquier valar de ese intervalo es un estimador de máxima verosimilitud del parámetro O. Nótese que en este caso la unicidad del estimador de máxima verosimilitud depende de! tamaño rnuestral. l^^lA tiO'T;^ ^OEiRE F•L !1^1f-:^TC)[)^) UE^ ^1.^X1!^1.^ ^ F.K.( ^ 511111 ITl't) aU^^ Esta técnica para obtener estimadores MV es aplicable igualmente al caso de un parámetro O vectorial (S2cR^ ) utilizando las condiciones de extremo para funciones G-diferenciables de R^ en R dadas en Novo (1990). Es conocido que el estimador dada para el parámetro O de la distribución de Laplace se puede obtener sin necesidad de recurrir a técnicas de diferenciación generalizada. Se ha seleccionado este ejernplo a modo de ilustración de la aplicación de estas técnicas que pueden conducir a resultados de rnucho mayor interés estadístico. En particular estamos estudiando, mediante la utilización de G-derivadas, propiedades asintóticas de los estimadores de máxima verosimilivéase Huber (1981) . En problemas relacionatud y de los M-estimadores dos con los estimadores robustos ya se han aplicado diversas teorías de diferenciación. Hampel (1974) introduce la función de influencia lC(x; T, F) a partir de la diferencial Gateaux y, en este misrno contexto, Reeds (1976), Clarke (1983), Fernholz (1983) y otros utilizan la diferencial compacta en el sentido de Averbukh y Smolyanov (1968). Esta función de influencia ha resultado de gran utilidad en el estudio de estimadores robustos. Es claro que si T es un funcional estadístico de clase CF se puede definir una multifunción de influencia, que se reduciría a la función de influencia de Hampel si Tes diferenciable Gateaux. Las conclusiones que se puedan obtener a partir de esa rnultifunción de influencia constituyen otra de las cuestiones a estudio. Huber (1981) generaliza los estimadores de máxima verosimilitud e introduce los M-estimadores como sigue. Tn es un M-estimador del parárnetro 4 si es solución del problema de optimización n rnin ^ p(x^; O) ^ i=1 en donde p es una función arbitraria [si p(x; O)=-log f(x; O) se obtiene el estimador de máxima verosimilitud], de forma que si p es derivable como función de O, Tn es solución de la ecuación implícita n ^, `^(x ; ; o)=o i=, con `^(x^; O)=p'(x^; O). Si p es de clase CF en O(no necesariamente derivable en el sentido clásico), la ecuación anterior puede ser sustituida por una condición de la forma n OE ^, ^3p(x^ ; O). i=1 -l(1-^ Eti'TAC)ISTI(^^A E^_SF'A^J(^[_.^ REFERENCIAS Aue^N, J. P. {1978): «Mathematical Methods of Game and Economic Theory». NOrt Holland. AVERBUKN, V. 1. - SMOLYANOV, O. G. (1968): «The various definitions of #he derivative in linear topological spaces». Russian Math. Surv., 23, 67-113. CLARKE, B. R. (1983): «Uniqueness and Fréchet differentiability of functional solutions to maximun likelihood type equations». Am. Statist., 11, 11961205. CLARKE, F. H. (1981 }: «Generalized gradients of Lipschitz functionals». Adv. in Math., 40, 52-67. CLARKE, F. H. (1990): «Optimization and Nonsrnooth Analysis, Classics in Applied Mathematics». SIAM. COMINETTI, R. - CORREA, R. (1990): «A generalized second-order derivative in nonsmooth optimization». 5iam J. Control and Optimization, 24, 4, 789-809. FERNHOLZ, L. T. (1983): «Von Mises calculus for statistical functionals». Lect. Notes in Stat., 19, Springer, New York. HAMPEL, F. R. (1974): «The influence curve and its role in robust estimation». Jour. Amer. Statist. Ass., 62, 1179-1186. HIRIART-URRUTY, J. B. (1985): «Miscellanies of nonsmooth analysis and optimization». Lect. Notes in Econ. and Math. Syst., 255, 8-24. HUBER, P. J. (1981): «Robust statistics». Wiley series in probability and mathematical statistics. Novo, V. (1990): «Diferenciación generalizada». Tesis doctoral. Serv. de Investigación UN ED. Novo, V. - R©DRiGUEZ MARiN, L. (1990): «An extension of the inverse function theorem». Rev. de la Real Acad. de C. Exactas, Físicas y Naturales, 84, Cuaderno, 575-588. REEDS, J. A. (1976): «an the definition of von Mises functionals». Ph. D. thesis, Dept. Statistics. Harvard Univ. Cambridge, Mass. ROCKAFELLAR, R. T. (1970): «Convex Analysis». Princeton Mathematics Ser., vol. 28, Princeton Univ. Press. l_INA NOTA SOBRE E=L. h1ETC)I^O [)F^ ti1,A^íIM.A ^'F-K( ^ ^;Iti11LlTl!C) A NOTE ON MAXIMUN LIKELIHOOD ESTIMATES SUMMARY This work deals with maximun likelihood method when the rnaxirnun likelihood function is non-smooth. We explore some technics using generalized derivatives. Key words: Estimate, maximun likelihood, generalized derivative. AMS C/assification: 62F 10. ^(1^