ESTADISTICA ESPAÑOLA Vol. 30, Núm. 1 19, 1989, págs. 435 a 444 Dos fun ciona l es rea l es d e l a m atriz de F ish er: co nvexida d y pé rd i da de i nformación de b i da a l agrupa m iento de obse rvaciones por AGUSTIN TURRERO NOGUES Facultad de Matemáticas Universidad Complutense de Madrid RESUMEN Se presentan dos funcionales reales de cualquier matriz de información y en particular, de la matriz de información de Fisher. Estudiamos el comportamiento de estas funciones frente a dos propiedades importantes de las medidas de información: convexidad y pérdida de información debida al agrupamiento de observaciones. A la vista de los resultados obtenidos, se proponen ambos funcionales como medidas de información paramétricas reales, en el caso multiparamétrico. Palabras Clave: M edidas Para m étricas de I nforrn ación, M atriz de Información de Fisher, Convexidad, Observaciones Agrupadas. A MS 198^-Subject c/assifica tion: 6 2 B 10, 6 5 F 15, 6 5 F 3 5. 1. INTRODUCCION EI contenido de este trabajo se enmarca en el ámbito de 1as medidas de información paramétricas. Dichas medidas se refieren a familias paramétricas { f(x, f^), ^^ Q} de distribuciones; miden la cantidad de información que proporcionan los datos acerca del parámetro desconocido ^ y son funciones de 0. Si 4 es k-variante, la matriz de información de Fisher es la f ti 1^>f^iti ^^^ r^c ^^ f_Sf'^1tiOL. 1 única medida de información paramétrica disponible. EI carácter matricial de esta medida no sólo dificulta la interpretación intuitiva de la misma como medida de información sino que además le resta operatividad a la hora de comparar experimentos. La idea de resumir en un solo dato los elementos de esta matriz heredando de la misma las propiedades que caracterizan las medidas de información parece, pues, un objetivo deseable. Papaioannou y Kempthorne (1971 ) y Ferentinos y Papaioannou { 1981) dan una respuesta a esta cuestión praponienda como medidas reales de información la traza, el determinante y el autovalor i-ésimo de la matriz de Fisher. Turrero { 1989) presenta un argumento intuitivo basado en el análisis de componentes principales de la matriz de Fisher, que justifica limitar al conjunto de funciones reales de sus autovalores, estrictamente crecientes y simétricas en cada argumento, las posibles med^das de información basadas en dicha matriz. Elegir entre estas funciones las más adecuadas equivale a seleccionar aquellas con mejor comportamiento frente a propiedades básicas en toda medida de información (*). En base al análisis de dichas propiedades, Turrero { 1 989) propone como medidas de información la norma euclídea y"una media generalizada" de los autovalores, de la matriz de Fisher; estos dos funcionales junto con deterrninadas funciones iineales de dicha matriz, entre ellas la traza, parecen tener una mejor conducta frente a aquellas propiedades. Este trabajo pretende reforzar el papel que como medidas de información desempeñan ambos funcionales examinando su cornportamiento frente a dos propiedades deseables de dichas medidas: la convexidad y la pérdida de información debida a1 agrupamiento de observaciones. En la sección 2 probamos la convexidad de la norma euclídea de cualquier matriz de información. Demostramos asímismo la concavidad de los dos funcionales respecto de repeticiones independientes del m ismo experimento. En la sección 3 establecemos la propiedad de pérdida de información debida al agruparniento de observaciones para arnbos funcionales. Todos los resultados tienen su particularización para la matriz de Fisher y completan los presentados por Kale (1 964j y Ferentinos y Papaioannou (1979, 1 983). 2. CONVEXIDAD Denotamos por EX ={(X, S^X, Ay; P,,:f1 E O} al experimento estadístico que consiste en la observación de una variable aleatoria X definida en el espacio medible (S^x,A) cuya distribución de probabilidad P„ depende de un (`) Coma son la no negatividad, información máxima e invariancia bajo transformaciones suficientes. 437 [)US Fl'N(.^IOtiE^S REALE^S [^E 1_A MATRIf DE FISNE::R: parámetro desconocido f^. Suponemos que la familia de rnedidas de probabilidad { P^,:fl ^ O} está dominada por una medida finita o rr-finita ,u. Sea f(x,ll)=dP^,/d/c la densidad correspondiente. Supongamos que © es un subconjunto abierto del espacio euclídeo k-dimensional lRk. Sea F el conjunto de densidades de probabilidad ( respecto de ,u^ pertenecientes a cualquier familia paramétrica con el mismo espacio paramétrico (^. Obviamente F es un conjunto convexo. Denotaremos por /x^f ^,), f f, ^ F a cualquier medida de información paramétrica como función de la densidad f^,f(x,^), o indistintamente /x(f^) cuando no sea preciso especificar dicha densidad. La medida /x(^^,) es una función convexa sobre el conjunto F si Ix[ ar„+(1 -a)g„] < alx^f ^,) +(1 -a)/x(g„) para cualesquiera f^,,g^, E F, 0< a< 1 y para todo f^ ^©. Si la medida de información es una matriz, la desigualdad matricial B> C significará que la matriz B-C es definida no negativa. EI término matriz de información significará una medida de información paramétrica que para todo f^ E O es una matriz kxk simétrica real definida no negativa que satisface la propiedad de información máxima que establece que /x(fI) >/T^x^((^) para todo estadístico T(X) y todo a E O con la igualdad si y sólo si T(X) es suficiente para f^ ( Ferentinos y Papaioannou, 1981). Un ejemplo típico de matriz de información es la matriz de información de Fisher /X cuyo elemento (i, j) es: E^^ [ a aa; logf ( X,fi) a aa; IoJ.Í(X^^) ] Sean ^? , [lx^T ^,) ] > ^ 2 [lx^T ^^) ] ? • • • ? a^k C/xCf^^) l > 0, los a utova lores de la matriz de información lx(^'^,). Sean Mx^j`^,) _ ^^ lx(f„) ^^ Y D,^ii^1) _ ^ I+lx^Í^^^) ^"k - 1 donde I es la matriz unidad y ^^ B (^ Y ^ B ^ denotan la norma euclídea y el determinante de la matriz B respectivamente, es decir: Mx tf r^ ) ^ { ^ ^ 2 [ /x ( f ^^ ) ] } ^ i2 y px ^r r^ ) _ .I-I { 1 +^^; [ IXC^ r1) ] } ^ ik ^,^ ;_^ 1 TEOREMA 2.1 Sea lx(f^^,) una matriz de información convexa sobre F. Entonces Mx(f^^,) es una función convexa sobre F. DEMOSTRA CION Por ser lx(f'f^) una matriz convexa, tenemos que: 0 ^ a< 1 /x[ a.Í^ r^+(1 - a19'r^ l < a/x(.1^^^) +(1-a)/X(9'^^) 4^^ ESTA[)ISTIC"4 ESP,Ay(^LA para cualesquiera .r,,,g„^ F y todo f) E E^. Dado que estamos en las condiciones del teorema 3, p. 1 17 de Bellman ( 1970) se verifica que: ^; { jx[ af Q+(1 ' a)9^^ } < ^., { alx(.f t,) + (1-a) Ix(g^,) } i=1, . . ., k Por ser todos los autovalores ^; {/x[af e+(1-a}g^j }> 0 podemos escribir É^.?{ a/X( f ^)+(1 - a) Ix(9©) } ^^.2{ lx[ a1'o+(1 - a)9e^ }< ,=1 ^+ 1 de donde resu Ita que Mx(a.^rt+(1 -^}9r,) ^ Ei a/x( ^ t^}+(1-a}lx(9^1 ^^ < aMx(_J'^,)+(1-a)Mx(gH) dándose ia última desigualdad de forma inmediata a partir de dos propiedades conocidas de la norma euclídea. Por {o tanto Mx( f^} es una funcián convexa sobre F. TE(^REMA 2.2 Sea lX(f ^,) una matriz de información convexa sobre F. Entonces para cualesquiera f f,, g^, ^ F, todo f^ E© y a > 0 tenemos r^^ flX[a.Í e+( 1 -a)g^ ] ^ ^ 1 + alx(.rr^) +( 1 -a)/xt9^^} ^ 1/k _ (ii^ aDX ( f ^} + (1-a) DX (g^) < ^ I + alx(f r^) + (1 -a)lXÍg^,) ( ^^k_ 1 DEM^STRA ClO/v (i). ^a matriz I+lx[af o+(1-a)g^,] es definida positiva. La propiedad es consecuencia de la convexidad de /x(J'^,) tRao, 1973; problema 9, p. 70). (ii). Dado que a[ I+/x(f f,} ) Y(1- a} [ I+/x(gf,} ^ son dos matrices definidas positivas, podemos escribir ( Rao, 1973; problema 8, p. 70) que ^ I +a/x(f ©) +(1 -a)lx(ga) ^ r^k > ^ a[ I +lx(f ^,) ] ( »k+ ^ (1-a) [ I+/x(g^) ] ^ ^^k = a; I+lx ( f ^} ^''k+ (1- a} ^ I +lX ( g^,) ^^ rk = a[©X (f ^,)+1 ]+(1-a) [DX(g^,)+1 ] aDX (f ^^)+(1- a) DX (9'^,)+ 1 Dl7S FUNCIONES REALES DE l.A MATRIZ DE FISHER: 439 Sean X,, ..., X,,, n observaciones independientes de la variable X y consecuentemente DX^,.,.,x^ (4) _ ^ I+/x^ xn 1H} ^"k - 1 TEOREMA 2.3 Sea /x(B} una matriz de információn con la propiedad de aditividad para observaciones independientes de la variable X. Entonces DX^ x^ (8) es una función creciente cóncava de n. . DEMOSTRA C/ON La aditividad de la matriz /x(8} hace que lx^, .., x^ (^) = nlx(41 con lo que Ox,, . . ., x„ (©) - Ox,. . . ., x^-^ (B) _ ^ I +n/x(©) ^ ^^k_ i ^+(n-1)/x(©) ^ ^^k > 0 dándose la última desigualdad por ser I+(n-1) /x(t^) una matriz definida positiva e/x(B) definida no negativa (Rao, 1973; problema 9, p. 70). Para probar la concavidad de la función DX^ aDX,....,x„ (©)+(1-a)^X,,. xn (B) estableceremos que .,x^„ (e) < vX^, ..,x^ (e1 con ^ = an + (1-a)m a [ I I +n/xl e) ^ ^^k_ 1 ] + ( 1-a} [ ^ I+m/x(^) ^ ^^^_1 ] _ _ ( a [ I+n/x(8) ] ^ ^^^ + ^ l 1-a) [ I+m/x(8) ] ^ ^^k _1 < < Í a [ I +n/x(^) ] + (1 -a) [ I +m/x(^) ] ^r^k-1 _ ^ I +r/x ( 8) ^' ^k-1 Otra vez hemos utilizado la propiedad ^ B+C ^"k > ^ B^"k + ^ C ^'^k para matrices reales, definidas positivas, de orden k. ^ OBSER VA CIDN La aditividad de la matriz /x(^} implica como una consecuencía inmedíata la aditividad de la medida Mx(8), es decir: Mx,, . . , x„ (^) - ^^ /x,, . . , x„ (e) ^) _ ^^ nlx(©) ^^ = nMX(8) De esta forma Mx^ xn (Q) es una función lineal y, por tanto, cóncava en n; y es creciente, debido a la no negatividad de la norma euclídea. E ST.ADISTI( ^ FSF':^^+Ol_:A ^os resultados anteriores se particularizan fácilmente para la matriz de información de Fisher lX (f1). Si se satisfacen las condiciones de regularidad de la medida de información de Fisher {Kagan, Linnik y Rao; 1973f la matriz de Fisher es una matriz convexa {Stam; 1959) y aditiva para Observaciones independientes de la variable X{Fourgeaud y Fuchs; 1972). PERDIDA DE INFORMACION DEBIDA AL AGRUPAMIENTO DE O BS E RVAC I O N ES Sea S2X=lRm. Un agrupamiento g significará una partición -^< x;a < x;^ < (- ^ ,x. ], . . . < x,^, < ^ en cada ur o de los ejes i=1, . . ., m. Sea E^o= ;; ,,- ,x..^ ^ ,, ^o E -(x.^ ^ Y E^r ,...,jm -- E^^r xE2 ^2X . . . X Eml^, f; = O, 1 , . . ., I7;^- 1 . Sea G el conjunto de todos 1os agrupamientos g de lRm e/9 la medida de información basada en lx, para la transformación medible g, es decir, si lX es la medida de información de Fisher, Q c!R pa ra j= ^ , . . ., /'^i^ ^in^-+7-( ^ in; ^ /--E x--- r^ [ °O ^ 1 o J .i^ X ( ,D) ]2 a© entonces /9- ^ J 1, • • •^ ^/1? [ a log P(E,^, ) ^2 P{Ei^. ^ ^ ^ donde P(E) _ .^E f dµ Si la medida de información lX es real y verifica la propiedad de información máxima, en particular se verificará que IX> /9 para toda g E G. La pregunta que se plantea de forma natural es que si bien todo agrupamiento conl^eva una pérdida de ínformación ^ podemos hacer arbitrariamente pequeña dicha pérdida con una elección adecuada de g E G? De forma más precisa, dado ^> 0, zexiste una g E G tal que lX E< l9< lX, o lo que es equivalente ^ up/9=/x?. Es esta última propiedad la que se conoce como propiedad de pérdida de información debida al agrupamiento de observaciones. Si la medida de información /x es una matriz, esta propiedad se generaliza mediante {a igualdad 9 u p19-1X elemento a elemento. Vamos a establecer dicha propiedad para las funciones MX y DX. Para cualquier g ^ G denotaremos Mg(fl) = ^I lg^^^ I) Y©g^O) = ^ ^+/9 ^'j^`-1 [X)S FUNC'IONES REALES DE [..A MATRII [^E F ISF^ER: 441 TEOREMA 3.1 Sea { g„ } una sucesión de agrupamientos e lX(f^) una matriz de información, verificándose que la sucesión de matrices {/gn(f.^) } converge a la matriz lX(f1) elemento a elemento. Entonces las funciones MX(f^) y DX(f^) satisfacen la propiedad de pérdida de información debida al agrupamiento, es decir: (i) supMg (©)=Mx (fl) para todo © E ®^ gEG (ii) supD ^ (f^)=DX (f^) para todo ^ E © gEG DEMOSTRA CION Tanto MX(fl) como OX(f)) son funciones continuas de elementos de la matriz /x(f^). La hipótesis de convergencia de los elementos de l9n(fl) a los elementos de /X(f1) conduce a IimMg n (fI)=MX(f1) (1) IimO ^n (f^)=DX(f^) (2) n --^ ^ n --^ ^ L.a propiedad de información máxima de ia matriz /xl f^) hace que lX(fl) >/g(fl) para todo f^ E O y todo agrupamiento g E G. EI teorema 3, p. 1 1 7 de Bellman ( 1970) y la definición no negativa de /g((^) nos da ^.; { lX( f^) } > ^,; { lg ( o^ } ^ o i-1, . . ., k que implica inmediatamente MX(fI) > M9 (f^) para todo fI E O y g E G (3) DX(f^) > D9(f>) para todo f^ ^ 4 y g^ G (4) (i) Por (3) sabemos que MX(f^) > Mgn(fl) para todo n entonces, según (1 ) supM^n(fI)=MX(U) n 44? ESTA DIST ICA ESPA ^OLA Dado que g„ E G para todo n, tenemos que (5} sÉpM9 (n} > supM^n (fI)=MX(fl} 9 Otra vez la propiedad ( 3) implica que Mg (Q} < MX1d) para todo g E^ por consiguiente l61 supMg(fl> < MX(H) 9 Combinando las relaciones ( 5} y(6} obtenernos el resultado. (ii^ Por ( 4) sabemos que DX(H} > D^n(f^) para todo n entonces, según la propiedad (2) tenemos que supD9n(fl)=DX(f^) n la demostración se concluye con un argumento similar al utilizado en (i) Los resultados de esta sección son válidos para la matriz de información de Fisher exigiendo junto a las condiciones de regularidad usuales las dos adicionales siguientes: (A) (B) l i m Ffx, ^) [ a I og F(x, f^} a I i m [ 1 -F(x, f1) ] { ---X-^+^ aa, a Iog F(x, f^} ]= 0 log [ 1 -F(x, f^} ] a af^s log [ ^1 -F(x, 4} ] } = 0 r,s=1,...,k siendo F(x, d)=P,^(X < x). Bajo estas condiciones de regularidad, Ferentinos y Papaioannou (1979) prueban que la sucesión de matrices { l ^ n(f^) } converge a/X (f^) elemento a elemento, donde { g^ } es una sucesión de agrupamientos tales que 9„+, es más fino que g^„ para todo n. DOS Fl.; NCIC:)NES REALES DE LA, MATRII UE FISMER: 443 REFERENCIAS BELLMAN, R. (1970). /ntroduccíón to Matrix Analysis. McGraw-Hill. New York. FERENTINOS, K. y PAPAIOANNOU, T . (1979). Loss of information due to group i n gs, i n Transactions of the 8th Prague Conference on /nformation Theory, Statistical Decisíon Functions and Random Processes, 19 7 8, C, 8 7-9 4. FERENTINOS, K. y PAPAIOANNOU, T. ^ 1 9$1 ). New p8rametric measures of information. lnforrnation and Contro% 51, 193-208. FERENTINOS, K. y PAPAIOANNOU, T . (1983) . Convexity of ineasures of infor- mation and loss of information due to grouping of observations. Journa/ of Combinatorics, lnformation & System Sciences, Vol. 8, 4, 2$6-294. FOURGEAUD, C. y FUCHS, A. (1972). Statistique. Dunod. KALE, K. (1964). A note on the loss of information due to grouping of observations. Biometrika, 51, 495-497. KAGAN, A. M., LINNIK, Y. V. y RAO, C. R. (1973). Characterization Problems in Mathematical Statistics. Wiley. New York. PAPAIOANNOU, T. y KEMPTHORNE, O . (1 971 ): On StatistiCa/ /nformatio^n Theory and Related Measures of /nformatíon. Aerospace Research Laboratories Report, AR L71-0059, Wright-Patterson A.F.B., Ohio. R Ao, C. R.(19 7 3). Linear Statis tical /nference and lts A pplications. W i l ey. New York. STAM, A. (1959). Some mathematical properties of quantities of information. Ph. D. Thesis. Delft Univ. of Technology, Delft, the Netherlands. TURRERO, A. (1989): Nuevas medidas de información paramétricas reales basadas en la matriz de Fisher. Trabajos de Estadística, aparecerá en Vol. 4, 1. 4^4 F.sT^:^nisric^> E-s^;^^c^i..^ SUMMARY Tw0 REAL-VALUED FUNCTIONS OF FISHER'S MATRIX: CONVEXITY AND LOSS OF INFORMATION DUE TO GROUPING OF OBSERVATIONS Two real-valued functions of any information matrix and as a particular case of Fisher's information matrix are presented. We study the behaviour of these functions with respect to two important properties of ineasures of information: convexity and loss of informatian due to grouping of observations. In the light of the obtained results, both functions are proposed as univariate parametric measures of information in the multiparameter case. Key words: Parametric measures of information, Fisher's information matrix, Convexity, Grouped observations. A MS 1980. Subject classifica tion: 6 2 B 10, 6 5 B 1 5, 6 5 F 3 5.