ESTADISTICA ESPAÑOLA núm. 143, 1983, p^^ gs. 123 a 131 Estimación por mínimos cuadrados de la matriz de covarianza de un vector aleatorio por M.° DEL ROSARfO LOPEZ GIMENEZ 8ioestad^stica (Facultad Medicina) Universidad Autónoma de Madrid RESUMEN Dado un vector aleatorio X con valores en Rp, de esperanza mX y matriz de covarianza ^X, la pareja (mX, ^X) puede caracterizarse mediante: mín {E[(X - m)' M(X - m)]; m E Rp, M E 8+, Tr(M ^`) _< 1}_ (1] = E{(X - rnX)' [Tr(^X 2)^Xi^2 ^(x _ ,nX} } donde b+ designa al conjunto de matrices simétricas definidas positivas. H^1^^ pr^^pie^l^^^l perrn^te ^nterpretar la matr^l ^e cuvari^^nla^ uhteni^i^^ ^^ partir de una muestra aleatoria de X como un estimador de mínimos cuadráticos de ^X. Puluhrus c^u^^e: Vector aleatorio, matriz de covarianzas, estimador por mínimos cuadrados. l. INTRODUCCION Sea X un vector aleatorio con valores en RP. Decimos que la distribución de X satisface un modelo lineal si podemos escribir X = rrr X + E 124 f-:STADIST7C'A EsPAtiC}I_A donde F eti un vector aieatc^ric^ nc^ c^h^,er^^^hle cie ^-^lore^ en R^', centracio EE^ = a, d^ ) y ^c ^ r^ nt.,tr,^ ^Ic^ ^^^^.,ri<<n^., ^.^; .^ ^rt.x^ c.^, i,n ^c.^^tc^r ^It^ ^^ yr,t^ rc.^^rt^^c.^nt^, I^^ c.^^^+c•r^in^^, ^1 t' ^ . En este mcxieio E se interpreta como un error aditivo sobre ^a medida de rnX, que c^,t,, r c.a^r^c.^^t^nt^r^l^t r^^r X. w:nt^^ncc.^^. ^r ^^htenc.^m^ ^ ^ t^n^^ mue^tr^^ ^ie X. ^1e tumcrñ^^ n. :^c; ^ . . . .. ^n . r.,r., ^^htent^r r,n., ^.^,trm^^cr^^n dt^ ^^tX ^rn h^,cer nrn^^ c^n^, hr^^^te^^^ ^uhre I^^ distribución de X, podemos usar el m^todo de los mínimos cuadrados. Buscaremos entonces e^ vector de m de R^ que minimice la suma^de cuadrados de 1as normas de las ciiferencias entre X; y m. Habrá que elegir una norma sobre R^, y si nos restringimos a las normas euclidianas y designamos por M ia matriz que define dicha norma, la ecuación a resolver será ^ ^(X; - m)'M(X; - !n), m E R^ ,I mín n 1 Tenemos que X=--- ^ X, y podemos poner entonces n ; ^ ,^ ^ {X^ - m)'M(X^ - r») _ ^> (X, - X)'M{X^ - X) + n(X - rn)' M(X - m) i':ntllnl'^`+ ^^ rYtlnlnltl llt' ^:! ^Lll^llll^n iinter'll^r 1t' lihtt^ne ^r^.'l'rl^imentt.' ^^irit /I1 = (2i ^^ t"+tii t^^t^m^,c,^ ^ n p^^r mínrm^» cu^„Jr.,^i^^^ e^ ^n^ie^endl^.^nte e^e !ái eNeccr^^n ^1e v1 y ^íe I^r m^itrrl ^ie c^^^ ^ir-i^rnl^r ^E . Si tomamos ahora E{(X - m)' M(X -- m) } = E t(X - mX)' M(X - mX) }+(mX - m)' M(mX - m) vemos que mX está caracterizado en este modeío como el vector m de Rp, que minimiza la esperanza del cuadrado de las normas de las diferencias entre X y m,[uego e{ estimador de mínimos cuadrados ^C tiene, respecto a^a distribución empírica de la muestra, la misma propiedad que mX respecto a la distribución de X. En e! caso en que E tiene una distribución normal multivariante, para cualquier valor de ^^, X es también el estimador de máxima verosimilitud de mX, puesto que es el estimador insesgado de mínima varianza para mX. Además, en este caso en que E es normal, la matriz de covarianza empírica a ^X = (X; - X)(X; - X>' n ._, n ? p + 1 FSTIMAC'ION POR MINIMOS C:'L'ADRADUS 1^S c', l.iit^hit'n c'I ^'^l^itt<«l^^r ^I^' ttt<<^rrt^.t ^c.'t^^^^rtltlt(tt^l ^Ic' ^ y, :^ s}:. I c^ y^^^' .^h^^r.t rrt'1^'n^.lc.' mos demc^strar es yue ^X es t^imhién un estim^^dc^r para mínimu^ cuaciradc^s de ^.x-. P^^r^^ ello vamos a ohtener primeramente una caracterización de ^x que dé lugar a c,na eleccic^n óptima de la norma que mide e! error. ?. CARACTERI"1_ACION DE L.A MATRl7 DE COVARIAN^A EN EL MC}DELO LINEAL Supongamos que la matriz de covarianza ^x sea no singular. Representamos por d el espacio vectorial de matrices simétricas de orden n, donde el producto escalar está definido mediante !a traza, y sea ti + el sut^conjunto de dicho espacio formado por las matrices def nidas positivas. Tenemos E{(X - in)' MIX - rn)} = E{(X - mX)' M(X - mX) }+ + ii^tx - ^rt ^ 'ti1urtX - ^n ^ :? [rl^l^Xi Hahíamos visto que, independientemente de la elección de M, el mínimo de esta expresión se obtiene para jn = rnX y vale, precisamente, Tr(1VI^X). Podemos entonces minimizar Tr(M^X) para la elección de la matriz 11^i, pero si no ponemos ninguna restricción a M el problema no tiene interés, puesto que Inf {Tr(M^X), M E b+}= 0 Si expresamos la traza en función de los valores y vectores propios tendremos: Sean i^,, ..., hp los valores propios de M, y V^, ..., VP, los vectores propios normalizados correspondientes, entonces Tr(MEx) = E{(X - mX)'M(X -- mX)} _ ^.^.kE{< X - mX, Vk}2} Esta expresión muestra que es conveniente imponer una condición del ti po {^ k> u> > U, k= I. ..., n} p^ir^^ ,mpedrr q^te I^i n^^rm^i ten^^ ^^ cumc^ cc^n^ec:uenct^^ el h^^rrar I^^ti eje^ ^1e ^;r^in t1t^^er^re^n. )'uJem^i^ t^^m^ir, pur ejer^pl^^ Inl { l^r(M^X), M E b+, Tr(M) >_ 1} _^,^(^x) donde ^.P(^X) representa el valor propio más pequeño de ^X. . . F ntc^nce^, I^^ re^trrccrc^n 1'rl M- ^ _< I trene el mrsmu et^ecte^ que {1^ k>_ u> U, k= = 1, .... p}. Fs^^An^sr^cA F.sP,^,r^c_^i_A 126 I.EMA [ Si ^ e^ una matriz ciefinicia positiva, o sea, ^ E d` y M verifica las condiciones dnteriores, v sea, M E á+ y Tr( M-^ 1^ I, el mín { Tr( M^ )} se obtiene para el único valor M = Tr(^ ^'`2}E -r2 I)c^^nr^.^•truc^rr^n Sea C x el compacto def nido por: Cx ={M E b+; Tr(M-^> <_ 1; Tr(M) _< K} f^ara K suficientemente grande, Cx es un conjunto no vacío y la función continua M-^ Tr( M^) alcanza sus exiremoti. Sea M^F e1 valor en el cual se realiza el minimo. Las condiciones MoE c^ + y Tr(M^; ^) <_ 1 irr^plican que todos los valores propios de M^, están acotados por la un^^l^^^1; et^^ie, p^^e^, un enturnu de yl^, en d q^,e est^^ enterdmente cunteni^i^^ en b+, y entonces M^, constituye el mínimo local de la función Tr(M^) considerada sobne b con las restricciones impuestas a CK. Cuando Ma está situado en el interior de b+, la restricción M E^i + no tiene interés, del mismo modo que no ta tiene la restricción Tr(M) ^ K cuando K es suficientemente grande. Evidentemente, el valor de Tr(M^,^) no puede crecer en la misma medida en que K aumente y tenemos Tr(ME) ? ^.p(^) Tr(M) donde a^ p(^ ) designa el menor valor propio de ^; así resultará que Tr(M^i ) no puede tender hacia infinito a rnedida que tienda K. Ma cieberá satisfacer la siguiente condición cl^{Tr(M^) - ^. [) - Tr(M-^) J } = 0 ; ^, >_ 0 donde c! M representa a la diferencia según la norma M. Puesto que la igualdad c^,^,^ {Tr(ME) -^. [ 1- Tr(M-^))} = Tr{c^M[E - h M-2)} = 0 deberá reali2arse para toda elección de la dirección d^, se obtienen las siguientes condiciones necesarias ^ - ^. M-2 = 0, ^. [1 - Tr(M-^)) = 0, ^. >_ 0 La única solución que se obtiene para que M satisfaga estas condiciones es que Mo ^ -^.r(^i^)^-^n c.q.d. EST(MAC'ION P()R MINIMOS CL'ADRADOS 127 "I'enemos entonces que el valor de i^^ será r^ (1 - "I'r( M - ^ ) ] = 0 ^. = ^. 1 r ( M ^^ ^ ) = Tr( M ^. ) _ ( Tr( ^ ^ ?` l 1= luego mín {Tr(M^); M E b+, Tr(M-^) < i}=(Tr(^^^)]2 Cc^mo consecuencia inmediata de este lema podemos hacer la siguiente afirmación: Sí X es un vector aleaturiu con valores en RP, de esperanza ^rr X y de rnatriz de covarianza ^x supuesta no singular, la pareja (^n.r, ^.x ) está caracterizada por mín {E[^X - rn^' vt^X - rni]; nr E Rp. ME b+, Tr(M^^) < 1} = = E {(X - mx)' [Tr(^X ) ^X^^ ](X - mX) } donde ó+ representa el conjunto de matrices símétricas definidas positivas. Esto es cierto, puesto que E{(X - m)'M(X - m)} ?(Tr(^X ))2 drnE Rp, t^M E ó+, Tr(M-^) ^ i y la igualdad sólo se realiza para m= m X y ^. M = Tr(^X )^X1i2 IN^I^FRf'RE^TACIUN ES^T^ADIS"rICA EI térm^nu de error E viene det"inido mediante el principiu ^ie mínimu^ cua^lradu^ por la expresión ^ ^ EZ^ - E'E _ ( X - mX)'M(X - mX) ;=^ con la eleccicin óptima de M, en las hipótesis anteriores, tendremos E'E = Tr(EX^)(X - mx)^^X^n{%^ -- ^nX) Si consideramos ahora una ci^escomposición espectral de ^X tal que , ^x = UxAxUx entonces E = [Tr(AX ^ ] ^^AX»4 UX(X _ mx) ^.^rAnrs^ricA E.sP^voLA tic.^^:un ti^•te^. t^l m^>^ielc^ ,e^;u^^i^^ p^^r X,e pue^le etpre,r^r X = rnx + C,JXDX^E, D,^ = [Tr(nX )1-^^/^Xrz En este modelo el error E está centrado y tiene una matriz de covarianza diagonal cs É DX con [ r( DX) = 1. Si representamos por a X los elementos diagonales de DX, por CI X los vectores lineales de UX y E' los componentes de E tenemos i3l Si los valores propios de EX son distintos, el modelo expresa que X es la resultante de los componentes principales de <x, U^X^ UX, cada una de las cuales traduce e1 efecto sohre X de la variah[e correspondiente < X, UX^ ; esta variable mide et efecto medio <rn X U X} , con un error E;, donde la varianza es proporcional a un parámetro de escala x X. C^^,^^n^ie^ h^^y un ^ulu ^^fl^^r prc^piv múlt^ple, la var^able ^ X, l' X^ que le ^^^ene ;t^^^c^^^^ia mi^ie un et^ec:t^^ ^ectc^ri^^l, pue^ lu^ cumpunenteti no pue^ien di^,c^c^^^r^e pdra ver la variabilidad que cada uno de ellos induce sobre X. Vamos a dernostrar que esta representación de X posee un carácter óptimo y es válida además para el caso en que ^X sea sing^ular. LEMA ll Sea }C un vector aleatorio con valares en Rp, de esperanza m X y de matriz de covarianza ^ X. Entre las representaciones de X bajo la forma X= m+ U' D^nE, m E R°, UU' = IP, Tr(D) <_ 1 donde D es una matriz diagonal de elementos positivos o nulos, aquellos que se obtienen a partir de mX y de una descomposición espectral de ^X ^X = csÉ UXDXU^, Tr(DX) = l son las únicas que dan el rninimo de E{E 'E } Dernostruci^^n E(E 'E ) = E { [E - E(E ) ) ' [E - E(E ) ] } + [ E(E ) ] ' [ E(E ) ] y este valor es mínimo cuando E está centrado, o sea, m= mX, puesto que, en caso contrario, si ponemos É= E -- E(E ) tenemos: X = m + U'D^^2E(E) + U'D^^2€ m + U' D i^2 E(E ) = m XE R° E(^ 'É )< E(E 'E ) ESTIMAC'ION POR MI?^IMOS CL'ADRADUS 129 Para simplificar la nutación pc^nemus !)1 X = f :{ X ^ = IiJ = ^{E ^ = i^ Si suponemos el caso donde E,^ es singular, entonces ?^C toma valores en u n sut^etipacio V de R° de dimensión y, y ^ n, ortogonal en R° respecto a la base de ^,X. Si representamos por a^ los elementos diagonales de D, la condición li' U= 1° en la representación: X = U' D "ZE = a' U-' nos muestra que sólo y términos, entre E^;^' a^, son no nulos, y que los U^ correspondientes a 1os términos nulos, constituyen una base ortogonal de V. Mediante una reordenación de indices, la representación se puede escribir: X = < ^ v^a^U^ Si llamamos tenemos: ^IE^E ^= Y l. FI<X, l ^iz ^ ^ ^ ^ a ? Q «. Ft<X. ^^^}2 ^ ^ ^ ^ 0( E(E 'E ) se mi nimiza cuando t^ S 1 a' - 0, j-- q + l, ..., P y lu^ ^ectore^ l^'^ cc^rre^pund^ente^ t^orman una ha^e ^iel ^uhe^^ ^^^c^u prup^c^ atiuc^a^i^^ ^^ valor propio nulo de ^X. Si nos situamos en V tendremos el mismo problema iniciaf en dimensión y con una matriz ^X no singular y fa restricción Tr(D) = 1. Si para no cambiar de notaciones suponemos que ^X es no singular, tenemos: E(E'E) = Tr(MEX), M= U'D-^U, Tr(M-^) = l 13() ESTADISTTCA FSPAIVOLA luego esta repretientaciún nos da el mínimo de E(E 'E ) c.q.d. EI valor de este mínimo e^id ciadu mediante e! lem^ 1 y será: rr , donde ti^,..., ti^, son los valore s propios de ^ X. Notemos que en la representacicín X= m+ U D^^2£, el criterio E(E'E ) prescinde de !as posibles cvrrelaciones entre los componentes de E, pero se minimiza precisamente en el caso en que estas componentes no están correlacianados. Estdmos ahora en condiciones de hacer la siguiente afirmación, por simple aplicación del lema que acabamos de demostrar, Sea X un vector aleatorio con valores en Rp, con esperanza m X y matriz con covarianza ^X. Sea { X ^, ..., Xn } una muestra aleatoria de tamaño n, n> p+ 1, abtenida de X. Los parámetros muestrales rr^X = X = 1 n n (X! _ X^(Xi _ X^, _, n son los estimddores de mínimos cuadrados de mX y^X, en el sentido en que (mx• ^x^ es !a ^ nica solución del problema de minimización de la surna de cuadrados de las normas de los errores de E; en la representación: X; = ^n + U'D^'2E;, i= l, ..., n; m E Rp, UU' _!P, Tr(d) < 1 donde D es una rnatriz diagona! con elementos pasitivos o nulos asociados a E, que estará dada entonees por: E = csÉU'D2U a^ _ n BIBLEOGRAFIA RoHATGi, U. K.: An Introduction to Prohuhilitv Theorv und Muthemutrcul Stutistrc•s. John Wiley and Sons, 19^6. SPRlNGER, M. D.: Th^ Alkehru v,}' Random Vuriuh/es. John Wiley and Sons, 19^9. ZACKS, S.: The The^^rv vJ' Stuti.sticul In,jerence, John Wiley and Sons, 1971. ESTIMACIUN Pt)R MINIMUS C'L'ADRAI:)OS 131 SUMM.ARY EST[MATION OF TNE LEAST SQUARE OF THE COVAR[ANCE MATRIX (^F AN RANDOM VECTOR Let X be a random vector with values in R^, with expectation rnX and t he covariance rnatrix ^ X. Then (^n X, E X) may he caracterize in t he expression: min {E[(X -- ^n)' M(X - rn)1 : rn E R^, M E b+, Tr(M ^' 1_< 1} _ = E{(^C - rr^ xl' ÍTrt^-X^^I^X i^z^(^C - frtx) } [[] where ^+ is the set of symetrics rnatrix posítive ciefinite. This propiety permit to interpret ihe covariance matrix of a random sample of X, as a least square estimate of ^X. K^^^ K^^^rr^s: Random vector; covariance matrix; least square estimate. AMS, [9^0. Subjetc classi^cation: Primary 62F10, secondary 65F05.