Cálculo Matricial para Modelos Lineales Mixtos Francisco Vera, Pablo Álvarez y Margarita Martı́nez Facultad de Ciencias Naturales y Matemáticas Escuela Superior Politécnica del Litoral 28 de noviembre de 2013 Resumen Algunos problemas estadı́sticos requieren la optimización de una función con respecto a una matriz. Tal optimización requiere ciertas expresiones de derivadas con respecto a un parámetro o con respecto a otra matriz. El propósito de este reporte es presentar algunas de estas expresiones, que son bien conocidas en la literatura, para que esté disponible para investigadores que trabajen en problemas de modelos lineales mixtos. Capı́tulo 1 Matrices En este documento se utiliza la notación X = [xij ; i = 1, . . . , m; j = 1, . . . , n] para representar una matriz con m filas y n columnas. Cuando la dimensión de la matriz sea obvia por el contexto, se escribirá simplemente X = [xij ] . El espacio de todas las matrices con m filas y n columnas se denotará por Mm×n . La transpuesta de una matriz X = [xij ] se define como X0 = [xji ] Si m = n, se dice que la matriz X es cuadrada, y el espacio de dichas matrices se denota por Mn . En este documento todos los vectores en x ∈ <n serán también matrices columna, es decir, x ∈ Mn×1 . La i-ésima fila de X ∈ Mm×n será denotada por el vector xi· , y la j-ésima columna se presentará por el vector columna x·j , es decir x1j xi1 xi· = ... y x·j = ... xmj xin Se dice que una matriz X ∈ Mn es diagonal si i 6= j implica xij = 0. Una matriz diagonal especial es la matriz identidad, que se denota por In , y es tal que los elementos en la diagonal son todos 1. 1.1. Producto Para X ∈ Mm×p y Y ∈ Mp×n se define el producto matricial entre las dos matrices como la matriz Z = XY = [zij ] ∈ Mm×n donde X zij = xik ykj . k El producto matricial se puede definir en términos de las filas y columnas de dos maneras. La primera es a través de las coordenadas. Si Z = XY entonces zij = x0i· y·j 2 La segunda manera es a través de la sumatoria de matrices X 0 XY = x·k yk· k En el caso de multiplicar tres matrices X ∈ Mm×p , Y ∈ Mp×n y Z ∈ Mn×q , se puede aplicar la expresión anterior dos veces, y queda X XYZ = yij x·i z0j· (1.1) i,j Si W = XYZ = [wij ], entonces se puede probar que wij = x0i· Yz·j (1.2) Si X ∈ Mm×n , entonces se puede probar que XIn = Im X = X Si X ∈ Mn , se denota su inversa por X−1 , y se define como una matriz tal que X−1 X = XX−1 = I. La matriz inversa no siempre existe. Si existe, se dice que la matriz es inversible. 1.2. Traza Si X ∈ Mn , seP define su traza como la suma de los elementos de su diagonal, es decir, tr(X) = i xii . A continuación se muestran algunas propiedades de la traza. Si X ∈ Mm×n y Y ∈ Mn×m , entonces tr(XY) = tr(YX) Si X ∈ Mn y c ∈ <, entonces tr(cX) = c tr(X) Si X ∈ Mn , entonces tr(X0 ) = tr(X) Lema 1.1. Si X, Y ∈ Mm×n , entonces X xij yij = tr(XY0 ) = tr(X0 Y). i,j Demostración. Si Z = XY0 , entonces zii = tr(Z) = X zii = i P xij yij y X xij yij . j i,j La segunda igualdad de prueba de manera análoga. 3 1.3. Determinantes El menor de una matriz X se define como la matrix X(ij) , que consiste en la matriz X con la fila i y la columna j eliminadas. El determinante de X ∈ Mn se define recursivamente de la siguiente manera: si n = 1, entonces el determinante es |X| = x11 . Si n > 1, se fija el valor i, y se define el determinante por X |X| = xij (−1)i+j |X(ij) |. (1.3) j El término (−1)i+j |X(ij) | suele recibir el nombre de cofactor ij, y la matriz de estos elementos C(X) = (−1)i+j |X(ij) | se denomina matrix de cofactores de X. Se puede probar que el valor de (1.3) es el mismo para cualquier i que se escoja. Algunas de las propiedades del determinante se muestran a continuación. Su demostración se puede encontrar en libros estándares de álgebra matricial. Q Si X es diagonal, entonces |X| = i xii |In | = 1 Si X, Y ∈ Mn entonces |XY| = |X||Y| Si X ∈ Mn y c ∈ <, entonces |cX| = cn |X| X es inversible si y solo sı́ |X| = 6 0 Si X es inversible, entonces |X||X−1 | = 1 Si X es inversible, entonces X−1 = 4 0 1 C(X) |X| (1.4) Capı́tulo 2 Funciones Matriciales 2.1. Derivada con respecto a una variable En el caso que los componentes de X sean funciones de una variable real t, es decir xij = xij (t), se puede definir la derivada de X con respecto a t como la matriz dX dxij = dt dt Estas derivadas presentan ciertas propiedades, que se muestran en los resultados a continuación. Teorema 2.1. Sean X ∈ Mm×p y Y ∈ Mp×n . Entonces d dX dY (XY) = Y+X dt dt dt P Demostración. Si Z = XY, entoces zij = k xik ykj . Por lo tanto X d X dxik X dzij dykj = (xik ykj ) = ykj + xik dt dt dt dt k k k Teorema 2.2. Si X ∈ Mn es inversible entonces dX−1 dX −1 = −X−1 X dt dt Demostración. Usando el teorema 2.1 d d dX −1 dX−1 0 = In = (XX−1 ) = X +X dt dt dt dt De lo anterior se deduce que dX−1 dX −1 =− X dt dt La demostración concluye multiplicando ambos lados por X−1 X 5 Corolario 2.3. Si X ∈ Mn es inversible y Y = X−1 entonces dX−1 0 = −y·i yj· dxij dX es una Demostración. Se aplica el teorema 2.2, tomando en cuenta que dx ij matrix que tiene ceros en todas sus posiciones, expecto la posición ij que es 1. 2.2. Derivadas de funciones escalares En la siguiente consideración, f es una función f : Mm×n → <, donde < representa a los números reales. Esta función asigna a cada matriz X un número real y = f (X), por lo que se le llama también función escalar. El determinante y la traza son ejemplos de funciones escalares. Se define la derivada parcial de y = f (X) con respecto a X como la matrix de derivadas parciales ∂y ∂y ∂ = f (X) = ∂X ∂X ∂xij Corolario 2.4. Si X ∈ Mn es inversible y Y = X−1 entonces ∂yij 0 = −yi· y·j ∂X Teorema 2.5. Sea X = [xij ] ∈ Mm×n , donde xij = xij (t), y sea y = f (X) una función escalar. Entonces dy ∂y dX0 = tr dt ∂X dt Demostración. Como la variable y depende de t sólo a través de las variables xij , se reconoce que dy dt es la derivada total de y con respecto a t. Es bien conocido que este derivada está dada por la expresión dy X ∂y dxij = . dt ∂xij dt i,j La demostración concluye con una aplicación del lema 1.1 2.3. Derivadas del determinante Una de las funciones que suelen aparecer en aplicaciones estadı́sticas es el determinante. Los siguientes resultados muestran derivadas del funciones que involucran el determinante de una matriz. 6 Teorema 2.6. Sea X = [xij ] ∈ Mn . Entonces 0 ∂ |X| = C(X) = |X| X−1 ∂X Demostración. La primera igualdad se deduce inmediatamente de (1.3), y la segunda de (1.4). Teorema 2.7. Sea X = [xij ] ∈ Mn , donde xij = xij (t). Entonces d dX |X| = |X| tr X−1 dt dt Demostración. Aplicación directa de los teoremas 2.5, 2.6 y de las propiedades de traza. Corolario 2.8. d dX log(|X|) = tr X−1 dt dt Teorema 2.9. Sea X = [xij ] ∈ Mn . Entonces 0 ∂ log(|X|) = X−1 ∂X dX es una Demostración. Supongamos que Y = X−1 = [yij ]. La matriz dx ij matriz con ceros en todas las posiciones, excepto la posición ij. Entonces, la dX matrizY dx consiste en una matriz con cero en todas las posiciones, excepto la ij columna j, que contiene la i-ésima columna de Y. Entonces, por el corolario 2.8 d log(|X|) = yji dxij 2.4. Derivadas de la traza Teorema 2.10. Sean A ∈ Mm×n y X ∈ Mn×m , donde A es constante con respecto a X. Entonces, ∂ tr(AX) = A0 ∂X Demostración. Aplicación directa del lema 1.1 Teorema 2.11. Sean A, X ∈ Mn , donde A es constante con respecto a X. Entonces, 0 ∂ tr(AX−1 ) = − X−1 AX−1 ∂X 7 Demostración. Si Y = X−1 , entonces, por el lema 1.1, X tr(AX−1 ) = aji yij i,j Entonces, utilizando el corolario 2.4, queda X X ∂ ∂yij 0 tr(AX−1 ) = aji =− aji yi· y·j ∂X ∂X i,j i,j El resultado se deduce inmediatamente de (1.1). 2.5. Derivadas de formas bilineales Teorema 2.12. Sean a ∈ <m , b ∈ <n , X ∈ Mm×n , donde a y b son constantes con respecto a X. Entonces ∂ 0 a Xb = ab0 ∂X Teorema 2.13. Sean a, b ∈ <n , X ∈ Mn , donde a y b son constantes con respecto a X. Entonces 0 ∂ 0 −1 a X b = − X−1 ba0 X−1 ∂X Demostración. Sea Y = X−1 . Entonces, por el teorema 2.5, 0 ∂ 0 ∂a Yb dY0 0 0 = − tr (ab0 yj· y·i ) = − tr (y·i ab0 yj· ) a Yb = tr ∂xij ∂Y dxij La primera igualdad es por el teorema 2.5, la segunda por el teorema 2.13 y el corolario 2.3, la tercera por propiedades de traza. La expresión dentro de esta última traza es una matriz 1 por 1, por lo que la traza es ella misma. De esto se deduce que ∂ 0 0 a Yb = y·i (ab0 )yj· ∂xij La demostración concluye aplicando (1.2) 2.6. Derivadas para Modelos Lineales Mixtos Teorema 2.14. Sea X ∈ Mm×n y sean A ∈ Mp , B ∈ Mp×m , C ∈ Mn×p constantes con respecto a X. Suponga que Y = A + BXC es inversible. Entonces 0 ∂ log |Y| = CY−1 B ∂X 8 Demostración. Por el corolario 2.8, d log(|Y|) dY = tr Y−1 dxij dxij P Utilizando ahora (1.1) se puede expresar BXC = i,j xij b·i c0j· , de lo que se dY = b·i c0j· . Reemplazando esta expresión en la traza y usando deduce que dx ij propiedades de traza, queda d log |Y| = tr Y−1 b·i c0j· dxij = tr c0j· Y−1 b·i = c0j· Y−1 b·i La demostración concluye utilizando (1.2) Teorema 2.15. Sea X ∈ Mm×n y sean A ∈ Mp , B ∈ Mp×m , C ∈ Mn×p , d, e ∈ <p constantes con respecto a X. Suponga que Y = A + BXC es inversible. Entonces 0 ∂ 0 −1 d Y e = − CY−1 ed0 Y−1 B ∂X dY Demostración. Como en la demostración del teorema anterior, dx = b·i c0j· . ij Utilizando los teoremas 2.5, 2.13 y las propiedades de traza se obtiene 0 −1 d 0 −1 ∂d Y e dY0 d Y e = tr dxij ∂Y dxij 0 0 = − tr Y−1 ed0 Y−1 b·i c0j· = − tr b·i c0j· Y−1 ed0 Y−1 = −c0j· Y−1 ed0 Y−1 b·i La demostración concluye utilizando (1.2) Finalizamos esta sección con derivadas de formas lineales y cuadráticas cuando se deriva con respecto a un vector. Los siguientes resultados son bien conocidos y su demostración se deja al lector. Lema 2.16. Sea x ∈ <n y sean a ∈ <n , A ∈ Mn constantes respecto a x. Entonces ∂ 0 ∂ 0 ax=a y x Ax = (A + A0 )x ∂x ∂x 9 Capı́tulo 3 Modelos Lineales Mixtos En este documento se utilizará la notación x ∼ Np (µ, Σ) para indicar que x es un vector aleatorio con p componentes con distribución normal multivariada con vector de medias µ y matriz de varianzas y covarianzas Σ. A continuación se mostrará la formulación para los modelos lineales mixtos, como lo formuló originalmente Laird y Ware (1982) y como se presenta en Demidenko (2004). Sea yi un vector aleatorio con ni componentes, definido para i = 1, . . . , N . Un modelo lineal mixto tiene la forma yi = Xi β + Zi bi + εi donde Xi ∈ Mni ×m es una matriz de constantes conocidas (matriz de diseño de efectos fijos) β ∈ <m es un vector de constantes desconocidas (parámetros) Zi ∈ Mni ×k es una matriz de constantes conocidas (matriz de diseño de efectos aleatorios) bi ∼ Nk (0, σ 2 D) εi ∼ Nni (0, σ 2 Ini ) Los vectores b1 , . . . , bN , ε1 , . . . , εN son mutuamente independientes. Esta formulación resulta en que yi ∼ Nni Xi β, σ 2 (Ini + Zi DZ0i ) . 3.1. Vesosimilitud Sean Vi = Ini + Zi DZ0i , ei = yi − Xi β = y NT = n1 + · · · + nN . La densidad de yi está dada por ni 1 1 1 p f (yi ) = √ exp − 2 e0i Vi−1 ei 2σ |Vi | 2πσ 2 10 La verosimilitud de la muestra completa es el producto de esta densidad sobre i = 1, . . . , N . Entonces, el logaritmo de la vesosimilitud, eliminando las constantes que no dependen de ningún parámetro, es ! N N X 1 1 X 0 −1 2 2 L(β, σ , D) = − NT log(σ ) + e V ei log |Vi | + 2 2 σ i=1 i i i=1 Bajo ciertas condiciones (Demidenko, 2004) el óptimo estará en la frontera del espacio de parámetros. Si el óptimo está en el interior del espacio de parámetros, entonces se necesita derivar con respecto a los parámetros e igualar a 0 para hallar los puntos crı́ticos. Estas derivadas se muestran a continuación, y se basan en los resultados del capı́tulo anterior. N 1 X 0 −1 ∂L X V Yi − X0i Vi−1 Xi β = 2 ∂β σ i=1 i i ! N ∂L 1 NT 1 X 0 −1 e V ei =− − 4 ∂σ 2 2 σ2 σ i=1 i i ∂L 1 =− ∂D 2 N X Z0i Vi−1 Zi i=1 N 1 X 0 −1 0 −1 − 2 Z V ei ei Vi Zi σ i=1 i i ! Al igualar las dos primeras ecuaciones a 0 se obtiene β= N X !−1 X0i Vi−1 Xi N X X0i Vi−1 Yi i=1 i=1 N 1 X 0 −1 e V ei σ2 = NT i=1 i i Podemos notar en estas dos ecuaciones que tanto β como σ 2 están en términos de D. El siguiente paso es reemplazar estos dos en la tercera ecuación e igualar a la matriz 0 para despejar D. Este despeje no es claro actualmente, por lo que se suelen utilizar métodos numéricos para resover esta última ecuación. 11