Cálculo Matricial para Modelos Lineales Mixtos

Anuncio
Cálculo Matricial para Modelos Lineales Mixtos
Francisco Vera, Pablo Álvarez y Margarita Martı́nez
Facultad de Ciencias Naturales y Matemáticas
Escuela Superior Politécnica del Litoral
28 de noviembre de 2013
Resumen
Algunos problemas estadı́sticos requieren la optimización de una función con
respecto a una matriz. Tal optimización requiere ciertas expresiones de derivadas
con respecto a un parámetro o con respecto a otra matriz. El propósito de
este reporte es presentar algunas de estas expresiones, que son bien conocidas
en la literatura, para que esté disponible para investigadores que trabajen en
problemas de modelos lineales mixtos.
Capı́tulo 1
Matrices
En este documento se utiliza la notación X = [xij ; i = 1, . . . , m; j = 1, . . . , n]
para representar una matriz con m filas y n columnas. Cuando la dimensión de
la matriz sea obvia por el contexto, se escribirá simplemente X = [xij ] . El
espacio de todas las matrices con m filas y n columnas se denotará por Mm×n .
La transpuesta de una matriz X = [xij ] se define como X0 = [xji ]
Si m = n, se dice que la matriz X es cuadrada, y el espacio de dichas matrices
se denota por Mn .
En este documento todos los vectores en x ∈ <n serán también matrices
columna, es decir, x ∈ Mn×1 .
La i-ésima fila de X ∈ Mm×n será denotada por el vector xi· , y la j-ésima
columna se presentará por el vector columna x·j , es decir


 
x1j
xi1


 
xi· =  ...  y x·j =  ... 
xmj
xin
Se dice que una matriz X ∈ Mn es diagonal si i 6= j implica xij = 0. Una
matriz diagonal especial es la matriz identidad, que se denota por In , y es tal
que los elementos en la diagonal son todos 1.
1.1.
Producto
Para X ∈ Mm×p y Y ∈ Mp×n se define el producto matricial entre las dos
matrices como la matriz Z = XY = [zij ] ∈ Mm×n donde
X
zij =
xik ykj .
k
El producto matricial se puede definir en términos de las filas y columnas de
dos maneras. La primera es a través de las coordenadas. Si Z = XY entonces
zij = x0i· y·j
2
La segunda manera es a través de la sumatoria de matrices
X
0
XY =
x·k yk·
k
En el caso de multiplicar tres matrices X ∈ Mm×p , Y ∈ Mp×n y Z ∈ Mn×q ,
se puede aplicar la expresión anterior dos veces, y queda
X
XYZ =
yij x·i z0j·
(1.1)
i,j
Si W = XYZ = [wij ], entonces se puede probar que
wij = x0i· Yz·j
(1.2)
Si X ∈ Mm×n , entonces se puede probar que XIn = Im X = X
Si X ∈ Mn , se denota su inversa por X−1 , y se define como una matriz tal
que
X−1 X = XX−1 = I.
La matriz inversa no siempre existe. Si existe, se dice que la matriz es inversible.
1.2.
Traza
Si X ∈ Mn , seP
define su traza como la suma de los elementos de su diagonal,
es decir, tr(X) = i xii . A continuación se muestran algunas propiedades de la
traza.
Si X ∈ Mm×n y Y ∈ Mn×m , entonces tr(XY) = tr(YX)
Si X ∈ Mn y c ∈ <, entonces tr(cX) = c tr(X)
Si X ∈ Mn , entonces tr(X0 ) = tr(X)
Lema 1.1. Si X, Y ∈ Mm×n , entonces
X
xij yij = tr(XY0 ) = tr(X0 Y).
i,j
Demostración. Si Z = XY0 , entonces zii =
tr(Z) =
X
zii =
i
P
xij yij y
X
xij yij .
j
i,j
La segunda igualdad de prueba de manera análoga.
3
1.3.
Determinantes
El menor de una matriz X se define como la matrix X(ij) , que consiste en
la matriz X con la fila i y la columna j eliminadas.
El determinante de X ∈ Mn se define recursivamente de la siguiente manera:
si n = 1, entonces el determinante es |X| = x11 . Si n > 1, se fija el valor i, y se
define el determinante por
X
|X| =
xij (−1)i+j |X(ij) |.
(1.3)
j
El término (−1)i+j |X(ij) | suele recibir el nombre de cofactor ij, y la matriz de
estos elementos C(X) = (−1)i+j |X(ij) | se denomina matrix de cofactores de
X.
Se puede probar que el valor de (1.3) es el mismo para cualquier i que se
escoja. Algunas de las propiedades del determinante se muestran a continuación.
Su demostración se puede encontrar en libros estándares de álgebra matricial.
Q
Si X es diagonal, entonces |X| = i xii
|In | = 1
Si X, Y ∈ Mn entonces |XY| = |X||Y|
Si X ∈ Mn y c ∈ <, entonces |cX| = cn |X|
X es inversible si y solo sı́ |X| =
6 0
Si X es inversible, entonces |X||X−1 | = 1
Si X es inversible, entonces
X−1 =
4
0
1
C(X)
|X|
(1.4)
Capı́tulo 2
Funciones Matriciales
2.1.
Derivada con respecto a una variable
En el caso que los componentes de X sean funciones de una variable real t,
es decir xij = xij (t), se puede definir la derivada de X con respecto a t como la
matriz
dX
dxij
=
dt
dt
Estas derivadas presentan ciertas propiedades, que se muestran en los resultados a continuación.
Teorema 2.1. Sean X ∈ Mm×p y Y ∈ Mp×n . Entonces
d
dX
dY
(XY) =
Y+X
dt
dt
dt
P
Demostración. Si Z = XY, entoces zij = k xik ykj . Por lo tanto
X d
X dxik
X
dzij
dykj
=
(xik ykj ) =
ykj +
xik
dt
dt
dt
dt
k
k
k
Teorema 2.2. Si X ∈ Mn es inversible entonces
dX−1
dX −1
= −X−1
X
dt
dt
Demostración. Usando el teorema 2.1
d
d
dX −1
dX−1
0 = In = (XX−1 ) =
X +X
dt
dt
dt
dt
De lo anterior se deduce que
dX−1
dX −1
=−
X
dt
dt
La demostración concluye multiplicando ambos lados por X−1
X
5
Corolario 2.3. Si X ∈ Mn es inversible y Y = X−1 entonces
dX−1
0
= −y·i yj·
dxij
dX
es una
Demostración. Se aplica el teorema 2.2, tomando en cuenta que dx
ij
matrix que tiene ceros en todas sus posiciones, expecto la posición ij que es
1.
2.2.
Derivadas de funciones escalares
En la siguiente consideración, f es una función f : Mm×n → <, donde <
representa a los números reales. Esta función asigna a cada matriz X un número
real y = f (X), por lo que se le llama también función escalar. El determinante
y la traza son ejemplos de funciones escalares.
Se define la derivada parcial de y = f (X) con respecto a X como la matrix
de derivadas parciales
∂y
∂y
∂
=
f (X) =
∂X
∂X
∂xij
Corolario 2.4. Si X ∈ Mn es inversible y Y = X−1 entonces
∂yij
0
= −yi· y·j
∂X
Teorema 2.5. Sea X = [xij ] ∈ Mm×n , donde xij = xij (t), y sea y = f (X)
una función escalar. Entonces
dy
∂y dX0
= tr
dt
∂X dt
Demostración. Como la variable y depende de t sólo a través de las variables xij ,
se reconoce que dy
dt es la derivada total de y con respecto a t. Es bien conocido
que este derivada está dada por la expresión
dy X ∂y dxij
=
.
dt
∂xij dt
i,j
La demostración concluye con una aplicación del lema 1.1
2.3.
Derivadas del determinante
Una de las funciones que suelen aparecer en aplicaciones estadı́sticas es el
determinante. Los siguientes resultados muestran derivadas del funciones que
involucran el determinante de una matriz.
6
Teorema 2.6. Sea X = [xij ] ∈ Mn . Entonces
0
∂
|X| = C(X) = |X| X−1
∂X
Demostración. La primera igualdad se deduce inmediatamente de (1.3), y la
segunda de (1.4).
Teorema 2.7. Sea X = [xij ] ∈ Mn , donde xij = xij (t). Entonces
d
dX
|X| = |X| tr X−1
dt
dt
Demostración. Aplicación directa de los teoremas 2.5, 2.6 y de las propiedades
de traza.
Corolario 2.8.
d
dX
log(|X|) = tr X−1
dt
dt
Teorema 2.9. Sea X = [xij ] ∈ Mn . Entonces
0
∂
log(|X|) = X−1
∂X
dX
es una
Demostración. Supongamos que Y = X−1 = [yij ]. La matriz dx
ij
matriz con ceros en todas las posiciones, excepto la posición ij. Entonces, la
dX
matrizY dx
consiste en una matriz con cero en todas las posiciones, excepto la
ij
columna j, que contiene la i-ésima columna de Y. Entonces, por el corolario 2.8
d
log(|X|) = yji
dxij
2.4.
Derivadas de la traza
Teorema 2.10. Sean A ∈ Mm×n y X ∈ Mn×m , donde A es constante con
respecto a X. Entonces,
∂
tr(AX) = A0
∂X
Demostración. Aplicación directa del lema 1.1
Teorema 2.11. Sean A, X ∈ Mn , donde A es constante con respecto a X.
Entonces,
0
∂
tr(AX−1 ) = − X−1 AX−1
∂X
7
Demostración. Si Y = X−1 , entonces, por el lema 1.1,
X
tr(AX−1 ) =
aji yij
i,j
Entonces, utilizando el corolario 2.4, queda
X
X
∂
∂yij
0
tr(AX−1 ) =
aji
=−
aji yi· y·j
∂X
∂X
i,j
i,j
El resultado se deduce inmediatamente de (1.1).
2.5.
Derivadas de formas bilineales
Teorema 2.12. Sean a ∈ <m , b ∈ <n , X ∈ Mm×n , donde a y b son constantes
con respecto a X. Entonces
∂ 0
a Xb = ab0
∂X
Teorema 2.13. Sean a, b ∈ <n , X ∈ Mn , donde a y b son constantes con
respecto a X. Entonces
0
∂ 0 −1
a X b = − X−1 ba0 X−1
∂X
Demostración. Sea Y = X−1 . Entonces, por el teorema 2.5,
0
∂ 0
∂a Yb dY0
0
0
= − tr (ab0 yj· y·i
) = − tr (y·i
ab0 yj· )
a Yb = tr
∂xij
∂Y dxij
La primera igualdad es por el teorema 2.5, la segunda por el teorema 2.13 y el
corolario 2.3, la tercera por propiedades de traza. La expresión dentro de esta
última traza es una matriz 1 por 1, por lo que la traza es ella misma. De esto
se deduce que
∂ 0
0
a Yb = y·i
(ab0 )yj·
∂xij
La demostración concluye aplicando (1.2)
2.6.
Derivadas para Modelos Lineales Mixtos
Teorema 2.14. Sea X ∈ Mm×n y sean A ∈ Mp , B ∈ Mp×m , C ∈ Mn×p
constantes con respecto a X. Suponga que Y = A + BXC es inversible. Entonces
0
∂
log |Y| = CY−1 B
∂X
8
Demostración. Por el corolario 2.8,
d log(|Y|)
dY
= tr Y−1
dxij
dxij
P
Utilizando ahora (1.1) se puede expresar BXC = i,j xij b·i c0j· , de lo que se
dY
= b·i c0j· . Reemplazando esta expresión en la traza y usando
deduce que dx
ij
propiedades de traza, queda
d
log |Y| = tr Y−1 b·i c0j·
dxij
= tr c0j· Y−1 b·i
= c0j· Y−1 b·i
La demostración concluye utilizando (1.2)
Teorema 2.15. Sea X ∈ Mm×n y sean A ∈ Mp , B ∈ Mp×m , C ∈ Mn×p , d, e ∈
<p constantes con respecto a X. Suponga que Y = A + BXC es inversible. Entonces
0
∂ 0 −1
d Y e = − CY−1 ed0 Y−1 B
∂X
dY
Demostración. Como en la demostración del teorema anterior, dx
= b·i c0j· .
ij
Utilizando los teoremas 2.5, 2.13 y las propiedades de traza se obtiene
0 −1
d 0 −1
∂d Y e dY0
d Y e = tr
dxij
∂Y
dxij
0
0 = − tr Y−1 ed0 Y−1 b·i c0j·
= − tr b·i c0j· Y−1 ed0 Y−1
= −c0j· Y−1 ed0 Y−1 b·i
La demostración concluye utilizando (1.2)
Finalizamos esta sección con derivadas de formas lineales y cuadráticas cuando se deriva con respecto a un vector. Los siguientes resultados son bien conocidos y su demostración se deja al lector.
Lema 2.16. Sea x ∈ <n y sean a ∈ <n , A ∈ Mn constantes respecto a x.
Entonces
∂ 0
∂ 0
ax=a y
x Ax = (A + A0 )x
∂x
∂x
9
Capı́tulo 3
Modelos Lineales Mixtos
En este documento se utilizará la notación x ∼ Np (µ, Σ) para indicar que x
es un vector aleatorio con p componentes con distribución normal multivariada
con vector de medias µ y matriz de varianzas y covarianzas Σ.
A continuación se mostrará la formulación para los modelos lineales mixtos,
como lo formuló originalmente Laird y Ware (1982) y como se presenta en
Demidenko (2004).
Sea yi un vector aleatorio con ni componentes, definido para i = 1, . . . , N .
Un modelo lineal mixto tiene la forma
yi = Xi β + Zi bi + εi
donde
Xi ∈ Mni ×m es una matriz de constantes conocidas (matriz de diseño de
efectos fijos)
β ∈ <m es un vector de constantes desconocidas (parámetros)
Zi ∈ Mni ×k es una matriz de constantes conocidas (matriz de diseño de
efectos aleatorios)
bi ∼ Nk (0, σ 2 D)
εi ∼ Nni (0, σ 2 Ini )
Los vectores b1 , . . . , bN , ε1 , . . . , εN son mutuamente independientes.
Esta formulación resulta en que yi ∼ Nni Xi β, σ 2 (Ini + Zi DZ0i ) .
3.1.
Vesosimilitud
Sean Vi = Ini + Zi DZ0i , ei = yi − Xi β = y NT = n1 + · · · + nN . La densidad
de yi está dada por
ni
1
1
1
p
f (yi ) = √
exp − 2 e0i Vi−1 ei
2σ
|Vi |
2πσ 2
10
La verosimilitud de la muestra completa es el producto de esta densidad sobre
i = 1, . . . , N . Entonces, el logaritmo de la vesosimilitud, eliminando las constantes que no dependen de ningún parámetro, es
!
N
N
X
1
1 X 0 −1
2
2
L(β, σ , D) = −
NT log(σ ) +
e V ei
log |Vi | + 2
2
σ i=1 i i
i=1
Bajo ciertas condiciones (Demidenko, 2004) el óptimo estará en la frontera
del espacio de parámetros. Si el óptimo está en el interior del espacio de parámetros, entonces se necesita derivar con respecto a los parámetros e igualar a 0
para hallar los puntos crı́ticos. Estas derivadas se muestran a continuación, y se
basan en los resultados del capı́tulo anterior.
N
1 X 0 −1
∂L
X V Yi − X0i Vi−1 Xi β
= 2
∂β
σ i=1 i i
!
N
∂L
1 NT
1 X 0 −1
e V ei
=−
− 4
∂σ 2
2 σ2
σ i=1 i i
∂L
1
=−
∂D
2
N
X
Z0i Vi−1 Zi
i=1
N
1 X 0 −1 0 −1
− 2
Z V ei ei Vi Zi
σ i=1 i i
!
Al igualar las dos primeras ecuaciones a 0 se obtiene
β=
N
X
!−1
X0i Vi−1 Xi
N
X
X0i Vi−1 Yi
i=1
i=1
N
1 X 0 −1
e V ei
σ2 =
NT i=1 i i
Podemos notar en estas dos ecuaciones que tanto β como σ 2 están en términos de D. El siguiente paso es reemplazar estos dos en la tercera ecuación e
igualar a la matriz 0 para despejar D. Este despeje no es claro actualmente, por
lo que se suelen utilizar métodos numéricos para resover esta última ecuación.
11
Descargar