Ver/Abrir

Anuncio
CENTRO DE NEUROCIENCIAS DE CUBA
DEPARTAMENTO DE NEUROINFORMÁTICA
FORMULACIÓN BAYESIANA DE LA REGRESIÓN LINEAL CON
RESTRICCIONES BASADAS EN LOS MODELOS DE NORMAMIXTA Y ELASTIC NET
Tesis presentada en opción al grado de
Master en Ciencias Matemáticas
Autor: Lic. Deirel Paz Linares
Tutores: Inv. Aux. Eduardo Martínez Montes, Dr. C.
Inv. Aux. Mayrim Vega Hernández, Ms. C.
La Habana, 2015
AGRADECIMIENTOS
 La realización de este trabajo se debe fundamentalmente a las ideas y conocimiento
del estado del arte, sobre los temas de Análisis Bayesiano y Problema Inverso,
aportados por Mayrim Vega Hernández y Eduardo Martínez Montes.
 Tampoco puedo dejar de mencionar que ningún resultado hubiese sido posible sin la
apertura a la investigación, en el Centro de Neurociencias de Cuba, bajo la dirección
de Pedro A. Valdés Sosa.
 Quisiera dirigir un reconocimiento especial a Eduardo Martínez Montes por su
paciencia en todo momento, y guía en el desarrollo de la parte teórica del trabajo,
gracias a lo cual despejamos el camino hacia este corte de los resultados.
 De gran importancia fue el conocimiento impartido, en las diferentes asignaturas
relacionadas con Teoría de Probabilidades, por el profesor José E. Valdés Castro.
 De mucho peso también fue el apoyo de Pedro A. Rojas López en la implementación
del algoritmo y la discusión de diversos temas que permitieron hacer correcciones a la
teoría en este documento.
 Y como siempre de inmenso valor ha sido el apoyo de la familia, en especial de mi
madre y mi esposa, y también de los amigos, de entre los cuales no puedo dejar de
mencionar a Marcos Verdugo Quero y Camilo Pérez Demydenko.
2
ÍNDICE
Introducción ....................................................................................................................................................... 4
Capítulo 1: Regresión lineal penalizada .......................................................................................................... 11
1.1 Enfoque clásico...................................................................................................................................... 11
1.2 Enfoque Bayesiano ................................................................................................................................ 14
Capítulo 2: Formulación de la regresión lineal con el modelo de Elastic Net en el contexto del Bayes
empírico ................................................................................................................................................................. 19
2.1 Transformación del Modelo Bayesiano jerárquico del Elastic Net........................................................ 19
2.2 Aprendizaje mediante el enfoque del Bayes Empírico en el modelo jerárquico del Elastic Net ........... 21
2.3. Aspectos computacionales del proceso de optimización y algoritmo ENET-RVM ............................. 27
Capítulo 3: Formulación bayesiana del modelo espacio-temporal con penalizadores basados en la normamixta ...................................................................................................................................................................... 30
3.1 Definición de norma-mixta .................................................................................................................... 30
3.2 El campo aleatorio de los parámetros en el modelo de la norma-mixta................................................. 33
3.3 Aprendizaje mediante el enfoque del Bayes Empírico en el modelo jerárquico de la norma-mixta...... 39
3.4 Aspectos computacionales del proceso de optimización y algoritmo MXN-RVM ............................... 41
Capítulo 4: Resultados y Discusión ................................................................................................................. 44
4.1 Estudio de simulaciones ........................................................................................................................ 44
4.2 Estudio de datos reales....................................................................................................................... 6564
Conclusiones................................................................................................................................................ 7675
Recomendaciones ........................................................................................................................................ 7978
Referencias .................................................................................................................................................. 8079
Anexos ......................................................................................................................................................... 8483
Prueba del Lema 2.1.1 ............................................................................................................................. 8483
Prueba de la Proposición 2.2.1 ................................................................................................................ 8584
Prueba de la Proposición 2.2.2 ................................................................................................................ 8685
Prueba de la Proposición 3.1.4 ................................................................................................................ 8786
Prueba del Lema 3.2.5 ............................................................................................................................. 8786
Prueba de la Proposición 3.3.1 ................................................................................................................ 8988
3
INTRODUCCIÓN
Los problemas inversos son especialmente comunes en Biofísica, donde usualmente una
cantidad pequeña de datos está disponible con respecto al gran número de parámetros
necesarios para modelar el sistema. Ejemplos clásicos de problemas inversos en las
neurociencias son los conocidos Problema Inverso de la Electroencefalografía (EEG) y
Problema Inverso de la Magnetoencefalografía (MEG). Estos consisten en la determinación
de la Densidad de Corriente Primaria (DCP), producida en el interior del cerebro a partir de la
medición del potencial eléctrico en un arreglo de electrodos distribuidos sobre la superficie
del cuero cabelludo, en el caso del EEG, o a partir de un arreglo de sensores de la intensidad
de campo magnético colocados a pocos centímetros de distancia de la cabeza, en el caso del
MEG. Aunque físicamente estos problemas son diferentes, ambos conllevan a un problema
inverso matemáticamente equivalente, de forma que los métodos para resolver uno son
extrapolables al otro problema. Por simplicidad, en esta tesis nos referiremos solamente al
problema inverso del EEG.
Para abordar la solución de este problema es necesario conocer la ecuación que relaciona el
potencial eléctrico ( ) y la DCP ( ), lo cual se denomina problema directo del EEG. Bajo
determinadas suposiciones sobre la geometría y propiedades eléctricas de la cabeza, y con el
uso de la aproximación cuasiestática, la solución del problema directo se expresa por la
ecuación
(
)
∫ (
)
(
)
, ver (Riera, 1999), donde (
DCP en el espacio de los generadores cerebrales y el tiempo, y
(
) representa la
) es el llamado Lead
Field Eléctrico (LFE), que depende también de las posiciones de los electrodos
, y que
contiene la información sobre las propiedades electromagnéticas y demás suposiciones físicas
del volumen conductor, o sea, de la cabeza. En este trabajo emplearemos el LFE calculado
4
con un modelo del volumen conductor conocido como modelo de las tres esferas concéntricas,
homogéneas e isotrópicas (Riera, 1999). De acuerdo a esta formulación, el problema inverso
consiste en resolver una ecuación integral de Fredholm de primer tipo, que comúnmente es
discretizada en un sistema de ecuaciones lineales:
Donde
,
y
son las versiones discretas del potencial eléctrico, el LFE y la DCP, y
es
un término de error que modela el ruido inevitable en las mediciones del EEG.
El EEG proporciona mediciones del potencial eléctrico en el cuero cabelludo, utilizando una
cantidad de electrodos distribuidos según un sistema estándar (Klem, 1999) que varía entre 19
y 256, aunque los más comunes actualmente son los montajes de 32, 64 y 128 canales.
Generalmente para tener una resolución espacial aceptable de la distribución de corriente, la
región del cerebro es discretizada en un arreglo de miles de unidades de volumen
(denominadas vóxeles). Esto implica que el sistema de ecuaciones lineales es indeterminado y
su solución no es única, por lo que la inferencia de los parámetros
es un problema mal
planteado en el sentido de Hadamard (Hadamard, 1923).
Uno de los enfoques más comunes para estimar una solución adecuada es el Método de
Regularización o Método de Mínimos Cuadrados Penalizados, establecido por (Tikhonov y
Arsenin, 1977), donde el estimador de los parámetros se obtiene a partir de la optimización de
cierta función de costo del problema, que generalmente es la suma del error de ajuste y una
función de restricción o penalización
. Este enfoque tiene una larga historia de desarrollo
teórico y ofrece ahora grandes ventajas en lo que respecta al tiempo de convergencia de los
algoritmos, para optimizar la función objetivo, cuando
es una función convexa y
diferenciable. El uso de penalizadores basados en la norma L2 de los parámetros, que es
5
clásico en la literatura estadística, se conoce como el método Rigde (Hoerl y Kennard, 1970) y
sus ventajas y desventajas han sido ampliamente estudiadas. Variantes de este método han
dado lugar a soluciones del problema inverso del EEG (o indistintamente, soluciones inversas)
muy reconocidas, como la Mínima Norma, Mínima Norma Pesada y LORETA (del inglés,
Low Resolution Electromagnetic Tomography) (Pascual-Marqui, 1999).
Otros métodos, basados en penalizadores convexos no diferenciables, como el Least Absolute
Shrinkage Selection Operator (LASSO) (Tibshirani, 1996), han mostrado buenos resultados
reconstruyendo DCPs con raleza en la distribución espacial. Una gran ventaja de los métodos
de regularización es la posibilidad de ser extendidos a múltiples restricciones, como es el caso
de Elastic Net (ENET) (Zou et al., 2005) y el LASSO-Fused (Tibshirani et al., 2005), en tanto
que el cálculo de los estimadores es realizado con los mismos algoritmos (Sanchez–Bornot et
al., 2008), como por ejemplo con el LQA (del inglés, Local Quadratic Aproximation, Fan et
al. 2001) y MM (del inglés, Majorization Minorization, Hunter et al. 2005). A pesar de que el
enfoque clásico permite tener en cuenta modelos muy complejos (múltiples funciones de
penalización) sin pérdida considerable de rapidez de cómputo, la estimación es poco robusta
debido a la sensibilidad de la solución al conjunto de restricciones seleccionadas para
regularizar el problema (dicha selección dependerá del escenario de la actividad eléctrica
cerebral presente), mientras que otra de sus desventajas la constituye la elección heurística de
los parámetros de regularización, los cuales reflejan el balance relativo de las restricciones
(Trujillo, 2006).
Una alternativa a los métodos de regularización es el enfoque Bayesiano (aprendizaje
Bayesiano), con el cual se obtiene una solución del problema de regresión, formulando la
función de densidad de probabilidad (pdf, del inglés probability density function) a posteriori,
6
a partir de la combinación de la verosimilitud con la pdf a priori de los parámetros, que
incorpora convenientemente las restricciones o penalizaciones deseadas. Esta variante también
permite tener en cuenta modelos complejos, pero debido a la naturaleza probabilística del
modelo la estimación de los parámetros es generalmente más robusta. Esto es posible gracias
a que los hiperparámetros del modelo, que actúan en el balance de propiedades de la solución
o seleccionando el conjunto activo (elementos no nulos) de los parámetros, se obtienen (o
aprenden) a través de sus estimadores maximum a posteriori (MAP) en un segundo nivel de
inferencia (MacKay, 2003). Un ejemplo es el Relevance Vector Machine (RVM) (Tipping,
2001), consistente en el aprendizaje Bayesiano de vectores ralos (pocas componentes activas)
empleando una pdf a priori Normal univariada para cada componente del vector de
parámetros, con varianzas que a su vez son hiperparámetros modelados con una pdf a priori
Gamma.
Aunque los métodos basados en el aprendizaje Bayesiano son teóricamente más robustos que
los clásicos en la estimación de soluciones inversas, solo se ha logrado hacer inferencia por
medio de algoritmos eficientes y rápidos con modelos sencillos. Mientras que otros métodos
basados en modelos complejos como el ENET Bayesiano (Li and Lin, 2010), o la formulación
Bayesiana de distintas variantes del LASSO (Kyung et al. 2010), involucran el uso algoritmos
de Expectation-Maximization (EM), o de los métodos de Monte Carlo, que implican cargas
computacionales altas y gran cantidad de iteraciones para obtener estimaciones confiables.
En el caso del PI del EEG, existen estudios que evidencian que las fuentes eléctricas pueden
tener propiedades tanto de suavidad como de raleza en diferentes estados cerebrales, incluso
coexistiendo en determinados casos. Importantes esfuerzos se han hecho en orden de
balancear raleza y suavidad combinando funciones de penalización basadas en normas L1 y
7
L2. Un ejemplo es el trabajo de Vega-Hernández et al. (2008), donde se realiza una
formulación general del PI en un modelo de regresión lineal de múltiple penalización y
evalúan modelos que combinan funciones basadas en ambas normas, con el objetivo de
recuperar una solución rala compuesta de parches suaves en el espacio. En otro ejemplo se
utiliza como función de penalización la combinación de normas L1/L2 para exigir una
solución rala solamente para la amplitud del vector de PCD, manteniendo suavidad entre las 3
componentes espaciales x, y, z, que definen la dirección espacial de esta magnitud física
(Haufe et al. 2008). Sin embargo en estos casos el grado de raleza/suavidad depende
fuertemente de los parámetros de regularización, para los cuales generalmente se utilizan
criterios de información heurísticos, como el AIC, BIC y la Validación Cruzada Generalizada
(GCV por sus siglas en inglés). Estos criterios no siempre son adecuados en las condiciones
de problemas mal planteados y no siempre ofrecen los valores óptimos de los parámetros por
lo que dan lugar a soluciones no del todo confiables.
Otra propiedad importante de la actividad cerebral, que no es tenida en cuenta en ninguno de
los modelos mencionados arriba, es la continuidad (suavidad) en el tiempo de las activaciones
de las fuentes generadoras. Para resolver este problema se han realizado propuestas, como son
por ejemplo los modelos de componentes espacio-temporales (Valdés-Sosa et al. 2009), o los
modelos basados en penalizadores de norma-mixta, que consiste en la formulación matricial
de la regresión lineal, con la aplicación de una norma L1 al vector formado por las normas L2
de las filas de la matriz de parámetros, buscando promover raleza en el espacio y suavidad en
el tiempo (Ou et al. 2009). Recientemente se ha popularizado la combinación normas L1, L2,
y de orden superior, conocida como función de penalización de norma-mixta (MXN), en sus
aplicaciones a la solución del problema inverso del EEG, gracias a los métodos basados en
8
operadores de proximidad, que permiten optimizar rápidamente la función de costo convexa
no diferenciable asociada (Gramfort et al. 2012), aunque se mantienen con la problemática de
la estimación de valores óptimos de los parámetros de regularización.
En este trabajo proponemos un formalismo Bayesiano para la mezcla de penalizaciones con
normas L1 y L2, en el caso de los modelos ENET, MXN, y también de sus combinaciones.
Con esta formulación perseguimos imponer, a la solución del problema inverso, diferentes
grados de raleza y suavidad tanto en la dimensión espacial como la temporal, con el
aprendizaje de los hiperparámetros del modelo que controlan dichas propiedades en un
segundo nivel de inferencia, por medio de algoritmos eficientes y rápidos, basados en el
procedimiento de Bayes Empírico, evitando el cómputo con los métodos de Monte Carlo o
algoritmos EM.
Hipótesis:
El uso del enfoque Bayesiano en modelos que mezclan raleza y suavidad por medio de
penalizaciones con normas L1 y L2, como Elastic Net, norma-mixta, y sus combinaciones,
permite desarrollar métodos para la solución del problema inverso espacio-temporal del EEG,
donde los parámetros y los hiperparámetros pueden ser estimados dentro de algoritmos
eficientes y rápidos, evitando el uso de algoritmos de Expectation-Maximization y métodos de
Monte Carlo poco prácticos computacionalmente dada la alta dimensionalidad del problema
en cuestión.
Objetivo General:
Desarrollar un modelo Bayesiano jerárquico para la solución del problema inverso espaciotemporal del EEG, con distribuciones de probabilidad a priori basadas en la combinación de
9
restricciones L1/L2, donde tanto los parámetros como los hiperparámetros se estimen a partir
de los datos por medio de algoritmos iterativos.
Objetivos Específicos:
1. Formular el modelo bayesiano de Elastic Net y derivar un algoritmo basado en el
procedimiento de la evidencia y del Bayes Empírico para la estimación de los
hiperparámetros.
2. Transformar el modelo Bayesiano no separable, de la a priori asociada a la normamixta, en un modelo jerárquico, en el nivel de los parámetros.
3. Desarrollar un algoritmo para la estimación de los parámetros y los hiperparámetros
del nuevo modelo jerárquico para la norma mixta, basado en el procedimiento de la
evidencia y del Bayes Empírico.
4. Comprobar preliminarmente la efectividad de ambos modelos con datos simulados.
Comparar entre ellos los resultados, en cuanto al aprendizaje de raleza o suavidad, y
también con métodos establecidos.
5.
Aplicación de los métodos obtenidos a la localización de las fuentes cerebrales en un
estudio real de potenciales evocados visuales.
10
CAPÍTULO 1: REGRESIÓN LINEAL PENALIZADA
1.1 Enfoque clásico
Una formulación más general del problema inverso del EEG, que permite tener en cuenta
restricciones espacio-temporales en la solución, es la regresión lineal matricial:
1-1
Donde los parámetros ( ) constituyen una matriz
( representa la cantidad de vóxeles y
T la cantidad de instantes de tiempo), los datos ( ) y el ruido ( ) son matrices
dónde (
,y
es
).
El enfoque clásico de la estadística para la estimación de los parámetros en la regresión lineal
se basa en la regularización de Tikhonov. De forma más general, este problema se planteó
formalmente como la regresión de mínimos cuadrados con múltiple penalización (VegaHernández et al., 2008):
̂
{‖
‖
∑
(
)}
1-2
Donde el primer término es el error de ajuste al dato y el segundo agrupa el conjunto de
restricciones (penalizaciones) impuestas, los
son los parámetros de regularización, que
asignan pesos a las restricciones. La matriz H representa un operador lineal que
convenientemente se utilice en determinadas aplicaciones, opciones bastante comunes son el
uso de la matriz identidad ( ) o del operador Laplaciano spacial discreto ( ), segundas
derivadas, ver Pascual-Marqui 1999. En el caso de que el penalizador se pueda descomponer
como una suma sobre las columnas de los parámetros (
(
)
∑
(
)) y si este no
representa ninguna restricción temporal, el parámetro de regularización podría ser distinto
11
para cada instante de tiempo (
(
)
∑
(
)), en lo adelante sin perder la
generalidad mantendremos la notación más abreviada.
Dentro de las formas de penalización más comunes se encuentran el RIDGE (
el LASSO (
( )
‖ ‖ ), el LASSO-FUSION (
conformado por la combinación ( ‖ ‖
( )
()
‖ ‖ ),
‖ ‖ ) mientras que el ENET está
‖ ‖ ).
Con el ENET se podrían obtener tanto soluciones tipo RIDGE, que son suaves en el espacio,
cuando
, o soluciones tipo LASSO, que son ralas en el espacio, cuando
La Figura 1 muestra varios casos, si
.
tendremos el LASSO, y se reforzará un mínimo
en cero, debido a que la variación del penalizador respecto al parámetro es un infinitesimal de
primer orden, mientras que si
tendremos el RIDGE y él mínimo no se reforzará de
manera singular en cero sino en un entorno incluyendo valores no cero, debido a que la
variación es un infinitesimal de segundo orden.
Figura 1: Forma del penalizador de ENET (eje Y), respecto a una componente de los
parámetros (eje X), para distintos valores de cuando
.
12
La complejidad del proceso de solución de la ecuación [1-2] depende de la forma de los
penalizadores, en particular de su diferenciabilidad. Por ejemplo para el RIDGE puede ser
obtenida analíticamente efectuando la derivada matricial e igualando a cero (Magnus and
Neudecker, 2007):
̂
(
)
1-3
Debido a este hecho los métodos de estimación basados en la penalización RIDGE son los
más eficientes y rápidos computacionalmente para un
dado. Por el contrario en los casos del
LASSO y ENET es imposible obtener estimadores explícitos, por lo que para optimizar la
función de costo se emplean algoritmos iterativos, como el LQA (Sanchez–Bornot et al.,
2008), que en general expresan el estimador ̂(
)
en una iteración
RIDGE que depende del estimador en la iteración
̂(
)
.
( ̂(
como una solución
:
)
)/
1-4
El cálculo de la solución depende de la elección del parámetro de regularización, que se puede
escoger a partir de un criterio de información que tenga en cuenta la varianza explicada por el
modelo y la complejidad del mismo, como por ejemplo Akaike Information Criterion (AIC),
Bayesian Information Criterion (BIC) y Generalized Cross-Validation (GCV), ver Hastie et
al, (2009). Con este enfoque se pueden incorporar múltiples penalizadores convexos, pero en
estos casos surgen complicaciones con la elección de varios parámetros de regularización. Por
ejemplo, el tiempo de cómputo aumenta considerablemente al tener que calcular la solución
del problema de optimización en la ecuación [1-2] para una gran cantidad de combinaciones
de los parámetros de regularización, cuando queremos seleccionar la combinación óptima.
Otra dificultad la constituye la fiabilidad de la elección, incluso aunque el tiempo de cómputo
13
pueda reducirse. Un ejemplo es el “problema del doble encogimiento” en el ENET, donde no
hay criterio para elegir la combinación óptima de (
), lo cual se ha tratado de resolver de
manera secuencial, seleccionando un intervalo de valores para
información para determinar
( ‖ ‖
fijar
(
y aplicando criterios de
O reparametrizando las penalizaciones de la forma
)‖ ‖ , que permite fijar el peso relativo de cada término a partir de
y estimando solamente
.
1.2 Enfoque Bayesiano
Otro enfoque para abordar el problema de la estimación de los parámetros en la regresión es el
Bayesiano, donde se modela la relación entre los datos con los parámetros como una pdf
condicional
( |
) (Verosimilitud), y el conocimiento a priori (información adicional)
sobre el problema como una pdf ( | ) (a priori de los parámetros), donde
y
pueden ser
magnitudes fijas o variables desconocidas, en cuyo caso son llamados hiperparámetros del
modelo y para ellos se establecen las correspondientes pdf a priori
( ) y
( ). A este
modelo se le puede asociar un diagrama plano, red Bayesiana (Figura 2a), donde la pdf
conjunta de los datos, los parámetros y los hiperparámetros, se puede descomponer en factores
que representan las pdf condicionales de los nodos en la red (Beal, 2000):
(
)
( |
) ( | ) ( ) ( )
1-5
Para la estimación de los parámetros es necesario conocer la pdf condicional de los parámetros
respecto a los datos (a posteriori), para la cual haciendo uso de la regla de Bayes para las
distribuciones de variables aleatorias continuas (Durrett, 1996), obtenemos:
( |
)
(
(
)
)
Si combinamos la ecuación [1-5] y [1-6] tenemos entonces:
14
1-6
( |
)
( |
) ( | )
1-7
Si son conocidos los hiperparámetros entonces el estimador de los parámetros ( ̂) se obtiene a
partir del maximum a posteriori (MAP):
̂
* ( |
)+
1-8
Desafortunadamente en la mayoría de los casos los hiperparámetros no son conocidos, y el
problema consiste en como inferirlos. Para ello existen vías como:

Joint maximum a posteriori (JMAP): Estimar los parámetros y los hiperparámetros
conjuntamente maximizando la a posteriori conjunta de los parámetros y los
hiperparámetros:
( ̂ ̂ ̂)
(

)*
(
| )
( |
(
| )+
1-9
) ( ) ( )
1-10
Marginalized maximum a posteriori I (MMAP de tipo I): Integrar la a posteriori
conjunta en la ecuación [1-10] respecto a los hiperparámetros, y maximizar respecto a
los parámetros:
̂
( | )

* ( | )+
∫ (
| )
1-11
1-12
Marginalized maximum a posteriori II (MMAP de tipo II o Bayes Empírico): Integrar
la a posteriori de la ecuación [1-10] respecto a los parámetros, y maximizar respecto a
los hiperparámetros. Luego substituir los valores estimados de los hiperparámetros en
[1-8].
( ̂ ̂)
(
)*
15
(
| )+
1-13
(
| )
∫ (
̂
{ ( |
| )
1-14
̂ ̂ )}
1-15
El problema de la regresión lineal penalizada puede ser abordado en general desde el enfoque
Bayesiano, si en el modelo lineal de la ecuación [1-1] asumimos que el término de error es un
ruido blanco de varianza
, consideramos que la a priori de los parámetros es una pdf
exponencial con cuyo argumento es el segundo término de la ecuación [1-2], y tenemos en
cuenta distribuciones a priori para los parámetros de regularización.
Bajo estas condiciones el modelo de regresión lineal se transforma en un modelo Bayesiano
jerárquico (Figura 2a), donde se cumple para las respectivas pdf:
1) Verosimilitud:
Donde
( |
)
( |
)
(
)) ⁄
(
( |
(
)
) (
)
1-16
(
)
.
2) A priori de los parámetros:
∑
( | )
Donde
(
)
1-17
es la constante de normalización.
3) A priori de los hiperparámetros: *
Cuando las columnas de
(
)+ , ( ).
son estocásticamente independientes (Figura 2b), tenemos un caso
especial de Modelo Bayesiano que se puede separar en T componentes independientes al nivel
de los parámetros:
(
|
)
(
|
16
)
1-18
(
∑
| )
(
)
1-19
1
…
…
1
…
…
(b)
(a)
Figura 2: Grafos orientados asociados al modelo Bayesiano de la regresión lineal (a), y el
caso particular de modelo Bayesiano separable en el tiempo (b).
Ambos enfoques (Mínimos Cuadrados Penalizados y Bayesiano) son equivalentes en la
estimación de los parámetros. Si en el modelo Bayesiano de la regresión lineal queremos
estimar los parámetros a través del MAP, por medio de la fórmulas [1-8], [1-16] y [1-17],
entonces después de algunas transformaciones algebraicas obtenemos:
̂
{‖
Si en la ecuación [1-20] substituimos
‖
∑
por
( )}
1-20
entonces obtenemos exactamente la
ecuación [1-2], que es la función de costo del problema de estimación de los parámetros en la
regresión lineal con múltiple penalización. De esta forma, la formulación bayesiana de la
regresión lineal de los modelos empleados en la estadística clásica correspondería a distintas
densidades de distribución, como se muestra en la siguiente tabla.
17
Modelo
Ridge
Ridge L
Lasso
Lasso Fusión
ENET
ENET L
Penalizador
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
pdf a priori asociada
Normal
Normal
Laplace
Laplace
‖ ‖
‖ ‖
Normal-Laplace
Normal - Laplace
Para el caso del ENET ha sido propuesta una formulación Bayesiana donde los parámetros y
los hiperparámetros se estiman por medio de un algoritmo que vincula tanto la vía de JMAP
como Bayes Empírico, pero de forma que para los parámetros se utiliza el muestreo de las
distribuciones a posteriori con métodos de Monte Carlo (MC), y para los hiperparámetros
métodos de EM-MC. Con esto se evita el “problema del doble encogimiento” que aparece en
el enfoque clásico, pero introduce un alto costo computacional.
18
CAPÍTULO 2: FORMULACIÓN DE LA REGRESIÓN LINEAL CON EL
MODELO DE ELASTIC NET EN EL CONTEXTO DEL BAYES EMPÍRICO
2.1 Transformación del Modelo Bayesiano jerárquico del Elastic Net
El ENET en la formulación Bayesiana puede interpretarse como una pdf que es la mezcla de
una distribución Normal y una de Laplace:
( |
∑.
)
‖
‖
‖
‖ /
2-1
Note que aquí para simplificar, sin perder generalidad, omitimos de la formulación el
operador de segundas derivadas.
Este modelo, debido a la separabilidad de la norma L2 al cuadrado y la norma L1, introduce a
priori independencia estocástica en los parámetros en las dimensiones espacio-temporal, lo
que matemáticamente se expresa con la siguiente descomposición de la pdf a priori:
( |
)
|
∏
Con la introducción de un nuevo hiperparámetro
|
2-2
(ver Lema 2.1.1), el cual posee una a
priori Gamma Truncada, se puede reorganizar el modelo de forma que el parámetro posee una
distribución Normal (Li and Lin 2010, Kyung et al. 2010). Esto permite transformar el modelo
Bayesiano jerárquico del ENET, en un modelo de Mezcla de Gaussianas Escaladas, ver Figura
3, donde la a priori de los nuevos hiperparámetros está parametrizada en (
Lema 2.1.1 (ver prueba en anexos): Sea que la variable aleatoria
|
|
, donde
|
|
).
tiene una pdf de la forma
es una constante de normalización. Entonces se cumple que:
∫
(
|
)
19
(
|
(
))
2-3
(
Donde
(
|
(
)
2-4
)) es una pdf Gamma Truncada, con corte en
.
Analíticamente el nuevo modelo se describe por el siguiente conjunto de distribuciones.
Verosimilitud:
(
|
)
2-5
A priori de los parámetros:
.
|
(
)/
2-6
A priori de los hiperparámetros:
∏
1
(
|
(
))
2-7
(
(
)
)
2-8
(
(
)
)
2-9
(
( )
…
…
…
…
)
1
1
1,1 ,
2,1
1,
,
2,
1,
,
2,
Figura 3: Representación gráfica del Modelo Bayesiano jerárquico del Elastic Net.
20
2-10
Este modelo puede ser interpretado como una extensión del RVM (Tipping, 2001) -que utiliza
solamente una a priori gaussiana- y del modelo de Babacan et al. (2010) -que utiliza
solamente una a priori de Laplace-, para incorporar la mezcla de ambas distribuciones,
respondiendo a como en un modelo con estructura RVM se le puede incorporar información a
priori que permita balancear la raleza/suavidad.
En el ENET original la raleza/suavidad es controlada en la a priori de los parámetros [2-2].
Cuando
( |
tenemos que
)
( |
( |
)
. |
/ y cuando
), mientras que para entender como en el ENET jerárquico la
raleza/suavidad es controlada, es suficiente con ver que si
implica por la fórmula [2-7] que los valores más probables de
fórmula [2-4] las varianzas a priori son cercanas a cero (
a soluciones muy ralas. En el caso
parámetros ( |
tenemos que
)
entonces
.|
entonces
están cercanos a
, esto
y por la
) en muchos casos, conllevando
, y por tanto la a priori de los
/, según [2-4] y [2-6].
2.2 Aprendizaje mediante el enfoque del Bayes Empírico en el modelo jerárquico del
Elastic Net
Debido a la independencia estocástica de los parámetros y los hiperparámetros en distintos
instantes de tiempo, el modelo de la Figura 3 admite la siguiente factorización, en lo que
llamaremos formulación instantánea, donde la pdf conjunta del dato los parámetros y los
hiperparámetros tiene la forma:
(
)
∏ (
)
21
2-11
Aplicando las fórmulas [1-5], [2-5], [2-6], esta probabilidad conjunta se puede descomponer
en un producto de pdf Normales que depende de los parámetros y la pdf conjunta de los
hiperparámetros.
(
)
(
|
) .
|
(
)/ (
)
2-12
De igual forma la pdf conjunta de los hiperparámetros, haciendo uso de la fórmula [2-7] y la
suposición de que son estocásticamente independientes, se puede factorizar sobre los nodos de
los hiperparámetros en la Figura 3.
(
)
∏
(
|
(
)) (
) ( )
) (
2-13
Para obtener el estimador de los parámetros ( ̂ ) es suficiente con reorganizar el producto de
normales en [2-12], que resulta en una nueva distribución Normal. El estimador puede
obtenerse automáticamente haciendo uso de [1-8], y del siguiente resultado.
( )
Proposición 2.2.1 (ver prueba en anexos): Si definimos
( )
(
.
(
|
) .
|
(
|
( )|
)/ )
(
.
entonces se cumple:
)/
|
( )/
.
|
(
)/ (
Teniendo en cuenta [1-7] puede deducirse que a la posteriori de
.
|
donde:
|
)
2-14
corresponde al término
( )/ en la ecuación [2-14], de donde el estimador MAP se obtiene como ̂
.
22
La descomposición en la Proposición 2.2.1 permite arribar a una forma ventajosa de la a
posteriori de los hiperparámetros, substituyendo [2-14] y [2-12] en [2-11] y luego integrando
sobre , de acuerdo a [1-14] en el MMAP de tipo II. De ahí obtenemos que:
(
| )
(
(
(
| )
)
(
( )
)
| )
∏|
( )|
.
|
(
)/ (
|
) (
)
2-15
En modelos que tienen una a posteriori similar, como en el LASSO Bayesiano y el RVM ya
mencionados, se han derivado algoritmos eficientes y rápidos, para obtener los estimadores en
el proceso de optimización de la función [2-15]. En este trabajo ateniéndonos al costo
computacional que involucra el uso de los métodos de Monte Carlo, justo como hemos
mencionado, seguimos la estrategia de optimización del RVM.
En lo adelante en vez de maximizar [2-15] lidiaremos con la función auxiliar , que es menos
(
el logaritmo de la a posteriori (
| )), y nos conduce a un problema de
optimización equivalente.
∑ ( )
2-16
( )
|
( )|
|
|
(
|
)|
.
‖
(
‖
23
)/
∑
∫
( ⁄
∑
)
⁄
(
)
2-17
(
Observe que
)
(
( )
)
contiene implícitamente los hiperparámetros. La función
es muy
multimodal (no convexa), pero por la convexidad respecto a cada uno de los argumentos
{
} individualmente y su forma diferenciable en [2-17] es posible un
proceso de optimización iterativa (ver Tipping, 2001 o Wipf and Nagarajan, 2009). La
optimización se realiza por el método de iteración de punto fijo, que es menos robusto
respecto a la variante de EM, como es discutido en Wipf and Nagarajan, 2009, pero que
conduce más rápidamente a la solución. Debido a que la experiencia nos indica que
alcanzamos más simplicidad en la formulación, realizaremos el siguiente cambio de variable
La siguiente proposición muestra las derivadas de la función [2-16], ver Magnus and
Neudecker, 2007.
Proposición 2.2.2 (ver prueba en anexos):
a)
.
(
(
(
2-19
)
∑ {
2-18
( )/
.
b)
c)
)/ )
(
(
)
)
( )/
.
(
)
24
∫
. ⁄
/
}
2-20
∑ {
d)
(
( )/
.
)
(
e)
∑
{
. ( )
)
/
. ⁄
∫
‖
/
‖ }
}
2-21
2-22
Note que al aplicar las derivadas quedan términos que contienen de forma implícita los
hiperparámetros, dado que la derivada de
con respecto a
posee una forma no lineal en el
( )/, por lo que fijamos el mismo del paso anterior para manejar una
término .
función más simple que es convexa como analizaremos más adelante. Observe que en esta
formulación Bayesiana establecemos a priori no informativas para
y .
Las derivadas en [2-18], [2-19] y [2-22] conducen fácilmente a las fórmulas de actualización
de los hiperparámetros igualando a cero:
( )
̂
̂
2-23
√
,
̂
∑
∑
.
‖
( )/
‖
( )
∑
2-24
2-25
Ahora tomaremos en consideración la función que es el argumento bajo el operador
diferencial en [2-20] y [2-21] debido a que por las particularidades del modelo, la a posteriori
posee otros términos que la distinguen respecto a los ejemplos de optimización encontrados en
la literatura del aprendizaje bayesiano con modelos semejantes.
25
(
)
∑
(
)
{
∫
( ⁄
.
( )/
(
)
)
2-26
}
El dominio de definición de la función en [2-26], respecto a los argumentos (
), es el
conjunto abierto del plano comprendido entre los ejes de coordenadas y la curva definida por
{
}
(Figura 4A), donde se preserva la no negatividad de las varianzas a priori
en la fórmula [2-4]. La función objetivo es continua diferenciable y acotada (Figura 4B) en
dicha región, por tanto tiene un mínimo en ella.
Figura 4: Aquí empleamos la función (
∫
. ⁄
/
)
.
/
⁄.
/
como una simplificación de [2-26] para representar la región del
) donde está definida (A), y el comportamiento de
plano (
sus argumentos individualmente (B).
26
respecto a cada uno de
No se puede encontrar una fórmula cerrada de actualización para (
) por la no linealidad
en [2-26], pero el procedimiento no conduce a más complicación que optimizar una función
explícita de dos variables. De ahí que:
̂
{
*
}
̂
{
[ √
}
{ (
)}
{ (
)}
+
2-27
2-28
]
2.3. Aspectos computacionales del proceso de optimización y algoritmo ENET-RVM
En el proceso de optimización a través de las fórmulas en la Proposición 2.2.2, la matriz de
varianzas
determina que parámetros del modelo son relevantes (explican el dato) y cuáles
van a cero. Véase en la fórmula de la matriz de covarianzas de la a posteriori de los
parámetros ( ), en la Proposición 2.2.1, que cuando
el elemento
de la matriz
argumento bajo la inversa, en la fórmula de ( ), tiende a infinito, llevando a cero todos
( ) y en la columna
aquellos elementos que caen en la fila
manera similar los parámetros que no explican el dato ( ̂
en la próxima iteración, a causa de que
. De
), reforzarán su desactivación
cuando sustituimos la fórmula [2-4] de los
hiperparámetros , que involucra los valores de
conjunto de las varianzas a priori
( ), de donde ̂
( ) y
, en [2-24]. Debido a que un
tienden a cero, la función [2-17] cae en un mínimo local
, y entonces no tiene sentido continuar el proceso de optimización de
manteniendo
aquellos términos no acotados. Por esta razón aquí asumimos la metodología de
redimensionar el modelo (Tipping 2001, Faul and Tipping 2003), donde evitamos la
complicación
del
mínimo
local,
eliminando
27
los
parámetros,
hiperparámetros
y
correspondientes columnas del Lead Field, en cada instante de tiempo, para un conjunto
índices tal que {
de
}
. Nos basamos en el conjunto activo
de
(complemento
) y reformulamos el modelo Bayesiano solo con los parámetros e hiperparámetros
relevantes, arribando a una nueva función objetivo para la estimación de los hiperparámetros,
que solo contiene términos acotados.
̂
{
[
∫
{∑ {
}
(
)
.
(
]
. ⁄
/
( )/
)
}}
2-
29
̂
̂
[ √
∫
{
}
{∑ {
(
)
.
(
]
. ⁄
/
}}
( )/
)
2-
30
El alto costo computacional en que se incurre para obtener ( ) por medio de la operación de
inversión en la Proposición 2.2.1, puede evitarse involucrando el procedimiento de
28
descomposición en valores singulares (SVD, siglas en inglés) y la identidad de Woodbury
(Magnus and Neudecker, 2007). En efecto, si tenemos que la SVD de
es:
2-31
Entonces substituyendo [2-31] en la fórmula para ( ) tenemos que:
( )
.
(
(
Multiplicando [2-32] por
( )
)/ )
.
(
(
)/ )
2-32
y aplicando la identidad de Woodbury obtenemos:
(
) (
(
)
)
2-33
Aquí proponemos un algoritmo, ver pseudocódigo en Algoritmo 1, que recibe como entradas
los valores de los hiperparámetros y que actualiza iterativamente ( )
̅̅̅̅̅, , ,
.
Algoritmo 1 (ENET-RVM)
ENTRADA:
,
SALIDA: , ,
,
,
Inicializa ( )
Inicializa
y
para
̅̅̅̅̅
[2-24]
Inicializa
Iterar hasta cumplir criterio de convergencia
Calcular
[2-4], ( )
̅̅̅̅̅ [2-33] y actualizar
Determinar el conjunto activo de
y actualizar
Finalizar
29
[2-23] y
[2-24].
[2-29],
[2-30] y
[2-25].
,
y
CAPÍTULO 3: FORMULACIÓN BAYESIANA DEL MODELO ESPACIOTEMPORAL CON PENALIZADORES BASADOS EN LA NORMA-MIXTA
3.1 Definición de norma-mixta
Definición 3.1.1: Sea
el espacio de las matrices reales de dimensión
Denominamos norma-mixta (MXN) a la función ‖ ‖
‖ ‖
(∑
(∑
|
.
:
| ) ) ,
3-1
,
De acuerdo con la definición anterior se pueden verificar algunas propiedades que son
heredadas por el espacio métrico (
), donde definimos la métrica (
)
‖
‖
a partir de la norma-mixta.
(
Proposición 3.1.2: Sean
* +
). Sean
/
* +
generados por la columna-t /fila-s de las matrices, y
* +
/
* +
subespacios de
:
* +
/
* +
operadores de proyección del espacio de las matrices en los respectivos subespacios. Entonces
* +
la distancia en los subespacios
asociadas a las normas
/
/
* +
está dada respectivamente por las métricas
.
La Proposición 3.1.2 puede demostrarse fácilmente chequeando que las siguientes igualdades
se cumplen:
* +
(
(
*+
* +,
, , -
*+
-)
‖
, -)
‖
* +
* +,
-‖
‖
‖
,
-‖
‖
‖
Note que la Definición 3.1.1, se puede escribir en función de la traspuesta de la matriz
, que ha sido utilizada en la literatura (Gramfort et al. 2012) y es de la forma:
30
‖ ‖
(∑
(∑
|
| ) ) ,
3-2
,
Aunque el valor de la norma es el mismo, al definir la norma mixta de una manera u otra se
obtiene la misma métrica en los subespacios
* +
* +
/
.
Definición 3.1.3: (Lehmann and Casella 1998) Un conjunto dado
convexo si para todo
este conjunto
y
, tenemos
(
(
) )
( )
(
. Una función sobre
) ( )
Proposición 3.1.4 (ver prueba en anexos): Las funciones
∑
)
es convexa si la siguiente desigualdad se cumple:
(
( )
, se dice que es
.∑
|
( )
3-3
.∑
(∑
|
|) / y
| / son convexas, y no diferenciables en el origen de coordenadas.
Pese a la convexidad de la función de costo del problema de regresión con penalización de
norma mixta, la no diferenciabilidad y la no separabilidad de la suma en las funciones
y
contribuyen a enlentecer los algoritmos de optimización (Beck and Teboulle 2009, Gramfort
et al. 2012), en casos de alta dimensionalidad. Aunque en la norma-mixta la no separabilidad
es una propiedad intrínseca, la ventaja de la variante en la Definición 3.1.1, radica en la
posibilidad de descomponerla como una suma de normas de las columnas de , permitiendo
independizar la regresión penalizada en los distintos instantes de tiempo. En el caso de
la irracionalidad puede ser fácilmente evitada tomando el cuadrado de
induciendo una norma
al cuadrado en
* +
y una norma
( ), pero esta vez
al cuadrado en
* +
, la cual
corresponde a la función de penalización del Elitist-Lasso (Kowalski and Torrésani, 2009).
31
( )
Si formulamos la regresión con la función de penalización
penalización sobre un elemento
admite la descomposición ∑ ‖
donde
∑
|
Figura 5: Forma de
(
( )), eje X (
( ) (ver Proposición 3.1.4) la
no puede ser separada del resto en
‖ , su comportamiento en
( )
. Dado que
tiene la forma (
|
|) ,
| será una magnitud que portará la dependencia con las otras variables.
( ) (ver Proposición 3.1.4) para distintos valores de
. Eje Y
).
Este penalizador puede adoptar ambas formas extremas del ENET, estilo LASSO cuando
delta es grande y estilo RIDGE cuando delta es muy pequeño (Figura 5), de forma que se
impone un balance pues delta será mayor mientras menos valores no nulos presente . En este
sentido, el modelo de la norma-mixta presenta una manera de controlar la raleza por medio de
los deltas, que son funciones de los parámetros.
El empleo de
( ) como función de penalización, la cual induce una norma
una norma
en
* +
en
* +
y
, se limita a los métodos de regularización, debido a que su
irracionalidad la convierte en prácticamente intratable en el enfoque Bayesiano.
32
3.2 El campo aleatorio de los parámetros en el modelo de la norma-mixta
Ahora tomaremos en consideración la teoría de los Campos Aleatorios de Markov (MRF,
siglas en inglés) para las pdf exponenciales, conocidas como pdf de Gibss (como en el enfoque
Bayesiano de la regresión lineal). Para hacer más interpretables los resultados (en cuanto al
enfoque Bayesiano de la regresión lineal penalizada) proponemos un tratamiento menos
general, a través de las definiciones y proposiciones básicas. Denominamos „cliqué‟ a los
pares de nodos en el MRF y los llamados „potenciales‟ en la teoría, corresponden a las
funciones de penalización, para una introducción al tema ver Kindermann and Snell (1980).
Definición 3.2.1: Sea
que representa un arreglo de variables aleatorias (vector aleatorio,
matriz aleatoria), el cual tiene una pdf conjunta de la forma ( )
admite la descomposición ∑(
(
)
);
(
( )
cumple: ‖
este
‖
)
caso
,
|
∑
‖
los
||
|
‖
,
es una
es un Campo Aleatorio de Markov (MRF,
que consiste en la columna-t de la matriz , la cual
, es un MRF.
La prueba de la Proposición 3.2.1 es obvia dado que el vector aleatorio
(
( )
)+ son llamadas potenciales.
Proposición 3.2.2: El vector aleatorio
tiene pdf conjunta ( )
, donde
es el conjunto de pares de índices y
constante de normalización. Entonces se dice que
siglas en inglés), y las funciones *
( )
tiene pdf conjunta
es la constante de normalización, y la siguiente descomposición se
∑
potenciales
,y
|
||
de
*(
|. De lo cual fácilmente se puede concluir que en
la
)(
Definición
)+
.
33
3.2.1
son
proporcionales
a
El MRF de la Proposición 3.2.2 admite una representación por medio de un grafo no orientado
(red de Markov) completamente conectado (Figura 6), donde los nodos corresponden a las
variables aleatorias {
} y los enlaces representan las relaciones funcionales entre los
elementos a través de los diferentes potenciales, tanto aquellos que dependen solo de los
propios nodos como los que vinculan todos los pares de nodos posibles.
11
…
1,
…
,
…
,
,
1
1
1
Figura 6: Red de Markov de los parámetros en el modelo Bayesiano de la norma-mixta.
La teoría de MRF ofrece una regla para establecer probabilidades condicionales en una red de
Markov, lo que permite derivar métodos de inferencia en Campos Aleatorios que se basan en
el paso del modelo de probabilidad de las variables aleatorias originales a las probabilidades
condicionales, lo cual contribuye a simplificar mucho los modelos, volviéndolos tratables
analíticamente o permitiendo acelerar algoritmos de muestreo de Gibbs (Murphy, 2012).
Definición 3.2.3: Sea
que representa un arreglo de variables aleatorias. Sea
subconjunto de elementos de
( )
+,
, donde
, con pdf conjunta condicional de la forma
( ) admite la descomposición ∑(
es el complemento de
dice que el par (
en , y
)
(
),
*(
(
|
un
)
)
es una constante de normalización. Entonces se
) es un Campo Aleatorio de Markov Condicional (CMRF, siglas en
inglés).
Proposición 3.2.4: Cualquier par (
) de un MRF constituye también un CMRF.
34
Para demostrar la Proposición 3.2.4 podemos aplicar la regla de Bayes a un par cualquiera
(
) del MRF de la Definición 3.2.1:
(
|
)
(
)⁄ (
)
∑
(
Luego empleando la siguiente descomposición:
( )
(
*(
(
∑
)
)
)
(
+,
)
)
{(
)
}, y
Podemos llegar a que:
(
(
) ∑(
(
)
(
)
)
∑(
∫
|
(
)
)
,
∑(
)
De ahí se obtiene que (
∑(
)
)
∑(
∑(
∫
)
(
)
(
)
(
)
.
)
)
, con lo cual quedan satisfechas
las condiciones de la Definición 3.2.3.
De la Proposición 3.2.4 puede deducirse que el vector aleatorio
(
| )
‖
‖
, con pdf de la forma
, es también un CMRF para cualquier partición en dos subconjuntos de
sus componentes. En particular se puede obtener la pdf condicional de la variable aleatoria
respecto a su complemento, el vector
,
.
El lema a continuación resume el resultado de la aplicación de las reglas de la Teoría de
Probabilidades, en el paso a las probabilidades condicionales en el MRF de la Proposición
3.2.2. Para una introducción a este tópico en la Teoría de Probabilidades moderna ver
(Durrett, 1996).
35
Lema 3.2.5 (ver demostración en anexos): Para la variable aleatoria
elementos del vector
cuya pdf es de la forma
(
, que constituyen los
‖
| )
‖
, se verifican las
propiedades a), b) y c).
a)
b)
(
|
|
)
Donde
∑
(
‖
)
Donde
|
(
‖
3-4
es cierta constante de normalización.
(
)
3-5
) es la función indicadora de la región
y
c) ∫ (
|y
|
| )
̅̅̅̅̅+,
*
es cierta constante de normalización.
∫
‖
‖
3-6
La importancia de lo señalado en Lema 3.2.5 a) reside en mostrar que tomar la pdf condicional
(
|
), en vez de la versión marginalizada
(
| )
∫
‖
‖
, que no
tiene una pdf en forma explícita, nos permite arribar a un modelo sencillo separable para los
parámetros. El costo de dicha transformación es la adición al modelo de las nuevas variables
aleatorias o hiperparámetros
, los cuales heredan el comportamiento multivariado de en el
modelo original, Lema 3.2.5 b), mientras que la identidad en Lema 3.2.5 c) valida la
formulación empleada en este trabajo, sin tener en cuenta resultados más generales.
En Lema 3.2.5 b) establecemos la pdf conjunta del vector aleatorio
, la cual no puede ser
descompuesta en potenciales que dependan de subconjuntos de elementos de menor tamaño
que el vector aleatorio completo. A este tipo de campo aleatorio le corresponde también una
red de Markov completamente conectada, con un potencial para los elementos
general
y otro
para la interacción entre todos los nodos, como se muestra en la Figura 7. La nueva
36
estructura de la red, al nivel de los hiperparámetros, nos fuerza a encarar un modelo no
separable justo como en el principio, pero en esta ocasión dicha dificultad se puede evadir
debido al origen de los hiperparámetros, como veremos más adelante. Otras complicaciones
aparecen dado que en el nuevo modelo el hiperparámetro
parámetros
y de los hiperparametros
aprendizaje de
conecta con el nivel de los
, lo cual complicará las ecuaciones para el
cuando aplicamos el método de la evidencia.
1,
…
1,
…
,
,
…
,
…
…
,
…
,
,
11
Figura 7: Nuevo modelo asociado a la norma-mixta, que consiste en una red Bayesiana
para los parámetros y una red de Markov para los hiperparámetros.
Ahora están dadas las condiciones para hacer una última transformación al modelo Bayesiano
de la norma-mixta combinando los resultados en el Lema 2.1.1 y Lema 3.2.5 a), observando la
correspondencia de
y
con
y
del ENET. Las respectivas pdf a priori de
y
en el nuevo modelo jerárquico serían las siguientes:
(
|
)
(
(
(
En este modelo
|
)
(
|
)
3-7
)
|
(
3-8
))
3-9
controla la raleza/suavidad en todos los parámetros de los niveles
superiores, mientras que los
actúan como pesos que balancean esta propiedad, sobre cada
37
nodo (parámetro) de forma individual (ver figura 8). Como en el ENET, los
relevancia de los parámetros en el modelo, de forma que si
de los parámetros
controlan la
las varianzas a priori
. Para realizar este control correctamente, los
se estiman por vía
del máximo a posteriori.
,
1,
1,
…
,
…
,
,
1,
,
,
,
…
,
,
11
Figura 8: Representación gráfica del nuevo modelo resultante de las transformaciones en
Lema 3.2.5 y Lema 2.1.1.
Para darle una solución práctica a este problema, observemos que en este nuevo modelo los
parámetros dependen de una nueva estructura de hiperparámetros, en la que ellos exhibirán un
comportamiento aleatorio similar a que si fueran generados aleatoriamente por el modelo
original, no solo en el sentido de las distribuciones a priori, sino que también son equivalentes
en el sentido de las distribuciones a posteriori (Beal, 2003). O sea, muestrear los parámetros y
el hiperparámetro
a partir de las distribuciones a posteriori del nuevo modelo es equivalente
estadísticamente a muestrear los parámetros de la a posteriori del modelo original mientras se
genera
a través de la expresión dada en el Lema 3.2.5 a). Por tanto, para el desarrollo de un
algoritmo que permita el aprendizaje de los hiperparámetros y la estimación de los parámetros
nosotros utilizaremos dicha expresión para la actualización de
38
en cada iteración.
3.3 Aprendizaje mediante el enfoque del Bayes Empírico en el modelo jerárquico de
la norma-mixta
Con las transformaciones al modelo Bayesiano jerárquico asociado a la función de
penalización de la norma mixta, llevadas a cabo en el Epígrafe 3.2, arribamos a un nuevo
modelo generativo probabilístico donde los parámetros tienen una pdf Normal, representado
en la Figura 9. La a posteriori conjunta, de forma similar al Epígrafe 2.2 empleando [2-5] y
[3-7], se puede escribir:
(
)
(
|
) (
|
(
)) (
)
3-10
La pdf conjunta de los hiperparámetros, de acuerdo al modelo, se puede factorizar sobre los
nodos de la red de la Figura 9, usando [3-9] y [3-5].
(
)
∏
.
1
|
(
‖
)/
‖
(
) ( ) ( )
3-11
…
…
1
1
…
…
1
Figura 9: Modelo generativo probabilístico del dato, asociado a la norma-mixta.
La función objetivo del problema de optimización será:
∑
( )
39
3-12
( )
|
( )|
|
∑
‖
. ⁄
∫
( )
(
)|
.
∑
/
(
)/
.
⁄
|
/
|
‖
‖
( )
‖
3-13
Observe que en [3-13] el término
es obtenido a partir de la constante de normalización
en el Lema 3.2.5 b).
Proposición 3.3.1 (ver prueba en anexos):
( )
a)
.
(
(
(
)
3-14
( )/
.
( )
b)
)/ )
(
)
.
( )/
3-15
c)
{∑ {
(
)
(
∑‖
d)
‖
∑
. ⁄
∫
/
}
)
3-16
}
. ( )
{
/
‖
‖ }
3-17
Las demás derivadas en [3-14], [3-15] y [3-17] conducen fácilmente a las fórmulas de
actualización de los hiperparámetros, de forma similar a las del Epígrafe 2.2.
̂
( )
;
( )
.
(
40
(
)/ )
3-18
̂
√
,
∑
̂
‖
∑
Donde
( )/
.
3-19
‖
3-20
( )
∑
está dado por la ecuación [3-8]. Para el estimador de
tendremos un problema de
optimización con una función objetivo similar a [2-26].
( )
∑ {
(
( )/
.
)
(
∑
∫
. ⁄
/
‖
3-21
‖
El dominio de definición de la función en [3-21] es el intervalo [
que la función objetivo es continua en el intervalo abierto (
tiende a infinito en los extremos
}
)
y
){
(
(
(
){
){
}], de forma
}), mientras que
}. Entonces el estimador del hiperparámetro
se representa por la expresión:
̂
*
(
),
-+
* ( )+
3-22
3.4 Aspectos computacionales del proceso de optimización y algoritmo MXN-RVM
De forma similar a lo explicado en el Epígrafe 2.3 aquí empleamos la estrategia de conjunto
activo y de redimensionar el modelo en cada iteración, borrando los parámetros y los
hiperparámetros cuyos índices (
partir del conjunto activo
) pertenecen al conjunto , tal que {
(complemento de
función objetivo para la estimación de
:
41
(
)
}. A
) se puede expresar de forma explícita la
̂
*
(
,
)
∑
-+
(
)
{
∫
( |
(
)
( )/
.
(
{
)
)
}
∑‖
(
)
(
(
‖
)
)
}
3-23
Pueden extraerse conclusiones, sobre el control de la raleza espacial y suavidad temporal, a
partir del comportamiento asintótico de la función objetivo en [3-21]. En el primer sumando,
el término ∑ {
decrece cuando
término cuando
valores de
grandes)
. ⁄
∫
/
} representa una función no lineal que rápidamente
crece, pero lo hace más lentamente que la tendencia al infinito del primer
(
)
{
}. Esto permite la adaptación del mínimo en [3-21] a los
(globalmente), tal que si la estimación en un paso no es rala (
tenderá a valores mayores (hacia
(
)
{
tiene valores
}), llevando más varianzas
a
valores pequeños y promoviendo mayor raleza en el próximo paso. Lo contrario pasa cuando
la estimación es demasiado rala (
de
(
)
{
tiene valores pequeños), entonces
será menor, alejado
} y será menos probable que se eliminen nuevos elementos del conjunto
activo. Aquí proponemos un algoritmo, ver pseudocódigo en Algoritmo 2, que recibe como
42
entradas los valores de los hiperparámetros y que actualiza iterativamente ( )
,
̅̅̅̅̅, , ,
y .
Algoritmo 2 (MXN-RVM)
ENTRADA:
,
SALIDA: , , , ,
Calcular los valores iniciales de
( )
Calcular valores iniciales de
[3-19].
y
y
para
Inicializa
Iterar hasta cumplir criterio de convergencia
Calcular
[3-8], ( )
̅̅̅̅̅ [2-33] y actualizar
Determinar el conjunto activo de
y actualizar
Finalizar
43
[3-18],
[3-23] y
y
[3-19]
[3-20].
̅̅̅̅̅
CAPÍTULO 4: RESULTADOS Y DISCUSIÓN
4.1 Estudio de simulaciones
Para validar la teoría estudiamos la habilidad de los métodos propuestos reconstruyendo la
Densidad de Corriente Primaria (DCP) a partir de datos simulados de EEG. Para una
simulación realista de baja dimensionalidad, empleamos como espacio de generadores un
anillo de 736 vóxeles en un plano axial de la corteza cerebral correspondiente al atlas cerebral
estándar del Instituto Neurológico de Montreal (MNI, http://www.bic.mni.mcgill.ca/).
Simulamos 3 fuentes activas (que llamaremos “parches” A, B y C), con distinta distribución
(raleza/suavidad) en el espacio, cuya amplitud varía en el tiempo siguiendo diferentes cursos
temporales (ver Figura 10). El “lead field” fue calculado como la matriz de transformación de
estas fuentes a 31 canales de registro, utilizando un modelo de 3 esferas homogéneo y suave a
pedazos, según se desarrolló en (Riera, 1999). El potencial eléctrico (EEG) se calculó a partir
Figura 10: Columna izquierda. Arriba: Espacio de los generadores (rojo) y los electrodos (amarillo). Centro:
corte axial con la distribución espacial de las fuentes simuladas, A (1 vóxel), B (5 vóxeles) and C (gaussiana
espacial). Abajo: Evolución temporal de las fuentes, A (gaussiana temporal), B (sinusoide temporal) and C
(sinusoide temporal). Columna derecha: Matriz que representa el mapa espacio-temporal de la simulación.
44
de la multiplicación del “lead field” por la DCP simulada y adicionando ruido blanco
(Relación Señal-Ruido (RSR) de 70db).
Estudio de las soluciones obtenidas con el modelo Elastic Net y el algoritmo ENET-RVM
La solución inversa se estimó con los algoritmos ENET-RVM y MXN-RVM, comparando los
resultados obtenidos tanto con el empleo de valores fijos de los parámetros de regularización,
como con el aprendizaje de los distintos grados de raleza/suavidad de las fuentes simuladas a
través de la estimación dentro del algoritmo de dichos parámetros. En el caso del ENET
calculamos las soluciones que utilizan las combinaciones de los parámetros (α1=1, α2=1) y
(α1=1, α2=100). De acuerdo con el modelo, la primera combinación conllevaría a obtener una
solución que explica el dato con igual peso relativo de suavidad y raleza, mientras que la
segunda debe llevar a soluciones de mayor raleza para tratar de explicar el dato. Por su parte,
la solución con aprendizaje se obtiene a partir de los valores iniciales α1 (0)=1 y α2 (0)=1.
Como se muestra en la Figura 11 (fila de abajo), las soluciones con los parámetros fijos se
comportan según lo esperado, mientras que la solución con aprendizaje de los hiperparámetros
encuentra un intermedio entre la solución más suave y la más rala en los distintos parches
simulados. En este modelo se estiman los valores de los hiperparámetros para cada instante de
tiempo independiente, lo cual hace más difícil que las soluciones muestren suavidad temporal,
al contrario de las soluciones en que se fijan estos parámetros para todos los instantes de
tiempo. En este caso, la relación entre los hiperparámetros estimados α2/α1 varió en el tiempo
en un rango entre 1 y 20, pero con un bajo coeficiente de variación, siendo la media y la
desviación estándar de 3.08±1.53.
45
Figura 11: Soluciones inversas obtenidas empleando el algoritmo ENET-RVM con valores
fijos de los parámetros de regularización (abajo), y con aprendizaje (derecha arriba).
La Tabla I muestra algunas medidas cuantitativas de la calidad de la estimación por estos tres
métodos. En particular, como medida de “distancia” de cada matriz estimada (Jest) a la matriz
solución simulada (Jsim) calculamos la diferencia entre 1 y la correlación de Pearson (valor
entre -1 y 1, donde 0 se interpreta como no correlación, que representa el grado de
dependencia lineal entre las matrices) entre las dos matrices vectorizadas, de forma que
menores valores implican mayor similitud de la solución estimada con la solución real. La
raleza de cada solución se calculó como el porcentaje de elementos nulos en la matriz (o sea, a
mayor cantidad de elementos nulos, mayor raleza, coincidiendo con el concepto intuitivo).
También, a partir de considerar a Jsim como una matriz binaria, donde dos clases se definen
46
por los elementos nulos y no nulos, es posible para cada Jest calcular el área bajo la curva
ROC (AUC, del inglés area under the curve, también llamada precisión o exactitud) y los
valores de sensibilidad y especificidad determinados por la idéntica binarización de las
soluciones estimadas. Esta tabla muestra que la distancia con respecto a la solución simulada
de la solución con el aprendizaje es intermedia con respecto a las otras dos soluciones con
valores fijos. Sin embargo el nivel de raleza en todo el mapa espacio-temporal es similar a la
de la solución más rala y el área bajo la curva ROC es la menor, debido a una baja
sensibilidad. Estos últimos resultados pueden explicarse precisamente por los diferentes
grados de raleza estimados independientemente para cada instante de tiempo, lo que conllevó
a soluciones con mayor raleza en la dimensión temporal.
En la Figura 12 mostramos un acercamiento de las fuentes estimadas y en la Tabla II las
correspondientes medidas cuantitativas en tres zonas espacio-temporales que denominamos
PARCHES A, B y C, respectivamente. Se puede observar el efecto de la estimación con
aprendizaje en las características de los parches, donde la distancia a la solución simulada
toma valores intermedios a las soluciones con los hiperparámetros fijos, así como raleza y
precisión (AUC), excepto en el parche C donde la mayor raleza de la Jsim con aprendizaje
conlleva a una mayor distancia y menor AUC.
ENET-MM ENET-RVM
Tabla I: Medidas cuantitativas de las soluciones ENET-RVM y ENET-MM en los datos simulados
Soluciones
1-corr
Raleza Jest (%)
Raleza Jsim (%)
α2/α1 = 1
0.156
96.28
97.01
71.96
98.38
85.59
α2/α1 Estimado
0.278
97.95
97.01
41.67
99.17
70.57
α2/α1 = 100
0.282
97.92
97.01
51.77
99.45
75.71
α2/α1 = 9
α2/α1 = 99
α2/α1 = 999
0.558
88.59
97.01
67.44
90.31
80.29
0.678
94.59
97.01
37.24
95.57
66.66
0.734
95.80
97.01
23.42
96.39
60.06
47
Sens(%) Espec(%) AUC(%)
Tabla II: Medidas cuantitativas calculadas en los 3 parches para las soluciones ENET-RVM
Soluciones
Parche A (Ral. Jsim=99.27%) Parche B (Ral. Jsim=40.60%)
Parche C (Ral. Jsim=0%)
1-corr Raleza(%) AUC(%) 1-corr Raleza(%) AUC(%)
1-corr Raleza(%) AUC(%)
1.005
α2/α1 = 1
α2/α1 Estim 1.004
α2/α1 = 100 0.916
98.70
49.34
0.139
29.15
80.08
0.167
45.75
77.07
99.01
49.50
0.224
56.32
78.71
0.372
75.75
64.61
99.08
57.47
0.313
65.08
79.4
0.336
58.49
67.78
48
Figura 12: Detalles en los distintos parches de la simulación de las soluciones inversas
estimadas empleando el algoritmo ENET-RVM con valores fijos de los parámetros de
regularización (filas 2 y 4), y con aprendizaje de los hiperparámetros (fila 3).
En un estudio no exhaustivo del proceso de aprendizaje de los hiperparámetros con el
algoritmo ENET-RVM, se encontró un patrón de convergencia monótono pero sensible a los
valores iniciales como se muestra en la Figura 13. Si iniciamos con la combinación α1=1 y
α2=10, α2 converge a valores más altos y se obtiene una solución del vector de parámetros más
49
rala (en los tres instantes de tiempo donde son máximos cada parche). ENET-RVM procesa
un instante de tiempo de la solución en 4.8s (150 iteraciones), de forma que la estimación
para todo el mapa espacio-temporal se toma unos 16 min.
50
Figura 13: Soluciones inversas estimadas con ENET-RVM con aprendizaje de los
hiperparámetros a partir de dos diferentes valores iniciales de los mismos. Las tres primeras
filas muestran la solución en los instantes de tiempo correspondientes a las columnas 1, 25 y
122 (o sea, en los picos del curso temporal de la amplitud de los parches C, A y B,
51
respectivamente). Las últimas tres filas muestran el correspondiente patrón de convergencia
de los valores de los hiperparámetros.
Se realizaron comparaciones entre las soluciones estimadas con el ENET-RVM y las
estimadas con el algoritmo MM (del inglés Majorization-Minorization), que utiliza una
aproximación cuadrática local y no un formalismo bayesiano completo (Sanchez–Bornot et
al., 2008)). En esta versión se utilizan los hiperparámetros de la forma
y
(
), donde se fija la razón entre los dos hiperparámetros (a través de fijar ) y se estima un
solo parámetro de regularización
como el que minimiza la función de validación cruzada
generalizada. En este caso calculamos las soluciones empleando tres diferentes valores para
(0,1; 0,01 y 0,001), que refuerzan distintos grados de raleza/suavidad en la solución al
proponer relaciones α2/α1 iguales a 9; 99 y 999. En la Figura 14 podemos observar que el
ENET-MM puede recuperar los parches B y C, pero introduciendo una gran cantidad de otras
activaciones “fantasma” en la solución (o sea, que no aparecen en la solución simulada), aún
en el caso en que la relación de los hiperparámetros conlleva a soluciones de alta raleza. En la
Figura 15 se muestran los detalles de las soluciones en los tres parches, donde aunque las
soluciones muestran el mismo efecto que la de ENET-RVM en cuanto a la dificultad en
recuperar la continuidad temporal (también aquí se estima independientemente en cada
instante de tiempo), se puede observar que tienen mayor dificultad para estimar la distribución
espacial en comparación con el ENET-RVM. En particular, cuando el conjunto de valores de
los hiperparámetros conduce a una solución más rala, esta muestra menos fantasmas, pero
tiende a deteriorar la recuperación de los parches. Esto se confirma con las medidas
cuantitativas que se muestran en la Tabla I, donde las soluciones de ENET-MM siempre
muestran mayores distancias a la solución simulada, menor raleza y menor AUC que las tres
soluciones obtenidas con el algoritmo ENET-RVM.
52
Figura 14: Comparación de las soluciones inversas estimadas por medio del algoritmo
ENET-RVM con las obtenidas por el ENET clásico (ENET-MM). En el primero los
hiperparámetros se aprenden dentro de la formulación bayesiana y en el segundo se fijan los
valores relativos (se muestran las diferentes combinaciones utilizadas) y se estima un solo
hiperparámetro como el que minimiza la función de crossvalidación generalizada.
53
Figura 15: Detalles de los parches espacio-temporales de las soluciones inversas obtenidas
empleando los algoritmos ENET-RVM y ENET-MM.
54
Estudio de las soluciones obtenidas con el modelo de Norma Mixta y el algoritmo MXNRVM
Para el caso del modelo que utiliza como a priori la norma mixta (MXN), comparamos las
soluciones inversas obtenidas con diferentes valores fijos del hiperparámetro que controla la
raleza (α=1 y α=10), con la solución obtenida con la estimación del mismo (aprendizaje)
partiendo de un valor inicial igual a 1 (Figura 16). Puede verse que la solución MXN-RVM es
capaz de estimar unas pocas fuentes en el espacio con suavidad a lo largo del intervalo de
tiempo en que estas están activas. En particular, las soluciones obtenidas con el
hiperparámetro fijo muestran mayor continuidad en los cursos temporales, aunque el aumento
de la raleza en la dimensión espacial no permite que se estimen bien las fuentes suaves y
aparecen activaciones “fantasmas” aisladas. Por otro lado, la solución con el aprendizaje del
hiperparámetro parece estimar mejor las activaciones espacialmente suaves, lo cual es
consistente con el hecho de que el valor estimado del hiperparámetro fue de 0.014, menor que
los utilizados en las otras dos soluciones. Sin embargo, esta solución mostró un efecto similar
al de la solución ENET-RVM, donde se subestimó la amplitud en algunos instantes de tiempo
y se pierde la suavidad temporal. Esto explica que en el análisis de las medidas cuantitativas
que aparecen en la Tabla III, aunque la solución aprendida tiene una distancia a la simulada
similar a las otras, su raleza general (espacio-temporal) es mayor que las otras y su
sensibilidad es manifiestamente más baja, llevándola a tener la menor AUC. En la Tabla III
también puede verse que en general, las soluciones MXN fueron más ralas que la solución
simulada, por lo que las distancias a esta fueron mayores y las AUC menores, en comparación
con las soluciones estimadas con el algoritmo ENET-RVM (Tabla I).
55
LASSO-MM MXN-RVM
Tabla III: Medidas cuantitativas de las soluciones MXN-RVM y LASSO-MM en los datos simulados
Soluciones
1-corr
Raleza Jest (%)
Raleza Jsim (%)
Sens(%) Espec(%) AUC(%)
α= 1
0.583
98.99
97.01
21.37
99.62
60.51
α Estimado
0.564
99.20
97.01
17.66
99.72
58.71
α = 10
0.562
98.93
97.01
21.52
99.56
60.56
α = 0,002
α = 1,187
α = 572
0.747
96.07
97.01
20.39
96.58
58.64
0.59
96.93
97.01
21.91
97.51
59.87
0.542
98.78
97.01
29.10
99.64
64.38
Figura 16: Soluciones inversas estimadas empleando el algoritmo MXN-RVM con valores
fijos del hiperparámetro (abajo), y con aprendizaje (derecha arriba).
Cuando miramos con más detalle las soluciones estimadas en las zonas de los 3 parches
espacio-temporales de interés (Figura 17), podemos confirmar que la solución que estima el
hiperparámetro es la que peor recupera la suavidad temporal pero es más efectiva para
56
recuperar las fuentes espaciales (parches B y C). Esto sugiere que en el modelo MXN donde
utilizamos un solo parámetro que controla la raleza espacial, la suavidad temporal puede
deteriorarse cuando hay activaciones que no son ralas y que obligan al parámetro a converger
a valores pequeños para poder recuperarlas. Cabe señalar que tanto las soluciones ENETRVM como las MXN-RVM fueron incapaces de localizar espacialmente la activación del
parche A, por lo que no se podría concluir que esto esté relacionado con la falta de suavidad y
extensión temporal de la misma, sino a la alta correlación que existe entre las columnas del
“lead field” alrededor de ese vóxel, llevando a que la activación máxima se estime en vóxeles
cercanos y no exactamente en el vóxel 100. Las medidas cuantitativas calculadas en los
parches se muestran en la Tabla IV. Consistentemente con nuestra discusión anterior, las tres
soluciones son muy similares en la estimación del parche A, pero la solución obtenida con el
aprendizaje del hiperparámetro muestra la mayor raleza en los otros dos parches. A pesar de
esto, en el parche C es la de menor distancia a la solución simulada y mayor AUC, debido a
que el bajo valor del hiperparámetro permitió estimar mejor la distribución espacial suave,
aunque a costa de deterioro en la suavidad temporal.
Tabla IV: Medidas cuantitativas calculadas en los 3 parches para las soluciones MXN-RVM
Parche A (Ral. Jsim=99.27%) Parche B (Ral. Jsim=40.60%)
Parche C (Ral. Jsim=0%)
Soluciones
1-corr Raleza(%) AUC(%) 1-corr Raleza(%) AUC(%)
1-corr Raleza(%) AUC(%)
α= 1
α Estimado
α = 10
1.004
99.39
49.69
0.494
77.21
69.18
0.737
81.40
49.15
1.004
99.39
49.69
0.499
79.06
67.63
0.698
90.09
52.32
1.003
99.46
49.73
0.506
77.66
68.8
0.734
81.92
51.49
57
Figura 17: Detalles en los distintos parches espacio-temporales de la simulación de las
soluciones inversas obtenidas con el algoritmo MXN-RVM, tanto con valores fijos del
hiperparámetro (filas 2 y 4), y con el aprendizaje bayesiano del mismo (fila 3).
En el estudio de la convergencia del hiperparámetro α con este algoritmo, observamos que hay
un patrón más robusto que en el caso del ENET-RVM, lográndose la convergencia al mismo
valor antes de las 150 iteraciones cuando se usaron valores iniciales de α=1 y α=10 (Figura
18). Las soluciones para las columnas donde cada activación simulada fue máxima mostraron
58
el mismo nivel de raleza en ambos casos. En nuestro estudio el algoritmo MXN-RVM, al
igual que el ENET-RVM, demoró 4.8 s en estimar la solución en un instante de tiempo (150
iteraciones como promedio), mientras que todo el mapa espacio-temporal se estimó en 16
min. Sin embargo, de la convergencia del hiperparámetro observada en la Figura 18,
podríamos decir que con la implementación de un criterio de parada adecuado, este algoritmo
pudiera utilizar alrededor de 100 iteraciones solamente para alcanzar la solución, por lo que
sería más rápido que el algoritmo de ENET-RVM.
De manera similar al caso del ENET-MM, exploramos las soluciones obtenidas con el modelo
LASSO y el algoritmo MM (LASSO-MM). La Figura 19 muestra estas soluciones junto con
la del MXN con el aprendizaje del hiperparámetro y la Tabla 3 muestra las correspondientes
medidas cualitativas. Aquí se destaca que el LASSO ofrece soluciones de alta raleza como era
de esperar, aunque en los casos en que la verdadera solución no lo es, o sea, donde existen
activación suave de muchos vóxeles vecinos o cercanos, el hiperparámetro óptimo debería
tomar valores muy pequeños. Estos valores pequeños conllevan a una solución que trata de
explicar estos parches con más activaciones no nulas pero a lo largo de todo el mapa espaciotemporal, conllevando a la aparición de más fuentes fantasmas que en el caso del MXN. Los
detalles de estas soluciones en los tres parches estudiados se muestran en la Figura 20, donde
se confirma la mayor raleza y la menor distancia a la solución simulada de la solución MXN
cuando el parámetro de regulación no es muy grande. Aunque este es un estudio exploratorio
con pocos valores del parámetro de regularización, estos resultados sugieren que la solución
MXN es más robusta ante los escenarios que no satisfacen las suposiciones de raleza de la
solución, ofreciendo soluciones más ralas que la real, pero con menos fantasmas que la
solución LASSO-MM.
59
Figura 18: Soluciones inversas estimadas con MXN-RVM con aprendizaje del
hiperparámetro a partir de dos diferentes valores iniciales del mismo. Las tres primeras
filas muestran la solución en los instantes de tiempo correspondientes a las columnas 1, 25
y 122 (o sea, en los picos del curso temporal de la amplitud de los parches C, A y B,
respectivamente). La última fila muestra los correspondientes patrones de convergencia
del hiperparámetro.
60
Figura 19: Comparación de las soluciones inversas estimadas por medio del algoritmo
MXN-RVM con las obtenidas por el LASSO (LASSO-MM). En el primero los
hiperparámetros se aprenden dentro de la formulación bayesiana y en el segundo se fijan
distintos valores para el correspondiente parámetro de regularización.
61
Figura 20: Detalles de los parches espacio-temporales de las soluciones inversas obtenidas
empleando los algoritmos MXN-RVM y LASSO-MM.
62
Por último, estudiamos la robustez del ENET-RVM y el MXN-RVM, utilizando el
aprendizaje de los hiperparámetros, ante diferentes niveles de ruido en la señal
(correspondientes a una relación señal-ruido RSR de 30db y 10db). En la Figura 21 se observa
que la solución con MXN-RVM es más robusta que la estimada por el ENET-RVM que
tiende a asimilar el ruido como parte de la solución, mostrando más fuentes activas que las
que realmente fueron simuladas (sobreajuste). Cuando fijamos los hiperparámetros en
combinaciones que imponen mayor raleza de las soluciones en ambos algoritmos, el ENETRVM puede manejar mejor el nivel de ruido sin la presencia de muchas activaciones
fantasmas, mientras que el MXN-RVM continúa siendo robusto al ruido pero puede mostrar
activaciones fantasmas con el exceso de raleza.
Figura 21: Comparación de las soluciones inversas estimadas por medio de los algoritmos
ENET-RVM y MXN-RVM para distintos niveles de ruido, con aprendizaje de los
hiperparámetros.
63
En resumen, este estudio con una simulación realista que no cumple estrictamente con las
suposiciones teóricas de los modelos nos permitió observar la relación existente entre la
estimación de los hiperparámetros y las propiedades de las soluciones en las dos dimensiones.
Al existir una sola fuente realmente rala (sólo un vóxel) que no tenía alta suavidad temporal y
otras dos fuentes con mayor distribución espacial, las soluciones con parámetros fijos que
imponían mayor raleza no fueron las mejores en sentido general. Sin embargo, el aprendizaje
de los hiperparámetros fue bastante efectivo en ambos casos para tratar de explicar
correctamente la distribución espacial de las fuentes. En el caso del ENET-RVM,
encontramos que es menos robusta al ruido, por lo que al hacer la estimación de la solución
espacial independientemente para cada instante de tiempo, la influencia del ruido conllevó a
que no se estimara correctamente la suavidad temporal. Por otro lado, en el caso del MXNRVM el deterioro de la suavidad temporal estuvo directamente relacionado con la estimación
de un hiperparámetro pequeño para lograr explicar la suavidad espacial. Igualmente se
encontró que a mayores valores del hiperparámetro, se estimaban soluciones de mayor raleza
espacial, alejándose de la solución simulada, pero garantizando mucho mejor la continuidad y
suavidad temporal de las activaciones estimadas. Esto sugiere en al tener un solo parámetro
para controlar la raleza este consistentemente garantiza la suavidad temporal solo cuando las
fuentes espaciales son realmente ralas. En general, el algoritmo MXN-RVM es propenso a
estimar soluciones de mayor raleza que la real y el ENET tiende a sobreajustar el dato,
mostrando más fuentes fantasmas, lo cual a su vez explica su menor robustez ante mayores
niveles de ruido en los datos. Estudios futuros pueden orientarse al desarrollo de modelos
espacio-temporales de ENET, modelos de MXN que permitan controlar por separado los
niveles de suavidad y raleza en las dimensiones temporal y espacial; y la posibilidad de
64
combinar estos modelos para tener mayor flexibilidad en la estimación de fuentes con
diferentes características espacio-temporales.
4.2 Estudio de datos reales
Como datos reales utilizamos registros de EEG de 30 electrodos, con una frecuencia de
muestreo de 128 Hz, en un experimento donde se presentaron estímulos visuales a sujetos
sanos (Makeig, 2002). A los sujetos se les pide discriminar, por medio de la acción física de
pulsar un botón, entre dos tipos de figuras geométricas que aparecen en una región de la
pantalla, donde se les ha indicado el lugar en que aparecerá el estímulo y bajo qué condiciones
debe efectuar la acción. Los registros del EEG en una ventana de tiempo de 3 s alrededor del
momento de presentación del estímulo (1 s pre-estímulo y 2 s post-estímulo) se repiten 80
veces (corridas para distintos sujetos) y se promedian para cancelar la actividad oscilatoria de
fondo que no está relacionada con el estímulo, obteniéndose lo que se conoce como Potencial
Evocado Visual. La señal temporal obtenida contiene 384 instantes de tiempo, donde el
estímulo ocurre en el instante 128. La Figura 22 muestra las series de tiempo de este Potencial
Evocado y señala los dos instantes de tiempo escogidos por nosotros para estimar la solución
inversa con los algoritmos propuestos: el instante 165 (281 ms post estímulo) donde se
encuentra el valor máximo negativo y el instante 179 (430 ms post estímulo) correspondiente
al valor máximo positivo del potencial eléctrico entre todos los electrodos. Para la solución
del problema inverso empleamos un cerebro promedio, definiendo un enrejado de generadores
sobre la sustancia gris de la corteza cerebral y del tallo cerebral y el tálamo, con un total de
3244 vóxeles.
65
Figura 22: Series de tiempo del Potencial Evocado Visual para todos los electrodos. A:
Instante en que ocurre el estímulo, empleado como instante de referencia (t = 0). B: Mínimo
global del voltaje en el tiempo (t = 281 ms). C: Máximo global del voltaje en el tiempo (t =
430 ms).
Calculamos las soluciones inversas con los métodos ENET-RVM, MXN-RVM y las
comparamos con una de las soluciones inversas más reconocidas y utilizadas en la literatura,
la Tomografía Eléctrica de Baja Resolución (LORETA). Para mostrar los resultados
presentamos las fuentes principales, donde ocurren los máximos de actividad, en los planos
ortogonales (occipital, sagital y coronal) donde mejor se observan, y la actividad secundaria
por medio de una imagen de la proyección de máxima intensidad de todas las activaciones del
espacio tridimensional a dichos planos, (conocido como “cerebro de cristal”). Empleamos una
escala de colores para representar la magnitud del módulo del vector de la DCP, y las
coordenadas x, y, z representan la localización del máximo con respecto al sistema de
coordenadas de los vóxeles de la imagen.
En el instante 165 el máximo de la actividad estimada con los tres métodos se encuentra en el
área de Brodmann 19, que corresponde a la corteza visual secundaria, del hemisferio derecho
66
(Figura 23). Como es esperado, la solución LORETA es la más suave, extendiendo la
activación principal no solo en las áreas visuales (occipital) de ambos hemisferios, sino
también en áreas temporales. La solución con el ENET-RVM es también suave en el espacio
pero posee menos dispersión espacial, mostrando también activaciones occipitales en ambos
hemisferios y otras activaciones pero como fuentes mejor diferenciadas. Con el método
MXN-RVM se obtiene una solución de mayor raleza, mostrando únicamente una fuente
principal en este plano bien localizada en el área visual derecha, lo cual es más consistente
con lo que se conoce sobre las áreas involucradas en el procesamiento visual (Guyton, 1970).
La Figura 24 muestra la proyección de máxima intensidad de estas mismas soluciones,
confirmando la gran dispersión espacial de la solución LORETA que muestra una activación
secundaria en el área temporal superior. La solución de ENET-RVM muestra las mismas
fuentes que LORETA pero con mayor raleza, de forma que activaciones secundarias
temporales, frontales y centro-parietales pueden distinguirse. A diferencia de LORETA, las
áreas temporales no aparecen con la mayor amplitud después del área visual, sino la
activación centro parietal (área de Brodmann 4) de la corteza motora, que puede estar
relacionada con la activación de las neuronas de esta área, al desencadenar la acción física en
respuesta al estímulo (Guyton, 1970). La solución MXN-RVM solo muestra esta activación
centro-parietal como la única fuente secundaria, lo cual ofrece una imagen más clara y más
consistente con la neurofisiología en este experimento visual.
67
Figura 23: Representación en los planos ortogonales del máximo de la DCP estimada por
medio de los tres métodos, en el instante 165, correspondiente al máximo valor negativo del
Potencial Evocado Visual.
68
Figura 24: Proyección de la máxima intensidad de la DCP estimada por medio de los tres
métodos, en el instante 165, correspondiente al máximo valor negativo del Potencial Evocado
Visual.
Es importante señalar las diferencias entre estas soluciones y las soluciones obtenidas con los
modelos Ridge L, ENET L y LASSO Fusión, para estos mismos datos, utilizando el algoritmo
MM, las cuales se muestran en la Figura 25. Esta figura corresponde a la Figura 3 de VegaHernández et al. 2008 y muestra la proyección de máxima intensidad de estas soluciones con
la orientación de los hemisferios contraria a las figuras 22 y 23. Puede observarse la gran
coincidencia de las soluciones LORETA y Ridge L, que son teóricamente equivalentes y de la
solución ENET-RVM con algunas de las soluciones de ENET L presentadas con diferentes
valores de la relación entre los parámetros que controlaban la raleza (λ1) y la suavidad (λ2)
69
respectivamente. En este último caso, los parámetros de regularización se estimaban
heurísticamente con la validación cruzada, lo que implicaba el cálculo de la solución inversa y
la evaluación de la función de validación cruzada para cada valor de los parámetros. Esto,
unido a la lenta convergencia del algoritmo MM, hizo imposible que se estimaran ambos
parámetros y se calcularan solamente las soluciones para un conjunto de razones entre ellos,
estimándose por validación cruzada un solo peso relativo para la penalización. Luego, fue
necesario el uso de métodos estadísticos para determinar cuál de las diferentes soluciones
ENET L era la óptima. En nuestro caso, es relevante el hecho de que se logra obtener una
única solución ENET con un juego de hiperparámetros que se estiman automáticamente
dentro del algoritmo, y esta solución es muy similar a las obtenidas con valores intermedios
de la relación entre suavidad y raleza con el MM.
Con respecto a la solución MXN-RVM, resalta que esta es esencialmente diferente de la
solución más rala de las obtenidas con el MM, el LASSO FUSION. Dicha solución en la
Figura 25 puede explicarse como el otro caso extremo de la solución ENET L donde las
mismas activaciones que aparecen en esta se mantienen pero mucho más concentradas,
mostrando incluso la subsistencia de puntos aislados con magnitudes altas. En el caso del
MXN-RVM solo subsisten dos activaciones y presentan cierto grado de suavidad espacial.
Como en este caso estamos calculando la solución para un solo instante de tiempo, no es
posible explicar esta diferencia por el hecho de ser un modelo espacio-temporal donde la
información temporal puede influir en una mejor estimación de las activaciones espaciales.
Por tanto, creemos que esto se debe esencialmente al proceso de aprendizaje del
hiperparámetro que controla la raleza dentro del formalismo bayesiano completo, a diferencia
de la optimización del parámetro de regularización por validación cruzada generalizada.
70
Figura 25: Versión en colores de la Figura 3 de Vega-Hernández et al. 2008. Para el mismo
dato utilizado aquí, en el instante 165 correspondiente al potencial máximo negativo del
Potencial Evocado Visual, se muestra la proyección de la máxima intensidad de la DCP
estimada por medio de los métodos Ridge L, Elastic Net L y Lasso Fusión, utilizando el
algoritmo MM y estimando los parámetros de regularización por Validación Cruzada
Generalizada. La primera solución es teóricamente equivalente a la solución LORETA y para
el ENET se utilizaron diferentes valores de la relación entre el parámetro que controla la
raleza y el que controla la suavidad. Nótese que la orientación de los hemisferios es contraria
a las figuras anteriores.
71
En el instante 179, que corresponde al máximo valor positivo del Potencial Evocado Visual,
las soluciones inversas muestran un comportamiento bastante similar al del instante 165 en
cuanto a la dispersión espacial de las fuentes y la aparición de fuentes secundarias espurias o
no, sin embargo, encontramos diferencias en cuanto a la localización de la máxima activación
(Figuras 26 y 27). A diferencia del instante analizado anteriormente, los tres métodos no
coincidieron en la localización de la máxima activación, de forma que con LORETA esta se
localizó en el área de Brodmann 43, mientras que ENET-RVM y MXN-RVM la mostraron en
el área de Brodmann 21. Este último resultado es más interpretable desde el punto de vista del
funcionamiento del sistema visual (Guyton, 1970), debido a que la información visual primero
es proyectada en la corteza visual (área de Brodmann 18 y 19) y luego pasa a las áreas 20 y
21, donde la información visual es integrada a un nivel más alto (rostros, palabras, etc.). La
solución LORETA es de nuevo demasiado dispersa y muestra además de la activación
principal, otras áreas occipitales frontales y parietales, haciendo muy difícil distinguir cual es
relevante o constituye una activación diferente y cual es solamente una extensión de la fuente
principal. Igualmente, ENET-RVM mostró soluciones con un compromiso entre raleza y
suavidad, que permite distinguir mejor las diferentes activaciones estimadas, aunque la gran
cantidad de ellas sigue haciendo difícil determinar cuáles son fisiológicamente factibles. Por
último la solución MXN-RVM vuelve a ser la solución de mayor raleza, mostrando el
máximo de activación en el área temporal superior y una pequeña activación residual en el
área visual occipital. Esta solución tiene mayor fundamento fisiológico, ya que en este
instante de tiempo se conoce que otros aspectos cognitivos (forma, color, movimiento) de la
información visual están siendo procesados/integrados en dichas áreas, aunque puede que
todavía queden activaciones en el área visual. Es importante recalcar que las activaciones
72
obtenidas con esta solución inversa no son puntuales sino que muestran cierto soporte espacial
también más cercano a las consideraciones fisiológicas de la conectividad entre áreas
cerebrales cercanas.
En sentido general, estos resultados muestran que tanto la solución ENET-RVM como la
MXN-RVM muestran ventajas con respecto a versiones reconocidas en la literatura en cuanto
a la estimación de localización y dispersión de las activaciones principales, pero sobre todo
con la ventaja metodológica de la estimación automática dentro de un formalismo bayesiano
de los hiperparámetros que controlan los niveles de raleza y suavidad espacio-temporal de la
solución. De todas formas, cabe señalar que según los resultados de las simulaciones, la
solución ENET-RVM puede estar sobreajustando el ruido presente en los datos de forma que
muestra más activaciones fantasmas y la solución MXN-RVM puede resultar en patrones
espaciales de mayor raleza que las activaciones reales. Sin embargo, si la localización de estas
pocas activaciones es cercana a la localización de las fuentes reales, esta propiedad puede ser
muy útil en el estudio de las fuentes electrofisiológicas de los diversos procesos cerebrales.
Estudios que involucren un conjunto de simulaciones exhaustivas variando las localizaciones
de las fuentes simuladas y la combinación de ellas deben desarrollarse en un futuro para la
validación de estas soluciones como una alternativa poco costosa en la detección de fuentes
cerebrales.
73
Figura 26: Representación en los planos ortogonales del máximo de la DCP estimada por
medio de los tres métodos, en el instante 179, correspondiente al máximo valor positivo del
Potencial Evocado Visual.
74
Figura 27: Proyección de la máxima intensidad de la DCP estimada por medio de los tres
métodos, en el instante 179, correspondiente al máximo valor positivo del Potencial Evocado
Visual.
75
CONCLUSIONES
En este trabajo propusimos métodos para la solución del problema inverso del EEG,
empleando la formulación Bayesiana para incorporar combinaciones de restricciones de tipo
L1/L2. Con respecto a los objetivos específicos que nos planteamos podemos concluir que:
-
La formulación bayesiana del ENET, extendida de forma similar al RVM, adicionando
un nuevo nivel de parámetros y empleando la herramienta del Bayes Empírico,
permite obtener una forma explícita de la verosimilitud de tipo II o evidencia de los
hiperparámetros, de donde se pueden derivar ecuaciones de actualización de los
mismos.
Con estas ecuaciones se pueden proponer diferentes algoritmos de optimización
iterativa para la estimación de parámetros e hiperparámetros. Nosotros desarrollamos
algoritmos directos MAP en un modo similar al RVM.
-
La formulación dentro del enfoque de aprendizaje Bayesiano nos permitió introducir
una a priori basada en la norma L1 en el espacio y otra basada en la norma L2 al
cuadrado en el tiempo. Con esto se logra obtener una pdf a priori que es separable en
cada instante de tiempo (columnas de la matriz de parámetros) y permite transformar
el Campo Aleatorio de Markov espacial (inducido por la a priori de la norma-mixta)
en un modelo jerárquico al nivel de los parámetros de tipo ENET.
El nuevo modelo de la norma-mixta contiene nuevos hiperparámetros (relacionados
con la a priori Normal - Laplace) que controlan localmente la raleza. Los mismos
heredan las conexiones entre los nodos del MRF original y pueden ser actualizados por
una regla simple, que tiene un sentido estadístico, mejorando la eficiencia del
76
algoritmo de inferencia. La equivalencia entre el modelo de partida y el modelo tipo
ENET se demuestra con el Lema 3.2.5.
-
La equivalencia entre los modelos de MXN y ENET permite aplicar el procedimiento
del Bayes Empírico de manera similar para ambos, obteniéndose fórmulas de
actualización semejantes e interpretables desde el punto de vista del grado de raleza y
suavidad impuestos en la estimación de los parámetros. Este resultado muestra la
extensibilidad del RVM a modelos más complicados como ENET y MXN.
-
En una validación preliminar de los métodos propuestos con datos simulados, estos se
comportaron de acuerdo a los supuestos teóricos del modelo, demostrando la utilidad
de los algoritmos desarrollados. El aprendizaje de los hiperparámetros en el caso de
ENET-RVM conlleva a soluciones más cercanas a las simuladas pero con niveles de
raleza altos por ser menos robusta ante el ruido y estimar independientemente las
soluciones para los distintos instantes de tiempo. El MXN-RVM tiende a estimar
soluciones más ralas que las simuladas pero con alta robustez al ruido. El
hiperparámetro que controla la raleza espacial también controla la suavidad temporal,
de forma que si se tratan de obtener soluciones suaves (no ralas) se pierde la
continuidad en el tiempo.
El ENET-RVM introduce menos activaciones fantasmas en la solución y recupera
mejor las fuentes que el ENET-MM con relación de parámetros similares. Además,
obtiene soluciones de raleza intermedia (mayor que la solución LORETA y menor que
la solución Lasso Fusión) con la estimación de los hiperparámetros sin necesidad de
post-procesamiento estadístico.
77
El MXN-RVM con el aprendizaje del hiperparámetro estima soluciones de alta raleza,
pero con menos activaciones fantasmas que la solución del LASSO-MM cuando se
estiman fuentes no ralas.
-
En el caso de los datos reales la solución inversa con el algoritmo ENET-RVM es
suave en el espacio pero mucho más localizadas, alrededor del máximo, que la
calculada con el método de LORETA. Las soluciones obtenidas con el MXN-RVM
fueron ralas, pero esencialmente diferentes a las soluciones de alta raleza conocidas en
la regresión penalizada como el Lasso Fusión. En particular, mostraron pocas
activaciones con cierto soporte espacial en lugar de muchas activaciones puntuales
aisladas. Con ambos, ENET-RVM y MXN-RVM, se logran estimar patrones de
fuentes cerebrales con mayor interpretación neurofisiológica.
78
RECOMENDACIONES
Este trabajo se dirigió fundamentalmente al desarrollo de nuevos modelos teóricos y su
validación y aplicación preliminar. Por tanto, los resultados presentados abren nuevas
preguntas y caminos de investigación para la búsqueda de versiones finales más adecuadas
para resolver los problemas planteados por el análisis de datos de EEG reales tanto en la
investigación como en la práctica clínica.
Como recomendaciones para las aplicaciones futuras de estos métodos, señalaremos la
utilización del algoritmo ENET-RVM con parámetros fijos de los hiperparámetros en caso de
que los datos sean muy ruidosos, y lo mismo puede hacerse con el uso del MXN-RVM si hay
fuentes muy suaves espacialmente, debido a que con este modelo solo es posible recuperar
fuentes ralas.
Para el trabajo futuro es recomendable trabajar sobre la convexidad de la función objetivo
(evidencia de tipo II) para reducir la sensibilidad a las condiciones iniciales.
También sugerimos explorar la habilidad de los métodos propuestos estimando fuentes
profundas o extenderlos a Promediación Bayesiana de Modelos. Desarrollar modelos que
extiendan los propuestos a incorporar restricciones en la dimensión temporal con
hiperparámetros que regulen la raleza y suavidad en esta dimensión, independientemente de la
suavidad o raleza espacial.
La equivalencia entre los dos modelos ENET y MXN, en la formulación Bayesiana, sugiere la
posibilidad de hacer un tratamiento semejante para distribuciones a priori basadas en
penalización múltiple, con modelos de norma-mixta, Elastic Net y también restricciones de
ortogonalidad, para agregar más flexibilidad a la estimación, ya sea con los parámetros de
regularización fijos o con aprendizaje.
79
REFERENCIAS
 Alexander Schmolck and Richard Everson, 2007: Smooth relevance vector machine: a
smoothness priorextension of the RVM. Machine Learning, 68, 107-135.
 Alexandre Gramfort, Matthieu Kowalski, Matti Hämaläinen, 2012: Mixed-norm
estimates for the M/EEG inverse problem using accelerated gradient methods. Physics
in Medicine and Biology 57, 1937-1961.
 Andrews D. F. and Mallows C. L. 1974: Scale Mixtures of Normal Distributions.
Journal of the Royal Statistical Society. Series B (Methodological), 36(1), 99-102.
 Bishop C. M. 2005: Pattern Recognition and Machine Learning.
 Beal M. J. 2003: Variational Algorithms for Approximate Bayesian Inference. Thesis
submitted for the degree of PhD of the University of London.
 Babacan S. D., Molina R. and Katsaggelos A. K. 2010: Bayesian Compressive
Sensing Using Laplace Priors. IEEE Transactions on image processing 19(1), 53-63.
 Beck A and Teboulle M 2009: A fast iterative shrinkage-thresholding algorithm for
linear inverse problems SIAM Journal on Imaging Sciences 2(1), 183–202.
 Faul A. C. and Tipping M. E. 2003: Fast Marginal Likelihood Maximization for
Sparse Bayesian Models. Proceedings of the ninth international workshop on artificial
intelligence and statistics1(3).
 Fan, J. and Li, R. 2001: Variable Selection via Nonconcave Penalized Likelihood and
Its Oracle Properties. J. Amer. Statist. Assoc., 96, 1348-1360.
 Hoerl A. E. and R. W. Kennard. 1970: “Ridge Regression: Biased Estimation for
Nonorthogonal Problems”. Technometrics, 12 (1), 55-67.
80
 Hadamard J., (1923) Lecture on the Cauchy problem in linear partial differential
equations. New Haven, CT: Yale University Press.
 Haufe S, Nikulin V V, Ziehe A, Müller K R and Nolte G 2008: Combining sparsity
and rotational invariance in EEG/MEG source reconstruction‟ NeuroImage 42(2),
726–38.
 Hunter, D. R. and Li, R. 2005: Variable selection using MM algorithms. Ann.
Statist.,33,1617-1642.
 Kindermann R. and Snell J. L. 1980: Markov Random Fields and Their Applications.
American Mathematical Society.
 Kowalski M and Torrésani B 2009: Sparsity and persistence: mixed norms provide
simple signals models with dependent coefficients. Sig Imag Video Process 3(3), 251–
264.
 Kevin P. Murphy, 2012: Machine Learning a Probabilistic Perspective. MIT Press.
 George H. Klem, Hans Otto Luders, H.H. Jasper and C. Elger, 1999:
Recommendations for the Practice of Clinical Neurophysiology. Guidelines of the
International Federation of Clinical Physiology
 MacKayD. J. C. 2003: Information Theory, Inference, and Learning Algorithms.
Cambridge University Press.
 Magnus, J. R., and Neudecker H. 2007: Matrix Differential Calculus with Applications
in Statistics and Econometrics.
 Ou W, Hämaläinen M and Golland P, 2009: A distributed spatio-temporal EEG/MEG
inverse solver NeuroImage 44(3), 932–946.
81
 Park, T. and Casella, G. 2008: The Bayesian Lasso. Journal of the American
Statistical Association, 103, 681-686.
 Pascual-Marqui R. D., (1999) Review of Methods for solving the EEG Inverse
Problem. International Journal of Biolectromagnetism. Volume 1, Number 1, pp: 7586.
 Quing Li and Nan Lin, 2010: The Bayesian Elastic Net. Bayesian Analysis, 5(1), 151170.
 Riera J. J. 1999: Physical Bases of Brain Tomography. Thesis submitted for the degree
of PhD on Physics of the Havana University.
 Richard Durrett, 1996: Probability Theory and Examples, 2nd Edition, Daxbury Press.
 Sanchez J. M., Martinez E., Lage A.,Vega M. and Valdes P. A. 2008: Uncovering
sparse brain effective connectivity: A voxel-based approach using penalized
regression. Statistica Sinica, 18, 1501-1518.
 Tikhonov A. N. and Arsenin V. Y. 1977: Solution to ill posed problems. V. H.
Winston, Washington, DC.
 Tibshirani R. 1996: Regression and Shrinkage via the LASSO. Journal of the Royal
Statistical Society. Series B (Methodological), 58(1), 267-288.
 Tibshirani R., M. Saunders, S. Rosset, J. Zhu and K. Knight. 2005. Sparsity and
smoothness via the fused lasso. Journal of the Royal Statistical Society Series BStatistical Methodology, 67, 91-108.
 Tipping M. E. 2001: Sparse Bayesian Learning and the Relevance Vector Machine.
Journal of Machine Learning Research 1, 211-244.
82
 Lehmann, E. L. and Casella, G. 1998. Theory of Point Estimation, 2nd Edition, New
York: Springer-Verlag.
 Minjung Kyung, Je Gilly, Malay Ghoshz and George Casella, 2010: Penalized
Regression, Standard Errors, and Bayesian Lassos. Bayesian Analysis, 5(2), 369-412.
 Vega M., Martinez E., Sanchez J. M., Lage A. and Valdes P. A. 2008: Penalized least
squares methods for solving the EEG inverse problem. Stat Sin18:1535–1551.
 Valdes P. A., Vega M., Sanchez J. M., Martınez E. and Bobes M. A. 2009: EEG
source
imaging
with
spatio-temporal
tomographic
nonnegative
independent
component analysis. Human Brain mapping, 30(6), 1898–910.
 Wipf D. and Nagarajan S. 2009: A unified Bayesian framework for MEG/EEG source
imaging. Neuroimage 44, 974-966.
 Zou H. and T. Hastie. 2005: Regularization and Variable Selection via the Elastic Net.
Journal of the Royal Statistical Society Series B, 67 (2), 301.
83
ANEXOS
Prueba del Lema 2.1.1
|
Aplicando la mezcla de gaussianas
|
|
∫
(
)
∫
(
|
(
(
∫
)
)
en la fórmula de arriba:
)
∫
(
√
̃ y poniendo
|
|
, nos queda:
̃
∫
̃
De nuevo cambiando las variables
)
√
Haciendo el cambio de variable
|
√
√̃ √
, y poniendo
|
√
̃
tendremos:
∫
√
√
∫
√
(
)
(
)
.
Entonces bajo la integral anterior tendremos un término que corresponde a una pdf Normal:
(
)
,
√
Y otro que corresponde a una Gamma Truncada en el intervalo .
(
).
/:
√
(
⁄
.
/)
(
84
)
(
).
Finalmente podemos llegar a qué:
|
|
(
∫
)
⁄
(
.
/)
.
Prueba de la Proposición 2.2.1
(
⁄
) .
(
)/
) (
(
|
| |
(
(
|
)
(
)
(
(
(
)/
)|
)
(
)
.
(
)/
)|
( )
|
.
)
|
(
|
)
| |
(
(
(
)
(
)
)|
(
|
)
| |
(
)
( )
(
(
)
)
( )
)|
Pero puede demostrarse que:
(
)
( )
‖
‖
.
(
)/
De donde:
(
⁄
) .
(
)/
(
|
|
| |
( )|
(
.
⁄
)
( )
(
)
‖
‖
.
)|
( )/
.
⁄
(
85
)/ (
⁄
).
(
)/
Prueba de la Proposición 2.2.2
(
.
a)
(
(
)/
.
(
)
‖
‖
)/ )
.
(
)/
.
b)
|
( )|
|
(
)|
.
(
)/
.
( )
(
( )/
.
(
)
(
( )
⁄
/
)
.
)
c)
|
{
( )|
( )
∑
|
(
)|
∑
.
(
)/
∑
∑
∑
∫
( ⁄
∫
)
( ⁄
}
)
=
( )/
.
∑{
∫
( ⁄
)
}
d)
{
|
( )|
|
(
)|
.
86
(
)/
∑
∫
( ⁄
)
}
( )
∑
∑
∑
∑
∫
( ⁄
)
=
∑
e)
‖
|
( )|
‖
∑ {
( )/
.
∑{
∑
|
|
∑
. ( )
/
∫
‖
( ⁄
∑
‖
‖
)
}
( ( )
)
‖ }.
Prueba de la Proposición 3.1.4
Sean
(
y
verificar que
( )
( )
Si analizamos las derivadas de
) ,
( )
,
-. Entonces debido a que
( )
y
(
) ( )
y
son normas fácilmente se puede
( ). Queda demostrada la convexidad.
:
(∑
.∑
|
|)
(∑
|
Es fácil ver que si
|
|
|) /
.∑
entonces
|
|
|
| /
, que esta indefinida en cero. Queda
demostrada la no diferenciabilidad.
Prueba del Lema 3.2.5
a)
Si en la Proposición 2.1.4 ponemos
para las pdf (
)
Proposición 2.1.2,
,
y
(
|
||
)⁄ (
b) Es fácil ver que se cumple
y
∑
)
∑
∫
∑
|
). Si además ponemos los potenciales igual que en la
, obtenemos que (
|
De donde podemos concluir que
entonces tenemos que, por la regla de Bayes
|
|y
∫
|, donde la matriz
es la identidad. Entonces la pdf de la variable
87
∑
|
||
,
|
|
|
||
||
|
|
.
.
es una matriz de unos
puede representarse
(
)
(
|
respecto a
|)
(
), donde
, (
)
es la función delta de Dirac. Para la pdf de
(
(
) (
)
marginalizamos
), nos queda que:
∫ (
|
|)
(
‖
)
Si en esta misma integral tenemos en cuenta la simetría respecto a
‖
.
y reorganizamos el argumento en
obtenemos:
(
)
(
| |
)∫ (
De donde, por las propiedades de la delta de Dirac, (
c)
Si en el nuevo modelo con las pdf de
marginalizamos respecto a
(
)
y
(
‖
)
‖
‖
)
)
‖
, donde (
y
(
(
|
),
|
.
|
∏
)
en la fórmula:
) (
)
|
∏
‖
|
‖
(
)
Obtenemos que:
∫ (
)
|
∫∏[
|
∫
|
Haciendo el cambio de variable
∫ (
‖
|
‖
]
‖
‖
(
(
)
)
|, entonces la integral anterior queda:
| |
)
Descomponiendo el término ‖
|
‖
(∑
∫
|
(∑
|)|
|
|
|)|
|
‖
‖
(∑
|
|) y substituyendo en la
expresión de arriba obtenemos:
∫ (
| |
)
| |
∫
(∑
|
|)|
∫
|
(∑
(∑
|
|
|
(∑
|
|)|
|
(∑
(∫
(∑
|
|)|
|
)
|)|
|)
88
|
|)
|
| |
(∑
∫
|
|)|
|
(∑
|
|)
De donde finalmente:
∫ (
)
(∑
∫
‖
∫
|
|)|
|
(∑
|
|)
‖
Prueba de la Proposición 3.3.1
a)
( )
.
(
b)
(
.
)/
‖
(
‖
)/ )
.
(
)/
.
( )
|
( )|
|
(
)|
.
(
)/
( )
.
(
( )/
.
.
/
.
/
)|
.
( )
⁄
/
)
.
c)
∑{
|
( )|
|
(
‖
∑
( )
(
)/
∑
∫
( ⁄
‖ }
∑
∑
∑
‖
89
∑
‖
∫
( ⁄
)
)
∑
d)
‖
( )/
.
,∑ ,
|
( )|
‖
∑ {
∑
. ⁄
∫
|
|
∑
. ( )
/
90
‖
/
-
∑‖
∑
‖
‖
‖ }.
‖
( ( )
-.
)
Descargar