MOM de perfiles

Anuncio
'
$
Modelos de Markov ocultos
Profile HMM
Alex Sánchez
Departament d’Estadı́stica U.B.
Estadı́stica i Bioinformàtica
&
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Esquema del tema
Alineamientos múltiples de secuencias (AMS)
Representaciones de AMS: Patrones y Perfiles
Modelos Ocultos de Markov para perfiles MOM-P
Aplicaciones de los MOM-P
&
Departament d’Estadı́stica U.B.
1
%
MMO en Biologia Computacional
'
1.
Alex Sánchez
$
Introducción
Los MOM para perfiles han resultado de gran utilidad en
estudios evolutivos o bioquı́micos que toman com punto de
partida un alineamiento múltiple de secuencias (AMS o MSA)
Los MOM permiten construir modelos [estadı́sticos] de familias
de secuencias, caracterizables por un alineamiento múltiple, o
más exactamente por los motivos que este pone de manifiesto.
Estos modelos pueden utilizarse para resolver muy
eficientemente problemas de clasificación, alineamiento o
búsqueda de secuencias en bases de datos.
&
2
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.
Alex Sánchez
Alineamientos múltiples (1)
%
$
Sea una familia de secuencias O1 , O2 , . . . , Ok , probablemente
relacionadas evolutivamente.
Un alineamiento múltiple de secuencias se obtiene insertando
en cada secuencia un cierto (quizás 0) número de huecos
(“gaps”) de forma que
• Las secuencias resultantes tengan la misma longitud y
• Cada columna tenga como mı́nimo un carácter diferente de
“-” (“gaps”)
&
Departament d’Estadı́stica U.B.
3
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Alineamientos múltiples (2)
Un objetivo del alineamiento múltiple es deducir patrones
desconocidos (motivos) de un conjunto de secuencias de las que
ya se sabe que están relacionadas biológicamente
Entre sus aplicaciones se encuentra:
• Representación de familias de proteı́nas,
• Construcción de modelos para la identificación de miembros
potenciales de la familia
• Identificación y representación de patrones conservados en
las secuencias relacionados con la estructura y la función
• Deducción de la historia evolutiva
&
4
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.
Alex Sánchez
%
$
Motivos
Consideremos un alfabeto como el del ADN o las proteinas
Un motivo, (patrón, señal...) es algun objeto que caracteriza
un conjunto de secuencias de este alfabeto ya sea de forma
deterministica o probabilı́stica
Dada una secuencia S y un motivo M diremos que M
está presente en S si cualquiera de las secuencias descritas por
M ocurre en S
Por ejemplo: M =“TATA”, S1 =“GATTACA”, S2 =“PATATA”.
M está presente en S2 pero no en S1 .
&
Departament d’Estadı́stica U.B.
5
%
MMO en Biologia Computacional
'
4.
Alex Sánchez
Una jerarquı́a de motivos
$
Los motivos se pueden describir de muchas formas.
Una forma habitual es organizarlos como una jerarquı́a de
forma que cada nivel generaliza y es de mayor complejidad que
el anterior.
En la cima de esta jerarquı́a se encuentran los MOM de perfil
Algunos [no todos] de los métodos principales:
• Palabra exacta
• Secuencia consenso
• Expresiones regulares
• Matrices de pesos posicionales o perfiles
• Modelos Ocultos de Markov para perfiles
&
6
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
5.
Alex Sánchez
Descripción de motivos (1)
%
$
Palabra Exacta: Para describir un motivo se usa la secuencia
exacta de que consiste.
CT T AAAAT AA
Es muy preciso si se presenta peró no admite variación.
Secuencia consenso Esta descripción admite que se especifiquen
nucleótidos alternativos en una posición dada Por ejemplo la
secuencia consenso Y T W W AAAT AR(Consensus MEF2
sequence, Yu et al., 1992) corresponde entre otras a las
secuencias: CTAAAAATAA, TTAAAAATAA,
TTTAAAATAA, CTATAAATAA, TTATAAATAA,
CTTAAAATAG, TTTAAAATAG, etc.
&
Departament d’Estadı́stica U.B.
7
%
MMO en Biologia Computacional
'
6.
Alex Sánchez
$
Descripción de motivos (2)
Expresiones regulares La descripción se construye utilizando
una extensión del alfabeto original. Estos nuevos simbolos
permiten describir la ocurrencia alternativa de varios simbolos
[X, Y, Z]en una posición, las repeticiones, X(3) o la no
presencia de un sı́mbolo dado {Z}.
Matrices de peso posicionales o perfiles: La descripción incluye
un peso (puntuación, probabilidad, verosimilitud) para cada
sı́mbolo en cada posición de la secuencia o motivo. Se describen
con mayor detalle en el punto siguiente, pues son el punto de
entrada a los Modelos Ocultos de Markov de Perfil.
&
8
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
7.
Alex Sánchez
%
$
Perfiles (matrices de pesos o PSWM)
Una región de longitud fija y sin huecos en un alineamiento
múltiple de secuencias (MSA) se puede representar con una
matriz de pesos especı́ficos de la posición (PSWM).
La probabilidad de observar un residuo en una posición
depende de la distribución de probabilidades correspondiente a
cada posición, que se considera independiente de las de las
posiciones restantes.
Podemos usar un perfil para puntuar una nueva secuencia, a fin
de determinar si resulta plausibe que pertenezca a la familia
que ha generado el perfil.
&
Departament d’Estadı́stica U.B.
9
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Sea ei (x) la probabilidad de observar x en la posición i,
La probabilidad de una secuencia s = s1 , . . . , sL bajo este
modelo, W , (resp. La verosimilitud del modelo W dada una
secuencia, s) será:
P (s|W ) = L(W |s) =
L
Y
ei (si ),
i=1
No solemos puntuar directamente con las probabilidades sino
más bien con (logaritmos) de la razón entre la verosimilitud del
modelo dada la secuencia respecto la de un modelo nulo.
S(s) =
L
X
log
i=1
ei (si )
qnull (si )
,
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
7.1.
10
Alex Sánchez
%
$
Más información
Puede verse más información y un ejemplo en:
• An introduction to profiles (R.Guigo)
http://genome.imim.es/courses/BioinformaticaUPF/
T13/MakeProfile.html
• Use of motifs in sequence analysis (J. Dopazo)
http://www.pdg.cnb.uam.es/cursos/FVi2001/SeqAlign.
html#2.3.
&
Departament d’Estadı́stica U.B.
11
%
MMO en Biologia Computacional
'
8.
Alex Sánchez
MOM para perfiles (Profile HMM )
$
Los perfiles resultan prácticos en determinadas circunstancias
Su principal inconveniente es que no permiten modelizar
regiones con huecos
Los MOM para perfiles (P-HMM o MOM-P) permiten
solventar esta carencia
• Para cada posición de la secuencia se definen tres posibles
estados coincidencia, inserción y supresión.
• En cada estado/posición se definen probabilidades de
emisión y transición distintas para capturar información
especı́fica de cada posición en el alineamiento múltiple de
toda la familia.
• De esta manera los MOM-P son un modelo estadı́stico de la
familia de secuencias.
&
Departament d’Estadı́stica U.B.
12
%
MMO en Biologia Computacional
'
$
8.1.
Alex Sánchez
Construcción de MOM para perfiles básicos
Supongamos que disponemos de un alineamiento múltiple de
secuencias
A
G
–
–
–
C
O1
A
G
A
G
–
C
O2
A
–
C
A
C
C
O3
–
G
L
V
–
C
O4
+
+
–
–
–
+
–
Distinguimos tres tipos distintos de columnas
• Alineadas: La mayoria de los residuos coinciden
• Insertadas: En alguna secuencia se han insertado residuos
• En alguna columna alineadas se han eliminado residuos
&
Departament d’Estadı́stica U.B.
13
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelización de columnas alineadas
En el AMS anterior empezamos por considerar que las
columnas alineadas han sido generadas por estados de
coincidencia: Si el sistema pasa por un estado de coincidencia,
la columna correspondiente está alineada.
Si sólo consideraramos estos estados el AMS del ejemplo
constarı́a de tres estados (correspondientes a las columnas
alineadas 1,2 y 6).
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
14
Alex Sánchez
%
$
Modelización de las inserciones (1)
Cuando una columna no se considera parte del alineamiento se
entiende que en un número, no relevante de secuencias, se han
producido inserciones.
En el AMS anterior consideramo que las secuencias 2 y 4 han
experimentado dos inserciones y la secuencia no 3 ha
experimentado tres.
&
Departament d’Estadı́stica U.B.
15
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 1: Los caracteres enmarcados representan las inserciones
&
16
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
%
$
Modelización de las inserciones(3)
Para poder tratar la situación anterior se añade un estado de
inserción después de cada estado de coincidencia
El estado Ik inserta un residuo justo después del estado de
alineamiento Mk (no de Mk+1 )
Las secuencias pasan por los estados siguientes: ...
&
O1
⇒
M1 M2 M3
O2
⇒
M1 M2 I2 I2 M3
O3
⇒
M1 ?Se omite M2 ...
Departament d’Estadı́stica U.B.
17
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelización de las inserciones(4)
&
18
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
%
$
Modelización de las supresiones (1)
Una supresión es una porción de la secuencia que “se salta” el
alineamiento:
Para modelizarlas se añaden estados silenciosos
En el AMS anterior las secuencias 3 y 4 han experimentado
una supresión cada una.
&
Departament d’Estadı́stica U.B.
19
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelización de las supresiones (2)
Figura 2: Los caracteres enmarcados representan las supresiones
&
20
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
%
$
Modelización de las supresiones(3)
Para considerar todas las posibilidades de supresión:
• Conectamos todos los posibles estados de alineamiento
• Añadimos estados silenciosos de supresión que no emiten
El estado Dk salta el estado de alineamiento Mk es decir la
columna alineada Mk . Desde él tan sólo se puede acceder al
siguiente estado de alineamiento o de supresión.
&
Departament d’Estadı́stica U.B.
21
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelización de las supresiones(4)
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
8.2.
22
Alex Sánchez
%
$
El modelo resultante
El modelo resultante, integra todos los estados que hemos ido
introduciendo
Cada columna del alineamiento genera un estado de cada tipo
&
Departament d’Estadı́stica U.B.
23
%
MMO en Biologia Computacional
'
8.3.
Alex Sánchez
$
Resumen: Idea central de los P-MOM
Las probabilidades de emisión y transmisión capturan
información especı́fica acerca de cada posición en el AMS de
toda la familia
Podemos pues ve los P-MOM como modelos estadı́sticos que
representan toda la familia
Podremos responder a tres preguntas clave:
• Como construir el P-MOM que mejor se ajusta a una
familia dada?
• Como podemos decidir si una nueva secuencia pertenece a
esta familia?
• Como podemos utilizarlo para alinear una nueva secuencia?
&
24
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
9.
Alex Sánchez
Aplicaciones de los P-MOM
%
$
Las aplicaciones de los MOM-P se corresponden más o menos
directamente con los distintos problemas de los MOM
Dada una familia de secuencias, se desea construir un MOM-P
que la describa: P3: Estimación.
• Si se dispone de un AMS: Estimación con camino conocido
• Si no se dispone de un AMS: Estimación con camino
desconocido: Baum-Welch
Una vez se ha obtenido el modelo podemos usarlo para
• Determinar si una secuencia pertenece a una familia:
Clasificación (P1)
• Alinear una nueva secuencias a un AMS (P2)
&
Departament d’Estadı́stica U.B.
25
%
MMO en Biologia Computacional
'
9.1.
Alex Sánchez
Construcción y parametrización de un
P-MOM
$
Para construir un modelo y estimar sus parámetros deben
tocarse dos aspectos:
• La longitud del modelo y su estructura
quedará totalmente determinada cuando decidamos
qué columnas del AMS deben asignarse a los estados de
alineamiento.
• La estimación de los parámetros del modelo no
resulta complicada si se conocen el alineamiento múltiple.
&
◦ El camino a través del modelo se conoce para cualquier
secuencia
◦ Las probabilidades de transición y emisión se obtendran
simplemente contando emisiones y transiciones.
26
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
9.2.
Alex Sánchez
%
$
Ejemplo de construcción y estimación
Consideramos el ejemplo anterior
&
A
G
–
–
–
C
O1
M1 M2 M3
A
G
A
G
–
C
O2
M1 M2 I2 I2 M3
A
–
C
A
C
C
O3
M1 D2 I2 I2 I2 M3
–
G
L
V
–
C
O4
D1 M2 I2 I2 M3
+
+
–
–
–
+
–
Departament d’Estadı́stica U.B.
27
%
MMO en Biologia Computacional
'
9.3.
Alex Sánchez
El modelo del ejemplo (1): Estructura
$
El alineamiento múltiple consiste en las columnas marcadas
con un ”+”=⇒
Se creará un modelo con tres estados de alineamiento y por lo
tanto los mismos de supresión e inserción
&
28
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
9.4.
Alex Sánchez
%
$
El modelo del ejemplo (2): Contaje de
emisiones
Probabilidades de emisión: Se estiman a partir del contaje del
número de emisiones
• N (A|M1 ) = 3,N (Otros|M1 ) = 0,
• N (G|M2 ) = 3, N (Otros|M2 ) = 0,
• N (C|M3 ) = 4, N (Otros|M3 ) = 0.
No aparecen estados de inserción I0 , I1 , I3 .
• N (A|I2 ) = 2, N (C|I2 ) = 2, N (G|I2 ) = 1, N (L|I2 ) = 1,
N (V |I2 ) = 1, N (Otros|I2 ) = 0.
&
Departament d’Estadı́stica U.B.
29
%
MMO en Biologia Computacional
'
9.5.
Alex Sánchez
$
El modelo del ejemplo (3): Contaje de
transiciones
Probabilidades de transición: Se estiman a partir del contaje
del número de transiciones
• N (M1 |B) = 3,N (D1 |B) = 1,
• N (M2 |M1 ) = 3, N (D2 |M1 ) = 1,
• N (M3 |M2 ) = 1, N (I2 |M2 ) = 2,
• N (E|M3 ) = 3.
• N (I2 |D2 ) = 1, N (I2 |I2 ) = 4, N (M3 |I2 ) = 3
&
30
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
9.6.
Alex Sánchez
%
$
Clasificación de secuencias
Para determinar si una secuencia O pertenece a una familia,
caracterizada en un MOM-P, M, calcularemos P (O|M):
Algoritmo forward
P (O|M) depende de la longitud: Utilizaremos una razón de
probabilidades (verosimilitudes):
S(O) = log
&
Departament d’Estadı́stica U.B.
L(M|O)
P (O|M)
= log
,
P (O|N )
L(N |O)
31
%
MMO en Biologia Computacional
'
9.7.
Alex Sánchez
$
Alineamiento de una secuencia a un modelo
Para alinear una nueva secuencia tan sólo se necesita la
secuencia de estados a lo largo del modelo
Pueden utilizarse dos opciones
• Algoritmo de viterbi: Dará el camino más probable
• Algoritmo Forward/Backward: maximizará el número de
estados correctos
Todo lo anterior presupone alineamientos globales.
Es posible modificar los MOM-P oara obtener alineamientos
locales.
&
32
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
9.8.
Alex Sánchez
%
$
Programas para construir y utilizar MOM-P
HMMER: S.Eddy. U. Washington
http://hmmer.wustl.edu/
SAM : Sequence Analysis and Modelling. USCS
http://www.cse.ucsc.edu/research/compbio/sam.html
&
Departament d’Estadı́stica U.B.
33
%
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 3: Posibilidades de HMMER
&
34
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
10.
Alex Sánchez
%
$
Bibliografı́a y enlaces
Durbin Richard et al. (1998) Biological sequence analysis.
Cambridge University Press
Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.
Kluwer
Rabiner, L.R. (1989) A tutorial on hidden markov models and
selected applications in speech recognition.Proceedings of the
IEEE 77:257-286
Un enlace a materiales y enlaces sobre MMO
http://www.ub.edu/stat/personal/alexsanchez/
personal/materials/HMM_Links.htm
&
Departament d’Estadı́stica U.B.
35
%
Descargar