Perfiles y modelos ocultos de Markov - Cinvestav

Anuncio
Perfiles y modelos ocultos de Markov
Dr. Eduardo A. R ODRÍGUEZ T ELLO
C INVESTAV-Tamaulipas
13 de junio del 2013
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
1 / 41
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
2 / 41
Introducción
Introducción
Los alineamientos múltiples de secuencias se pueden usar para
identificar secuencias relacionadas, mediante la construcción de
modelos estadísticos como son las matrices de puntuación de
posiciones específicas (PSSMs), los perfiles y los modelos
ocultos de Markov (HMMs)
Estos modelos reflejan información acerca de la frecuencia de los
residuos de aminoácidos y nucleótidos en un alineamiento
múltiple
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
3 / 41
Introducción
Introducción
El modelo no solamente captura las frecuencias observadas de
los residuos sino que también predice las frecuencias de
caracteres o residuos no observados
Otro propósito de estos modelos es permitir emparejamientos
parciales al realizar una búsqueda en una base de datos. Con lo
cual se incrementa la sensibilidad de las búsquedas, y por tanto
es posible detectar miembros distantes de una misma familia de
secuencias
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
4 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
5 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Cálculo de la PSSM para un alineamiento múltiple
Una matriz de puntuación de posiciones específicas (PSSM,
position-specific scoring matrix) es una tabla que contiene
información posicional de los aminoácidos o nucleótidos en un
alineamiento múltiple de secuencias en el cual no hay huecos
En una PSSM se asume la independencia entre las posiciones en
el alineamiento, de manera que cada posición se calcula de
manera independiente de los símbolos que haya en otras
posiciones
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
6 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Cálculo de la PSSM para un alineamiento múltiple
Para construir la PSSM se comienza por llenar la matriz con las
frecuencias de cada residuo en cada una de las columnas
Secuencia 1
Secuencia 2
Secuencia 3
Secuencia 4
Secuencia 5
A
T
G
C
1
0.6
0.2
−
0.2
2
0.6
0.2
0.2
−
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
3
−
−
0.6
0.4
1
A
A
T
C
A
4
0.4
0.4
−
0.2
2
T
A
A
G
A
5
−
0.2
0.2
0.6
3
G
G
C
G
C
4
T
A
T
A
C
6
0.2
0.2
0.6
−
Perfiles y modelos ocultos de Markov
5
C
C
C
G
T
6
G
T
A
G
G
Freq. Total Prom.
0.30
0.20
0.27
0.23
13 de junio del 2013
7 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Cálculo de la PSSM para un alineamiento múltiple
El siguiente paso consiste en normalizar los valores dividiéndolos entre
la frecuencia total promedio
A
T
G
C
1
2.0
1.0
−
0.87
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
2
2.0
1.0
0.74
−
3
−
−
2.22
1.74
4
1.33
2.0
−
0.87
5
−
1.0
0.74
2.61
Perfiles y modelos ocultos de Markov
6
0.67
1.0
2.22
−
13 de junio del 2013
8 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Cálculo de la PSSM para un alineamiento múltiple
El paso final es convertir los valores anteriores en valores
probabilísticos, tomando el logaritmo en base 2 de los valores
A
T
G
C
1
1.0
0.0
−
-0.2
2
1.0
0.0
-0.43
−
3
−
−
1.15
0.8
4
0.41
1.0
−
-0.2
5
−
0.0
-0.43
1.38
6
-0.58
0.0
1.15
−
Un puntaje positivo representa un emparejamiento de residuos
idénticos o similares, mientras que un puntaje negativo representa
un emparejamiento de una región no conservada
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
9 / 41
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Cálculo de la PSSM para un alineamiento múltiple
La PSSM proporciona una descripción cuantitativa del grado de
conservación en cada posición de un alineamiento múltiple
Debido a esto, la matriz construida puede ser considerada como
un representante del grupo de secuencias relacionadas
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
10 / 41
Matrices de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones específicas
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
11 / 41
Matrices de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones
específicas
El modelo probabilístico dado por la PSSM puede ser usado
como una secuencia para realizar búsquedas y alineamientos en
bases de datos
También puede ser usado para probar el grado en el cual una
secuencia particular encaja en el grupo de secuencias descrito
por la PSSM
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
12 / 41
Matrices de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones
específicas
Por ejemplo, dada la matriz anterior, es posible saber el grado en el cual
la nueva secuencia AACTCG se ajusta a la matriz
El cálculo consiste en sumar los valores probables de la secuencia en
las posiciones respectivas de la matriz
A
T
G
C
1
1.0
0.0
−
-0.2
2
1.0
0.0
-0.43
−
3
−
−
1.15
0.8
4
0.41
1.0
−
-0.2
5
−
0.0
-0.43
1.38
6
-0.58
0.0
1.15
−
Suma de puntajes = 1.0 + 1.0 + 0.8 + 1.0 + 1.38 + 1.15 = 6.33.
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
13 / 41
Matrices de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones específicas
Usos de la matriz de puntuación de posiciones
específicas
En este caso el puntaje total para la secuencia AACTCG es 6.33, y
debido a que los valores en la matriz son logaritmos en base 2 se tiene
que el puntaje total dice que es 26.33 = 80.4489 veces más probable que
la secuencia dada se ajuste a la matriz por similitud que por suerte
(ramdom chance)
Con el resultado anterior se puede concluir que la nueva secuencia
puede ser clasificada como un miembro de la familia de las secuencias
alineadas
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
14 / 41
Perfiles
Introducción
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
15 / 41
Perfiles
Introducción
Introducción
A menudo los alineamientos múltiples de secuencias tienen
huecos de longitud variable. Cuando las penalizaciones por abrir
y extender huecos son incluidas en la construcción de las
matrices de puntuación de posiciones específicas entonces se
está construyendo un perfil
En otras palabras, un perfil es una PSSM con información de
penalización de inserciones y eliminaciones para una familia de
secuencias
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
16 / 41
Perfiles
Introducción
Introducción
Los perfiles son usados en las búsquedas en bases de datos para
encontrar secuencias homólogas remotas, o dicho de otra forma,
para detectar relaciones distantes entre secuencias
(específicamente proteínas). Estas relaciones distantes pueden
llevar a útiles conclusiones biológicas
Una herramienta para construir perfiles de alineamientos globales
es PSI-BLAST (Position-specific iterated BLAST). Este programa
construye perfiles y realiza búsquedas en forma iterativa
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
17 / 41
Perfiles
Construcción de perfiles (PSI-BLAST)
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
18 / 41
Perfiles
Construcción de perfiles (PSI-BLAST)
Construcción de perfiles (PSI-BLAST)
1
Primero se usa una proteína de consulta para realizar una búsqueda
normal con BLASTP, con lo cual se generan los primeros resultados con
cierta similitud
2
Los resultados con mayor similitud son usados para construir un
alineamiento múltiple, a partir del cual un perfil es creado
3
El perfil es entonces usado en una nueva búsqueda para identificar
otros miembros de la misma familia que puedan coincidir con el perfil
4
Cuando se detectan nuevas secuencias similares, éstas son
combinadas con el alineamiento múltiple previo para generar un nuevo
perfil, el cual es usado en una nueva búsqueda en la base de datos
5
El proceso es repetido hasta que no se encuentre otra secuencia similar
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
19 / 41
Perfiles
Construcción de perfiles (PSI-BLAST)
Construcción de perfiles (PSI-BLAST)
Los perfiles hacen de PSI-BLAST una estrategia de búsqueda muy
sensible para detectar débiles pero significativas similitudes entre
secuencias
Se ha estimado que un enfoque basado en perfiles es capaz de
identificar tres veces más secuencias homólogas que el BLAST regular
Sin embargo, la alta sensibilidad de PSI-BLAST puede causar baja
selectividad debido a los falsos-positivos generados en la construcción
del perfil
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
20 / 41
Perfiles
Construcción de perfiles (PSI-BLAST)
Construcción de perfiles (PSI-BLAST)
Una solución parcial a este problema es realizar una cantidad limitada
de iteraciones, en vez de iterar hasta converger (que sucede cuando
una búsqueda ya no encuentra más secuencias similares)
Típicamente de tres a cinco iteraciones de PSI-BLAST son suficientes
para encontrar la mayoría de las secuencias homólogas distantes
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
21 / 41
Perfiles
Un ejemplo del uso de perfiles
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
22 / 41
Perfiles
Un ejemplo del uso de perfiles
Un ejemplo del uso de perfiles
La enzima celular ADN polimerasa juega un papel clave en la síntesis
de ADN, pues es la enzima que añade los nucleótidos (hasta 1000 por
segundo) al la hebra molde del ADN que se va a copiar
En los organismos eucariotas ésta función es llevada a cabo por la
proteína llamada PCNA, mientras que en los procariotas tales como la
bacteria E. Colli, la misma función es realizada por la polimerasa de
ADN β-subunit
Como realizan funciones similares sus estructuras cristalinas son
semejantes, como se muestra a continuación:
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
23 / 41
Perfiles
Un ejemplo del uso de perfiles
Un ejemplo del uso de perfiles
Figura: La imagen fue tomada de la página: http://www.ncbi.nlm.nih.gov/books/NBK2590/
[Chapter 10 PSI-BLAST Tutorial]. A la derecha se muestra la estructura de la E. Colli ADN
polimerasa β-subunit, mientras que a la izquierda se encuentra la estructura de la PCNA
humana.
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
24 / 41
Perfiles
Un ejemplo del uso de perfiles
Un ejemplo del uso de perfiles
Aunque realizan la misma función y tienen estructuras cristalinas
semejantes, éstas proteínas son distantes en cuanto a similitud,
de tal modo que el BLAST convencional no detecta una similitud
entre ellas. Sin embargo, esta similitud distante si es identificada
por PSI-BLAST
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
25 / 41
Modelos Ocultos de Markov
Modelos de Markov
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
26 / 41
Modelos Ocultos de Markov
Modelos de Markov
Modelos de Markov
Un modelo de Markov, también conocido como cadena de
Markov, describe una secuencia de eventos que ocurren uno tras
otro en secuencia. Cada evento determina la probabilidad del
siguiente evento
Una cadena de Markov puede verse como un proceso que se
mueve en una dirección de un estado al siguiente con una cierta
probabilidad, la cual es conocida como la probabilidad de
transición
Un ejemplo de un modelo de Markov es el cambio de la señal en
un semáforo, ya que el estado de la señal actual depende del
estado de la previa
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
27 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
1
Introducción
2
Matrices de puntuación de posiciones específicas
Cálculo de la PSSM para un alineamiento múltiple
Usos de la matriz de puntuación de posiciones específicas
3
Perfiles
Introducción
Construcción de perfiles (PSI-BLAST)
Un ejemplo del uso de perfiles
4
Modelos Ocultos de Markov
Modelos de Markov
Modelos Ocultos de Markov
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
28 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Las secuencias biológicas funcionales típicamente vienen en familias
que a lo largo de la evolución han mantenido la misma función o una
muy relacionada. Por lo tanto, identificar que una secuencia pertenece a
una familia, a menudo permite inferir su funcionalidad
Al igual que los perfiles, los modelos ocultos de Markov (HMM) son
utilizados para modelar características estadísticas de toda una familia
de secuencias
El modelo estadístico dado por el HMM es usado para buscar en las
bases de datos secuencias relacionadas con la familia modelada
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
29 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Formalmente un HMM está definido por los siguientes cuatro
componentes:
1
Un alfabeto de símbolos emitidos Σ
2
Un conjunto de estados Q, cada uno de los cuales emite un
símbolo del alfabeto Σ
3
Una matriz de probabilidad de transición de estados A = (akl ) de
dimensiones |Q| × |Q|, la cual describe la probabilidad de cambiar
al estado l cuando el HMM se encuentra en el estado k
4
Una matriz de probabilidad de emisión E = (ek (b)) con
dimensiones |Q| × |Σ| que describe la probabilidad de emitir el
símbolo b durante el paso en el cual el HMM está en el estado k
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
30 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Para obtener información acerca de cómo están relacionadas las
secuencias de una familia se hace un alineamiento múltiple de ellas
Las probabilidades de emisión y de transición en un HMM se establecen
de manera que capturen información específica acerca de cada
posición en un alineamiento múltiple de una familia entera
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
31 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Considérese el siguiente fragmento de 10 columnas del alineamiento global
de 7 secuencias de globinas.
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
...
...
...
...
...
...
...
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
V
V
V
V
V
F
I
∗
G
−
E
K
Y
N
A
∗
A
−
A
G
S
A
G
∗
−
−
−
−
−
−
A
−
−
−
−
−
−
D
H
N
D
−
T
N
N
∗
Perfiles y modelos ocultos de Markov
A
V
V
−
Y
I
G
∗
G
D
A
−
E
P
A
∗
E
E
G
−
T
K
G
∗
Y
V
H
D
S
H
V
∗
...
...
...
...
...
...
...
13 de junio del 2013
32 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
La topología básica del HMM consiste en tener tres estados por cada
columna del alineamiento múltiple, excepto para las columnas en la que
más de la mitad de sus elementos son huecos, como las columnas 4 y 5
del ejemplo anterior
1
Estados de emparejamiento M, modelan la distribución de las
letras en la correspondiente columna del alineamiento global
2
Estados de inserción I, modelan la inserción de letras aleatorias
entre dos posiciones de un alineamiento
3
Estados de eliminación D, modelan la eliminación de símbolos en
el alineamiento
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
33 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
En esta representación las transiciones de estado a estado proceden de
izquierda a derecha a través de varios caminos que representan todas
las posibles combinaciones de emparejamientos, inserciones y
eliminaciones para generar un alineamiento (27 estados en total)
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
34 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Ahora se procede a calcular las probabilidades de emisión y de
transición de cada estado. Lo cual se hace en base al número de veces
que cada transición y cada emisión es usada cuando el conjunto de
secuencias alineadas es pasada una a una por el modelo
En términos formales las probabilidades de transición y de emisión se
asignan de acuerdo a estas expresiones:
akl =
Ek (a)
Akl
y ek (a) =
Σl 0 Akl 0
Σa0 Ek (a)
donde k y l son índices de estados, akl y ek son las probabilidades de
transición y emisión respectivamente, y Akl y Ek son las
correspondientes frecuencias (de transición y de emisión)
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
35 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Cuando en la fase de entrenamiento se dispone de un número de
grande de secuencias se obtendrá una estimación consistente de las
probabilidades
Sin embargo, cuando las secuencias disponibles son pocas puede
darse el caso que algunas transiciones o emisiones no se usen
Esto hará que sus probabilidades al final del entrenamiento sean cero, y
que por tanto no se usen en el futuro
El método más simple para evitar probabilidades de cero es agregar 1 a
cada frecuencia
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
36 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
...
...
...
...
...
...
...
V
V
V
V
V
F
I
∗
G
−
E
K
Y
N
A
∗
A
−
A
G
S
A
G
∗
−
−
−
−
−
−
A
−
−
−
−
−
−
D
H
N
D
−
T
N
N
∗
A
V
V
−
Y
I
G
∗
G
D
A
−
E
P
A
∗
E
E
G
−
T
K
G
∗
Y
V
H
D
S
H
V
∗
...
...
...
...
...
...
...
Por ejemplo, para el alineamiento múltiple anterior las frecuencia de
aparición en la primera columna son: V con 5, F e I con 1, y de los
restantes 17 residuos con 0
Al agregar 1 a cada frecuencia se tiene que ahora la frecuencia de
aparición de V es 6, de F y de I es 2, y del resto es 1
Con estos datos se determina que eM1 (V ) = 6/27,
eM1 (F ) = eM1 (I) = 2/27, eM1 (a) = 1/27 para los otros residuos a
diferentes de V, F e I
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
37 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
...
...
...
...
...
...
...
V
V
V
V
V
F
I
∗
G
−
E
K
Y
N
A
∗
A
−
A
G
S
A
G
∗
−
−
−
−
−
−
A
−
−
−
−
−
−
D
H
N
D
−
T
N
N
∗
A
V
V
−
Y
I
G
∗
G
D
A
−
E
P
A
∗
E
E
G
−
T
K
G
∗
Y
V
H
D
S
H
V
∗
...
...
...
...
...
...
...
De manera similar se tiene que en la columna 1 hay 6 transiciones del
estado de emparejamineto M1 al siguiente, 1 transición a un estado de
eliminación y 0 transiciones a un estado de inserción
Sumando 1 a cada frecuencia se obtiene aM1 M2 = 7/10, aM1 D1 = 2/10 y
aM1 I1 = 1/10
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
38 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Aunque los estados de inserción adquieren sus probabilidades de
emisión y transición en base a estas frecuencias, para hacer más
preciso el modelo se asignan las probabilidades de transición aMI , aIM y
aII de tal forma que log(aMI ) + log(aIM ) sea igual a la penalización por
abrir un heuco, y log(aII ) sea igual a la penalización por extenderlo, y la
probabilidad de emisión como eIj (a) = p(a), donde p(a) es la frecuencia
de aparición del símbolo a en todas las secuencias
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
39 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Para obtener el puntaje de una secuencia x con el HMM se utilizan las
ecuaciones de Viterbi
Se define vjM (i) como el puntaje logarítmico de probabilidad de la mejor
trayectoria para emparejar x1 . . . xi con el HMM terminando con xi
emitido por el estado Mj
vjI (i) y vjD (i) se definen de manera similar
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov
13 de junio del 2013
40 / 41
Modelos Ocultos de Markov
Modelos Ocultos de Markov
Modelos Ocultos de Markov

M

 vj−1 (i − 1) + log(aMj−1 ,Mj )
I (i − 1) + log(a
M
vj−1
vj (i) = log
+ max
Ij−1 ,Mj )

p(xi )
 v D (i − 1) + log(a
Dj−1 ,Mj )
j−1
eMj (xi )







M

 vj (i − 1) + log(aMj ,Ij ) 

vjI (i − 1) + log(aIj ,Ij )
+ max
vjI (i) = log


p(xi )
 v D (i − 1) + log(a

Dj ,Ij )
j
eIj (xi )

M

 vj−1 (i) + log(aMj−1 ,Dj )
I (i) + log(a
D
vj−1
vj (i) = max
Ij−1 ,Dj )

 v D (i) + log(a
Dj−1 ,Dj )
j−1
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV)
Perfiles y modelos ocultos de Markov





13 de junio del 2013
41 / 41
Descargar