Perfiles y modelos ocultos de Markov Dr. Eduardo A. R ODRÍGUEZ T ELLO C INVESTAV-Tamaulipas 13 de junio del 2013 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 1 / 41 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 2 / 41 Introducción Introducción Los alineamientos múltiples de secuencias se pueden usar para identificar secuencias relacionadas, mediante la construcción de modelos estadísticos como son las matrices de puntuación de posiciones específicas (PSSMs), los perfiles y los modelos ocultos de Markov (HMMs) Estos modelos reflejan información acerca de la frecuencia de los residuos de aminoácidos y nucleótidos en un alineamiento múltiple Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 3 / 41 Introducción Introducción El modelo no solamente captura las frecuencias observadas de los residuos sino que también predice las frecuencias de caracteres o residuos no observados Otro propósito de estos modelos es permitir emparejamientos parciales al realizar una búsqueda en una base de datos. Con lo cual se incrementa la sensibilidad de las búsquedas, y por tanto es posible detectar miembros distantes de una misma familia de secuencias Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 4 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 5 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple Una matriz de puntuación de posiciones específicas (PSSM, position-specific scoring matrix) es una tabla que contiene información posicional de los aminoácidos o nucleótidos en un alineamiento múltiple de secuencias en el cual no hay huecos En una PSSM se asume la independencia entre las posiciones en el alineamiento, de manera que cada posición se calcula de manera independiente de los símbolos que haya en otras posiciones Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 6 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple Para construir la PSSM se comienza por llenar la matriz con las frecuencias de cada residuo en cada una de las columnas Secuencia 1 Secuencia 2 Secuencia 3 Secuencia 4 Secuencia 5 A T G C 1 0.6 0.2 − 0.2 2 0.6 0.2 0.2 − Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) 3 − − 0.6 0.4 1 A A T C A 4 0.4 0.4 − 0.2 2 T A A G A 5 − 0.2 0.2 0.6 3 G G C G C 4 T A T A C 6 0.2 0.2 0.6 − Perfiles y modelos ocultos de Markov 5 C C C G T 6 G T A G G Freq. Total Prom. 0.30 0.20 0.27 0.23 13 de junio del 2013 7 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple El siguiente paso consiste en normalizar los valores dividiéndolos entre la frecuencia total promedio A T G C 1 2.0 1.0 − 0.87 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) 2 2.0 1.0 0.74 − 3 − − 2.22 1.74 4 1.33 2.0 − 0.87 5 − 1.0 0.74 2.61 Perfiles y modelos ocultos de Markov 6 0.67 1.0 2.22 − 13 de junio del 2013 8 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple El paso final es convertir los valores anteriores en valores probabilísticos, tomando el logaritmo en base 2 de los valores A T G C 1 1.0 0.0 − -0.2 2 1.0 0.0 -0.43 − 3 − − 1.15 0.8 4 0.41 1.0 − -0.2 5 − 0.0 -0.43 1.38 6 -0.58 0.0 1.15 − Un puntaje positivo representa un emparejamiento de residuos idénticos o similares, mientras que un puntaje negativo representa un emparejamiento de una región no conservada Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 9 / 41 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple La PSSM proporciona una descripción cuantitativa del grado de conservación en cada posición de un alineamiento múltiple Debido a esto, la matriz construida puede ser considerada como un representante del grupo de secuencias relacionadas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 10 / 41 Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 11 / 41 Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas El modelo probabilístico dado por la PSSM puede ser usado como una secuencia para realizar búsquedas y alineamientos en bases de datos También puede ser usado para probar el grado en el cual una secuencia particular encaja en el grupo de secuencias descrito por la PSSM Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 12 / 41 Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Por ejemplo, dada la matriz anterior, es posible saber el grado en el cual la nueva secuencia AACTCG se ajusta a la matriz El cálculo consiste en sumar los valores probables de la secuencia en las posiciones respectivas de la matriz A T G C 1 1.0 0.0 − -0.2 2 1.0 0.0 -0.43 − 3 − − 1.15 0.8 4 0.41 1.0 − -0.2 5 − 0.0 -0.43 1.38 6 -0.58 0.0 1.15 − Suma de puntajes = 1.0 + 1.0 + 0.8 + 1.0 + 1.38 + 1.15 = 6.33. Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 13 / 41 Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas En este caso el puntaje total para la secuencia AACTCG es 6.33, y debido a que los valores en la matriz son logaritmos en base 2 se tiene que el puntaje total dice que es 26.33 = 80.4489 veces más probable que la secuencia dada se ajuste a la matriz por similitud que por suerte (ramdom chance) Con el resultado anterior se puede concluir que la nueva secuencia puede ser clasificada como un miembro de la familia de las secuencias alineadas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 14 / 41 Perfiles Introducción 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 15 / 41 Perfiles Introducción Introducción A menudo los alineamientos múltiples de secuencias tienen huecos de longitud variable. Cuando las penalizaciones por abrir y extender huecos son incluidas en la construcción de las matrices de puntuación de posiciones específicas entonces se está construyendo un perfil En otras palabras, un perfil es una PSSM con información de penalización de inserciones y eliminaciones para una familia de secuencias Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 16 / 41 Perfiles Introducción Introducción Los perfiles son usados en las búsquedas en bases de datos para encontrar secuencias homólogas remotas, o dicho de otra forma, para detectar relaciones distantes entre secuencias (específicamente proteínas). Estas relaciones distantes pueden llevar a útiles conclusiones biológicas Una herramienta para construir perfiles de alineamientos globales es PSI-BLAST (Position-specific iterated BLAST). Este programa construye perfiles y realiza búsquedas en forma iterativa Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 17 / 41 Perfiles Construcción de perfiles (PSI-BLAST) 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 18 / 41 Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) 1 Primero se usa una proteína de consulta para realizar una búsqueda normal con BLASTP, con lo cual se generan los primeros resultados con cierta similitud 2 Los resultados con mayor similitud son usados para construir un alineamiento múltiple, a partir del cual un perfil es creado 3 El perfil es entonces usado en una nueva búsqueda para identificar otros miembros de la misma familia que puedan coincidir con el perfil 4 Cuando se detectan nuevas secuencias similares, éstas son combinadas con el alineamiento múltiple previo para generar un nuevo perfil, el cual es usado en una nueva búsqueda en la base de datos 5 El proceso es repetido hasta que no se encuentre otra secuencia similar Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 19 / 41 Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) Los perfiles hacen de PSI-BLAST una estrategia de búsqueda muy sensible para detectar débiles pero significativas similitudes entre secuencias Se ha estimado que un enfoque basado en perfiles es capaz de identificar tres veces más secuencias homólogas que el BLAST regular Sin embargo, la alta sensibilidad de PSI-BLAST puede causar baja selectividad debido a los falsos-positivos generados en la construcción del perfil Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 20 / 41 Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) Una solución parcial a este problema es realizar una cantidad limitada de iteraciones, en vez de iterar hasta converger (que sucede cuando una búsqueda ya no encuentra más secuencias similares) Típicamente de tres a cinco iteraciones de PSI-BLAST son suficientes para encontrar la mayoría de las secuencias homólogas distantes Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 21 / 41 Perfiles Un ejemplo del uso de perfiles 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 22 / 41 Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles La enzima celular ADN polimerasa juega un papel clave en la síntesis de ADN, pues es la enzima que añade los nucleótidos (hasta 1000 por segundo) al la hebra molde del ADN que se va a copiar En los organismos eucariotas ésta función es llevada a cabo por la proteína llamada PCNA, mientras que en los procariotas tales como la bacteria E. Colli, la misma función es realizada por la polimerasa de ADN β-subunit Como realizan funciones similares sus estructuras cristalinas son semejantes, como se muestra a continuación: Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 23 / 41 Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles Figura: La imagen fue tomada de la página: http://www.ncbi.nlm.nih.gov/books/NBK2590/ [Chapter 10 PSI-BLAST Tutorial]. A la derecha se muestra la estructura de la E. Colli ADN polimerasa β-subunit, mientras que a la izquierda se encuentra la estructura de la PCNA humana. Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 24 / 41 Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles Aunque realizan la misma función y tienen estructuras cristalinas semejantes, éstas proteínas son distantes en cuanto a similitud, de tal modo que el BLAST convencional no detecta una similitud entre ellas. Sin embargo, esta similitud distante si es identificada por PSI-BLAST Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 25 / 41 Modelos Ocultos de Markov Modelos de Markov 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 26 / 41 Modelos Ocultos de Markov Modelos de Markov Modelos de Markov Un modelo de Markov, también conocido como cadena de Markov, describe una secuencia de eventos que ocurren uno tras otro en secuencia. Cada evento determina la probabilidad del siguiente evento Una cadena de Markov puede verse como un proceso que se mueve en una dirección de un estado al siguiente con una cierta probabilidad, la cual es conocida como la probabilidad de transición Un ejemplo de un modelo de Markov es el cambio de la señal en un semáforo, ya que el estado de la señal actual depende del estado de la previa Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 27 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos Ocultos de Markov Modelos de Markov Modelos Ocultos de Markov Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 28 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Las secuencias biológicas funcionales típicamente vienen en familias que a lo largo de la evolución han mantenido la misma función o una muy relacionada. Por lo tanto, identificar que una secuencia pertenece a una familia, a menudo permite inferir su funcionalidad Al igual que los perfiles, los modelos ocultos de Markov (HMM) son utilizados para modelar características estadísticas de toda una familia de secuencias El modelo estadístico dado por el HMM es usado para buscar en las bases de datos secuencias relacionadas con la familia modelada Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 29 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Formalmente un HMM está definido por los siguientes cuatro componentes: 1 Un alfabeto de símbolos emitidos Σ 2 Un conjunto de estados Q, cada uno de los cuales emite un símbolo del alfabeto Σ 3 Una matriz de probabilidad de transición de estados A = (akl ) de dimensiones |Q| × |Q|, la cual describe la probabilidad de cambiar al estado l cuando el HMM se encuentra en el estado k 4 Una matriz de probabilidad de emisión E = (ek (b)) con dimensiones |Q| × |Σ| que describe la probabilidad de emitir el símbolo b durante el paso en el cual el HMM está en el estado k Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 30 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Para obtener información acerca de cómo están relacionadas las secuencias de una familia se hace un alineamiento múltiple de ellas Las probabilidades de emisión y de transición en un HMM se establecen de manera que capturen información específica acerca de cada posición en un alineamiento múltiple de una familia entera Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 31 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Considérese el siguiente fragmento de 10 columnas del alineamiento global de 7 secuencias de globinas. HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI ... ... ... ... ... ... ... Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) V V V V V F I ∗ G − E K Y N A ∗ A − A G S A G ∗ − − − − − − A − − − − − − D H N D − T N N ∗ Perfiles y modelos ocultos de Markov A V V − Y I G ∗ G D A − E P A ∗ E E G − T K G ∗ Y V H D S H V ∗ ... ... ... ... ... ... ... 13 de junio del 2013 32 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov La topología básica del HMM consiste en tener tres estados por cada columna del alineamiento múltiple, excepto para las columnas en la que más de la mitad de sus elementos son huecos, como las columnas 4 y 5 del ejemplo anterior 1 Estados de emparejamiento M, modelan la distribución de las letras en la correspondiente columna del alineamiento global 2 Estados de inserción I, modelan la inserción de letras aleatorias entre dos posiciones de un alineamiento 3 Estados de eliminación D, modelan la eliminación de símbolos en el alineamiento Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 33 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov En esta representación las transiciones de estado a estado proceden de izquierda a derecha a través de varios caminos que representan todas las posibles combinaciones de emparejamientos, inserciones y eliminaciones para generar un alineamiento (27 estados en total) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 34 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Ahora se procede a calcular las probabilidades de emisión y de transición de cada estado. Lo cual se hace en base al número de veces que cada transición y cada emisión es usada cuando el conjunto de secuencias alineadas es pasada una a una por el modelo En términos formales las probabilidades de transición y de emisión se asignan de acuerdo a estas expresiones: akl = Ek (a) Akl y ek (a) = Σl 0 Akl 0 Σa0 Ek (a) donde k y l son índices de estados, akl y ek son las probabilidades de transición y emisión respectivamente, y Akl y Ek son las correspondientes frecuencias (de transición y de emisión) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 35 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Cuando en la fase de entrenamiento se dispone de un número de grande de secuencias se obtendrá una estimación consistente de las probabilidades Sin embargo, cuando las secuencias disponibles son pocas puede darse el caso que algunas transiciones o emisiones no se usen Esto hará que sus probabilidades al final del entrenamiento sean cero, y que por tanto no se usen en el futuro El método más simple para evitar probabilidades de cero es agregar 1 a cada frecuencia Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 36 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI ... ... ... ... ... ... ... V V V V V F I ∗ G − E K Y N A ∗ A − A G S A G ∗ − − − − − − A − − − − − − D H N D − T N N ∗ A V V − Y I G ∗ G D A − E P A ∗ E E G − T K G ∗ Y V H D S H V ∗ ... ... ... ... ... ... ... Por ejemplo, para el alineamiento múltiple anterior las frecuencia de aparición en la primera columna son: V con 5, F e I con 1, y de los restantes 17 residuos con 0 Al agregar 1 a cada frecuencia se tiene que ahora la frecuencia de aparición de V es 6, de F y de I es 2, y del resto es 1 Con estos datos se determina que eM1 (V ) = 6/27, eM1 (F ) = eM1 (I) = 2/27, eM1 (a) = 1/27 para los otros residuos a diferentes de V, F e I Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 37 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI ... ... ... ... ... ... ... V V V V V F I ∗ G − E K Y N A ∗ A − A G S A G ∗ − − − − − − A − − − − − − D H N D − T N N ∗ A V V − Y I G ∗ G D A − E P A ∗ E E G − T K G ∗ Y V H D S H V ∗ ... ... ... ... ... ... ... De manera similar se tiene que en la columna 1 hay 6 transiciones del estado de emparejamineto M1 al siguiente, 1 transición a un estado de eliminación y 0 transiciones a un estado de inserción Sumando 1 a cada frecuencia se obtiene aM1 M2 = 7/10, aM1 D1 = 2/10 y aM1 I1 = 1/10 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 38 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Aunque los estados de inserción adquieren sus probabilidades de emisión y transición en base a estas frecuencias, para hacer más preciso el modelo se asignan las probabilidades de transición aMI , aIM y aII de tal forma que log(aMI ) + log(aIM ) sea igual a la penalización por abrir un heuco, y log(aII ) sea igual a la penalización por extenderlo, y la probabilidad de emisión como eIj (a) = p(a), donde p(a) es la frecuencia de aparición del símbolo a en todas las secuencias Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 39 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov Para obtener el puntaje de una secuencia x con el HMM se utilizan las ecuaciones de Viterbi Se define vjM (i) como el puntaje logarítmico de probabilidad de la mejor trayectoria para emparejar x1 . . . xi con el HMM terminando con xi emitido por el estado Mj vjI (i) y vjD (i) se definen de manera similar Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 40 / 41 Modelos Ocultos de Markov Modelos Ocultos de Markov Modelos Ocultos de Markov M vj−1 (i − 1) + log(aMj−1 ,Mj ) I (i − 1) + log(a M vj−1 vj (i) = log + max Ij−1 ,Mj ) p(xi ) v D (i − 1) + log(a Dj−1 ,Mj ) j−1 eMj (xi ) M vj (i − 1) + log(aMj ,Ij ) vjI (i − 1) + log(aIj ,Ij ) + max vjI (i) = log p(xi ) v D (i − 1) + log(a Dj ,Ij ) j eIj (xi ) M vj−1 (i) + log(aMj−1 ,Dj ) I (i) + log(a D vj−1 vj (i) = max Ij−1 ,Dj ) v D (i) + log(a Dj−1 ,Dj ) j−1 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 41 / 41