' $ Modelos de Markov ocultos Profile HMM Alex Sánchez Departament d’Estadı́stica U.B. Estadı́stica i Bioinformàtica & MMO en Biologia Computacional ' % Alex Sánchez $ Esquema del tema Alineamientos múltiples de secuencias (AMS) Representaciones de AMS: Patrones y Perfiles Modelos Ocultos de Markov para perfiles MOM-P Aplicaciones de los MOM-P & Departament d’Estadı́stica U.B. 1 % MMO en Biologia Computacional ' 1. Alex Sánchez $ Introducción Los MOM para perfiles han resultado de gran utilidad en estudios evolutivos o bioquı́micos que toman com punto de partida un alineamiento múltiple de secuencias (AMS o MSA) Los MOM permiten construir modelos [estadı́sticos] de familias de secuencias, caracterizables por un alineamiento múltiple, o más exactamente por los motivos que este pone de manifiesto. Estos modelos pueden utilizarse para resolver muy eficientemente problemas de clasificación, alineamiento o búsqueda de secuencias en bases de datos. & 2 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 2. Alex Sánchez Alineamientos múltiples (1) % $ Sea una familia de secuencias O1 , O2 , . . . , Ok , probablemente relacionadas evolutivamente. Un alineamiento múltiple de secuencias se obtiene insertando en cada secuencia un cierto (quizás 0) número de huecos (“gaps”) de forma que • Las secuencias resultantes tengan la misma longitud y • Cada columna tenga como mı́nimo un carácter diferente de “-” (“gaps”) & Departament d’Estadı́stica U.B. 3 % MMO en Biologia Computacional ' Alex Sánchez $ Alineamientos múltiples (2) Un objetivo del alineamiento múltiple es deducir patrones desconocidos (motivos) de un conjunto de secuencias de las que ya se sabe que están relacionadas biológicamente Entre sus aplicaciones se encuentra: • Representación de familias de proteı́nas, • Construcción de modelos para la identificación de miembros potenciales de la familia • Identificación y representación de patrones conservados en las secuencias relacionados con la estructura y la función • Deducción de la historia evolutiva & 4 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 3. Alex Sánchez % $ Motivos Consideremos un alfabeto como el del ADN o las proteinas Un motivo, (patrón, señal...) es algun objeto que caracteriza un conjunto de secuencias de este alfabeto ya sea de forma deterministica o probabilı́stica Dada una secuencia S y un motivo M diremos que M está presente en S si cualquiera de las secuencias descritas por M ocurre en S Por ejemplo: M =“TATA”, S1 =“GATTACA”, S2 =“PATATA”. M está presente en S2 pero no en S1 . & Departament d’Estadı́stica U.B. 5 % MMO en Biologia Computacional ' 4. Alex Sánchez Una jerarquı́a de motivos $ Los motivos se pueden describir de muchas formas. Una forma habitual es organizarlos como una jerarquı́a de forma que cada nivel generaliza y es de mayor complejidad que el anterior. En la cima de esta jerarquı́a se encuentran los MOM de perfil Algunos [no todos] de los métodos principales: • Palabra exacta • Secuencia consenso • Expresiones regulares • Matrices de pesos posicionales o perfiles • Modelos Ocultos de Markov para perfiles & 6 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 5. Alex Sánchez Descripción de motivos (1) % $ Palabra Exacta: Para describir un motivo se usa la secuencia exacta de que consiste. CT T AAAAT AA Es muy preciso si se presenta peró no admite variación. Secuencia consenso Esta descripción admite que se especifiquen nucleótidos alternativos en una posición dada Por ejemplo la secuencia consenso Y T W W AAAT AR(Consensus MEF2 sequence, Yu et al., 1992) corresponde entre otras a las secuencias: CTAAAAATAA, TTAAAAATAA, TTTAAAATAA, CTATAAATAA, TTATAAATAA, CTTAAAATAG, TTTAAAATAG, etc. & Departament d’Estadı́stica U.B. 7 % MMO en Biologia Computacional ' 6. Alex Sánchez $ Descripción de motivos (2) Expresiones regulares La descripción se construye utilizando una extensión del alfabeto original. Estos nuevos simbolos permiten describir la ocurrencia alternativa de varios simbolos [X, Y, Z]en una posición, las repeticiones, X(3) o la no presencia de un sı́mbolo dado {Z}. Matrices de peso posicionales o perfiles: La descripción incluye un peso (puntuación, probabilidad, verosimilitud) para cada sı́mbolo en cada posición de la secuencia o motivo. Se describen con mayor detalle en el punto siguiente, pues son el punto de entrada a los Modelos Ocultos de Markov de Perfil. & 8 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 7. Alex Sánchez % $ Perfiles (matrices de pesos o PSWM) Una región de longitud fija y sin huecos en un alineamiento múltiple de secuencias (MSA) se puede representar con una matriz de pesos especı́ficos de la posición (PSWM). La probabilidad de observar un residuo en una posición depende de la distribución de probabilidades correspondiente a cada posición, que se considera independiente de las de las posiciones restantes. Podemos usar un perfil para puntuar una nueva secuencia, a fin de determinar si resulta plausibe que pertenezca a la familia que ha generado el perfil. & Departament d’Estadı́stica U.B. 9 % MMO en Biologia Computacional ' Alex Sánchez $ Sea ei (x) la probabilidad de observar x en la posición i, La probabilidad de una secuencia s = s1 , . . . , sL bajo este modelo, W , (resp. La verosimilitud del modelo W dada una secuencia, s) será: P (s|W ) = L(W |s) = L Y ei (si ), i=1 No solemos puntuar directamente con las probabilidades sino más bien con (logaritmos) de la razón entre la verosimilitud del modelo dada la secuencia respecto la de un modelo nulo. S(s) = L X log i=1 ei (si ) qnull (si ) , & Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 7.1. 10 Alex Sánchez % $ Más información Puede verse más información y un ejemplo en: • An introduction to profiles (R.Guigo) http://genome.imim.es/courses/BioinformaticaUPF/ T13/MakeProfile.html • Use of motifs in sequence analysis (J. Dopazo) http://www.pdg.cnb.uam.es/cursos/FVi2001/SeqAlign. html#2.3. & Departament d’Estadı́stica U.B. 11 % MMO en Biologia Computacional ' 8. Alex Sánchez MOM para perfiles (Profile HMM ) $ Los perfiles resultan prácticos en determinadas circunstancias Su principal inconveniente es que no permiten modelizar regiones con huecos Los MOM para perfiles (P-HMM o MOM-P) permiten solventar esta carencia • Para cada posición de la secuencia se definen tres posibles estados coincidencia, inserción y supresión. • En cada estado/posición se definen probabilidades de emisión y transición distintas para capturar información especı́fica de cada posición en el alineamiento múltiple de toda la familia. • De esta manera los MOM-P son un modelo estadı́stico de la familia de secuencias. & Departament d’Estadı́stica U.B. 12 % MMO en Biologia Computacional ' $ 8.1. Alex Sánchez Construcción de MOM para perfiles básicos Supongamos que disponemos de un alineamiento múltiple de secuencias A G – – – C O1 A G A G – C O2 A – C A C C O3 – G L V – C O4 + + – – – + – Distinguimos tres tipos distintos de columnas • Alineadas: La mayoria de los residuos coinciden • Insertadas: En alguna secuencia se han insertado residuos • En alguna columna alineadas se han eliminado residuos & Departament d’Estadı́stica U.B. 13 % MMO en Biologia Computacional ' Alex Sánchez $ Modelización de columnas alineadas En el AMS anterior empezamos por considerar que las columnas alineadas han sido generadas por estados de coincidencia: Si el sistema pasa por un estado de coincidencia, la columna correspondiente está alineada. Si sólo consideraramos estos estados el AMS del ejemplo constarı́a de tres estados (correspondientes a las columnas alineadas 1,2 y 6). & Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 14 Alex Sánchez % $ Modelización de las inserciones (1) Cuando una columna no se considera parte del alineamiento se entiende que en un número, no relevante de secuencias, se han producido inserciones. En el AMS anterior consideramo que las secuencias 2 y 4 han experimentado dos inserciones y la secuencia no 3 ha experimentado tres. & Departament d’Estadı́stica U.B. 15 % MMO en Biologia Computacional ' Alex Sánchez $ Figura 1: Los caracteres enmarcados representan las inserciones & 16 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' Alex Sánchez % $ Modelización de las inserciones(3) Para poder tratar la situación anterior se añade un estado de inserción después de cada estado de coincidencia El estado Ik inserta un residuo justo después del estado de alineamiento Mk (no de Mk+1 ) Las secuencias pasan por los estados siguientes: ... & O1 ⇒ M1 M2 M3 O2 ⇒ M1 M2 I2 I2 M3 O3 ⇒ M1 ?Se omite M2 ... Departament d’Estadı́stica U.B. 17 % MMO en Biologia Computacional ' Alex Sánchez $ Modelización de las inserciones(4) & 18 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' Alex Sánchez % $ Modelización de las supresiones (1) Una supresión es una porción de la secuencia que “se salta” el alineamiento: Para modelizarlas se añaden estados silenciosos En el AMS anterior las secuencias 3 y 4 han experimentado una supresión cada una. & Departament d’Estadı́stica U.B. 19 % MMO en Biologia Computacional ' Alex Sánchez $ Modelización de las supresiones (2) Figura 2: Los caracteres enmarcados representan las supresiones & 20 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' Alex Sánchez % $ Modelización de las supresiones(3) Para considerar todas las posibilidades de supresión: • Conectamos todos los posibles estados de alineamiento • Añadimos estados silenciosos de supresión que no emiten El estado Dk salta el estado de alineamiento Mk es decir la columna alineada Mk . Desde él tan sólo se puede acceder al siguiente estado de alineamiento o de supresión. & Departament d’Estadı́stica U.B. 21 % MMO en Biologia Computacional ' Alex Sánchez $ Modelización de las supresiones(4) & Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 8.2. 22 Alex Sánchez % $ El modelo resultante El modelo resultante, integra todos los estados que hemos ido introduciendo Cada columna del alineamiento genera un estado de cada tipo & Departament d’Estadı́stica U.B. 23 % MMO en Biologia Computacional ' 8.3. Alex Sánchez $ Resumen: Idea central de los P-MOM Las probabilidades de emisión y transmisión capturan información especı́fica acerca de cada posición en el AMS de toda la familia Podemos pues ve los P-MOM como modelos estadı́sticos que representan toda la familia Podremos responder a tres preguntas clave: • Como construir el P-MOM que mejor se ajusta a una familia dada? • Como podemos decidir si una nueva secuencia pertenece a esta familia? • Como podemos utilizarlo para alinear una nueva secuencia? & 24 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 9. Alex Sánchez Aplicaciones de los P-MOM % $ Las aplicaciones de los MOM-P se corresponden más o menos directamente con los distintos problemas de los MOM Dada una familia de secuencias, se desea construir un MOM-P que la describa: P3: Estimación. • Si se dispone de un AMS: Estimación con camino conocido • Si no se dispone de un AMS: Estimación con camino desconocido: Baum-Welch Una vez se ha obtenido el modelo podemos usarlo para • Determinar si una secuencia pertenece a una familia: Clasificación (P1) • Alinear una nueva secuencias a un AMS (P2) & Departament d’Estadı́stica U.B. 25 % MMO en Biologia Computacional ' 9.1. Alex Sánchez Construcción y parametrización de un P-MOM $ Para construir un modelo y estimar sus parámetros deben tocarse dos aspectos: • La longitud del modelo y su estructura quedará totalmente determinada cuando decidamos qué columnas del AMS deben asignarse a los estados de alineamiento. • La estimación de los parámetros del modelo no resulta complicada si se conocen el alineamiento múltiple. & ◦ El camino a través del modelo se conoce para cualquier secuencia ◦ Las probabilidades de transición y emisión se obtendran simplemente contando emisiones y transiciones. 26 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 9.2. Alex Sánchez % $ Ejemplo de construcción y estimación Consideramos el ejemplo anterior & A G – – – C O1 M1 M2 M3 A G A G – C O2 M1 M2 I2 I2 M3 A – C A C C O3 M1 D2 I2 I2 I2 M3 – G L V – C O4 D1 M2 I2 I2 M3 + + – – – + – Departament d’Estadı́stica U.B. 27 % MMO en Biologia Computacional ' 9.3. Alex Sánchez El modelo del ejemplo (1): Estructura $ El alineamiento múltiple consiste en las columnas marcadas con un ”+”=⇒ Se creará un modelo con tres estados de alineamiento y por lo tanto los mismos de supresión e inserción & 28 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 9.4. Alex Sánchez % $ El modelo del ejemplo (2): Contaje de emisiones Probabilidades de emisión: Se estiman a partir del contaje del número de emisiones • N (A|M1 ) = 3,N (Otros|M1 ) = 0, • N (G|M2 ) = 3, N (Otros|M2 ) = 0, • N (C|M3 ) = 4, N (Otros|M3 ) = 0. No aparecen estados de inserción I0 , I1 , I3 . • N (A|I2 ) = 2, N (C|I2 ) = 2, N (G|I2 ) = 1, N (L|I2 ) = 1, N (V |I2 ) = 1, N (Otros|I2 ) = 0. & Departament d’Estadı́stica U.B. 29 % MMO en Biologia Computacional ' 9.5. Alex Sánchez $ El modelo del ejemplo (3): Contaje de transiciones Probabilidades de transición: Se estiman a partir del contaje del número de transiciones • N (M1 |B) = 3,N (D1 |B) = 1, • N (M2 |M1 ) = 3, N (D2 |M1 ) = 1, • N (M3 |M2 ) = 1, N (I2 |M2 ) = 2, • N (E|M3 ) = 3. • N (I2 |D2 ) = 1, N (I2 |I2 ) = 4, N (M3 |I2 ) = 3 & 30 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 9.6. Alex Sánchez % $ Clasificación de secuencias Para determinar si una secuencia O pertenece a una familia, caracterizada en un MOM-P, M, calcularemos P (O|M): Algoritmo forward P (O|M) depende de la longitud: Utilizaremos una razón de probabilidades (verosimilitudes): S(O) = log & Departament d’Estadı́stica U.B. L(M|O) P (O|M) = log , P (O|N ) L(N |O) 31 % MMO en Biologia Computacional ' 9.7. Alex Sánchez $ Alineamiento de una secuencia a un modelo Para alinear una nueva secuencia tan sólo se necesita la secuencia de estados a lo largo del modelo Pueden utilizarse dos opciones • Algoritmo de viterbi: Dará el camino más probable • Algoritmo Forward/Backward: maximizará el número de estados correctos Todo lo anterior presupone alineamientos globales. Es posible modificar los MOM-P oara obtener alineamientos locales. & 32 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 9.8. Alex Sánchez % $ Programas para construir y utilizar MOM-P HMMER: S.Eddy. U. Washington http://hmmer.wustl.edu/ SAM : Sequence Analysis and Modelling. USCS http://www.cse.ucsc.edu/research/compbio/sam.html & Departament d’Estadı́stica U.B. 33 % MMO en Biologia Computacional ' Alex Sánchez $ Figura 3: Posibilidades de HMMER & 34 Departament d’Estadı́stica U.B. MMO en Biologia Computacional ' 10. Alex Sánchez % $ Bibliografı́a y enlaces Durbin Richard et al. (1998) Biological sequence analysis. Cambridge University Press Koski, Timo. (2002) Hidden Markov Models in Bioinformatics. Kluwer Rabiner, L.R. (1989) A tutorial on hidden markov models and selected applications in speech recognition.Proceedings of the IEEE 77:257-286 Un enlace a materiales y enlaces sobre MMO http://www.ub.edu/stat/personal/alexsanchez/ personal/materials/HMM_Links.htm & Departament d’Estadı́stica U.B. 35 %