La creciente complejidad y diversidad de la información biológica existente ha derivado en la creación de bases de datos más especializadas distribuidas por todo el mundo. La comparación de secuencias nos va a permitir descubrir regiones conservadas a través de alineamientos múltiples. Si estas homologías se concentran en residuos funcionales de la proteína (por ejemplo: centro activo) la probabilidad de un origen evolutivo común es mayor. Estos aspectos han permitido el surgimiento de métodos de comparación de secuencias para la búsqueda de homologías como son los patrones, perfiles (conjunto alineado de secuencias que contiene un dominio) y HMMs (modelos estadísticos de la estructura primaria de las secuencias). Motivo: si observamos un alineamiento múltiple de proteínas homólogas veremos que algunas columnas varían bastante, mientras que otras están más conservadas. Cuando observamos ciertas columnas cercanas con una alta conservación, es decir, cuando encontramos trocitos de las secuencias que se conservan más que otros y que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar de MOTIVOS. (ver ejemplo en el alineamiento de más arriba) Dominio: el concepto de dominio define una unidad estructural independiente en las proteínas. Sin embargo se utiliza con cierta laxitud: por ejemplo, en estudios genéticos de deleción a veces se utiliza como sinónimo de la parte mínima de la secuencia capaz de realizar la función estudiada. En las bases de datos de dominios como PFam, un dominio se suele corresponder con el núcleo del dominio estructural, aquella zona más similar entre todas las proteínas de una familia, aunque no tiene por qué coincidir exactamente con los límites del dominio estructural. Existen distintos métodos para describir y localizar motivos: 1. Expresiones regulares o patrones: Los alineamientos múltiples son la fuente principal para determinar que partes de la secuencia son más importantes para su función o estructura. A partir de la información que contiene un alineamiento múltiple se obtiene un patrón o expresión regular utilizados para caracterizar motivos, indicando que posiciones son más importantes y cuales pueden variar y que variaciones pueden sufrir. Las expresiones regulares deben ser lo más cortas posibles, pero suficientemente largas para que sean específicas de la familia (es decir, que no sean al azar), debe presentar alta sensibilidad y alta especificidad. Existen bases de datos como PROSITE donde se almacenan los patrones regulares o motivos recopilados a lo largo del tiempo. Esto lo hacen consultando la bibliografía y analizando alineamientos múltiples. Luego ensayan los patrones sobre SWISS-PROT para estudiar su sensibilidad y especificidad. 2. Creación de perfiles: Son más sensibles que las expresiones regulares, se debe a que los perfiles integran más información completa sobre las características conservadas y variables de la región de la secuencia que definen. Es una matriz de sustitución específica para cada posición de la secuencia. A partir del alineamiento múltiple se construye dicha matriz teniendo en cuenta la frecuencia de los aminoácidos en cada posición así como sus propiedades fisicoquímicas. Una diferencia entre los perfiles y las expresiones regulares o patrones es que no solo se limita a pequeñas regiones con un alto índice de similitud, sino que presenta una mayor utilidad a la hora de definir regiones o dominios más extensos que puedan caracterizar familias de proteínas más que motivos. El perfil puede cubrir tanto regiones conservadas como variables del alineamiento. (Adaptación del esquema "The role of pattern databases in sequence analysis ". Attwood TK.) 3. Perfiles HMMs: Se muestran como una forma más sensible, incluyendo los patrones reguladores y perfiles convencionales, de búsqueda de homólogos remotos y dominios conservados basados en una descripción estadística de la estructura primaria consenso de una familia de proteínas. Existen muchas bases de datos que utilizan estos métodos. Hoy en día es costumbre la búsqueda en bases de datos de patrones, ya que selecciona patrones de residuos conservados dentro de grupos de secuencias relacionadas. Una serie de programas que nos permiten detectar la presencia de patrones, comparando nuestra secuencia problema con bases de datos son: PROSITE, PRINTS, BLOCKS (Análisis estructural por homología de una proteína). , PRODOM . Que almacenan motivos o dominios presentes en un gran número de proteínas y que están relacionados con alguna propiedad funcional. Introducción El la década del 60 los modelos ocultos de Markov, de aquí en adelante denominados HMM, surgieron como una herramienta aplicada al procesamiento del habla, un modelo estadístico que, a través de un algoritmo de aprendizaje, extraía las principales características estocásticas(Teoría estadística de los procesos cuya evolución en el tiempo es aleatoria, tal como la secuencia de las tiradas de un dado) de una cadena de habla. Con el advenimiento de los proyectos geonómicos, una gran cantidad de información proveniente del secuenciamiento de distintos genomas, aparece en escena trayendo consigo un problema: como extraer de estos datos, experimentalmente obtenidos, la información subyacente, es decir, como de la gran cantidad de secuencias de ADN y proteínas almacenadas en bases de datos, descubrir las propiedades estadísticas o determinísticas que permitan hacer análisis, modelos y juntamente con la generación de estos últimos, obtener hipótesis que se confirmen a través de experimentación. Nuevamente, como en la década del 60, los HMM aparecen como una poderosa herramienta para el análisis de datos geonómicos y proteómicos. Los HMM son ampliamente utilizados en el área de bioinformática para el modelado de familias de proteínas, alineamientos múltiples y modelado de estructuras 2D y 3D. Modelos ocultos de Markov Un modelo oculto de Markov (HMM) es un conjunto finito de estados. Las transiciones entre estados están dadas por un conjunto de probabilidades de transición. En cualquier estado particular, la observación puede ser generada, de acuerdo a la distribución de probabilidades de emisión. Sólo el resultado observable, no el estado, es visible a un observador externo por lo que los estados están “ocultos”. Alfabeto = { b1, b2, …, bM } Conjunto de estados = { 1, ..., K } Probabilidades de transición entre dos estados cualesquiera aij = prob. de transición del estado i al estado j ai1 + … + aiK = 1, para todos los estados i = 1…K Probabilidades iniciales a0i a01 + … + a0K = 1 Probabilidades de emisión dentro de cada estado ei(b) = P( xi = b | i = k) ei(b1) + … + ei(bM) = 1, para todos los estados i = 1…K En cada paso de tiempo t, lo único que afecta los futuros estados es el estado actual t P(t+1 =k | “cualquier cosa que pasó”) = P(t+1 =k | 1, 2, …, t, x1, x2, …, xt)= P(t+1 = k | t) Las 3 preguntas sobre los HMM: - Evaluacion Dado un HMM M y una secuencia x, encontrar Prob[ x|M] - Decodificacion Dado un HMM M, y una secuencia x, encontrar la secuencia de estados que maximiza P[ x, |M] - Aprendizaje Dado un HMM M, con probabilidad transición/emisión desconocidas, y una secuencia x, encontrar los parámetros = (ei(.), aij) que maximizan P[ x | ] DECODIFICACION Dada una secuencia de observaciones X, encuentre la secuencia de est. x DNA coding (C) vs non-coding (N) x = …AACCTTCCGCGCAATATAGGTAACCCCGG… = …NNCCCCCCCCCCCCCCCCCNNNNNNNN… Queremos encontrar = 1, ……, N, tal que P[ x, ] esté maximizado * = argmax P[ x, ] Podemos usar programación dinámica Sea Vk(i) = max{1,…,i-1} P[x1…xi-1, 1, …, i-1, xi, i = k] = Probabilidad de la secuencia de estados más verosímil que termina en el estado i = k Algoritmo de Viterbi Es similar a “alinear” un conjunto de estados de una secuencia. Complejidad temporal: O(K2N) K=nº estados Complejidad espacial: O(KN) N=longitud VITERBI Inicialización: V0(0) = 1 Vk(0) = 0, para todo k > 0 Iteración: Vj(i) = ej(xi) maxk Vk(i-1) akj Terminación: P(x, *) = maxk Vk(N) FORWARD Inicialización: f0(0) = 1 fk(0) = 0, para todo k > 0 Iteración: fl(i) = el(xi) k fk(i-1) akl Terminación P(x) = k fk(N) ak0 Algoritmos de entrenamiento Tenemos un conjunto de secuencias de ejemplo del tipo de las que queremos que el modelo ajuste (secuencias de entrenamiento), que suponemos independientes. Si conocieramos el camino de estados que recorrió el modelo, los estados no están ocultos (el HMM se transforma en una cadena de Markov), en la cual los estimadores de máximoa verosimilitud para las frecuencias de emisión y transición se obtienen a partir de las frecuencias de observaciones. Si tenemos información (biológica o física) que nos aporte información previa a la distribución de probabilidades podemos agregársela al modelo como pseudocuentas. Objetivo: Dada una secuencia de observaciones, encontrar el modelo más probable que generae esa secuencia Problema: No conocemos las frecuencias relativas de los estados ocultos visitados. No se conocen soluciones analíticas Nos acercamos a la solución por sucesivas aproximaciones. El problema ahora es la optimización, por lo que se pueden usar muchas heurísticas (simulated annealing, algoritmos genéticos, etc) Algoritmo Baum-Welch Este es el algoritmo de Expectation-Maximization (EM) para la estimación de parámetros. Aplicable a cualquier proceso estocástico Encuentra las frecuencias esperadas de los posibles valores de las variables ocultas. Calcula las distribuciones de máxima verosimilitud de las variables ocultas en base a las probabilidades forward y backward. Repite estos pasos hasta satisfacer algún criterio de convergencia. Complejidad temporal: nº iteraciones*O(N2 T) Aplicaciones de los HMM Los modelos probabilísticos están tomando uyna mayor importantica en el análisis biológico, particularmente en problemas de análisis con muchos parámetros. Puesto que muchos problemas en biología computacional se reducen al análisis de secuencias lineales cortas, los modelos basados en HMM han sido aplicados a muchos problemas Búsqueda de genes, mapas híbridos de radiación, unión de mapas genéticos, análisis filogenético y predicción de la estructura secundaria de las proteinas. Las aplicaciones más exitosas son los perfiles HMM y HMM-based gene finders. Perfiles HMMs Profile HMM es una herramienta mediante la cual, a partir de un HMM entrenado con un conjunto de secuencias previamente alineadas (CLUSTAW) se puede obtener las características estocásticas (profile) de una familia de secuencias de ADN o proteínas. En las proteínas se observan regiones de longitud considerable donde no participan gaps ni inserciones de residuos (una inserción es la aparición de uno o mas aminoácidos con una distribución de probabilidad background). Para estas porciones de las secuencias se puede armar un modelo donde sólo participen estados de match, con probabilidad 1 de transición entre un estado y el siguiente y con probabilidades de emisión de residuos calculadas a partir de su frecuencia de aparición. En la figura siguiente se muestra un HMM que modele este tipo de regiones En el estado de match1 (M1) se emiten los símbolos de los aminoácidos A1...A21 con las probabilidades de emisión que resultan de la frecuencia de aparición de estos en la columna 1 de las secuencias presentadas como datos, se procede de la misma manera para las restantes columnas y se fuerzan a 1 las probabilidades de transición entre un estado y el siguiente. En realidad dado que hay aminoácidos que pueden no aparecer en una columna se utilizan técnicas que permitan evitar errores de overflow, uno de estos métodos es usar una pseudocuenta sumada al denominador donde se calcula la razón frecuencial con que se estiman las probabilidades de emisión. El modelo obtenido es similar al utilizado en PSSM. La realidad indica que en las secuencias de aminoácidos se observan porciones donde es posible hallar consenso (estados de match) y otras donde o bien la aparición de aminoácidos responde a una probabilidad de background (estados de insert) o aparecen gaps (estados de delete). Para modelar estos estado se introducen dos estados más en cada unidad de tiempo del HMM, un estado de insert y uno de delete. Las probabilidades de emisión de los estados de insert responden a las probabilidades background de aminoácidos, esto tiene la ventaja de que, al calcular un score, la emisión de un aminoácido con probabilidad background es cero. Cuando los caminos que recorren las secuencias de entrenamiento sobre el HMM no son conocidos se utiliza el algoritmo Baum-Welch para estimar los parámetros del profile. En general un profile HMM es un caso particular de un HMM, por lo tanto el método de aprendizaje de los parámetros puede ser cualquiera de los utilizados para HMM. La Figura 2 muestra un HMM para un alineamiento de cuatro secuencias con tres posiciones. Las columnas del alineamiento son los tres estados ( m1, m2, m3) del sistema con 20 probabilidades de ser un residuo ( barras correspondientes a las frecuencias observadas de los 20 posibles aminoácidos) cuatro estados de inserción ( i0, i1, i2, i3) y tres estados de deleción ( d1, d2, d3). Las flechas representan las probabilidades de transición entre estados. Todos o algunos de los parámetros se pueden estimar del sistema estudiado. La figura 2 muestra un HMM para un alineamiento de 4 secuencias con tres posiciones o estados (m1, m2, m3) en la terminología de HMMs. Cada posición tiene los 20 valores de probabilidad de ser uno de los 20 posibles aminoácidos (barras), cuatro estados de inserción (i0, i1, i2, i3) y tres estados de deleción (d1, d2, d3 ). Las flechas representan las probabilidades de transición entre estados. Todos o algunos de los parámetros se estiman del alineamiento. La ventaja de usar HMMs es que tienen una bases probabilísticas formales y por tanto se puede usar teoría probabilística Bayesiana para definir los parámetros del sistema. La ventaja práctica de esto es que los HMMs pueden ser derivados con secuencias no alineadas, siendo el alineamiento uno de los resultados del proceso de obtención del perfil. Conclusiones Los modelos ocultos de Markov (HMM) proporcionan una herramienta para la modelización de secuencias de ADN, ARN y proteínas, el descubrimiento de zonas de secuencias cuyas propiedades estadísticas son distintas a las esperadas por azar (background) como es el caso de islas CG y posibles genes y actualmente están empezando a ser utilizados para modelización de estructuras tridimensionales. Computacionalmente tienen un costo aceptable, O(MT), comparados con los algoritmos de búsqueda y alineación (múltiple) y una potencia ya comprobada en toda la teoría de procesamiento del habla. Existen algoritmos de entrenamiento para los HMM como Viterbi y Baum-Welch, ampliamente utilizados que convergen en aproximadamente 10 a 15 iteraciones para la modelización de proteínas o ADN. También es posible encontrar paquetes públicos para la aplicación de HMM y bases de datos de profile HMM como Pfam. SOFTWARE PARA PERFILES HMM Hay múltiples paquetes de software que están disponibles para implementar perfiles HMM: La principal diferencia que existe entre ellos es la arquitectura que adoptan: • Un HMM está compuesto por una serie de nodos o estados cada uno de los cuales • • • emite símbolos (entre 4 o 20 posibles aminoácidos) con una probabilidad dada. Los estados están conectados secuencialmente existiendo probabilidades de transición entre ellos. Además existen probabilidades de inserción y borrado. BLOCKS y META-MEME representan los modelos de motivos, los clásicos HMM . HMMER2 “Plan7” y ‘profile’ HMM representan la nueva generación de perfiles HMM en SAM, HMMER y PFTOOLS. Hay dos modelos diferenciados para el autor: Modelos de perfiles: modelos con estados de inserción y borrado asociados con cada estado encontrado, permitiendo inserciones y borrados en la secuencia seleccionada. Modelos de motivos: modelos dominados por cadenas de estados encontrados (modelando bloques sin huecos de secuencias consenso), separados por un pequeño número de estados insertados modelando los espacios entre los bloques sin huecos. Veamos algunas características de algunos de ellos: SAM, HMMER, PFTOOLS y HMMpro implementan modelos basados al menos en una parte en los perfiles originales HMM de Krogh (1994). Estos paquetes están argumentados en un simple modelo que trata con múltiples dominios, secuencias alineadas y alineamientos locales. El alineamiento local o global no es necesariamente esencial en el algoritmo, pero esto demuestra que la probabilística es una parte del modelo de arquitectura SAM y HMMER Usan mezclas Dirichet en muchas distribuciones para ayudar al numero de parámetro libres. Si adoptan el hibrido HMM/neural network techniques esto se acentúa. HMMER y PFTOOLS Son usados en primer lugar para construir bases de datos de búsqueda de modelos donde están presentes los alineamientos. PROBE, META-MEME y BLOCKS Asumen distintos modelos de motivos, los alineamientos consisten en uno o mas bloques sin huecos, separados por secuencias ‘intervening’ que son asumidas para ser aleatorias. PROBE y META-MEME adoptan modelos probabilísticos para los huecos. GENEWISE Es una sofisticada aplicación de búsqueda por ventanas que puede tomar un HMMER de modelo de proteína. PSI-BLAST No es una aplicación HMM, pero usa los principios de los modelos probabilísticos para construir ‘HMM-like models’ para múltiples alineamientos. LIBRERIAS PARA PERFILES HMM El software para perfiles HMM esta bien para: Modelar una secuencia en particular de una familia de interés. Buscar secuencias homologas en una base de datos. Ahora necesitamos buscar una secuencia simple en una librería de perfiles HMM. Construir una librería requiere un largo número de múltiples alineamientos de comunes dominios. Dos largas colecciones de perfiles HMMs están disponibles: Pfam PROSITE Ambas bases de datos están disponibles en la web: Las principales características de ambas son: Pfam Es una base de datos compuesta por los perfiles HMMs obtenidos para distintos dominios o regiones conservadas de proteínas. Contiene múltiples alineamientos de proteínas y perfiles-HMMs de esas familias de proteínas. Es una base de datos semiautomática, cuyo objetivo es ser completa y exacta. PROSITE Es una base de datos que contiene información detallada sobre todos los motivos de secuencia de proteína conocidos. Los motivos son descritos mediante patrones regulares. PROSITE contiene perfiles para 290 dominios de proteínas, y Pfam contiene 1313. Hay muchas discusiones sobre el número de familias de proteínas que hay, el número de 1000 fue citado en alguna ocasión, otros defienden que todas las familias tienen aproximadamente el mismo número. Ninguno de estos servidores de perfiles están maduros, ambas bases de datos para perfiles software están rápidamente cambiando. HMMs PARA RECONOCIMIENTO DE PLIEGUES Los scores de los perfiles son calculados con estructuras de datos en lugar de secuencias. Ej. ‘3D/1D profiles’. Di Francesco usó perfiles HMM para modelar la segunda estructura de secuencias, modificando el SAM code para emitir un alfabeto de estructura secundaria de proteína. ¿Como puede HMM asumir su posición de independiente y esperar ser un modelo realista de estructura de proteína? Algunos métodos de reconocimiento utilizan algoritmos de programación dinámica, que son usados para encontrar la secuencia/estructura optima alineada. La sección de reconocimiento de CASP (Current Assement of Struccture Prediction) es uno de los mas interesantes métodos de reconocimiento de cómo HMMs se desarrollan. En CASP las secuencias de proteínas son solventadas a través de criptografía o NMR, que esta disponible para grupos computacionales de predicción de estructuras. CONCLUSIÓN El proyecto del genoma humano amenaza con abrumarnos en un diluvio de secuencias de datos. Las populares anotaciones de largas secuencias son muy difíciles para muchas personas. El desarrollo de métodos robustos para automatizar la clasificación y anotación de secuencias es imperativo. Surge la esperanza de que desarrollando métodos de perfiles HMM, se pueda suministrar una segunda lista de éstos que sean sólidos, sensatos y estadísticamente basados en herramientas de análisis, que completen los análisis BLAST y FASTA. La combinación del poder del software HMM y las largas secuencias alineadas en bases de datos para conservar dominios de proteínas, debería de hacer de esta esperanza una realidad.