Una perspectiva genómica de las familias de proteínas Realizado por: Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional Ingeniería Informática Introducción a la Biología Computacional Los evolucionistas han apoyado, en general, la idea de que la vida en la Tierra se desarrolló a partir de un ancestro común. Por otro lado, la construcción relativamente reciente de un árbol filogenético universal basado en el ARNr (16S) aportó la idea de que todos los organismos estaban agrupados en tres dominios relacionados (Archaea, Bacteria y Eucarya) y de que existió un nódulo principal (la raíz) del árbol universal que representaba el ancestro común. En biología, dominio es cada una de las tres principales subdivisiones en que se consideran clasificados los seres vivos: Archaea, Bacteria, Eukarya. Hasta hace poco tiempo, los seres vivos se clasificaban dependiendo de la ausencia o presencia de núcleo en las células que lo componen (procariota o eucariota), pero nuevos estudios a nivel molecular (estructura de los lípidos, proteínas y genoma) muestran que dentro de las procariotas, las archaea son tan diferentes de las bacterias como éstas de las eucariotas. Por otra parte, la secuenciación de varios genomas enteros refuerza la idea de que la transferencia horizontal de ADN, a veces en grandes bloques, fue un evento frecuente en términos de los tiempos de evolución. La comparación de genomas completos puede llegar a ser indispensable en la comprensión de fenómenos biológicos. En un principio se secuenció la bacteria H. influenzae, y más tarde se hizo la de más bacterias, la Archaea y por último una eucariota celular. Gracias a la secuenciación de estos genomas completos, es factible pensar que todos los genes han evolucionado de un gen ancestro, lo que nos llevaría a poder hacer agrupamientos naturales observando la evolución desde este gen. Así, las relaciones entre genes de diferentes genomas, están naturalmente representadas como un sistema de familias homólogas que incluyen tanto ortólogos como parálogos. Los ortólogos son genes de diferentes especies que han evolucionado de un gen ancestro por especiación; por el contrario, los parálogos son genes relacionados por duplicación dentro de un genoma. Normalmente los ortólogos mantienen la misma función, mientras que los parálogos evolucionan con nuevas funciones. Por ello, la identificación de los ortólogos es muy importante para poder predecir funciones de genes que están pobremente caracterizados. Gracias a lo que hemos dicho de los ortólogos, es decir, que mantienen la función original, podemos hacer clusters de ortólogos dependiendo de la funcionalidad, lo que 2 Introducción a la Biología Computacional llamaremos COG. Un COG, por tanto, consiste en agrupar genes individuales ortólogos o grupos ortólogos de parálogos, de tres o más linajes. Para formar un COG, en primer lugar tenemos que buscar los BeTs. Un BeT es el mejor acierto en cada uno de los otros genomas con los que es comparado un genoma. Esto se hace para cada uno de los genomas. Una vez que tenemos todos los BeTs debemos encontrar todos los triángulos formados por BeTs. Como vemos en la figura 1, los que se unen con una línea gruesa son aquellos que cumplen la relación de simetría, es decir, uno es el BeT del otro y viceversa. Las líneas discontinuas corresponden a relaciones asimétricas. Los que cumplen la relación de simetría serán ortólogos y los otros parálogos. Una vez que tenemos esto, vemos todos los triángulos que se han formado, de tal forma que vamos mezclando los que tengan un lado común hasta que no haya ninguno nuevo que pueda ser unido. El resultado será un COG. Como podemos ver en la figura 1B, podemos tener COGs formados por ortólogos y también grupos ortólogos de parálogos, como ocurre con YPL040c que es ortólogo con varios pero dentro del mismo COG es parálogo con HIN0378. Fig. 1. – Ejemplos de COGs 3 Introducción a la Biología Computacional Patrones Filogenéticos y Funcionales en COGs Antes de comentar los resultados, hay que tener claro que los COGs no suplantan métodos tradicionales de análisis filogenéticos, sino más bien, proveen del material apropiado para comenzar esos métodos, en particular para un análisis sistemático de árboles de topología filogenético. El análisis descrito obtuvo como resultados 710 COGs aparentes. Este conjunto tan completo como lo permiten las relaciones entre ortólogos. Es más, cuando la porción de la base de datos de proteínas de genomas completos no incluida en los COGs, fue clusterizada por similitud de secuencias, sólo 10 grupos fueron clasificados, grupos que probablemente constituyen COGs adicionales perdidos originalmente. Estos grupos fueron incorporados, produciendo la colección final de 720 COGs, e incluyendo 6814 proteínas y distintos dominios y multidominios de proteínas. Muchos de los COGs son grupos de proteínas relativamente pequeños. Un tercio de los COGs (240 COGs con 1406 proteínas) contienen un representante de cada una de las especies incluidas, y 192 COGs más incluyen parálogos de una sola especie, normalmente de la levadura (87 COGs). El número medio de proteínas por COGs aumenta según el número de genes de un genoma, de 1.2 para el M. genitalium a 2.9 para la levadura. Un aspecto notable para muchos COGs es el comportamiento diferencial de los parálogos. Es típico que uno de los parálogos, por ejemplo en la levadura, muestre consistentemente una alta similitud a los ortólogos en una o muchas de las otras especies (Figura 1, B y C). Así, para numerosos parálogos de la levadura, particularmente componentes del equipo de traducción, la causa subyacente es obvia: el gen cuyo producto es más similar a los ortólogos bacterianos es de origen mitocondrial (Fig. 1B). Se han encontrado 549 proteínas en 302 COGs cuyos parálogos han mostrado consistentemente una baja similitud con otros miembros del COG. Esto nos da a pensar en la rápida evolución de los parálogos como progenitores de nuevas familias que emergen de dentro de los parálogos conservados. Los COGs serán un importante recurso en un suministro sistemático de la diversificación funcional de los parálogos en familias de genes conservados. La figura 2 muestra el análisis de los COGs en función de las funciones definidas y las especies. Para la mayor parte de los COGs, la función de la proteína se obtiene directamente de los experimentos, principalmente de E.Coli o levadura, o puede ser inferida de secuencias significativas similares a proteínas caracterizadas funcionalmente de otras especies. E E. coli H H. influenzae G M. genitalium P M. pneumoniae C Synechocystis M M. jannaschii Y S. cerevisiae Tabla 1 – Códigos de las especies 4 Introducción a la Biología Computacional Fig. 2. – Análisis funcional y filogenético de los COGs. El número de COGs (num.) y el número de proteínas en este (den.) es indicado para cada categoría funcional. La distribución de proteínas de diferentes especies en los COGs muestra varias tendencias (Fig 2), aunque la tendencia en la colección actual de genomas completos (en particular, porque se requieren tres linajes para formar un COG, y todos los COGs han de tener un miembro bacteriano) se debe tomar de un informe cuando se interpretan esas comparaciones. La fracción de proteínas pertenecientes a COGs es muy alta cuando trabajamos con genomas pequeños de micoplasmas (70% para M.genitalium) y mucho más baja en grandes genomas como el E.Coli o la levadura (40 y 26 % respectivamente), que corresponde con lo esperado en las familias conservadas, asociadas con la administración de las funciones celulares. 5 Introducción a la Biología Computacional La distribución filogenética de los miembros de un COG puede ser convenientemente presentada en términos de patrones filogenéticos los cuales muestran la presencia o ausencia de cada especie analizada (Fig. 3). De los 88 patrones que se incluyen en los tres últimos linajes (la definición de un COG), 36 fueron encontrados actualmente. Los patrones perdidos pertenecían mayormente a una de las dos especies de Micoplasma, lo cual era predecible debido a que el complemento del gen de M. genitalium es esencialmente de un subconjunto del complemento M.pneumoniae. Los 8 patrones restantes que no fueron observados incluyen la bacteria patogénica sin E. coli, la cual es la más diversa de los genomas bacterianos disponibles. Fig. 3. – Patrones filogenéticos en los COGs. Las letras son los códigos de la Tabla1 Los dos patrones más abundantes pueden ser fácilmente predichos: todas las especies (Ehgpcmy) y todas las especies excepto los micoplasmas (Eh__cmy). Lo que parece mucho menos trivial es que estos patrones juntos abarcan sólo un tercio de todos los COGs. Este hecho enfatiza la gran fluidez de la evolución de los genomas, revelada a pesar del análisis concentrado de familias antiguas conservadas. Múltiples soluciones para la misma función celular parecen ser más una regla que una excepción, al menos cuando se consideran especies filogenéticamente distantes. Por otro lado, los 8 patrones más frecuentes que juntos componen el 85% de los COGs, incluyen tanto a E.coli como a Synechoscystis, enfatizando la congruencia entre estos genomas. El alto orden de distribución de los COGs por los tres dominios de vida, donde sólo el 45% de los COGs incluyen representantes de Bacteria, Archaea, y Eucarya, es otra manifestación de la dinámica de las familias de genes en la evolución (Fig. 3). Se espera que el dibujo pueda convertirse en algo más complejo, y la fracción de COGs de los tres dominios probablemente disminuirá, pero los COGs sólo de eucariotas, sólo de archaea y el conjunto de archaea-eucariota, emergerán con la acumulación de secuencias del genoma. Conectar y Expandir los COGs Las familias antiguas de parálogos que abarcan un amplio rango de organismos con características comunes están bien identificadas. Por ello, un número de COGs se relacionan con otros y pueden ser agrupados en superfamilias. Para aclarar la estructura 6 Introducción a la Biología Computacional de la superfamilia de la colección de COGs utilizamos el programa PSI-BLAST, que combina la búsqueda BLAST con el análisis de perfil. De esta forma, dos COGs están conectados si dos proteínas de un COG son miembros del otro COG utilizando PSIBLAST. Haciendo clustering mediante este proceso obtenemos 58 superfamilias que incluyen 280 COGs. Estas superfamilias y los motivos que en ellas predominan se usarán en la clasificación de proteínas que han evolucionado a una extensión que no puede ser clasificada dentro de ningún COG pero que mantiene algún motivo conservado. Buscamos detectar estas proteínas que están distantes de COGs para poder inferir qué genomas las codifican. El análisis PSI-BLAST fue capaz de detectar fracciones de proteínas que se relacionaban con COGs, de manera que se incrementó el número de proteínas conectadas a COGs. Predicción de Funciones de Proteínas con el Sistema COG El sistema COG permite la anotación automática funcional y filogenética de un gen o conjunto de genes. El criterio para añadir posibles ortólogos de otros genomas a los COGs ya existentes es el mismo que el criterio que utilizamos para formas los COGs. Así, una proteína estará dentro de un COG si al realizar un análisis hay al menos dos BeTs de esa proteína dentro de ese COG. Siguiendo este proceso la información estructural puede ser inferida para al menos un 25% de los COGs. En muchos casos, la proteína analizada ya pertenece a un COG o es un homólogo fuertemente relacionado con una de las proteínas de un COG. Probablemente la aplicación más importante de los COGs es la caracterización funcional de genomas recientemente secuenciados. En el análisis preliminar de los recientes genomas publicados de la bacteria patógena humana más importante Helicobacter pylori, 813 proteínas (51% de los productos de genes) de esta bacteria fueron incluidos en 453 COGs pre-existentes y en 143 COGs nuevos. A pesar de que muchas proteínas H. pylori son muy similares a homólogos de E.coli y otras bacterias que han sido exploradas en detalle, este análisis produjo la adicción de alrededor de 100 predicciones funcionales. Conclusiones y Perspectiva Los COGs tienen campos de comparación de genomas y clasificación de proteínas. Entre los numerosos acercamientos posibles a la clasificación de proteínas, los COGs parecen ser únicos como prototipo de sistema natural, el cual tiene como unidad básica un grupo de descendientes de un único gen ancestral. Típicamente, tal y como un grupo es asociado con una función específica conservada, la inclusión de una proteína en un COG implica la predicción funcional automática de esta proteína. Pero puede ocurrir que un gen se pierda en un par de parálogos en un linaje pero no en otros, por lo que dos COGs que deberían haber sido distintos podrían unirse artificialmente, por lo que habría que dividir dichos COGs. 7 Introducción a la Biología Computacional Cada COG contiene genes conservados de al menos 3 conjuntos distantes filogenéticamente, y por lo tanto, corresponde a una región antigua que se ha conservado. Análisis previos han indicado que el número total de ACRs (Regiones Antiguas Conservadas) distintos, es probablemente menor que 1000. De esta manera, incluso con el limitado número de genomas completos que están disponibles actualmente para el análisis, los COGs han capturado ya una fracción substancial de todos los dominios de proteínas existentes altamente conservados. Si se incluyen más genomas en el sistema, el descubrimiento de COGs adicionales llegará a estabilizarse gradualmente, donde la gran mayoría de los ACRs codificados en los genomas existentes están en COGs conocidos. Esperando una inundación de secuencias de genomas, es necesario un marco de trabajo coherente para comprender estos genomas desde el punto de vista tanto funcional como evolutivo. Consideramos la colección actual de COGs como una primera versión, todavía algo cruda, de este marco de trabajo. La inclusión de nuevos y diversos genomas filogenéticos y el diseño de los procedimientos usados para derivar y analizar COGs esperamos que sean capaces de dar como resultado el refinamiento de este sistema, convirtiéndola en una plataforma sólida para la anotación del genoma y la evolución genómica. En el caso de las proteínas que presentan varios dominios funcionales, este método de clasificación no ofrece buenos resultados debido a que una misma proteína, dependiendo del dominio que analicemos pertenecerá a un COG o a otro, razón por la cual algunos COGs llegan a unirse, formando un COG que no aporta una buena predicción funcional. Este problema se ha manifestado al aplicar el método en organismos eucariotas, proporcionando unos resultados bastante malos. 8