La comparacin de genomas completos puede llegar a ser

Anuncio
Una perspectiva
genómica de las familias
de proteínas
Realizado por:
Andrés Cuadros Suárez
Cristina Donaire Ávila
Trifón Giménez Vázquez
Introducción a la Biología Computacional
Ingeniería Informática
Introducción a la Biología Computacional
Los evolucionistas han apoyado, en general, la idea de que la vida en la Tierra se
desarrolló a partir de un ancestro común. Por otro lado, la construcción relativamente
reciente de un árbol filogenético universal basado en el ARNr (16S) aportó la idea de
que todos los organismos estaban agrupados en tres dominios relacionados (Archaea,
Bacteria y Eucarya) y de que existió un nódulo principal (la raíz) del árbol universal que
representaba el ancestro común. En biología, dominio es cada una de las tres principales
subdivisiones en que se consideran clasificados los seres vivos: Archaea, Bacteria,
Eukarya. Hasta hace poco tiempo, los seres vivos se clasificaban dependiendo de la
ausencia o presencia de núcleo en las células que lo componen (procariota o eucariota),
pero nuevos estudios a nivel molecular (estructura de los lípidos, proteínas y genoma)
muestran que dentro de las procariotas, las archaea son tan diferentes de las bacterias
como éstas de las eucariotas.
Por otra parte, la secuenciación de varios genomas enteros refuerza la idea de que la
transferencia horizontal de ADN, a veces en grandes bloques, fue un evento frecuente
en términos de los tiempos de evolución. La comparación de genomas completos puede
llegar a ser indispensable en la comprensión de fenómenos biológicos. En un principio
se secuenció la bacteria H. influenzae, y más tarde se hizo la de más bacterias, la
Archaea y por último una eucariota celular. Gracias a la secuenciación de estos genomas
completos, es factible pensar que todos los genes han evolucionado de un gen ancestro,
lo que nos llevaría a poder hacer agrupamientos naturales observando la evolución
desde este gen.
Así, las relaciones entre genes de diferentes genomas, están naturalmente representadas
como un sistema de familias homólogas que incluyen tanto ortólogos como parálogos.
Los ortólogos son genes de diferentes especies que han evolucionado de un gen ancestro
por especiación; por el contrario, los parálogos son genes relacionados por duplicación
dentro de un genoma. Normalmente los ortólogos mantienen la misma función, mientras
que los parálogos evolucionan con nuevas funciones. Por ello, la identificación de los
ortólogos es muy importante para poder predecir funciones de genes que están
pobremente caracterizados.
Gracias a lo que hemos dicho de los ortólogos, es decir, que mantienen la función
original, podemos hacer clusters de ortólogos dependiendo de la funcionalidad, lo que
2
Introducción a la Biología Computacional
llamaremos COG. Un COG, por tanto, consiste en agrupar genes individuales ortólogos
o grupos ortólogos de parálogos, de tres o más linajes.
Para formar un COG, en primer lugar tenemos que buscar los BeTs. Un BeT es el mejor
acierto en cada uno de los otros genomas con los que es comparado un genoma. Esto se
hace para cada uno de los genomas. Una vez que tenemos todos los BeTs debemos
encontrar todos los triángulos formados por BeTs. Como vemos en la figura 1, los que
se unen con una línea gruesa son aquellos que cumplen la relación de simetría, es decir,
uno es el BeT del otro y viceversa. Las líneas discontinuas corresponden a relaciones
asimétricas. Los que cumplen la relación de simetría serán ortólogos y los otros
parálogos.
Una vez que tenemos esto, vemos todos los triángulos que se han formado, de tal forma
que vamos mezclando los que tengan un lado común hasta que no haya ninguno nuevo
que pueda ser unido. El resultado será un COG. Como podemos ver en la figura 1B,
podemos tener COGs formados por ortólogos y también grupos ortólogos de parálogos,
como ocurre con YPL040c que es ortólogo con varios pero dentro del mismo COG es
parálogo con HIN0378.
Fig. 1. – Ejemplos de COGs
3
Introducción a la Biología Computacional
Patrones Filogenéticos y Funcionales en COGs
Antes de comentar los resultados, hay que tener claro que los COGs no suplantan
métodos tradicionales de análisis filogenéticos, sino más bien, proveen del material
apropiado para comenzar esos métodos, en particular para un análisis sistemático de
árboles de topología filogenético.
El análisis descrito obtuvo como resultados 710 COGs aparentes. Este conjunto tan
completo como lo permiten las relaciones entre ortólogos. Es más, cuando la porción de
la base de datos de proteínas de genomas completos no incluida en los COGs, fue
clusterizada por similitud de secuencias, sólo 10 grupos fueron clasificados, grupos que
probablemente constituyen COGs adicionales perdidos originalmente. Estos grupos
fueron incorporados, produciendo la colección final de 720 COGs, e incluyendo 6814
proteínas y distintos dominios y multidominios de proteínas.
Muchos de los COGs son grupos de proteínas relativamente pequeños. Un tercio de los
COGs (240 COGs con 1406 proteínas) contienen un representante de cada una de las
especies incluidas, y 192 COGs más incluyen parálogos de una sola especie,
normalmente de la levadura (87 COGs). El número medio de proteínas por COGs
aumenta según el número de genes de un genoma, de 1.2 para el M. genitalium a 2.9
para la levadura. Un aspecto notable para muchos COGs es el comportamiento
diferencial de los parálogos. Es típico que uno de los parálogos, por ejemplo en la
levadura, muestre consistentemente una alta similitud a los ortólogos en una o muchas
de las otras especies (Figura 1, B y C). Así, para numerosos parálogos de la levadura,
particularmente componentes del equipo de traducción, la causa subyacente es obvia: el
gen cuyo producto es más similar a los ortólogos bacterianos es de origen mitocondrial
(Fig. 1B).
Se han encontrado 549 proteínas en 302 COGs cuyos parálogos han mostrado
consistentemente una baja similitud con otros miembros del COG. Esto nos da a pensar
en la rápida evolución de los parálogos como progenitores de nuevas familias que
emergen de dentro de los parálogos conservados. Los COGs serán un importante
recurso en un suministro sistemático de la diversificación funcional de los parálogos en
familias de genes conservados.
La figura 2 muestra el análisis de los COGs en función de las funciones definidas y las
especies. Para la mayor parte de los COGs, la función de la proteína se obtiene
directamente de los experimentos, principalmente de E.Coli o levadura, o puede ser
inferida de secuencias significativas similares a proteínas caracterizadas funcionalmente
de otras especies.
E E. coli
H H. influenzae
G M. genitalium
P M. pneumoniae
C Synechocystis
M M. jannaschii
Y S. cerevisiae
Tabla 1 – Códigos de las especies
4
Introducción a la Biología Computacional
Fig. 2. – Análisis funcional y filogenético de los COGs. El número de COGs (num.) y el
número de proteínas en este (den.) es indicado para cada categoría funcional.
La distribución de proteínas de diferentes especies en los COGs muestra varias
tendencias (Fig 2), aunque la tendencia en la colección actual de genomas completos (en
particular, porque se requieren tres linajes para formar un COG, y todos los COGs han
de tener un miembro bacteriano) se debe tomar de un informe cuando se interpretan esas
comparaciones. La fracción de proteínas pertenecientes a COGs es muy alta cuando
trabajamos con genomas pequeños de micoplasmas (70% para M.genitalium) y mucho
más baja en grandes genomas como el E.Coli o la levadura (40 y 26 %
respectivamente), que corresponde con lo esperado en las familias conservadas,
asociadas con la administración de las funciones celulares.
5
Introducción a la Biología Computacional
La distribución filogenética de los miembros de un COG puede ser convenientemente
presentada en términos de patrones filogenéticos los cuales muestran la presencia o
ausencia de cada especie analizada (Fig. 3). De los 88 patrones que se incluyen en los
tres últimos linajes (la definición de un COG), 36 fueron encontrados actualmente. Los
patrones perdidos pertenecían mayormente a una de las dos especies de Micoplasma, lo
cual era predecible debido a que el complemento del gen de M. genitalium es
esencialmente de un subconjunto del complemento M.pneumoniae. Los 8 patrones
restantes que no fueron observados incluyen la bacteria patogénica sin E. coli, la cual es
la más diversa de los genomas bacterianos disponibles.
Fig. 3. – Patrones filogenéticos en los COGs. Las letras son los códigos de la
Tabla1
Los dos patrones más abundantes pueden ser fácilmente predichos: todas las especies
(Ehgpcmy) y todas las especies excepto los micoplasmas (Eh__cmy). Lo que parece
mucho menos trivial es que estos patrones juntos abarcan sólo un tercio de todos los
COGs. Este hecho enfatiza la gran fluidez de la evolución de los genomas, revelada a
pesar del análisis concentrado de familias antiguas conservadas. Múltiples soluciones
para la misma función celular parecen ser más una regla que una excepción, al menos
cuando se consideran especies filogenéticamente distantes. Por otro lado, los 8 patrones
más frecuentes que juntos componen el 85% de los COGs, incluyen tanto a E.coli como
a Synechoscystis, enfatizando la congruencia entre estos genomas.
El alto orden de distribución de los COGs por los tres dominios de vida, donde sólo el
45% de los COGs incluyen representantes de Bacteria, Archaea, y Eucarya, es otra
manifestación de la dinámica de las familias de genes en la evolución (Fig. 3). Se espera
que el dibujo pueda convertirse en algo más complejo, y la fracción de COGs de los tres
dominios probablemente disminuirá, pero los COGs sólo de eucariotas, sólo de archaea
y el conjunto de archaea-eucariota, emergerán con la acumulación de secuencias del
genoma.
Conectar y Expandir los COGs
Las familias antiguas de parálogos que abarcan un amplio rango de organismos con
características comunes están bien identificadas. Por ello, un número de COGs se
relacionan con otros y pueden ser agrupados en superfamilias. Para aclarar la estructura
6
Introducción a la Biología Computacional
de la superfamilia de la colección de COGs utilizamos el programa PSI-BLAST, que
combina la búsqueda BLAST con el análisis de perfil. De esta forma, dos COGs están
conectados si dos proteínas de un COG son miembros del otro COG utilizando PSIBLAST. Haciendo clustering mediante este proceso obtenemos 58 superfamilias que
incluyen 280 COGs.
Estas superfamilias y los motivos que en ellas predominan se usarán en la clasificación
de proteínas que han evolucionado a una extensión que no puede ser clasificada dentro
de ningún COG pero que mantiene algún motivo conservado. Buscamos detectar estas
proteínas que están distantes de COGs para poder inferir qué genomas las codifican. El
análisis PSI-BLAST fue capaz de detectar fracciones de proteínas que se relacionaban
con COGs, de manera que se incrementó el número de proteínas conectadas a COGs.
Predicción de Funciones de Proteínas con el Sistema COG
El sistema COG permite la anotación automática funcional y filogenética de un gen o
conjunto de genes. El criterio para añadir posibles ortólogos de otros genomas a los
COGs ya existentes es el mismo que el criterio que utilizamos para formas los COGs.
Así, una proteína estará dentro de un COG si al realizar un análisis hay al menos dos
BeTs de esa proteína dentro de ese COG.
Siguiendo este proceso la información estructural puede ser inferida para al menos un
25% de los COGs. En muchos casos, la proteína analizada ya pertenece a un COG o es
un homólogo fuertemente relacionado con una de las proteínas de un COG.
Probablemente la aplicación más importante de los COGs es la caracterización
funcional de genomas recientemente secuenciados. En el análisis preliminar de los
recientes genomas publicados de la bacteria patógena humana más importante
Helicobacter pylori, 813 proteínas (51% de los productos de genes) de esta bacteria
fueron incluidos en 453 COGs pre-existentes y en 143 COGs nuevos. A pesar de que
muchas proteínas H. pylori son muy similares a homólogos de E.coli y otras bacterias
que han sido exploradas en detalle, este análisis produjo la adicción de alrededor de 100
predicciones funcionales.
Conclusiones y Perspectiva
Los COGs tienen campos de comparación de genomas y clasificación de proteínas.
Entre los numerosos acercamientos posibles a la clasificación de proteínas, los COGs
parecen ser únicos como prototipo de sistema natural, el cual tiene como unidad básica
un grupo de descendientes de un único gen ancestral. Típicamente, tal y como un grupo
es asociado con una función específica conservada, la inclusión de una proteína en un
COG implica la predicción funcional automática de esta proteína. Pero puede ocurrir
que un gen se pierda en un par de parálogos en un linaje pero no en otros, por lo que dos
COGs que deberían haber sido distintos podrían unirse artificialmente, por lo que habría
que dividir dichos COGs.
7
Introducción a la Biología Computacional
Cada COG contiene genes conservados de al menos 3 conjuntos distantes
filogenéticamente, y por lo tanto, corresponde a una región antigua que se ha
conservado. Análisis previos han indicado que el número total de ACRs (Regiones
Antiguas Conservadas) distintos, es probablemente menor que 1000. De esta manera,
incluso con el limitado número de genomas completos que están disponibles
actualmente para el análisis, los COGs han capturado ya una fracción substancial de
todos los dominios de proteínas existentes altamente conservados. Si se incluyen más
genomas en el sistema, el descubrimiento de COGs adicionales llegará a estabilizarse
gradualmente, donde la gran mayoría de los ACRs codificados en los genomas
existentes están en COGs conocidos.
Esperando una inundación de secuencias de genomas, es necesario un marco de trabajo
coherente para comprender estos genomas desde el punto de vista tanto funcional como
evolutivo. Consideramos la colección actual de COGs como una primera versión,
todavía algo cruda, de este marco de trabajo. La inclusión de nuevos y diversos
genomas filogenéticos y el diseño de los procedimientos usados para derivar y analizar
COGs esperamos que sean capaces de dar como resultado el refinamiento de este
sistema, convirtiéndola en una plataforma sólida para la anotación del genoma y la
evolución genómica.
En el caso de las proteínas que presentan varios dominios funcionales, este método de
clasificación no ofrece buenos resultados debido a que una misma proteína,
dependiendo del dominio que analicemos pertenecerá a un COG o a otro, razón por la
cual algunos COGs llegan a unirse, formando un COG que no aporta una buena
predicción funcional. Este problema se ha manifestado al aplicar el método en
organismos eucariotas, proporcionando unos resultados bastante malos.
8
Descargar