Musto, M. 2000. Estructura y evolución del genoma de los

Anuncio
ESTRUCTURA Y EVOLUCION DEL GENOMA DE LOS
VERTEBRADOS
Héctor Musto
Laboratorio de Organización y Evolución del Genoma, Sección Bioquímica, Facultad
de Ciencias. hmusto@fcien.edu.uy
Introducción
La selección natural puede entenderse como un proceso compuesto de dos fases:
la primera es la variación existente en todas las generaciones en poblaciones naturales,
la segunda es la selección propiamente dicha que consiste en la fijación de las variantes
más adecuadas por medio del éxito reproductivo diferencial de los organismos (véase
Altuna, este volumen). Darwin publicó su teoría de la selección natural en 1859, y
estableció explícitamente que no podía explicar las causas de la variación: “Hasta ahora
he hablado de variaciones como si fueran debidas al azar. Esta es, indudablemente una
expresión incorrecta, pero sirve para demostrar nuestra absoluta ignorancia acerca de las
causas de cada variación particular" (Darwin, 1859, “El origen ..."). Las leyes de
Mendel, publicadas en 1865 fueron redescubiertas recién en 1900, la mutación fue
descubierta por Hugo de Vries en 1901, y la teoría cromosómica de la herencia recién
en 1910 por Thomas H. Morgan. Hoy en día la biología ha avanzado hacia la
comprensión de los mecanismos moleculares que provocan la variación, y hacia un
mejor entendimiento de cómo han evolucionado los genes, los individuos y los
crecientes niveles de organización de la vida.
Desde esta óptica, el estudio de la organización y evolución del genoma resulta
de interés para diversas áreas de la biología. En primer lugar, para los genetistas es de
capital importancia saber cómo se organiza el material hereditario, o sea, cómo se
distribuyen las secuencias codificantes en el ADN, cuál es su distancia media, conocer
los sitios específicos (si es que los hay) de mutación y recombinación, la posible
influencia de la composición genómica (frecuencia de bases) para comprender el
bandeo y los rearreglos cromosómicos así como la estructura de la cromatina, etc. Los
biólogos moleculares, por su parte, intentan disecar las bases moleculares, bioquímicas
y biofísicas que puedan subyacer a las características antes mencionadas. Finalmente,
los evolucionistas comparan los distintos tipos de organización genómica para tratar de
conocer los factores causales que determinaron los cambios, a veces drásticos, que se
encuentran entre los distintos niveles de complejidad evolutiva, desde los virus y
procariotas hasta los mamíferos y plantas superiores. En los últimos años, algunos
impresionantes avances tecnológicos (como los secuenciadores automáticos y
programas de análisis y comparación de secuencias extremadamente potentes)
permitieron plantearse el objetivo de secuenciar genomas completos, entre ellos el de
nuestra especie, que se supone que estará disponible en unos dos años. En el momento
en que escribimos estas líneas (mayo, 2000) disponemos de las secuencias de 30
genomas completos de procariotas, a lo que hay que agregar la levadura Saccharomyces
cerevisiae, el nemátodo Caenorhabditis elegans y la mosca "modelo" Drosophila
melanogaster. Finalmente, ya están disponibles -y con acceso libre en los bancos de
datos- varios cromosomas completos de otros eucariotas como del parásito unicelular
Plasmodium falciparum y el cromosoma 21 humano. Dada la gran cantidad de
laboratorios involucrados en estos proyectos (y teniendo en cuenta los enormes recursos
económicos de que disponen) es posible esperar que en los próximos meses la
avalancha de genomas irá en aumento.
En este capítulo discutiremos las características generales de la organización y
evolución del genoma de los vertebrados, haciendo especial énfasis en el genoma
humano, y expondremos brevemente los temas polémicos entre los especialistas en el
tema.
El genoma de los vertebrados
A principios de la década de los 20 Winkler (citado por Bernardi, 1993) acuñó el
término "genoma" para definir a la totalidad de genes (de una célula haploide) de un
organismo. Naturalmente, las secuencias claramente no codificantes y de otro tipo,
como por ejemplo los transposones (secuencias con la potencialidad de moverse de un
sitio a otro del genoma), las secuencias reguladoras de la actividad génica, los
pseudogenes (“reliquias” de secuencias que en fueron activas en el pasado), los intrones
(secuencias que interrumpen la parte codificante de los genes y que no están
representados en el ARNm maduro ni, por lo tanto en la proteína) etc., no eran
conocidas en ese momento y por lo tanto no fueron incluidas en la definición. Sin
embargo, a pesar de esta limitación, el concepto elaborado por Winkler se sigue
utilizando y es operacionalmente válido.
La diferencia más clara entre los organismos vivos está dada por la ausencia o
presencia de un compartimento nuclear definido en el que se encuentra el material
genético. Los organismos sin núcleo son llamados colectivamente “procariotas”
mientras que el otro grupo está constituido por los “eucariotas”. Las bacterias y las
archaebacterias son procariotas mientras que el resto de los seres vivos, incluyendo los
mamíferos y plantas superiores, somos eucariotas. A nivel de organización genómica
también existen diferencias significativas entre ambos tipos de organismos. Por
ejemplo, el genoma de los procariotas es en la amplísima mayoría de los casos una
molécula única de ADN de permutación circular, cuya longitud en pares de bases (pb)
es del orden de 106, y en la cual los genes se encuentran distribuidos en forma muy
compacta, siendo por lo tanto la mayor parte del ADN codificante (transcripto a ARN) o
con funciones regulatorias.
En los organismos eucariotas la situación es radicalmente diferente. En primer
lugar, el material genético está organizado en moléculas de ADN lineales individuales,
en las cuales dos genes ligados (físicamente próximos) se encuentran, en general,
separados por distancias del orden de pocos cientos (en eucariotas unicelulares) a varias
decenas de miles de pb (en plantas y animales “superiores”). En segundo lugar, la
cantidad de ADN por genoma haploide (cantidad de ADN de los gametos) varía desde
aproximadamente 2,5 x 107 pb para eucariotas unicelulares hasta valores del orden de
1011 pb para algunas plantas y anfibios. A su vez, el número de genes diferentes es de
aproximadamente 2-3 x 103 en procariotas, 5 x 103 en eucariotas unicelulares y
aproximadamente 8 x 104 en mamíferos (Antequera y Bird, 1993; Li .
Cuando se considera la gran cantidad de ADN por genoma haploide que
caracteriza a los organismos estructuralmente complejos como los vertebrados y plantas
superiores, surge inmediatamente el problema de cómo este material genético se
organiza. Efectivamente, es posible postular que debe existir algún tipo de "orden" que,
entre otras funciones, habilite -o colabore- para que las decenas de miles de genes de,
por ejemplo, un mamífero, se expresen en forma ordenada, tanto desde el punto de vista
espacial (entre los distintos tejidos del organismo) como temporal (durante las distintas
fases del desarrollo). La magnitud del problema resulta más obvia si consideramos que
la totalidad de las secuencias transcriptas representan, por ejemplo en mamíferos, menos
del 5% de todo el ADN nuclear (Bernardi, 1989). Algunos otros puntos vinculados con
el mismo problema organizativo son: 1) ¿existen diferencias entre las zonas del genoma
-y de la cromatina- en la que se ubican los genes “housekeeping" (en castellano “amas
de casa", que son las secuencias que se transcriben todo el tiempo en todas las células
del organismo) y los espacial o temporal específicos?; 2) determinadas características
morfológicas de los cromosomas metafásicos, como las bandas, ¿tienen una
contrapartida a nivel de la organización genómica?; 3) esta organización genómica ¿es
conservada a lo largo de la evolución?, o sea, organismos emparentados
filogenéticamente ¿presentan un tipo de organización genómica similar? Finalmente,
¿es posible detectar causas que de alguna forma determinen un tipo de organización
genómica? Por otra parte, dado que la mayor parte de los trabajos acerca de la
organización del genoma se han realizado en vertebrados y plantas superiores, cabe
preguntarse si el genoma de otros organismos, como los eucariotas unicelulares,
presenta un tipo de organización "tipo vertebrado" o, por el contrario, las formas de
organización genómica difieren en los distintos phyla de los eucariotas. Una
característica importante de la organización genómica, y que ha generado mucha
polémica entre los especialistas en el tema, es la presencia de zonas o regiones que
difieren significativamente entre sí en la frecuencia relativa de las cuatro bases que
constituyen el ADN. En vertebrados, y otros organismos, estas regiones se han llamado
“isocoros”.
Organización del genoma en isocoros
Cuando el ADN genómico nuclear de vertebrados o plantas superiores es
centrifugado determinadas condiciones las moléculas de ADN se separan de acuerdo a
su composición de bases (ver por ejemplo Macaya et al., 1978) en un número discreto
de familias, las que, a su vez, están definidas por diferentes niveles de contenido en CG
(contenido molar de las bases citosina + guanina). Estos segmentos fueron denominados
"isocoros", o sea, "regiones iguales" (Cuny et al., 1981). Este nombre se debe a su
característica fundamental, o sea, que dentro de un isocoro la composición de bases,
definida como contenido en CG, es prácticamente constante. Las distintas familias de
isocoros se hallan alternadas sin un orden específico (Fig. 1), por lo tanto los genomas
de vertebrados (en especial de
mamíferos y aves) y de plantas
superiores están formados por
un verdadero "mosaico" de
isocoros
(Bernardi
1985).
et
al.,
Experimentos
biofísicos
realizados
hacia
finales de la década de los ’70
sugirieron que la longitud de
los isocoros es, en mamíferos
>200 kb; lo que se ha visto
confirmado
dramáticamente
Figura 1. Esquema de la organización en isocoros del genoma
humano. Se aprecia la estructura en “mosaico”, en el que los
isocoros, que miden mas de 300 kb, se alternan sin un orden
específico. Durante la preparación para su análisis, los isocoros
se degradan por acción mecánica, a fragmentos de
aproximadamente 100 kb.
por el análisis directo de la totalidad de los cromosomas 21 y 22 humanos, cuyas
secuencias se publicaron recientemente.
En el genoma humano se describieron cinco familias de isocoros: dos de ellas
“pobres” en CG (L1 y L2), y tres con un contenido más elevado en estas bases (H1, H2
y H3). Desde el punto de vista de su contenido relativo, las familias L consituyen
(juntas) el 63% del genoma,
mientras que las H son el
24,3%,
7,5%
y
4,7%,
respectivamente (Fig. 2). Este
“perfil
composicional”
genoma
humano
del
es
prácticamente idéntico al de la
mayor parte de los mamíferos
(la
sola
excepción
la
constituyen los múridos, ver
más adelante), lo que sugiere
que el contenido en CG de los
isocoros puede estar sometido
a selección natural. La zona de
transición entre un isocoro y el
siguiente es comparativamente
Figura 2 Perfil (o patrón) composicional de las familias de
isocoros de varios vertebrados. Cada barra representa las
cantidades relativas de los componentes principales. Se indican
la densidad de flotación y su equivalente en CG%.
corta: efectivamente, en pocos miles de pares de bases se cambia de un isocoro al
siguiente. En 1995 (Fukagawa et al.) se secuenció en el genoma humano la zona de
transición entre dos isocoros (L y H2), y se observó que del lado L había un
agrupamiento que ocupaba unos 20 kb de secuencias LINES, y del lado H2 otro
agrupamiento pero de secuencias SINES (LINES y SINES son secuencias repetidas
dispersas en el genoma de los mamíferos de función desconocida, siendo los primeros
más largos y con un contenido en CG% notoriamente más bajo que los segundos). Sin
embargo, este tipo de agrupamiento de secuencias dispersas sería característica del locus
MHC, ya que no fue confirmada en los cromosomas 21 y 22.
Patrones (patterns) y correlaciones composicionales
Los histogramas de las distribuciones composicionales de las moléculas de
ADN, como los mostrados en la Fig. 2, representan un patrón composicional que refleja,
a su vez, el tipo de isocoros de cada especie analizada. Otros patrones composicionales
son las distribuciones del contenido en CG de los exones así como de las tres posiciones
de los codones y de los intrones (Bernardi, 1995). Todos estos patrones composicionales
definen fenotipos genómicos que, como decíamos más arriba, son similares o idénticos
para organismos cercanos filogenéticamente, pero pueden diferir para especies no
emparentadas. Un hecho importante es que el patrón de los vertebrados de sangre
caliente (aves y mamíferos) difiere mucho del patrón de los vertebrados de sangre fría
(peces, anfibios y reptiles) lo que se ha vinculado con el origen de los isocoros ricos en
CG, característico de los primeros (ver más abajo). En la Fig. 3 se muestran los patrones
composicionales (en concreto, la distribución composicional del contenido en CG3, que
es la posición de los codones menos sujeta a restricciones funcionales, y por lo tanto,
con la mayor capacidad de variación) de cuatro genomas de organismos vertebrados,
para los cuales existen un número importante de secuencias conocidas: Xenopus laevis,
Gallus gallus, Homo sapiens y Mus musculus. Resulta interesante comparar estos
histogramas con la distribuciones composicionales de las moléculas de ADN de las
mismas especies mostradas en la Fig. 2. En esta figura, se ve claramente que las
moléculas de ADN de las cuatro especies presentan familias de isocoros diferentes.
Efectivamente, mientras que en X. laevis sólo se encuentran los isocoros
correspondientes a L1 y L2, en las demás especies se observan además las familias H.
En el genoma humano, como ya mencionamos, se encuentran presentes H1, H2 y H3,
Figura 3. Distribución composicional de los valores de CG3 (tercera posición de los codones,
también llamada “posición sinónima”) de los vertebrados mostrados en la figura 2. Se utilizó
una ventana de 2,5%. N significa el número de secuencias analizadas en cada especie.
en el ratón sólo H1 y H2 mientras que en el pollo existen H1, H2, H3 y aparece la
familia H4. Es interesante destacar que todas las aves estudiadas hasta la fecha
presentan los mismos componentes que el pollo, el genoma humano es esencialmente
idéntico al de todos los mamíferos con la excepción de los múridos los que, a su vez,
son los únicos mamíferos que carecen de la familia H3.
El tipo de distribución de las moléculas característico de cada grupo se refleja en
los histogramas mostrados en la Fig. 3. En Xenopus se observa que la distribución tiene
un rango menor que en las otras tres especies. Por otra parte es claramente unimodal y
está centrada en un valor de aproximadamente 45%, lo cual la aproxima a sus dos
familias de isocoros mostradas en la Fig. 2. En el caso del genoma del pollo, en el que
teníamos la distribución más amplia de isocoros, es en donde también tenemos el rango
más amplio en CG3. Dos aspectos interesantes de esta distribución son, por un lado, la
aparente bimodalidad de la distribución, cuyas causas se desconocen; y en segundo
lugar el hecho de que varios genes presentan un contenido en CG3 del 100%, lo que
significa que en este genoma algunas secuencias utilizan solamente el 50% de los
codones. En el caso de los genes de los dos mamíferos representados en la Fig. 3
también es evidente el paralelo entre la distribución de las moléculas de ADN y la
distribución de los contenidos en CG3, ya que en el genoma humano existe el
componente H3, lo que se refleja en una distribución más sesgada hacia genes más ricos
en CG en las posiciones sinónimas de los codones respecto a las secuencias de ratón, y
al hecho de que la familia L1 en el ratón es levemente más rica en CG que la familia L1
en el genoma humano. En resumen, resulta claro que existe una diferencia neta entre los
genomas de los vertebrados de sangre fría y los de sangre caliente: mientras que el ADN
de los primeros se caracteriza por presentar una heterogeneidad composicional baja y
sin alcanzar valores altos de CG, los últimos presentan una parte cuantitativamente
significativa de su genoma compuesta por isocoros ricos o muy ricos en CG; y esta
característica se refleja en la frecuencia de bases (sobre todo en los sitios sinónimos) de
las secuencias codificantes.
Este paralelismo entre los patrones composicionales a nivel de moléculas de
ADN y posiciones sinónimas dentro de los genes, sugiere que existe una correlación
entre ambos elementos. Efectivamente, en los genomas composicionalmente
heterogéneos
–particularmente
de
mamíferos
y
aves-
existen
correlaciones
composicionales positivas y significativas entre los exones (y las tres posiciones de sus
codones) y los isocoros en los que los genes están incluidos, así como entre los exones y
sus respectivos intrones (Aota e Ikemura, 1986; Musto et al., 1999). En general, se
puede afirmar que estas correlaciones involucran regiones codificantes y no
codificantes, ya que hay que tener en cuenta que los isocoros están formados
mayoritariamente por secuencias no codificantes. Efectivamente, mientras que la
longitud de un gen típico está en el entorno de los 400 o 500 aminoácidos, es decir,
1200 a 1500 bases codificantes, los isocoros pueden medir hasta 106 pb.
En la Fig. 4 se muestran varias correlaciones de este tipo a partir de datos
provenientes del genoma humano. La correlación de la Fig. 4a (CG de exones vs. CG de
los isocoros que los contienen) es muy importante por al menos tres razones. 1) Como
decíamos más arriba las secuencias codificantes sólo constituyen aproximadamente el
5% del genoma, mientras que las no codificantes son el 95% restante; 2) muestra que
mientras el contenido en CG de los exones localizados en los isocoros L1 y L2 es
prácticamente el mismo que el que define a los propios isocoros, las secuencias que
están inmersas en las familias H1 y fundamentalmente H2 y H3, presentan valores más
altos que la zona del genoma en la que están ubicadas. 3) Implica que las fuerzas que
determinan el contenido en CG operan en la misma dirección, aunque con diferente
Figura 4. Correlaciones composicionales en el genoma humano. a) Los valores de CG% de varios
exones son graficados contra los CG% de los isocoros donde fueron localizados experimentalmente
(mapeo composicional). b) CG de exones contra los valores de CG de los intrones correspondientes. c)
CG3 vs CG de los isocoros donde se ubican los respectivos genes.
amplitud, tanto en las secuencias codificantes como en los isocoros que las rodean. La
Fig. 4b, por su parte, muestra que el contenido en CG aumenta en forma paralela en los
exones y en sus respectivos intrones, aunque los últimos presentan, en forma
sistemática, valores aproximadamente 5% menores que los primeros. Finalmente, en la
Fig. 4c se aprecia la correlación existente entre el CG de las posiciones sinónimas
(CG3s) de los genes y el CG de los isocoros en los que las secuencias codificantes están
ubicadas. El análisis de la figura muestra claramente que la pendiente de la recta de
regresión es mayor a 1. Esto se debe a que en las regiones genómicas de bajo contenido
en CG (isocoros L1 y L2) los contenidos en CG de ambas “variables” son similares,
pero a medida que los genes se ubican en los isocoros H1, H2 y H3, el CG3s se hace
cada vez mayor. Dicho con otras palabras, cuanto más ricos en CG sean los isocoros en
los que están inmersos los genes, mayor será el CG de sus posiciones sinónimas. Por
razones de espacio, en este capítulo no discutiremos las causas que pueden generar el
uso de codones sinónimos en especies como los mamíferos y otros vertebrados; sin
embargo es importante destacar que dado que el CG3s es un reflejo directo del uso de
codones de las secuencias codificantes, resulta claro que los genes ubicados en los
isocoros L1 y H3, por ejemplo, difieren enormemente entre sí en el uso de los distintos
sinónimos.
Este tipo de correlaciones composicionales (así como otras que también existen
pero que no tenemos espacio para discutir) son importantes por dos aspectos diferentes.
En primer lugar, le dan apoyo a la idea ya planteada que postula que las fuerzas que
determinan la composición de bases de un determinado isocoro operan siempre en la
misma dirección, aunque con intensidad variable, sobre todas las secuencias que están
en él, independientemente de la función que cumplan. Esto lleva inclusive a que exista
una correlación también positiva entre el contenido en CG3s y el contenido en CG de las
posiciones 1 y 2 de los codones de cada gen. Esta correlación tiene un importante
significado funcional, ya que implica que los genes ubicados en los isocoros más ricos
en CG tienden a codificar, con una frecuencia más alta que las secuencias que están en
L1 y L2, para el subgrupo de aminoácidos codificados por codones ricos en C y /o G,
como alanina, glicina, arginina y prolina. Inversamente, los genes ubicados en L1 y L2
presentan una frecuencia más alta de aminoácidos codificados por codones ricos en A
y/o T, como fenilalanina, isoleucina, tirosina, asparagina y lisina. En otras palabras, si
comparamos los genes que están en L1 con los ubicados en H3, veremos que no sólo
presentan usos de codones distintos sino también codifican aminoácidos diferentes (para
una discusión más completa de este tema, ver D’Onofrio et al., 1999). En segundo
lugar, las correlaciones composicionales, y más particularmente, las ecuaciones de las
rectas de regresión, permiten ubicar con un grado de precisión muy alto cada gen en
cada región del genoma. Efectivamente, si nosotros conocemos de una secuencia
determinada su contenido en CG3s, sustituyendo ese valor en la ecuación podemos
predecir en cuál isocoro está inmersa en el genoma.
Distribución de los genes en los distintos isocoros
Ya los primeros trabajos de ubicación de genes en las fracciones
composicionales del genoma humano había mostrado que éstos no estaban distribuídos
al azar. En principio, dado que los isocoros L constituyen aproximadamente el 60% de
todo el genoma, se podría esperar que en estos componentes se ubicaran más de la mitad
de las secuencias, mientras que cada componente H tendría, a medida que se avanza
hacia valores más altos de CG, menos secuencias incluidas. Sin embargo la realidad es
exactamente la opuesta. Como se dijo más arriba, la correlación mostrada en la Fig. 4c
habilita rápidamente a ubicar a cada gen en su isocoro. Una vez hecho esto, si
simplemente se divide el número de genes en cada isocoro por la fracción que este
isocoro representa en el total del genoma, se observa que la concentración de genes es
baja en las familias L, se incrementa en H1 y H2 y llega al máximo en H3, familia de
isocoros en la que la concentración de genes es aproximadamente 20 veces mayor que
en L, lo que se ha visto confirmada por los análisis de la distribución de genes en los
cromosomas humanos 21 y 22. Esta asimetría en la distribución tiene importantes
consecuencias evolutivas.
Como es sabido, la amplísima mayoría de los genes que se encuentran en el
genoma humano tienen su secuencia equivalente, inclusive cumpliendo la misma
función o una similar, en el genoma de los vertebrados de sangre fría. Por lo tanto, las
secuencias que se enriquecieron en CG son un subgrupo de las que estaban presentes en
los terápsidos (último vertebrado de sangre fría ancestro común de todos los
mamíferos), y en ese genoma eran, sin duda, comparativamente más pobres en CG.
Pero, no solamente constituyen un subgrupo, sino que son las mismas secuencias las
que acumularon mutaciones hacia C y G. Esto queda demostrado en la Fig. 5, donde se
comparan los niveles de CG3s de genes ortólogos provenientes de Homo sapiens con los
de Xenopus, Gallus, Bos y Mus (genes ortólogos son aquellos genes que se encuentran
en dos -o más- organismos debido a eventos de especiación; por lo tanto la amplísima
mayoría de las veces presentan niveles de identidad muy altos y cumplen la misma
función). Como se aprecia en la Fig. 5c, (comparación humano vs bovino) la correlación
es muy alta (R = 0.96) y la pendiente de la recta es aproximadamente 1. En la Fig. 5d
(humano
vs
correlación
ratón)
es
la
altamente
significativa (R = 0.86) pero la
pendiente es mayor a 1, lo cual
se debe al hecho (discutido
más arriba) de las diferencias
entre los genomas de ambas
especies. Independientemente
de las diferencias menores
entre
los
mamíferos,
el
aspecto más importante que se
deduce de la figura es que a
pesar
de
haber
acumulando
estado
mutaciones
durante 65 millones de años
(que
es
el
tiempo
de
divergencia estimado de los
Figura 5. Los valores de CG3 de genes humanos se plotearon
contra los niveles de CG3 de secuencias ortólogas de otros
vertebrados.
mamíferos considerados) los genes ortólogos mantienen niveles prácticamente idénticos
de CG en las posiciones sinónimas. También es altamente sugestiva la Fig. 5b, donde
vemos que a pesar de que las aves surgen mucho más tarde (y no comparten con los
mamíferos su último ancestro reptil, ver más adelante), nuevamente la correlación es
estadísticamente significativa (R = 0.60), por lo que resulta evidente que los genes ricos
en CG3s en mamíferos son, en su mayor parte, los mismos que en las aves. Todas estas
correlaciones sugieren fuertemente que podría existir un factor selectivo común que
determinara que a) en los organismos homeotermos (y sólo en ellos) aparecieran los
isocoros H, y b) sean las mismas secuencias las que se ubicaran en esos isocoros.
Finalmente, la Fig. 5a (genes humanos vs secuencias ortólogas de Xenopus) muestra que
a pesar de que en los vertebrados de sangre fría no existen las familias H, hay una
tendencia (estadísticamente significativa) a que los genes ricos en CG en las posiciones
sinónimas de los mamíferos también lo sean en Xenopus. Por lo tanto, es posible
postular que los genes que se enriquecieron en CG en mamíferos, ya eran
comparativamente ricos en esas bases en los vertebrados poiquilotermos.
El origen de los isocoros
Como ya mencionamos, existen dos tipos de organización diferente entre los
vertebrados. Por un lado, los homeotermos presentan una heterogeneidad composicional
marcada y tienen isocoros ricos en CG, mientras que los genomas de los poiquilotermos
son menos heterogéneos y no presentan los isocoros H. A su vez, estas características se
reflejan en histogramas diferentes cuando analizamos, en cada especie, los contenidos
en CG de las posiciones sinónimas, exones, intrones, etc. Por lo tanto, se puede afirmar
que los patrones composicionales de aves y mamíferos son parecidos entre sí y, al
mismo tiempo, diferentes del patrón poiquilotermo, tanto en los niveles de ADN como
de secuencias codificantes. Dado que los mamíferos y las aves derivan de organismos
de sangre fría (que se supone presentaban una organización en isocoros similar a la de
los poiquilotermos actuales), se deduce que la mayor heterogeneidad composicional, y
particularmente la aparición de los isocoros H, es coincidente con la aparición de los
organismos de sangre caliente. Dicho con otras palabras, regiones definidas y discretas
del genoma “poiquilotermo” se enriquecen en CG% en los genomas “homeotermos”.
Por lo tanto, en la evolución de los genomas de los vertebrados ocurrieron dos
"corrimientos" (transiciones) principales en los patrones composicionales: uno que tuvo
como consecuencia el genoma tipo “mamífero” y el otro el genoma tipo “aves”. Es muy
importante tener en cuenta que estas transiciones ocurrieron en forma independiente, ya
que la evidencia paleontológica indica que los mamíferos derivaron de los terápsidos
hace más de 200 millones de años, mientras que las aves aparecieron a partir de los
dinosaurios unos 50 millones de años después (Romer y Parsons, 1981; Strickberger,
1990). A las regiones del genoma de mamíferos y aves que todavía presentan el CG
equivalente al de los isocoros de los organismos poiquilotermos (o sea, L1 y L2) se les
llama “paleogenoma”, mientras que a las zonas que se enriquecieron en CG en los
orgamismos homeotermos se les dio el nombre de “neogenoma”.
El hecho de que son los mismos genes (y las mismas regiones genómicas) las
que se enriquecieron en CG% en aves y mamíferos (ver la Fig. 5b), sugiere que las
causas que determinaron estas transiciones pueden ser comunes. Se ha discutido mucho
acerca de cuáles pueden ser estas causas, e inclusive hay autores que postulan que el
origen de los isocoros (particularmente los ricos en CG) no tiene ninguna causa
selectiva. Revisaremos brevemente ambas posiciones.
A partir del descubrimiento de que distintos genomas bacterianos poseen
diferentes composiciones nucleotídicas (Lee et al. 1956; Belozerski y Spirin, 1958) se
postuló que las diferencias se debían a sesgos mutacionales en el sistema de
replicación/reparación del ADN, o sea a diferencias en las tasas de mutaciones
asociadas con cambios GC↔AT (Freese, 1962; Sueoka, 1962). Con distintas
variaciones, Sueoka (1962, 1988, 1992) postula que esos sesgos mutacionales explican
también la distinta composición nucleotídica intragenómica característica de los
vertebrados, particularmente en aves y mamíferos. Entre las distintas objeciones que se
han levantado contra esta hipótesis, creemos que hay dos muy fuertes. En primer lugar,
los sesgos en los sistemas enzimáticos de replicación/reparación tendrían que haber
ocurrido solamente dos veces en la evolución de los vertebrados, a saber, sólo en las
líneas que dieron lugar a las aves y mamíferos, y jamás en todos los demás linajes que
dieron lugar a los poiquilotermos contemporáneos. En segundo lugar, explicar de esta
forma la aparición de los isocoros implica postular que dentro de los genomas de
mamíferos y de aves existen no uno sino varios sesgos mutacionales diferentes
operando en forma simultánea (recordamos que en el genoma de los vertebrados las
familias de isocoros se encuentran dispersas sin un orden específico, por lo que éstos
genomas son, desde el punto de vista composicional, un "mosaico"), por lo que se
vuelve imprescindible postular desde esta óptica que distintas zonas del genoma son
duplicadas/reparadas por distintas enzimas con distintos sesgos. Mencionemos, además,
que el hecho de que los isocoros ricos en CG representen en aves y mamíferos la misma
fracción del genoma (aproximadamente un tercio), a pesar de diferir el valor C (cantidad
de ADN por genoma haploide) por un factor de tres, sería, desde esta óptica, una
extraordinaria coincidencia.
Otra hipótesis postula que la formación de los isocoros ricos en CG se debe a
cambios en la concentración de los precursores del ADN (o sea, los desoxinucleótidos
tri fosfato, abreviados como dA, dC, dG y dT) durante el período de duplicación en la
línea germinal, de forma tal que habría niveles incrementados de dG y dC durante la
primera parte de la fase S (momento del ciclo celular en que se duplica el ADN) y de
dA y dT durante la segunda (Wolfe et al., 1989; Gu y Li, 1994). Esta idea postula que
no hay ningún sesgo intrínseco en las enzimas que duplican el ADN, sino que al haber
más de determinados precursores al inicio de la replicación, en la primera parte de la
fase S la mayor parte de los errores tendería a enriquecer en C y G las regiones
duplicadas, y a enriqucer en A y T en las zonas de replicación más tardía. Esta idea es
muy atractiva, debido al hecho de que los isocoros ricos en CG son los que
efectivamente se duplican primero (Goldman et al., 1984). Sin embargo, también se
pueden levantar objeciones a esta hipótesis.
En primer lugar, la heterocromatina constitutiva de mamíferos (regiones del
genoma que permanecen condensadas durante todo el ciclo celular y que no poseen
genes) se duplica tarde durante la fase S, y sin embargo una fracción importante de estas
secuencias son ricas en CG, lo que no es esperable de acuerdo a la hipótesis planteada.
En segundo lugar, en las hembras de los mamíferos el cromosoma X condensado es
también duplicado en forma tardía, pero está formado por isocoros de igual naturaleza
que el resto de los cromosomas, lo que tampoco es coincidente. (En mamíferos las
hembras tienen dos cromosomas X, y en todas las células sólo uno de ellos es activo,
mientras que el otro permanece condensado). Por lo tanto, la concentración variable de
desoxinucleótidos durante la fase S no se vincula en forma clara con la composición del
ADN duplicado. Finalmente, aunque no de poca importancia, esta propuesta tampoco
explica por qué jamás ocurrió una diferente concentración de desoxinucleótidos en la
línea germinal de los poiquilotermos, ni por qué las regiones que aumentaron el
contenido en CG en aves y mamíferos representan la misma proporción del genoma.
Un aspecto en común que tienen las dos hipótesis discutidas es que son
esencialmente neutralistas, es decir, ambas propuestas postulan (explícita o
implícitamente) que la selección natural no afecta de ninguna manera la composición
del ADN, aunque sugiere una adaptación del genoma respecto a las condicionantes
internas. El grupo de Bernardi (descubridor de los isocoros) propone una explicación
diametralmente opuesta.
La idea central de este grupo es que las transiciones composicionales que
llevaron a la aparición de los isocoros ricos en CG en mamíferos y aves se debe
fundamentalmente a selección direccional, tanto positiva como negativa, actuando a
nivel de los isocoros. A pesar de que las ventajas selectivas asociadas con los patrones
composicionales pueden ser difíciles de identificar (no cabe duda que muchos factores
deben estar actuando en forma simultánea), existe en la evolución de los vertebrados un
hecho que podría explicar la aparición de los isocoros H. Efectivamente, el corrimiento
composicional no ocurrió en alguno de los diversos pasos que caracterizaron la
evolución de los vertebrados (de anamniotas a amniotas, de peces a tetrápodos, etc.)
sino sola y únicamente en las transiciones de poiquilotermos a homeotermos. Esto,
afiman Bernardi y sus colegas, sugiere inmediatamente que uno de los factores
principales para el cambio en los patrones composicionales fue el aumento de la
temperatura corporal.
El incremento en CG en los homeotermos parece lógico -en lo que a ventajas
selectivas se refiere- ya que lleva a mayor estabilidad desde el punto de vista
termodinámico, tanto en los niveles de ADN y ARN como de proteínas (Bernardi y
Bernardi, 1986). Efectivamente, la riqueza en CG incrementa la estabilidad del ADN, ya
que los pares de bases CG se unen por tres puentes de hidrógeno contra dos puentes de
los pares AT; y esto ocurre no sólo en solución sino también a nivel de cromosomas,
como lo indican las técnicas de bandeo R y T, que muestran que las regiones ricas en
CG son más estables frente a la desnaturalización térmica que las bandas G, más pobres
en C+G (Dutrillaux, 1977). El referido aumento también tiene como consecuencia un
incremento de la estabilidad térmica del ARN, ya que los transcriptos pueden adquirir
una estructura secundaria más estable. Finalmente, a nivel de proteínas, los genes que
están ubicados en zonas del ADN ricas en CG codifican niveles mayores de
aminoácidos que confieren mayor estabilidad termodinámica (como arginina, alanina y
glicina), y menos de los que la reducen (como serina y lisina). A pesar de lo atractivo de
esta hipótesis, es necesario remarcar que bajo ningún concepto postula que el aumento
de la temperatura corporal sea el único factor que llevó a la aparición de los isocoros
ricos en CG característicos de los homeotermos; simplemente pone el acento en una
ventaja selectiva que resulta obvia, reconociendo, al mismo tiempo, que algo tan
complejo como el fenotipo global del genoma debe ser necesariamente el resultado de
múltiples factores que actúan en forma simultánea.
***
Para finalizar con esta sección, nos parece importante señalar que los estudios
sobre las propiedades composicionales del ADN de organismos multicelulares
complejos, desarrollados fundamentalmente en los últimos 25 años, han mostrado en
forma clara que el genoma es mucho más que la simple sumatoria de secuencias
codificantes y no codificantes. Efectivamente, el genoma debe ser considerado como un
sistema estructural, funcional y evolutivo cuyas secuencias nucleotídicas están
sometidas a reglas precisas que constituyen un “código genómico" (Bernardi, 1995).
Esta teoría de la organización, fisiología y evolución del genoma asume que las
propiedades composicionales de las moléculas de ADN (composición de bases,
dinucleótidos y otras secuencias cortas) son características decisivas para la estructura,
función y evolución del genoma. En otras palabras, el genoma de los vertebrados no
sería
sólo
un
mosaico
estructural
y
funcional
(transcripción,
duplicación,
recombinación) de isocoros, sino que es, al mismo tiempo, un mosaico evolutivo, en el
que cada región, definida por su composición de bases, se diferenciaría también de las
otras por distintos niveles de restricciones evolutivas. Este concepto podrá ser testado en
el futuro próximo cuando estén disponibles las secuencias de genomas completos de
distintos vertebrados.
Agradecimientos
Agradezco a Helena Rodríguez-Maseda por la lectura crítica de varios borradores, y a
Héctor Romero y Alejandro Zavala por el trabajo gráfico.
Bibliografía
Antequera, F. y Bird, A (1993): Number of CpG islands and genes in human and
mouse. Proc Natl Acad Sci USA (1993) 90:11995-11999.
Aota S. e Ikemura, T.: Diversity in G+C content at the third position of codons
in vertebrate genes and its cause. Nucleic Acids Res (1986) 14:6345-6355.
Belozerski, A. y Spirin, A.: A correlation between the compositions of
deoxyribonucleic acids and ribonucleic acids. (1958) Nature 182:111-112.
Bernardi, G.: The isochore organization of the human genome. Annu Rev Genet
(1989) 23:637-661.
Bernardi, G.: The isochore oganization of the human genome and its
evolutionary history - a review. Gene (1993) 135:57-66.
Bernardi, G.: The human genome: organization and evolutionary history. Annu
Rev Genetics (1995) 29:445-476.
Bernardi, G. y Bernardi, G.: Compositional constraints and genome evolution. J
Mol Evol (1986) 24:1-11.
Bernardi, G., Olofsson, B., Filipski, J., Zerial, M., Salinas, J., Cuny, G.,
Meunier-Rotival, M. y Rodier F : The mosaic genome of warm-blooded vertebrates.
Science (1985) 228:953-956.
Cuny, G., Soriano, P., Macaya, G. y Bernardi, G.: The major components of the
mouse and human genomes: preparation, basic properties and compositional
heterogeneity. Eur J Biochem (1981) 111:227-233.
D'Onofrio, G.; Jabbari, K.; Musto, H.; Alvarez-Valin, F.; Cruveiller S. y
Bernardi, G.: Evolutionary genomics of vertebrates and its implications. In: Molecular
Strategies in Biological Evolution. Caporale, L. H. and Arber, W. (Eds). Ann. N. Y.
Acad. Sci. (1999) 870:81-94.
Dutrillaux, B.: New chromosome techniques. En: Yunis J (Ed). Molecular
structure of human chromosomes. Academic Press, New York. (1977). 233-265.
Freese, J.: On the evolution of base composition of DNA. J Theor Biol (1962)
3:82-101.
Fukagawa, T., Sugaya, K., Matsumoto, K-i., Okumura, K., Ando, A. et al.:
Characterization of the boundary region of long-range G+C% mosaic domains in the
human MHC locus; pseudoautosomal boundary-like sequence near the boundary.
Genomics (1995) 25:184-191.
Goldman, M., Holmquist, G., Gray, M., Caston, L. y Nag, A.: Replication timing
of genes and middle repetitive sequences. Science (1984) 224:686-692.
Gu, X. y Li, W-H.: A model for the correlation of mutation rate with GC content
and the origin of GC- rich isochores. J Mol Evol (1994) 38:468-475.
Lee, K., Wahl, R. y Barbu, E.: Contenu en bases puriques et pyrimidiques des
acides désoxyribonucléiques des bactéries. (1956) Ann Inst Pasteur 91:212-224.
Li, W-H. y Graur, D.: Fundamentals of molecular evolution. Sinauer Associates.
(1991).
Macaya, G., Cortadas, J. y Bernardi, G.: An analysis of the bovine genome by
density-gradient centrifugation. Eur J Biochem (1978) 84:179-188.
Musto, H.; Romero, H.; Zavala, A. y Bernardi, G.: Compositional correlations in
the chicken genome. J Mol Evol (1999) 49:325-329.
Romer, A. y Parsons, T.: Anatomía comparada, 5ta. Ed. Interamericana, México.
(1981).
Strickberger, M.: Evolution. Jones and Barlett Publishers, Boston. (1990).
Sueoka, N.: On the genetic basis of variation and heterogeneity of DNA base
composition. Proc Natl Acad Sci USA (1962) 48:582-592.
Sueoka, N.: Directional mutation pressure and neutral molecular evolution. Proc
Natl Acad Sci USA (1988) 85:2563-2567.
Sueoka, N.: Directional mutation pressure, selective constraints, and genetic
equilibria. J Mol Evol (1992) 34:95-114.
Wolfe, K., Sharp, P. y Li, W-H.: Mutation rates differ among regions of the
mammalian genome. Nature (1989) 337:283-285.
Descargar