TEMA MONOGRÁFICO GENÉTICA BÁSICA (I) Genoma humano y estructura básica de los genes J. Oriolaa y R. Olivab a Servicio de Hormonología. Centro de Diagnóstico Biomédico. Hospital Clínic. Barcelona. bServicio de Genética. Centro de Diagnóstico Biomédico. Hospital Clínic. Institut d’Investigacions Biomèdiques August Pi i Sunyer (IDIBAPS). Barcelona. EL GENOMA HUMANO CONTENIDO DE INFORMACIÓN Y NÚMERO DE GENES DEL GENOMA HUMANO El genoma humano es el material genético característico de la especie humana (fig. 1)1. Básicamente, el 99,9% de este material puede hallarse representado en el ADN (ácido desoxirribonucleico) contenido en una sola célula humana. Así, el genoma está constituido por 23 pares de moléculas de ADN. Cada molécula de ADN tiene una longitud que oscila entre 50 y 250 millones de bases, y la suma de todos ellos es de 6.000 millones de bases en estado diploide o de 3.000 millones en estado haploide (fig. 1). También la información genética que presentan las mitocondrias forma parte del genoma humano. El ADN mitocondrial humano consta de un solo filamento circular constituido por 16.569 pares de bases (pb). En general, en cada célula hay varios cientos de mitocondrias, por lo que hay varios cientos de copias de ADN mitocondrial en cada célula. Para poder valorar lo que la cifra de 3 × 109 pb supone, es útil establecer comparaciones. Si tuviésemos que escribir esta secuencia, llenaríamos 200 guías de teléfono de Barcelona (1.000 páginas cada tomo). En cuanto a sus dimensiones lineales, si estirásemos todos los cromosomas de una sola célula y los dispusiésemos uno a continuación del otro, la longitud sería de 2 m (el cromosoma más pequeño, el 21, mediría 3 cm, y el más grande, el 1, mediría 16 cm). Pero el material genético característico de la especie humana no es sólo este ADN presente en una sola célula, sino que hay que considerar, además, la variación génica presente en los distintos individuos. Aproximadamente una de cada 270 bases varía entre cada 2 personas, por lo que para conocer la verdadera magnitud del genoma humano, a los 3.000 millones de bases hay que sumarle toda la variación génica presente en la especie humana (fig. 1). Humanidad •Personas: 5 x 109 •El genoma difiere en una de cada 270 bases entre cada 2 personas Individuo •Células: 1013 •El genoma es casi idéntico entre las células de un individuo Célula •Cromosomas: 23 pares •Pares de bases: 6 x 109 (en estado diploide) + genoma mitocondrial (16.569 pb) •50.000-100.000 genes La información genética de la especie humana viene determinada por la secuencia de las cuatro bases (adenina [A] guanina [G], citosina [C], y timina [T]) (fig. 1). La secuencia de estas bases de cada uno de nosotros (el genotipo) es lo que determina junto con el ambiente (dieta, exposición física, aspectos sociales, etc.) lo que somos (el fenotipo). La molécula de ADN está formada por dos hebras que se aparean perfectamente entre sí gracias a que las bases son complementarias dos a dos (la A con la T, y la G con la C) (fig. 1). Cada vez que una célula humana se divide (proceso denominado mitosis), debe copiar toda esta información y a continuación repartirla, en partes iguales, a cada célula hija. Este gigantesco trabajo se puede incluso realizar en 1-2 h y no deben generarse errores de copia. De esta forma, se transmite exactamente la misma información genética a cada una de las células hijas. Pero la información contenida en el genoma humano no se distribuye de forma uniforme a lo largo de la secuencia, sino que se concentra sobre todo en determinadas secuencias denominadas genes (fig. 2). Los genes representan las unidades funcionales del genoma y normalmente la información contenida en ellos sirve para dar lugar a proteínas (figs. 2 y 3). Se supone que existen alrededor de 30.000-50.000 genes repartidos entre todos los cromosomas. Muchos de ellos ya son conocidos en detalle, así como sus posiciones en el genoma, mientras que del resto se dispone de representaciones en las bases de datos. El primer cromosoma humano en secuenciarse fue el cromosoma 22 y en él se hallaron 545 genes y 134 seudogenes2. Estos últimos son genes que contie- Cromosoma •Moléculas de ADN: 2 •Tamaño: entre 5 x 107 pb y 2,5 x 108 pb Gen •Unidad hereditaria y funcional (con excepciones) •Tamaño: entre 400 y 2 x 106 pb ADN •Ácido desoxirribonucleico •Compuesto por 4 tipos de bases distintas: adenina (A), guanina (G), citosina (C) y timina (T). que se aparean entre sí (A:T y G:C) •En la secuencia de las bases se halla la información genética Figura 1 Composición del genoma humano. El genoma humano es el material genético característico de la especie humana. Suele quedar representado como la secuencia de las bases del ADN de los 22 cromosomas autosómicos más los cromosomas sexuales X e Y presentes en una sola célula (centro de la imagen). A su nivel más elemental el genoma está compuesto por 4 bases distintas (A, G, C y T; derecha). A su nivel superior el genoma debe considerarse como la secuencia prototipo presente en una célula más la variación existente entre todos los individuos presentes en la humanidad (izquierda)1. TEMA MONOGRÁFICO GENÉTICA BÁSICA (I) Genoma humano y estructura básica de los genes J. Oriola y R. Oliva dos obtenidos con la secuenciación del genoma humano, se conoce hoy la existencia de ADN genómico multitud de seudogenes (por cada 4-5 genes Exón 1 Intrón 1 Exón 2 Intrón 2 Exón 3 Región promotora funcionales habría uno no funcional). 5’ 3’ No obstante, a medida que avanza el conocimiento sobre este ADN que separa a Transcripción los genes, se van descubriendo posibles ARN tránscrito 5’ 3’ funciones. Por ejemplo, la secuencia del exprimario tremo 5’ de los genes (la secuencia anterior Intrones al inicio de la transcripción) contiene inforAUG UGA mación para la unión de factores de transProcesamiento cripción específicos de cada gen. De hecho, ARN mensajero Poly-A del ARN ( 5’ UTR estas regiones llamadas “promotoras” pue3’ UTR y poliadenilación) Región codificante den considerarse también como parte de los genes y pueden estar formadas por más Traducción de 3.000 pb. Dentro de cada gen, hay seCOOH NH2 Proteína cuencias no codificantes (intrones), que forman alrededor del 80-90% del gen (fig. 2). Figura 2 Estructura de un gen eucariota y principales procesos de expresión génica. Se representa Adicionalmente, este ADN que separa a un gen con 3 exones y 2 intrones. Su transcripción da lugar al ARN tránscrito primario que es procesado para preparar su extremo 3’ y eliminar los intrones (splicing). Finalmente, los los genes, o el ADN presente en los introARN mensajeros son traducidos por el ribosoma para dar lugar a la proteÍna correspondiennes, podría tener la función de incrementar te (véase la fig. 3 para el detalle molecular de la clave de la traducción proteica a través del la frecuencia de recombinación meiótica código genético). La regulación de estos procesos de expresión génica se trata en el segundo aumentando la generación de combinaciocapítulo de este monográfico. nes alélicas en la especie humana. Otro tipo de secuencias no codificantes son las repetitivas. Estas secuencias se pueden dividir entre las repetidas en 5’ 3’ tándem y las secuencias dispersas1. Las secuencias repetidas en tánADN dem son características de la región central de los cromosomas (centró3’ 5’ meros) y garantizan la correcta distribución de los cromosomas en las células hijas durante la división celular. En estas regiones hay muy poARNm 5’ 3’ cos genes. También hay repeticiones en tándem en las regiones finales de cada cromosoma (telómeros), los cuales ayudan a mantener la estabilidad y la individualidad de cada cromosoma durante la replicación. 3’ 5’ ARNm Cada telómero está formado por 250-1.500 secuencias TTAGGG repetidas3. No todos los tipos celulares presentan el mismo número de repeticiones, póngase como ejemplo a los cromosomas de los espermaARNE tozoides que son los que poseen los telómeros más largos. Esta secuenArginina a n Alani cia telomérica la poseen todos los vertebrados estudiados hasta ahora. Tirosina Ribosoma nina o i Otras regiones repetidas en tándem corresponden a genes implicados t Me Síntesis de proteína en la fabricación de los ribosomas. Éstos se hallan repetidos cientos de veces en los brazos cortos de los cromosomas 13, 14, 15, 21 y 22. Figura 3 Transmisión de la información del ADN al ARNmensajero (ARNm) Entre las secuencias dispersas más abundantes se hallan las sey su decodificación a través del código genético. La transcripcuencias Alu I (regiones que contienen la secuencia AGCT que es ción de la cadena antisentido del ADN da lugar a un ARNm (con reconocida por la enzima de restricción Alu I). Estas secuencias sentido). La transmisión de la información del ADN al ARN se aparecen repetidas cerca de un millón de veces en el genoma, con produce por complementariedad de las bases correspondientes una longitud cada una de 300-500 pb. Por sí solas, estas regiones re(T-A, A-U, C-G, G-C). La clave del código genético consiste en que presentan alrededor del 6-8% del genoma humano1. Hay teorías a cada aminoácido le corresponde uno o varios triplete de bases que intentan explicar la presencia de estas regiones Alu I, pero nincaracterísticos (véase tabla I). La síntesis proteica tiene lugar en el ribosoma en donde se van incorporando los distintos guna de ellas ha sido hasta ahora aceptada de forma general. Otro “ARNt-aminoácido” apareándose perfectamente al siguiente tritipo de secuencias dispersas son las denominadas microsatélites. plete libre en el ARNm. En el ribosoma tiene lugar el enlace coEstas secuencias se hallan más o menos distribuidas uniformemenvalente (enlace peptídico) entre los distintos aminoácidos para te dentro del genoma y son hipervariables o polimórficas. En estos dar lugar a la proteína correspondiente. momentos no se les conoce función alguna, aunque sí son de gran ayuda en diagnóstico e investigación (p. ej., estudios de ligamiento, nen aberraciones en su secuencia y que, por ello, no son expresados paternidades, pérdida de heterozigosidad, etc. (véase capítulos por la maquinaria celular. Si partimos de que hay unos 40.000 genes “Herramientas básicas de análisis genético” de este monográfico). funcionales en total y que la mayoría de genes tienen una longitud entre 3.000 y 10.000 pb, haciendo un simple cálculo obtendremos que entre todos los genes se necesitan entre 120 y 400 millones de pb. Si ESTRUCTURA BÁSICA DE LOS GENES. sabemos que el genoma humano tiene alrededor de 3.000 millones, el INTRONES Y EXONES resultado es que hay mucho ADN (alrededor del 87%) entre gen y gen que, aparentemente, no contiene información. Entre este ADN La unidad básica de información genética es el gen (fig. 2). Un gen que aparentemente no contiene información, y a la luz de los resultase puede definir como una región (física) del ADN cuya secuencia TEMA MONOGRÁFICO GENÉTICA BÁSICA (I) Genoma humano y estructura básica de los genes J. Oriola y R. Oliva TABLA I Código genético UUU UUC UUA UUG CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG Fenilalanina (Phe, F) “ Leucina (Leu, L) “ Leucina (Leu, L) “ “ “ Isoleucina (Ile, I) “ “ Metionina (Met, M) Valina (Val, V) “ “ “ UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG Serina (Ser, S) “ “ “ Prolina (Pro, P) “ “ “ Treonina (Thr, T) “ “ “ Alanina (Ala, A) “ “ “ UAU UAC UAA UAG CAU CAC CAA CAG AAU AAC AAA AAG GAU GAC GAA GAG Tirosina (Tyr, Y) “ Stop Stop Histidina (His, H) “ Glutamina (Gln, Q) “ Asparagina (Asn, N) “ Lisina (Lys, K) “ Aspártico (Asp, D) “ Glutámico (Glu, E) “ UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG Cisteína (Cys, C) “ Stop Triptófano (Trp, W) Arginina (Arg, R) “ “ “ Serina (Ser, S) “ Arginina (Arg, R) “ Glicina (Gly, G) “ “ “ Se indica el aminoácido codificado por cada triplete. Entre paréntesis se indican también las dos posibles abreviaciones empleadas para cada aminoácido. El código genético presentado corresponde al del genoma nuclear. El código genético para el genoma mitocondrial, para bacterias y para algunos organismos inferiores difiere en determinados codones respecto al código presentado aquí. de bases contiene información para dar lugar a una unidad transcripcional con sus diversas secuencias reguladoras asociadas. El tamaño de los genes oscila entre los 500 pb del gen de la protamina4 (uno de los más pequeños) y los 3 millones de pb del gen de la distrofina5 (uno de los más grandes), aunque por término medio poseen alrededor de 3.000-10.000 pb6,7. Otras características importantes de los genes es que poseen polaridad 5’-3’, esto es, el gen se lee en sentido 5’-3’ y no al revés (figs. 2 y 3). También cabe señalar que en la región anterior al inicio del primer exón existe la región promotora (fig. 2). A esta región del ADN se unen factores de transcripción, ya sean específicos o generales (véase capítulo 2 de este monográfico, específico para los aspectos de regulación de la expresión génica). Los primeros genes que se estudiaron fueron los bacterianos. En ellos, cuando se sintetiza el ARN mensajero (ARNm) se observa el mismo orden de nucleótidos que posee el ADN, teniendo en cuenta que en el ARN la timina (T) es sustituida por el uracilo (U) (fig. 3). Cuando se empezaron a estudiar los genes en eucariotas, se consideró que tendrían estructuras parecidas. Pronto se comprobó que no era así. Los genes que se hallan en organismos eucariotas poseen intrones (fig. 2). Los intrones son los segmentos de ADN que no están presentes en el ARNm y, por tanto, no se traducen en aminoácidos. Los intrones constituyen el 85-95% de la secuencia nucleotídica de un gen, es decir, sólo una pequeña parte de la secuencia de un gen pasa a ARNm. En la mayoría de casos, se desconoce la función de los intrones. Tan sólo sus extremos (alrededor de 4 o 5 pb) participan de una forma muy importante en la maduración del ARNm. En algunos genes, no obstante, se han hallado regiones reguladoras que se hallan dentro de los intrones. Como casos puntuales que ayudan a entender la gran diversidad estructural de los genes, cabe mencionar al gen que codifica para la enzima 21-hidroxilasa (CYP21), y al gen de la tenascina-XB, ambos superpuestos en sus extremos 3´ terminales6. Uno se transcribe de “izquierda a derecha” y el otro de “derecha a izquierda”. Otro ejemplo curioso es el caso del gen NF-1, el cual posee 3 genes pequeños en su zona intrónica. TRANSMISIÓN DE LA INFORMACIÓN GENÉTICA DEL ADN A LAS PROTEÍNAS El primer paso en la transmisión de la información genética presente en el ADN a las proteínas es la copia de esta información a una molécula intermediaria denominada ARNm (figs. 2 y 3)8. La información contenida en la secuencia de bases del ADN se transmite fielmente al ARNm gracias al apareamiento de las bases del ADN con las bases de ARN (la T se aparea con la A del ARN, la A se aparea con el uracilo [U] del ARN, la G se aparea con la C, y la C se aparea con la G) (fig. 3). La síntesis del ARNm corre a cargo de la ARN polimerasa, utilizando como molde la secuencia de bases presente en el ADN (figs. 2 y 3). Al ARN recién sintetizado se le denomina tránscrito primario (fig. 2). Este tránscrito primario experimenta un proceso de maduración consistente en la eliminación de los intrones y el procesado del extremo 3’ (fig. 2) dando lugar al ARNm maduro8. La información genética presente en el ARNm se transmite a las proteínas gracias a la existencia de un proceso de traducción de la información (fig. 3). El código de traducción de esta información se denomina código genético, y esencialmente consiste en que a cada 3 bases concretas de la secuencia del ARN mensajero le corresponde un aminoácido (tabla I). Las proteínas se inician siempre con el aminoácido metionina codificado por el triplete AUG (tabla I y fig. 3). La síntesis proteica corre a cargo del ribosoma (fig. 3). Las moléculas clave en la traducción de la información genética son los ARN de transferencia, ya que poseen la propiedad de aparearse específicamente a los distintos tripletes existentes en el ARN. Antes de que se produzca esta unión, cada ARN de transferencia se ha acoplado al aminoácido correspondiente al triplete (fig. 3). La síntesis proteica consiste precisamente en la unión covalente entre los distintos aminoácidos que se van apareando al ARNm (fig. 3). La síntesis proteica termina siempre que el ribosoma se encuentra con uno de los codones de terminación (TGA, TAG, TAA; tabla I). Así pues, la información genética presente en el ADN se transmite, a través del ARNm, a las proteínas en forma de la secuencia de aminoácidos. Las proteínas, a su vez, desempeñarán la mayoría de las funciones celulares (figs. 2 y 3). Bibliografía 1. Oliva R. Genoma humano. Barcelona: Masson S.A., 1996. 2. Dunham I, Shimizu N, Roe BA, Chissoe S, Hunt AR, Collins JE et al. The DNA sequence of human chromosome 22. Nature 1999; 402: 489-495. 3. Moyzis RK, Buckingham JM, Scott Cram L, Dani M, Deaver LL, Jones MD et al. Highly conserved repetitive DNA sequence (TTAGGG)n, present at telomeres of human chromosomes. Proc Natl Acad Sci USA 1988; 85: 6622-6626. 4. Oliva R, Dixon GH. Vertebrate protamine genes and the histone to protamine replacement reaction. Prog Nucl Acids Res Mol Biol 1991; 40: 25-94. 5. Tennyson CN, Klamut HS, Worton RG. The human dystrophin gene requires 16 hours to be transcribed and is cotranscriptionally spliced. Nat Genet 1995; 9: 184-190. 6. Oriola J. Diagnóstico molecular de los déficit de 21-hidroxilasa y su correlación con el fenotipo. Endocrinología 46: 168-172. 7. Vidal-Taboada JM, Sanz S, Egeo A, Scartezzini P, Oliva R. Identification and characterization of a new gene from human chromosome 21 between markers D21S343 and D21S268 encoding a leucine rich protein. Biochem and Biophys Res Comm 1998; 250: 547-554. 8. Watson JD, Hopkins NH, Roberts JW, Steitz JA, Weiner AM. Molecular biology of the gene. Menlo Park: Benjamin/Cummings, 1987.