parte 1 Estudio de los genomas Capítulo 1 Genomas, transcriptomas y proteomas Parte 1 – Estudio de los genomas presenta una descripción de las técnicas y los enfoques científicos sobre los que se basa nuestro conocimiento acerca de ellos. Comienza con un capítulo de orientación que presenta los genomas, los transcriptomas y los proteomas; después, en el capítulo 2, se consideran los métodos, centrados en la clonación y la reacción en cadena de la polimerasa (PCR) de DNA, que se emplean para estudiar segmentos cortos de DNA; por ejemplo, genes individuales. El capítulo 3 inicia el examen de la genómica describiendo cómo se construyen los mapas genéticos y físicos, y el capítulo 4 establece el vínculo entre mapeo y secuenciación. A medida que se avanza en la lectura del capítulo 4, se advertirá que, aunque los mapas pueden ser una ayuda valiosa para el ensamblaje de una secuencia larga de DNA, el mapeo no siempre es un prerrequisito esencial para la secuenciación del genoma. En el capítulo 5, se investigan los diversos enfoques que se aplican para conocer las secuencias de un genoma; en el capítulo 6, se examinan los métodos para estudiar las funciones de un genoma que dirigen la síntesis de un transcriptoma y un proteoma, para especificar, a través de ellos, la capacidad bioquímica de la célula. Capítulo 2 Estudio del DNA Capítulo 3 Mapeo de los genomas Capítulo 4 Secuenciación de los genomas Capítulo 5 Conocimiento de las secuencias de un genoma Capítulo 6 Conocimiento del funcionamiento de un genoma Genomas, transcriptomas y proteomas 1 1.1 DNA 1.2 RNA y transcriptoma 1.3 Proteínas y proteoma Después de leer el capítulo 1 deberá ser capaz de: Definir los términos “genoma”, “transcriptoma” y “proteoma”, y explicar cómo se vinculan con el proceso de expresión del genoma. Describir los dos experimentos que llevaron a los biólogos moleculares a concluir que los genes están compuestos por DNA y explicar las limitaciones de estos experimentos. Efectuar una descripción detallada de la estructura de un polinucleótido, y resumir las diferencias químicas entre DNA y RNA. Analizar la evidencia que utilizaron Watson y Crick para deducir la estructura de la doble hélice del DNA, y describir las características claves de esta estructura. Distinguir entre RNA de codificación y funcional, y dar ejemplos de cada tipo. Describir, en términos generales, cómo se sintetiza y se procesa el RNA en la célula. Brindar una descripción detallada de los diversos niveles de estructura proteica y explicar por qué la diversidad de aminoácidos es la base de la diversidad de las proteínas. Mencionar las características claves del código genético. Explicar por qué la función de una proteína depende de su secuencia de aminoácidos. Enumerar las principales funciones de las proteínas en los organismos vivos y relacionar esta diversidad con la función del genoma. La vida como la conocemos está especificada por los genomas de los innumerables organismos con los que compartimos el planeta. Todo organismo tiene un genoma que contiene la información biológica necesaria para construir y mantener un ejemplo viviente de ese organismo. La mayoría de los genomas, incluidos el genoma humano y los de todas las demás formas de vida celular, están compuestos por DNA (ácido desoxirribonucleico), pero unos pocos virus tienen genomas de RNA (ácido ribonucleico). El DNA y el RNA son moléculas poliméricas formadas por cadenas de subunidades monoméricas denominadas nucleótidos. El genoma humano, que es típico de los genomas de todos los animales 4 Capítulo 1 Genomas, transcriptomas y proteomas multicelulares, está formado por dos partes distintas (figura 1.1): • El genoma nuclear comprende alrededor de 3.200.000.000 de nucleótidos de DNA, divididos en 24 moléculas lineales, la más corta de 50.000.000 de nucleótidos de longitud y la más larga de 260.000.000 de nucleótidos, cada una contenida en un cromosoma diferente. Estos 24 cromosomas consisten en 22 autosomas y los dos cromosomas sexuales, X e Y. En conjunto, el genoma nuclear humano contiene unos 35.000 genes. • El genoma mitocondrial es una molécula de DNA circular de 16.569 nucleótidos, de la cual hay múltiples copias en los orgánulos generadores de energía denominados mitocondrias. El genoma mitocondrial humano contiene sólo 37 genes. Figura 1.1 Componentes nucleares y mitocondriales del genoma humano. Cada una de las aproximadamente 1013 células del cuerpo humano adulto tiene su propia copia o sus propias copias del genoma, excepto algunos tipos celulares, como los eritrocitos, que carecen de núcleo en su estado de diferenciación completa. La mayoría de las células son diploides y, por lo tanto, tienen dos copias de cada autosoma, más dos cromosomas sexuales, XX en las mujeres o XY en los varones: 46 cromosomas en total. Se las denomina células somáticas, a diferencia de las células sexuales o gametos, que son haploides y sólo tienen 23 cromosomas, uno de cada autosoma y un cromosoma sexual. Ambos tipos de célula tienen alrededor de 8.000 copias del genoma mitocondrial, más o menos 10 en cada mitocondria. El genoma es un depósito de información biológica, pero por sí mismo es incapaz de liberar esa información a la célula. La utilización de la información biológica contenida en el genoma requiere la actividad coordinada de enzimas y otras proteínas, que participan en una compleja serie de reacciones bioquímicas conocida como expresión del genoma (figura 1.2). El producto inicial de la expresión del genoma es el transcriptoma, un conjunto de moléculas de RNA derivadas de los genes que codifican proteínas, cuya información biológica es requerida por la célula en un determinado momento. El transcriptoma es mantenido por el proceso DNA denominado transcripción, que copia genes individuales a moléculas de RNA. El segundo producto de la expresión del genoma es el proteoma, el repertorio de proteínas de la célula, que especifica el carácter de las reacciones bioquímicas que la célula puede llevar a cabo. Las proteínas que forman el proteoma son sintetizadas por traducción de las moléculas individuales de RNA presentes en el transcriptoma. Este libro trata acerca de los genomas y su expresión. Explica cómo se los estudia (Parte 1), cómo se organizan (Parte 2), cómo funcionan (Parte 3) y cómo se replican y evolucionan (Parte 4). Hasta hace muy poco, era imposible escribir un texto como éste. Desde la década de 1950, los biólogos moleculares han estudiado genes individuales o pequeños grupos de genes y, a partir de estos estudios, han acumulado un gran conocimiento acerca del funcionamiento de los genes. Sin embargo, sólo durante los últimos diez años se ha dispuesto de técnicas que han posibilitado el examen de genomas enteros. Todavía se estudia de manera intensiva cada gen, pero la información acerca de genes individuales se interpreta, ahora, dentro del contexto del genoma en su conjunto. Este nuevo y mayor interés se aplica no sólo a los genomas, sino a toda la bioquímica y la biología celular. Ya no es suficiente conocer vías bioquímicas o procesos subcelulares individuales. El desafío actual es la biología de sistemas, que intenta articular estas vías y procesos en redes que describan el funcionamiento global de las células y los organismos vivos. Este libro presenta al lector nuestro conocimiento de los genomas y muestra cómo esta interesante área de investigación está apuntalando nuestra creciente comprensión de los sistemas biológicos. Sin embargo, primero debemos prestar atención a los principios básicos de la biología molecular repasando las características claves de los tres tipos de moléculas biológicas que participan en los genomas y la expresión de los genomas: DNA, RNA y proteínas. 1.1 DNA En 1869, Johann Friedrich Miescher, un bioquímico suizo que trabajaba en Tübingen, Alemania, descubrió el DNA. Los primeros extractos que obtuvo de leucocitos humanos eran mezclas no refinadas de DNA y proteínas cromosómicas; al año siguiente, se mudó a Basilea, Suiza (donde ahora se encuentra el instituto de investigación que lleva su nombre) y entonces preparó una mezcla pura de ácido nucleico de espermatozoides de salmón. Las pruebas químicas de Miescher mostraron que el DNA es ácido y rico en fósforo; también sugirieron que cada molécula es muy grande, aunque recién en la década de 1930, cuando se aplicaron técnicas biofísicas al DNA, se reconoció totalmente la enorme longitud de las cadenas poliméricas. 1.1.1 Los genes están compuestos por DNA En la actualidad es tan conocido que los genes están compuestos por DNA que, a veces, es difícil apreciar que, durante los primeros 75 años que siguieron a su descubrimiento, no se sospechó el verdadero papel del DNA. Ya en 1903, W. S. Sutton había advertido que los patrones de herencia de los genes guardaban paralelo con el comportamiento de los cromosomas durante la división celular, observación que dio origen a la teoría cromosómica: la hipótesis de que los genes se localizan en los cromosomas. El examen de las células por citoquímica, después de teñirlas Figura 1.2 Genoma, transcriptoma y proteoma. 5 6 Capítulo 1 Genomas, transcriptomas y proteomas con colorantes que se unen específicamente a sólo un tipo de producto bioquímico, mostró que los cromosomas están compuestos por DNA y proteínas, en cantidades aproximadamente iguales. En esa época, los biólogos reconocieron que debían de existir miles de millones de genes diferentes y que, por lo tanto, el material genético debía de ser capaz de adoptar muchas formas distintas. Pero este requerimiento parecía no ser satisfecho por el DNA, porque, en la primera mitad del siglo XX, se consideraba que todas las moléculas de DNA eran iguales. Por otra parte, se sabía con certeza que las proteínas eran moléculas poliméricas muy variables, formadas cada una por una combinación diferente de 20 monómeros de aminoácidos químicamente distintos (sección 1.3.1). Por lo tanto, los genes debían de estar compuestos por proteína, no por DNA. Los errores en el conocimiento de la estructura del DNA persistieron, pero hacia fines de la década de 1930 se había aceptado que el DNA, al igual que las proteínas, presentaba inmensa variabilidad. El concepto de que las proteínas eran el material genético se mantuvo firme al principio, pero con el tiempo fue refutado por los resultados de dos experimentos importantes: • Oswald Avery, Colin MacLeod y Maclyn McCarty mostraron que el DNA es el componente activo del principio de transformación, un extracto de células bacterianas que, al ser mezclado con una cepa inocua de Streptococcus pneumoniae, convierte a estas bacterias en una forma virulenta capaz de provocar neumonía cuando son inyectadas a ratones (figura 1.3A). En 1944, cuando se publicaron los resultados de este experimento, sólo unos pocos microbiólogos reconocieron que la transformación implica transferencia de genes del extracto celular a las bacterias vivas. Sin embargo, una vez aceptado este punto, se clarificó el verdadero significado del “experimento de Avery”: los genes bacterianos deben estar compuestos por DNA. • Alfred Hershey y Martha Chase utilizaron la radiomarcación para mostrar que, cuando un cultivo bacteriano es infectado por bacteriófagos (un tipo de virus), el DNA es el principal componente de éstos que ingresa en las células (figura 1.3B). Ésta fue una observación vital porque se sabía que, durante el ciclo de infección, los genes de los bacteriófagos infectantes se utilizan para la síntesis directa de nuevos bacteriófagos y esta síntesis tiene lugar dentro de las bacterias. Si el DNA de los bacteriófagos infectantes es lo único que ingresa en las células, se deduce que los genes de estos bacteriófagos deben estar compuestos por DNA. Si bien desde nuestra perspectiva estos dos experimentos aportan los resultados claves que demuestran que los genes están compuestos por DNA, los biólogos de la época no se convencieron con tanta facilidad. Ambos experimentos tenían limitaciones que permitían a los escépticos argumentar que las proteínas podían ser, aun así, el material genético. Por ejemplo, había preocupación acerca de la especificidad de la enzima desoxirribonucleasa que utilizaron Avery y cols. para inactivar el principio de transformación. Este resultado, una parte central de la evidencia de que el principio de transformación era DNA, sería inválido si, como parecía posible, la enzima contuviese vestigios de una proteasa contaminante y, por lo tanto, también pudiese degradar proteínas. Tampoco el experimento con bacteriófagos es concluyente, como destacaron Hershey y Chase cuando publicaron sus resultados: “Nuestros experimentos muestran con claridad que es posible una separación física del fago T2 en una parte genética y una parte no genética... La identificación química de la parte genética debe aguardar, sin embargo, a que se hayan respondido algunas preguntas...”. Retrospectivamente, estos dos experimentos son importantes no por lo que DNA Figura 1.3 Los dos experimentos que sugirieron que los genes están compuestos por DNA. (A) Avery y cols. mostraron que el principio de transformación está compuesto por DNA. Los dos paneles superiores ilustran lo que sucede cuando se inyecta a ratones con bacterias Streptococcus pneumoniae inocuas, con agregado o no del principio de transformación: un extracto celular obtenido de una cepa virulenta de S. pneumoniae. En presencia de principio de transformación, el ratón muere porque los genes de este principio convierten a las bacterias inocuas en formas virulentas; después, estas bacterias virulentas se aíslan en los pulmones del ratón muerto. Los dos paneles inferiores muestran que el tratamiento con proteasa o con ribonucleasa no ejerce ningún efecto sobre el principio de transformación, pero que éste es inactivado por la desoxirribonucleasa. (B) El experimento de Hershey-Chase utilizó bacteriófagos T2, cada uno de los cuales consiste en una molécula de DNA contenida en una cápside proteica unida a un “cuerpo” y “piernas”, que permiten que el bacteriófago se fije a la superficie de una bacteria y que inyecte sus genes en el interior de la célula. Se marcó con 32P el DNA de los bacteriófagos y con 35S, la proteína. Unos pocos minutos después de la infección, se agitó el cultivo para desprender de la superficie celular las partículas de fago vacías. Después, se centrifugó el cultivo, lo que reúne a las bacterias más los genes de los fagos en un microglóbulo en el fondo del tubo, pero deja en suspensión las partículas más livianas del fago. Hershey y Chase observaron que el microglóbulo bacteriano contenía la mayor parte del componente marcado con 32P de los fagos (el DNA), pero sólo el 20% del material marcado con 35S (la proteína del fago). En un segundo experimento, mostraron que los nuevos fagos producidos al final de cada ciclo de infección contenían menos del 1% de la proteína de los fagos progenitores. Véanse más detalles del ciclo de infección del bacteriófago en la figura 2.19. 7 8 Capítulo 1 Genomas, transcriptomas y proteomas demuestran, sino porque alertaron a los biólogos sobre el hecho de que el DNA podría ser el material genético y, por lo tanto, valía la pena estudiarlo. Fue esto lo que influyó en Watson y Crick para que trabajaran sobre el DNA y, como se verá más adelante, fue su descubrimiento de la estructura de doble hélice, que resolvió el desconcertante interrogante sobre la manera de replicación de los genes, lo que realmente convenció al mundo científico de que los genes estaban compuestos por DNA. 1.1.2 Estructura del DNA Los nombres de James Watson y Francis Crick están tan estrechamente ligados con el DNA que es fácil olvidar que, cuando comenzaron su colaboración en octubre de 1951, ya se conocía la estructura detallada del polímero DNA. Su contribución no fue determinar la estructura del DNA per se, sino mostrar que, en las células vivas, se entrelazan dos cadenas de DNA para formar la doble hélice. Por consiguiente, primero es necesario analizar qué sabían Watson y Crick antes de iniciar su trabajo. Nucleótidos y polinucleótidos El DNA es un polímero lineal, no ramificado, cuyas subunidades monoméricas son cuatro nucleótidos químicamente distintos que se pueden unir en cualquier orden en cadenas de cientos, miles o, incluso, millones de unidades de longitud. Cada nucleótido del polímero DNA está formado por tres componentes (figura 1.4): • 2’-desoxirribosa, que es una pentosa, un tipo de azúcar compuesto por cinco átomos de carbono. Estos cinco carbonos se numeran 1’ (que se dice “uno prima”), 2’, etc. El nombre “2’-desoxirribosa” indica que este azúcar particular es un derivado de la ribosa, en el que el grupo oxhidrilo (–OH) unido al carbono 2’ de la ribosa ha sido reemplazado por un grupo hidrógeno (–H). • Una base nitrogenada, de citosina, timina (pirimidinas de un solo anillo), adenina o guanina (purinas de doble anillo). La base está unida al carbono 1’ del azúcar mediante un enlace β-N-glucosídico, que se une al nitrógeno número uno de la pirimidina o al número nueve de la purina. • Un grupo fosfato que comprende una, dos o tres unidades ligadas de fosfato unidas al carbono 5’ del azúcar. Los fosfatos se designan α, β y γ, y el fosfato α es el que se une directamente al azúcar. Figura 1.4 Estructura de un nucleótido. (A) Estructura general de un desoxirribonucleótido, el tipo de nucleótido hallado en el DNA. (B) Las cuatro bases presentes en los desoxirribonucleótidos. DNA Una molécula compuesta sólo por azúcar y base se denomina nucleósido; el agregado de los fosfatos la convierte en un nucleótido. Aunque las células contienen nucleótidos con uno, dos o tres grupos fosfato, sólo los nucleósido trifosfatos actúan como sustratos para la síntesis de DNA. Los nombres químicos completos de los cuatro nucleótidos que se polimerizan para formar DNA son: • 2’-desoxiadenosina 5’-trifosfato • 2’-desoxicitidina 5’-trifosfato • 2’-desoxiguanosina 5’-trifosfato • 2’-desoxitimidina 5’-trifosfato Las abreviaturas de estos cuatro nucleótidos son dATP, dCTP, dGTP y dTTP o cuando se hace referencia a la secuencia de DNA, A, C, G y T, respectivamente. En un polinucleótido, cada nucleótido está unido por enlaces fosfodiéster entre sus carbonos 5’ y 3’ (figura 1.5). A partir de la estructura de esta unión, se puede observar que la reacción de polimerización (figura 1.6) implica la eliminación de los dos fosfatos externos (los fosfatos β y γ) de un nucleótido y el reemplazo por el grupo oxhidrilo unido al carbono 3’ del segundo nucleótido. Obsérvese que los dos extremos del polinucleótido son químicamente distintos: uno tiene un grupo trifosfato, que no ha reaccionado, unido al carbono 5’ (extremo 5’ o 5’-P) y el otro tiene un oxhidrilo, que tampoco ha reaccionado, unido al carbono 3’ (extremo 3’ o 3’-OH). Esto significa que el polinucleótido tiene una dirección química, expresada como 5’→3’ (hacia abajo en la figura 1.5) o 3’→5’ (hacia arriba en la figura 1.5). Una consecuencia importante de la polaridad del enlace fosfodiéster es que la reacción química necesaria para extender un polímero de DNA en dirección 5’→3’ es diferente de la requerida para hacer una extensión 3’→5’. Todas las enzimas DNA polimerasas naturales sólo pueden llevar a cabo la síntesis 5’→3’, lo que suma complicaciones significativas al proceso de replicación del DNA de doble cadena (sección 15.2). Figura 1.5 Polinucleótido corto de DNA que muestra la estructura del enlace fosfodiéster. Obsérvese que los dos extremos del polinucleótido son químicamente distintos. 9 10 Capítulo 1 Genomas, transcriptomas y proteomas Figura 1.6 Reacción de polimerización que determina la síntesis de un polinucleótido de DNA. La síntesis ocurre en dirección 5’→3’, y el nuevo nucleótido se agrega al carbono 3’ al final del polinucleótido existente. Se extraen los fosfatos β y γ del nucleótido como una molécula de pirofosfato. Evidencia que llevó a la doble hélice Antes de 1950, diversas líneas de evidencia habían mostrado que las moléculas de DNA celular estaban formadas por dos o más polinucleótidos ensamblados de alguna manera. La posibilidad de que descifrar el carácter de este ensamblaje pudiese aportar conocimientos sobre la manera como trabajan los genes instó a Watson y Crick, entre otros, a intentar resolver la estructura. Según afirma Watson en su libro The Double Helix (La doble hélice), su trabajo fue una carrera desesperada contra el famoso bioquímico estadounidense Linus Pauling que propuso, inicialmente, un modelo incorrecto de triple hélice, lo que les dio a Watson y Crick el tiempo que necesitaban para completar la estructura de doble hélice. Ahora, es difícil separar la realidad de la ficción, sobre todo con respecto al papel desempeñado por Rosalind Franklin, cuyos estudios de difracción de rayos X aportaron el grueso de los datos experimentales que avalaban la doble hélice, y quien estuvo muy cerca de resolver, ella misma, la estructura. Lo que queda claro es que la doble hélice, descubierta por Watson y Crick el 7 de marzo de 1953, fue el avance aislado más importante de la biología durante el siglo XX. Watson y Crick emplearon cuatro tipos de información para deducir la estructura de doble hélice: DNA 11 • Datos biofísicos de diversas clases. El contenido de agua de las fibras de DNA era de particular importancia, pues permitía estimar la densidad de DNA de una fibra. La cantidad de cadenas de la hélice y el espacio entre los nucleótidos debían ser compatibles con la densidad de la fibra. El modelo de triple hélice de Pauling se basó en una determinación incorrecta de la densidad, que sugería que la disposición de la molécula de DNA era más compacta de lo que en realidad es. • Patrones de difracción de rayos X (Nota sobre técnicas 11.1), la mayoría de los cuales fueron producidos por Rosalind Franklin, y que revelaron el carácter helicoidal de la estructura e indicaron algunas de las dimensiones claves dentro de la hélice. • Las relaciones de bases, que habían sido descubiertas por Erwin Chargaff de la Universidad de Columbia, Nueva York. Este investigador realizó una larga serie de estudios cromatográficos de muestras de DNA de diversas fuentes y mostró que, aunque los valores son diferentes en distintos organismos, la cantidad de adenina es siempre igual a la cantidad de timina y la cantidad de guanina equivale a la cantidad de citosina (figura 1.7). Estas relaciones de bases dieron origen a las reglas de apareamiento de bases, que son la clave para descubrir la estructura de doble hélice. • La construcción del modelo, que fue la única técnica importante que Watson y Crick practicaron por sí mismos. Los modelos en escala de posibles estructuras de DNA permitieron controlar la posición relativa de los diversos átomos, asegurar que los pares que formaban enlaces no estuvieran demasiado separados y que otros átomos no estuvieran demasiado cerca para interferir entre sí. Características claves de la doble hélice La doble hélice es dextrógira, lo que significa que si fuera una escalera en espiral y usted la estuviera subiendo, la baranda del lado externo de la escalera estaría a su derecha. Las dos cadenas transcurren en direcciones opuestas (figura 1.8A). La hélice es estabilizada por dos tipos de interacciones químicas: • Apareamiento de bases entre las dos cadenas, que implica la formación de enlaces de hidrógeno entre una adenina de una cadena y una timina de la otra, o entre una citosina y una guanina (figura 1.8B). Los enlaces de hidrógeno son atracciones electrostáticas débiles entre un átomo electronegativo (como oxígeno o nitrógeno) y un átomo de hidrógeno unido a un segundo átomo electronegativo. Los enlaces de hidrógeno son más largos que los enlaces covalentes y mucho más débiles, con energías de enlace típicas de 1-10 kcal mol–1 a 25ºC, en comparación con hasta 90 kcal mol–1 para un enlace covalente. Los enlaces de hidrógeno estabilizan la estructura secundaria de las proteínas, así como la doble hélice de DNA. Las dos combinaciones de bases –base A apareada con T y base G apareada con C– explican las relaciones de bases descubiertas por Chargaff. Éstos son los únicos pares de bases permisibles, en parte, por las geometrías de las bases de nucleótidos y las posiciones relativas de los átomos que pueden participar en los enlaces de hidrógeno, y, en parte, porque el par debe estar entre una purina y una pirimidina: un par purina-purina sería demasiado grande para caber dentro de la hélice y un par pirimidina-pirimidina sería demasiado pequeño. • Apilamiento de bases, denominado a veces interacciones π-π, que implica interacciones hidrófobas entre pares de bases adyacentes y suma estabilidad a la doble hélice una vez que las cadenas se han unido por apareamiento de bases. Estas interacciones hidrófobas sur- Figura 1.7 Experimentos sobre relaciones de bases efectuados por Chargaff. Se extrajo DNA de diversos organismos y se lo trató con ácido para hidrolizar los enlaces fosfodiéster y liberar los nucleótidos individuales. Después, se cuantificó cada nucleótido por cromatografía. Los datos muestran algunos de los resultados reales obtenidos por Chargaff. Éstos indican que, dentro del error experimental, la cantidad de adenina es igual que la de timina y la cantidad de guanina es igual que la de citosina. 12 Capítulo 1 Genomas, transcriptomas y proteomas Figura 1.8 Estructura de doble hélice del DNA. (A) Dos representaciones de la doble hélice. En la estructura de la izquierda, se muestran con los “esqueletos” de azúcarfosfato de cada polinucleótido dibujados como una cinta gris, con los pares de bases en verde. A la derecha, se presenta la estructura química de tres pares de bases. (B) La base A se aparea con T y la base G, con C. Se delinean las bases y las líneas de puntos indican los enlaces de hidrógeno. Obsérvese que un par de bases G–C tiene tres enlaces de hidrógeno, mientras que un par de bases A–T tiene sólo dos. gen porque la estructura acuosa con enlaces de hidrógeno fuerza a los grupos hidrófobos hacia las partes internas de una molécula. Tanto el apareamiento como el apilamiento de bases son importantes para mantener juntos los dos polinucleótidos, pero el apareamiento tiene mayor significación debido a sus implicaciones biológicas. La limitación de que sólo se pueden aparear las bases A con T y G con C implica que la replicación del DNA puede determinar copias perfectas de una molécula madre a través del simple recurso de utilizar las secuencias de las cadenas preexistentes para imponer las secuencias de las nuevas cadenas. Esto es la síntesis de DNA dependiente del molde y es el sistema utilizado por todas las DNA polimerasas celulares (sección 15.2.2). Por lo tanto, el apareamiento de bases permite que las moléculas de DNA se repliquen por un sistema tan simple y delicado que, en cuanto Watson y Crick publicaron la estructura de la doble hélice, todos los biólogos se convencieron de que los genes están realmente compuestos por DNA. La doble hélice tiene flexibilidad estructural La doble hélice descrita por Watson y Crick, presentada en la figura 1.8A, se denomina forma B de DNA. Sus características típicas residen en sus dimensiones: un diámetro de la hélice de 2,37 nm, un aumento de 0,34 nm por par de bases y un paso (pitch) (la distancia abarcada por un giro DNA Cuadro 1.1 Características de las diferentes conformaciones de la doble hélice de DNA Característica B-DNA A-DNA Z-DNA Tipo de hélice Dextrógira Dextrógira Levógira Diámetro de la hélice (nm) 2,37 2,55 1,84 Aumento por par de bases (nm) 0,34 0,29 0,37 Distancia por giro completo (paso [pitch]) (nm) 3,4 3,2 4,5 Número de pares de bases por giro completo 10 11 12 Topología del surco mayor Ancho, profundo Angosto, profundo Plano Topología del surco menor Angosto, superficial Ancho, superficial Angosto, profundo completo de la hélice) de 3,4 nm, que se corresponde con diez pares de bases por giro. Se considera que el DNA de las células vivas consiste predominantemente en esta forma B, pero ahora ha quedado claro que las moléculas de DNA genómico no tienen una estructura por completo uniforme. Esto se debe, sobre todo, a que cada nucleótido de la hélice tiene la flexibilidad de adoptar formas moleculares algo diferentes. Para adoptar estas conformaciones distintas, deben cambiar ligeramente las posiciones relativas de los átomos del nucleótido. Hay una serie de posibilidades, pero los cambios de conformación más importantes implican rotación alrededor del enlace β-N-glucosídico, lo que cambia la orientación de la base respecto del azúcar, y rotación en torno del enlace entre los carbonos 3’ y 4’. Ambas rotaciones ejercen un efecto significativo sobre la doble hélice: la modificación de la orientación de las bases influye en la posición relativa de los dos polinucleótidos y la rotación alrededor del enlace 3’–4’ incide en la conformación del esqueleto de azúcar-fosfato. Por lo tanto, las rotaciones dentro de nucleótidos individuales inducen cambios importantes en la estructura global de la hélice. Desde la década de 1950, se reconoció que ocurren cambios en las dimensiones de la doble hélice cuando las fibras que contienen moléculas de DNA son expuestas a diferentes humedades relativas. Por ejemplo, la versión modificada de la doble hélice denominada forma A (figura 1.9) tiene un diámetro de 2,55 nm, un aumento de 0,29 nm por par de bases y un paso de 3,2 nm correspondiente a 11 pares de bases por giro (cuadro 1.1). Otras variaciones son B’–, C–, C’–, C’’–, D–, E– y T-DNA. Todas estas hélices son dextrógiras como la forma B. También es posible una reorganización más drástica, que da origen al Z–DNA levógiro (figura 1.9), una versión más delgada de la doble hélice con un diámetro de sólo 1,84 nm. Las dimensiones directas de las diversas formas de la doble hélice no revelan lo que, tal vez, sean las diferencias más significativas entre ellas. Éstas se relacionan no sólo con el diámetro y el paso, sino con el grado de acceso a las regiones internas de la hélice desde la superficie de la estructura. Como se muestra en las figuras 1.8 y 1.9, la forma B del DNA no tiene una superficie totalmente lisa, sino que dos surcos transcurren en espiral a lo largo de la hélice. Uno de estos surcos es bastante ancho y profundo, y se lo denomina surco mayor; el otro es angosto y menos profundo, es el surco menor. El A-DNA también tiene dos surcos (figura 1.9) pero, en esta conformación, el surco mayor es aún más 13 14 Capítulo 1 Genomas, transcriptomas y proteomas Figura 1.9 Estructuras del B-DNA (izquierda), el A-DNA (centro) y el Z-DNA (derecha). Modelos espaciales (arriba) y modelos estructurales (abajo) que representan diferentes conformaciones de las moléculas de DNA. Obsérvense las diferencias del diámetro de la hélice, del número de pares de bases por giro completo, y de la topología de los surcos mayor y menor, entre estas moléculas. Reimpreso con autorización de Kendrew, J. (Ed.) Encyclopaedia of Molecular Biology. © 1994 Blackwell Publishing. profundo y el surco menor es más superficial y más ancho, en comparación con el B-DNA. También el Z-DNA es diferente, con un surco casi inexistente, pero el otro es muy angosto y profundo. En cada forma de DNA, parte de la superficie interna de por lo menos uno de los surcos está formada por grupos químicos unidos a las bases nucleotídicas. En el capítulo 11 se verá que la expresión de la información biológica contenida en el genoma está mediada por proteínas de unión al DNA, que se unen a la doble hélice y regulan la actividad de los genes contenidos en ésta. Para cumplir su función, cada proteína de unión al DNA debe estar fijada en una posición específica, cerca del gen sobre cuya actividad debe influir. Esto se puede lograr, al menos con cierto grado de exactitud, si la proteína alcanza el fondo del surco, dentro del cual se puede “leer” la secuencia de DNA sin abrir la hélice rompiendo los pares de bases. De esto se deduce que una proteína de unión al DNA, cuya estructura le permite reconocer una secuencia nucleotídica específica dentro del B-DNA, por ejemplo, quizá no pueda reconocer esa secuen- RNA y transcriptoma 15 cia si el DNA ha adoptado una conformación diferente. Como se analizará en el capítulo 11, las variaciones de conformación a lo largo de una molécula de DNA, junto con otros polimorfismos estructurales causados por la secuencia nucleotídica, podrían ser importantes para determinar la especificidad de las interacciones entre el genoma y sus proteínas de unión al DNA. 1.2 RNA y transcriptoma El producto inicial de la expresión del genoma es el transcriptoma (véase figura 1.2), el conjunto de moléculas de RNA derivadas de los genes que codifican proteínas, cuya información biológica es requerida por la célula en un momento particular. Las moléculas de RNA del transcriptoma, así como muchos otros RNA derivados de genes que no codifican proteínas, son sintetizadas por el proceso denominado transcripción. En esta sección se examina la estructura del RNA y, después, se analizan más de cerca los diversos tipos de molécula de RNA presentes en las células vivas. 1.2.1 Estructura del RNA El RNA es un polinucleótido similar al DNA, pero con dos diferencias químicas importantes (figura 1.10). Primero, el azúcar del nucleótido de RNA es ribosa y, segundo, el RNA contiene uracilo en lugar de timina. Por lo tanto, los cuatro sustratos nucleotídicos para la síntesis de RNA son: Figura 1.10 Diferencias químicas entre DNA y RNA. (A) El RNA contiene ribonucleótidos, en los que el azúcar es ribosa en lugar de 2’-desoxirribosa. La diferencia es que se une un grupo oxhidrilo, en vez de un átomo de hidrógeno, al carbono 2’. (B) El RNA contiene la pirimidina denominada uracilo, en lugar de timina. • adenosina 5’-trifosfato • citidina 5’-trifosfato • guanosina 5’-trifosfato • uridina 5’-trifosfato Estos nucleótidos se abrevian ATP, CTP, GTP y UTP, o A, C, G y U, respectivamente. Al igual que el DNA, los polinucleótidos RNA contienen enlaces fosfodiéster 3’–5’, pero estos enlaces son menos estables que los de un polinucleótido DNA, debido al efecto indirecto del grupo oxhidrilo en la posición 2’ del azúcar. Rara vez, las moléculas de RNA tienen más que unos pocos miles de nucleótidos de longitud y, aunque muchas forman pares de bases intramoleculares (p. ej., véase figura 13.2), la mayoría es de una sola cadena y no de doble cadena. Las enzimas responsables de la transcripción de DNA a RNA se denominan RNA polimerasas dependientes de DNA. El nombre indica que la reacción enzimática que catalizan determina la polimerización del RNA a partir de ribonucleótidos y que este proceso es dependiente del DNA, lo que significa que la secuencia de nucleótidos de un molde de DNA impone la secuencia de nucleótidos del RNA sintetizado (figura 1.11). Se permite acortar el nombre de la enzima a RNA polimerasa, pues el contexto en el que se emplea el nombre implica que rara vez hay confusión con las RNA polimerasas dependientes de RNA, que participan en la replicación y la expresión de los genomas de algunos virus. La base química de la síntesis de RNA dependiente del molde es equivalente a la ilustrada para la síntesis de DNA en la figura 1.6. Se agrega un ribonucleótido tras otro al extremo 3’ creciente del transcrito de RNA y la identidad de cada nucleó- Figura 1.11 Síntesis de RNA dependiente del molde. El transcrito de RNA es sintetizado en dirección 5’→3’, leyendo el DNA en la dirección 3’→5’; el apareamiento de bases al molde de DNA determina la secuencia del transcrito. 16 Capítulo 1 Genomas, transcriptomas y proteomas tido está especificada por las reglas de apareamiento de bases: la base A se aparea con T o U, la base G se aparea con C. Durante la incorporación de cada nucleótido, se eliminan los fosfatos β y γ del nucleótido entrante, así como el grupo oxhidrilo del carbono 3’ del nucleótido del final de la cadena, precisamente igual que en la polimerización del DNA. 1.2.2 Contenido de RNA de la célula Una bacteria típica contiene de 0,05 a 0,10 pg de RNA, que representan alrededor del 6% de su peso total. Una célula de mamífero, que es mucho más grande, contiene más RNA, de 20 a 30 pg en total, pero esto representa sólo el 1% de toda la célula. La mejor manera de conocer el contenido de RNA de una célula es dividirlo en categorías y subcategorías según su función. Si bien hay varias maneras de hacerlo, el esquema más informativo es el que se muestra en la figura 1.12. La división primaria es entre RNA codificante y RNA no codificante. El RNA codificante es el transcriptoma y está compuesto por sólo una clase de molécula: los RNA mensajeros (mRNA), que son transcritos de genes que codifican proteínas y, por ende, son traducidos a proteínas en el segundo estadio de expresión del genoma. Los mRNA rara vez representan más del 4% del RNA total y tienen vida breve, ya que son degradados poco después de su síntesis. Los mRNA bacterianos presentan semividas de no más de algunos minutos y la mayoría de los mRNA eucariontes son degradados unas pocas horas después de la síntesis. Este recambio rápido significa que la composición del transcriptoma no está fija y que puede ser reestructurada con rapidez por modificación de la velocidad de síntesis de mRNA individuales. El segundo tipo de RNA se denomina “no codificante”, dado que estas moléculas no son traducidas a proteínas. Sin embargo, RNA funcional es un nombre mejor, pues destaca que, aunque no forma parte del transcriptoma, el RNA no codificante cumple, aun así, funciones esenciales dentro de la célula. Hay varios tipos de RNA funcional, de los cuales los más importantes son: • RNA ribosómicos (rRNA). Están presentes en todos los organismos y, por lo general, son los RNA más abundantes de la célula; representan hasta más del 80% del RNA total de las bacterias que se dividen activamente. Estas moléculas son componentes de los ribosomas, las estructuras en las que tiene lugar la síntesis proteica (sección 13.2). • RNA de transferencia (tRNA). Son moléculas pequeñas que también participan en la síntesis proteica y, al igual que el rRNA, se encuentran en todos los organismos. La función de los tRNA es transportar aminoácidos al ribosoma y garantizar que éstos se unan Figura 1.12 Contenido de RNA de una célula. Este esquema muestra los tipos de RNA presentes en todos los organismos y aquellas categorías halladas sólo en células eucariontes. RNA y transcriptoma 17 en el orden especificado por la secuencia nucleotídica del mRNA que está siendo traducido (sección 13.1). • RNA nucleares pequeños (snRNA, denominados también U-RNA porque estas moléculas son ricas en nucleótidos de uridina). Se encuentran en el núcleo de los eucariontes. Estas moléculas participan en el corte y empalme, uno de los pasos claves de los eventos de procesamiento que convierten los transcritos primarios de genes que codifican proteínas en mRNA (sección 12.2.2). • RNA nucleolares pequeños (snoRNA). Se hallan en las regiones nucleolares de los núcleos eucariontes. Tienen una participación central en la modificación química de las moléculas de rRNA al dirigir a las enzimas que realizan las modificaciones de los nucleótidos específicos donde se deben efectuar alteraciones, como el agregado de un grupo metilo (sección 12.2.5). • MicroRNA (miRNA) y RNA interferentes pequeños (siRNA). Son RNA pequeños que regulan la expresión de genes individuales (sección 12.2.6). 1.2.3 Procesamiento del RNA precursor Las células, además de los RNA maduros mencionados, también contienen moléculas precursoras. Muchos RNA, sobre todo en los eucariontes, se sintetizan al principio como RNA precursor o pre-RNA, que debe ser procesado antes de que pueda cumplir su función. Los diversos fenómenos de procesamiento, todos los cuales se comentan en el capítulo 12, son los siguientes (figura 1.13): • Las modificaciones terminales ocurren durante la síntesis de mRNA eucariontes, la mayoría de los cuales tienen un solo nucleótido inusual, denominado caperuza o casquete unido al extremo 5’ y una cola de poli(A) unida al extremo 3’. • El corte y empalme es la eliminación de segmentos del interior de un RNA precursor. Muchos genes, sobre todo de eucariontes, contienen segmentos internos que no contienen información biológica. Éstos se denominan intrones y, cuando se transcribe el gen, se los copia junto con los exones que contienen información. Los intrones son extraídos del pre-mRNA mediante reacciones de corte y unión. El preRNA no empalmado forma la fracción de RNA nuclear denominado RNA nuclear heterogéneo (hnRNA). • Los eventos de corte son de particular importancia en el procesamiento de los rRNA y los tRNA, muchos de los cuales son sintetizados, al principio, a partir de unidades de transcripción que especifican más de una molécula. Por lo tanto, se deben cortar en Figura 1.13 Esquema de los cuatro tipos de fenómeno de procesamiento del RNA. No todos los fenómenos tienen lugar en todos los organismos. 18 Capítulo 1 Genomas, transcriptomas y proteomas fragmentos los pre-rRNA y los pre-tRNA para producir los RNA maduros. Este tipo de procesamiento ocurre tanto en procariontes como en eucariontes. • Los rRNA, los tRNA y los mRNA sufren modificaciones químicas. Los rRNA y los tRNA de todos los organismos son modificados por agregado de nuevos grupos químicos a nucleótidos específicos dentro de cada RNA. La modificación química del mRNA, denominada edición del RNA, ocurre en muchos eucariontes. 1.2.4 Transcriptoma Si bien el transcriptoma representa menos del 4% del RNA total de la célula, es el componente más significativo, porque contiene el RNA codificante que participa en el siguiente estadio de expresión del genoma. Cabe destacar que el transcriptoma nunca es sintetizado de novo. Toda célula recibe parte del transcriptoma de su progenitora cuando se origina por primera vez, por división celular, y mantiene un transcritoma durante toda su vida. Aun células latentes en esporas bacterianas o en semillas de plantas tienen un transcriptoma, aunque su traducción a proteínas puede estar desactivada por completo. Por lo tanto, la transcripción de cada gen que codifica proteínas no determina la síntesis del transcriptoma, sino que lo mantiene reemplazando mRNA que han sido degradados y desencadena cambios en la composición del transcriptoma a través de la activación y la desactivación de diferentes grupos de genes. Aun en los organismos más simples, como bacterias y levaduras, hay muchos genes activos a la vez. Por ende, los transcriptomas son complejos y contienen copias de cientos, si no miles, de mRNA diferentes. Por lo general, cada mRNA representa sólo una pequeña fracción del conjunto y el tipo más común rara vez contribuye a más del 1% del mRNA total. Las células que tienen funciones bioquímicas muy especializadas, reflejadas por transcriptomas en los que predominan uno o unos pocos mRNA, constituyen excepciones. Por ejemplo, las semillas de trigo sintetizan y acumulan grandes cantidades de proteína gliadina, que proporcionan una fuente de aminoácidos para el grano en germinación. Dentro de las semillas en desarrollo, los mRNA de gliadina pueden representar hasta el 30% de los transcriptomas de ciertas células. 1.3 Proteínas y proteoma El segundo producto de expresión del genoma es el proteoma (véase figura 1.2), el repertorio de proteínas de la célula, que especifica el carácter de las reacciones bioquímicas que ésta es capaz de realizar. Estas proteínas son sintetizadas por traducción de las moléculas de mRNA que forman el transcriptoma. 1.3.1 Estructura proteica Figura 1.14 Estructura general de un aminoácido. Todos los aminoácidos tienen la misma estructura general, que consiste en un carbono a central unido a un átomo de hidrógeno, un grupo carboxilo, un grupo amino y un grupo R. El grupo R es diferente para cada aminoácido (véase figura 1.18). Una proteína, al igual que una molécula de DNA, es un polímero lineal, no ramificado. En las proteínas, las subunidades monoméricas se denominan aminoácidos (figura 1.14) y los polímeros resultantes, o polipéptidos, rara vez tienen más de 2.000 unidades de longitud. Como en el caso del DNA, las características claves de la estructura proteica se determinaron en la primera mitad del siglo XX; esta fase de la bioquímica proteica culminó en la década de 1940 y principios de la de 1950 con el esclarecimiento, por Pauling y Corey, de las principales conformaciones, o estructuras secundarias, adoptadas por los polipéptidos. En los últimos años, se ha centrado Proteínas y proteoma 19 el interés en el modo de combinación de estas estructuras secundarias para generar las formas tridimensionales, complejas, de las proteínas. Los cuatro niveles de la estructura proteica Tradicionalmente, se considera que las proteínas tienen cuatro niveles de estructura. Estos niveles son jerárquicos y la proteína se construye estadio por estadio; cada nivel de estructura depende del inferior: • La estructura primaria de la proteína está compuesta por la unión de los aminoácidos en un polipéptido. Los aminoácidos están unidos por enlaces peptídicos, formados por una reacción de condensación entre el grupo carboxilo de un aminoácido y el grupo amino de un segundo aminoácido (figura 1.15). Obsérvese que, al igual que en un polinucleótido, los dos extremos del polipéptido son químicamente distintos: uno tiene un grupo amino libre y se denomina extremo amino, NH2– o N; el otro tiene un grupo carboxilo libre y se denomina extremo carboxilo, COOH– o C. Por lo tanto, la dirección del polipéptido se puede expresar como N→C (de izquierda a derecha en la figura 1.15) o C→N (de derecha a izquierda en la figura 1.15). • La estructura secundaria hace referencia a las diferentes conformaciones que puede adoptar el polipéptido. Los dos tipos principales de estructura secundaria son la hélice α y la hoja β (figura 1.16). Éstas son estabilizadas sobre todo por enlaces de hidrógeno que se forman entre distintos aminoácidos del polipéptido. La mayoría de los polipéptidos son suficientemente largos para plegarse en una serie de estructuras secundarias, uno después de otro a lo largo de la molécula. Figura 1.15 En los polipéptidos, los aminoácidos están unidos por enlaces peptídicos. La ilustración muestra la reacción química que tiene lugar entre dos aminoácidos que se unen por un enlace peptídico. La reacción se denomina condensación porque provoca la eliminación de agua. • La estructura terciaria obedece al plegamiento de los componentes de la estructura secundaria del polipéptido en una configuración tridimensional (figura 1.17). La estructura terciaria estabilizada por diversas fuerzas químicas, como enlaces de hidrógeno entre aminoácidos individuales, interacciones electrostáticas entre los grupos R de los aminoácidos con carga (véase figura 1.18) y fuerzas hidrófobas, que imponen que los aminoácidos con grupos laterales no polares (“sin afinidad por el agua”) queden resguardados del agua dentro de las regiones internas de la proteína. También puede haber enlaces covalentes denominados puentes disulfuro entre residuos de aminoácidos cisteína en diversos lugares de polipéptido. • La estructura cuaternaria consiste en la asociación de dos o más polipéptidos, cada uno plegado en su estructura terciaria, en una proteína de múltiples subunidades. No todas las proteínas forman estructuras cuaternarias, pero éstas son una característica de muchas proteínas con funciones complejas, incluidas varias que participan en la expresión del genoma. Algunas estructuras cuaternarias se mantienen unidas por puentes disulfuro entre los diferentes polipéptidos y forman proteínas de múltiples subunidades estables que no pueden ser degradadas con facilidad en sus partes componentes. Otras son asociaciones más laxas de subunidades estabilizadas por enlaces de hidrógeno y efectos hidrófobos, lo que significa que estas proteínas pueden revertir a sus polipéptidos componentes o cambiar la composición de sus subunidades según los requerimientos funcionales de la célula. La diversidad de los aminoácidos es la base de la diversidad de las proteínas Desde el punto de vista funcional, las proteínas difieren porque los aminoácidos que las componen son, en sí mismos, químicamente diversos. Por lo tanto, diferentes secuencias de aminoácidos dan por resultado distintas combinaciones de reactividad química, que imponen no sólo la estructura Figura 1.16 Las dos unidades estructurales secundarias principales halladas en las proteínas: (A) la hélice α y (B) la hoja β. Bosquejo de las cadenas polipeptídicas. Se han omitido los grupos R para que resulte más claro. Cada estructura está estabilizada por enlaces de hidrógeno (H) entre grupos C=O y N–H de diferentes enlaces peptídicos. La conformación en hoja β mostrada es antiparalela; las dos cadenas transcurren en direcciones opuestas. También hay hojas β paralelas. 20 Capítulo 1 Genomas, transcriptomas y proteomas global de la proteína resultante, sino también la posición sobre la superficie de la estructura de los grupos reactivos que determinan las propiedades químicas de la proteína. Figura 1.17 Estructura terciaria de una proteína. Esta estructura de una proteína imaginaria consiste en tres hélices α, ilustradas como espirales y una hoja β de cuatro cadenas, indicada por las flechas. Figura 1.18 Grupos R de los aminoácidos. Se considera, convencionalmente, que estos 20 aminoácidos están especificados por el código genético. La diversidad de los aminoácidos deriva del grupo R, pues esta parte es diferente en cada aminoácido y varía mucho de estructura. Las proteínas se forman a partir de un conjunto de 20 aminoácidos (figura 1.18; cuadro 1.2). Algunos de ellos tienen grupos R que son estructuras pequeñas, relativamente simples, como un solo átomo de hidrógeno (en el aminoácido llamado glicina) o un grupo metilo (alanina). Otros grupos R son grandes cadenas laterales aromáticas, complejas (fenilalanina, triptófano y tirosina). La mayoría de los aminoácidos no tienen carga, pero dos presentan carga negativa (ácido aspártico y ácido glutámico) y tres, carga positiva (arginina, histidina y lisina). Algunos aminoácidos son polares (p. ej., glicina, serina y treonina), otros son no polares (p. ej., alanina, leucina y valina). Los veinte aminoácidos mostrados en la figura 1.18 son los que se considera, convencionalmente, que están especificados por el código genético (sección 1.3.2). Por lo tanto, son los aminoácidos que están unidos cuando las moléculas de mRNA son traducidas a proteínas. Sin embargo, estos 20 aminoácidos no representan, por sí mismos, el límite de la diversidad química de las proteínas. La diversidad es aún mayor debido a dos factores: Proteínas y proteoma 21 Cuadro 1.2 Abreviaturas de los aminoácidos Abreviatura Aminoácido Alanina Tres letras Una letra Ala A Arginina Arg R Asparagina Asn N Ácido aspártico Asp E Ácido glutámico Glu D Cisteína Cys C Glutamina Gln Q Glicina Gly G Histidina His H Isoleucina Ile I Leucina Leu L Lisina Lys K Metionina Met M Fenilalanina Phe F Prolina Pro P Serina Ser S Treonina Thr T Triptófano Trp W Tirosina Tyr Y Valina Val V • Durante la síntesis proteica, se pueden insertar, por lo menos, otros dos aminoácidos: selenocisteína y pirrolisina (figura 1.19), en una cadena polipeptídica; su inserción está dirigida por una modificación de la lectura del código genético (sección 13.1.1). • Durante el procesamiento de las proteínas, algunos aminoácidos son modificados por el agregado de nuevos grupos químicos; por ejemplo, por acetilación o fosforilación, o por unión de una gran cadena lateral formada por unidades de azúcar (sección 13.3.3). Por lo tanto, las proteínas muestran un inmenso grado de variabilidad química, parte de la cual está directamente especificada por el genoma, mientras que el resto surge del procesamiento de las proteínas. 1.3.2 Proteoma El proteoma comprende todas las proteínas presentes en una célula en un momento determinado. Se considera que una célula “típica” de mamífero; por ejemplo, un hepatocito, contiene de 10.000 a 20.000 proteínas diferentes, alrededor de 8 ¥ 109 moléculas individuales en total, lo que representa cerca de 0,5 ng de proteína o 18-20% del peso celular total. El número de copias de cada proteína varía enormemente, de menos de 20.000 moléculas por célula, para los tipos más raros, hasta 100 millones de copias, para los más comunes. Se considera que cualquier proteína que está presente con un número de copias superior a 50.000 por célula es relativamente abundante y, en la célula promedio Figura 1.19 Estructura de la selenocisteína y la pirrolisina. Las partes mostradas en pardo indican las diferencias entre estos aminoácidos y la cisteína y la lisina, respectivamente. 22 Capítulo 1 Genomas, transcriptomas y proteomas de mamífero, alrededor de 2.000 proteínas caen dentro de esta categoría. Cuando se examinan los proteomas de diferentes tipos de células de mamíferos, se observan muy pocas diferencias entre estas proteínas abundantes, lo que sugiere que la mayoría de ellas son proteínas constitutivas que realizan actividades bioquímicas generales que tienen lugar en todas las células. Las proteínas que aportan a la célula su función especializada suelen ser bastante raras, aunque hay excepciones, como las grandes cantidades de hemoglobina presente sólo en los eritrocitos. Relación entre transcriptoma y proteoma El flujo de información del DNA al RNA por transcripción no da lugar a ninguna dificultad conceptual. Los polinucleótidos DNA y RNA tienen estructuras muy similares y es fácil comprender cómo se puede hacer una copia RNA de un gen mediante síntesis dependiente del molde, utilizando las reglas de apareamiento de bases con las que nos hemos familiarizado. La segunda fase de la expresión del genoma, durante la cual las moléculas de mRNA del transcriptoma dirigen la síntesis de proteínas, es menos fácil de entender si se consideran sólo las estructuras de las moléculas involucradas. A principios de la década de 1950, poco después del descubrimiento de la estructura de doble hélice, varios biólogos moleculares intentaron diseñar posibles modos de unión ordenada de aminoácidos a mRNA, pero todos estos esquemas contenían por lo menos algunos enlaces que debían ser más cortos o más largos que lo posible, de acuerdo con las leyes fisicoquímicas, y cada idea fue desechada en silencio. Finalmente, en 1957, Francis Crick comenzó a aclarar la confusión al predecir la existencia de una molécula adaptadora que formaría un puente entre el mRNA y el polipéptido sintetizado. Poco después se advirtió que estas moléculas adaptadoras eran los tRNA y, una vez establecido este hecho, se adquirió con rapidez un conocimiento detallado del mecanismo de síntesis de las proteínas. Este proceso se examina en la sección 13.1. El otro aspecto de la síntesis proteica que interesaba a los biólogos moleculares de la década de 1950 era el problema de la información. Éste hace referencia al segundo componente importante del eslabón entre el transcriptoma y el proteoma: el código genético, que especifica cómo se traduce la secuencia nucleotídica de un mRNA a la secuencia de aminoácidos de una proteína. En la década de 1950 se reconoció que se requiere un código genético de tripletes –uno en el que cada palabra de codificación, o codón, comprende tres nucleótidos– para explicar los 20 aminoácidos hallados en las proteínas. Un código de dos letras tendría sólo 42 = 16 codones, que no bastan para explicar los 20 aminoácidos, mientras que un código de tres letras daría 43 = 64 codones. El código genético fue descifrado en la década de 1960, en parte por análisis de los polipéptidos que surgían de la traducción de mRNA artificiales de secuencia conocida o predecible, en sistemas sin células, y en parte, por determinación de qué aminoácidos se asociaban con qué secuencias de RNA, en un análisis basado en ribosomas purificados. Cuando se finalizó este trabajo, se advirtió que los 64 codones pertenecían a grupos cuyos miembros codificaban el mismo aminoácido (figura 1.20). Sólo el triptófano y la metionina tienen un codón cada uno: todos los demás aminoácidos son codificados por dos, tres, cuatro o seis codones. Esta característica del código se denomina redundancia (degeneracy). El código también tiene cuatro codones de puntuación, que indican los puntos donde debe comenzar y finalizar la traducción de la secuencia nucleotídica dentro de un mRNA (figura 1.21). Por lo general, el codón de iniciación es 5’–AUG–3’, que también especifica la metionina (así, la mayoría de los polipéptidos recién sintetizados comienzan con metioni- Proteínas y proteoma 23 Figura 1.20 Código genético. Los aminoácidos son designados con las abreviaturas estándares, de tres letras (véase cuadro 1.2). na), aunque con unos pocos mRNA se utilizan otros codones como 5’–GUG–3’ y 5’–UUG–3’. Los tres codones de terminación son 5’–UAG–3’, 5’–UAA–3’ y 5’–UGA–3’. El código genético no es universal Al principio se pensaba que el código genético debía de ser el mismo en todos los organismos. El argumento era que, una vez establecido, sería imposible que el código cambiara, porque dar un nuevo significado a cualquier codón aislado determinaría una alteración global de las secuencias de aminoácidos de las proteínas. Este razonamiento parece sólido, de manera que es sorprendente que, en realidad, el código genético no sea universal. El código mostrado en la figura 1.20 es válido para la mayoría de los genes de casi todos los organismos, pero las desviaciones son generalizadas. En particular, los genomas mitocondriales suelen utilizar un código no estándar (cuadro 1.3). Esto fue descubierto en 1979 por el grupo de Frederick Sanger de Cambridge, RU, que observó que varios mRNA mitocondriales humanos contienen la secuencia 5’–UGA–3’, que en general codifica terminación, en posiciones internas donde no es esperable que se detenga la síntesis proteica. Comparaciones con las secuencias de aminoácidos de las proteínas codificadas por estos mRNA mostraron que 5’–UGA–3’ es un codón de triptófano en las mitocondrias humanas y que esto es sólo una de cuatro desviaciones del código en este sistema genético particular. Los genes mitocondriales de otros organismos también presentan desviaciones del código, aunque es probable que por lo menos una de éstas –el uso de 5’–CGG–3’ como codón del triptófano en las mitocondrias de las plantas– sea corregida por edición del RNA (sección 12.2.5) antes de que se produzca la traducción. También se conocen códigos no estándares para los genomas nucleares de eucariontes inferiores. A menudo, una modificación se limita sólo a un pequeño grupo de organismos y suele consistir en reasignación de los codones de terminación (cuadro 1.3). Las modificaciones son menos frecuentes en los procariontes, pero se conoce un ejemplo en especies de Mycoplasma. Un tipo más importante de variación del código es la reasignación del codón dependiente del contexto, que ocurre cuando la proteína que debe ser sintetizada contiene selenocisteína o pirrolisina. Las proteínas que contienen pirrolisina son raras y es probable que sólo estén presentes en el grupo de Figura 1.21 Posiciones de los codones de puntuación en un mRNA. 24 Capítulo 1 Genomas, transcriptomas y proteomas Cuadro 1.3 Ejemplos de desviaciones respecto del código genético estándar Organismo Codón Debería codificar En realidad codifica Genomas mitocondriales UGA Terminación Trp AGA, AGG Arg Terminación AUA Ile Met UGA Terminación Trp AGA Arg Ser AUA Ile Met UGA Terminación Trp CUN Leu Thr AUA Ile Met Hongos UGA Terminación Trp Maíz CGG Arg Trp Varios protozoos UAA, UAG Terminación Gln Candida cylindracea CUG Leu Ser Especies de Micrococcus AGA Arg Terminación AUA Ile Terminación Especies de Euplotes sp. UGA Terminación Cys Especies de Mycoplasma sp. UGA Terminación Trp CGG Arg Terminación Diversos UGA Terminación Selenocisteína Archaea UAG Terminación Pirrolisina Mamíferos Drosophila Saccharomyces cerevisiae Genomas nucleares y procariontes Reasignación del codón dependiente del contexto Abreviatura: N, cualquier nucleótido. procariontes denominados archaea (capítulo 8), pero las selenoproteínas están difundidas en muchos organismos; por ejemplo, la enzima glutatión peroxidasa que ayuda a proteger las células de los seres humanos y otros mamíferos contra el daño oxidativo. La selenocisteína está codificada por 5’–UGA–3’ y la pirrolisina, por 5’–UAG–3’. Por lo tanto, estos codones tienen un doble significado porque todavía se emplean como codones de terminación en los organismos pertinentes (cuadro 1.3). Un codón 5’–UGA–3’ que especifica selenocisteína se distingue de los verdaderos codones de terminación por la presencia de una estructura de bucle en horquilla en el mRNA, localizada inmediatamente corriente abajo del codón de selenocisteína, en los procariontes, y en la región 3’ no traducida (la parte del mRNA después del codón de terminación) en los eucariontes. El reconocimiento del codón de selenocisteína requiere interacción entre la estructura en horquilla y una proteína especial que participa en la traducción de estos mRNA. Es probable que actúe un sistema similar para especificar pirrolisina. Relación entre proteoma y bioquímica celular La información biológica codificada por el genoma encuentra su expresión final en una proteína, cuyas propiedades biológicas están determinadas por Proteínas y proteoma su estructura plegada y por la disposición espacial de los grupos químicos de su superficie. Al especificar proteínas de diferentes tipos, el genoma puede construir y mantener un proteoma, cuyas propiedades biológicas forman la base subyacente de la vida. El proteoma puede desempeñar este papel debido a la enorme diversidad de estructuras proteicas que se pueden formar, diversidad que les permite a las proteínas llevar a cabo una variedad de funciones biológicas. Estas funciones son las siguientes: • La catálisis bioquímica es la función del tipo especial de proteínas denominadas enzimas. Las vías metabólicas centrales, que aportan energía a la célula, son catalizadas por enzimas, como los procesos biosintéticos que determinan la construcción de ácidos nucleicos, proteínas, hidratos de carbono y lípidos. La catálisis bioquímica también impulsa la expresión del genoma a través de la actividad de enzimas como la RNA polimerasa. • La función estructural que, en el nivel celular, depende de las proteínas que forman el citoesqueleto, también es una función primaria de algunas proteínas extracelulares. Por ejemplo, el colágeno, que es un componente importante de huesos y tendones. • Las proteínas contráctiles confieren movimiento; los ejemplos mejor conocidos son la actina y la miosina de las fibras citoesqueléticas. • El transporte de materiales alrededor del cuerpo es una actividad importante de las proteínas: por ejemplo, la hemoglobina transporta oxígeno por el torrente circulatorio y la albúmina sérica, ácidos grasos. • La regulación de los procesos celulares es mediada por proteínas de señalamiento, como STAT (transductores de señales y activadores de la transcripción, sección 14.1.2) y por proteínas como activadores que se unen al genoma e influyen en los niveles de expresión de genes individuales y grupos de genes (sección 11.3). Las actividades de grupos de células son reguladas y coordinadas por hormonas extracelulares y citocinas, muchas de las cuales son proteínas (p. ej., insulina, la hormona que controla los niveles de glucemia, e interleucinas, un grupo de citocinas que regulan la división y la diferenciación celular). • La protección del cuerpo y de células individuales es la función de un espectro de proteínas, entre ellas los anticuerpos y las proteínas involucradas en la respuesta de coagulación de la sangre. • Las proteínas desempeñan funciones de depósitos, por ejemplo, la ferritina, que actúa como un depósito hepático de hierro, y las gliadinas, que depositan aminoácidos en semillas de trigo. Esta multiplicidad de funciones de las proteínas brinda al proteoma su capacidad del convertir el plan detallado contenido en el genoma en las características esenciales del proceso de la vida. Resumen El genoma es el depósito de la información biológica que tiene cada organismo del planeta. La mayoría de los genomas están compuestos por DNA, con escasas excepciones, como los virus que tienen genomas de RNA. La expresión del genoma es el proceso por el cual la información contenida en el genoma se libera en la célula. El primer producto de la expresión del genoma es el transcriptoma, el conjunto de RNA derivados de los genes que codifican proteínas que están activos en la célula en un momento particular. El segundo producto es el proteoma, el repertorio de proteínas de la célula que especifican el carácter de las reacciones bioquímicas que la célula es capaz de llevar a cabo. Entre 1945 y 1952, se obtuvo la primera evidencia experimental de que los genes estaban compuestos 25 26 Capítulo 1 Genomas, transcriptomas y proteomas por DNA, pero fue el descubrimiento de la estructura de doble hélice por Watson y Crick, en 1953, lo que convenció a los biólogos de que el DNA era, por cierto, el material genético. Un polinucleótido de DNA es un polímero no ramificado formado por múltiples copias de cuatro nucleótidos químicamente diferentes. En la doble hélice, se entrelazan dos polinucleótidos entre sí, con las bases de los nucleótidos del lado interno de la molécula. Los polinucleótidos están unidos por enlaces de hidrógeno entre las bases, con el apareamiento de la base A siempre con T y de G siempre con C. El RNA también es un polinucleótido, pero cada nucleótido tiene estructuras diferentes de las de los hallados en el DNA y, en general, el RNA es de una sola cadena. Las RNA polimerasas dependientes de DNA son responsables de copiar los genes en RNA mediante el proceso denominado transcripción, que determina la síntesis no sólo del transcriptoma, sino también de una serie de moléculas de RNA funcional, que no codifican proteínas, pero cumplen, aun así, papeles vitales en la célula. Inicialmente, muchos RNA son sintetizados como moléculas precursoras que, a través de reacciones que provocan cortes y uniones, y por modificaciones químicas, liberan las formas maduras. Las proteínas también son polímeros no ramificados, pero sus unidades son aminoácidos unidos por enlaces peptídicos. La secuencia de aminoácidos es la estructura primaria de la proteína. Los niveles más altos de estructura –secundaria, terciaria y cuaternaria– se forman por plegamiento de la estructura primaria en conformaciones tridimensionales y asociación de polipéptidos individuales en estructuras multiproteicas. Las proteínas presentan diversidad funcional, porque cada aminoácido tiene diferentes propiedades químicas que, al combinarse de distintas maneras, dan origen a proteínas con un espectro de características químicas. Las proteínas son sintetizadas por traducción de los mRNA y las reglas del código genético especifican qué triplete de nucleótidos codifica cada aminoácido. El código genético no es universal, se observan variaciones en las mitocondrias y los eucariontes inferiores, y algunos codones pueden tener dos significados diferentes en un solo gen. Preguntas Preguntas de elección múltiple 1.1.* 1.2. ¿Cuál de las siguientes afirmaciones acerca del genoma de un organismo es FALSA? a. El genoma contiene la información genética para construir y mantener un organismo vivo. b. Los genomas de los organismos celulares están compuestos por DNA. c. El genoma puede expresar su propia información sin la actividad de enzimas y proteínas. d. Los genomas eucariontes están compuestos por DNA tanto nuclear como mitocondrial. Las células somáticas son aquellas que: a. Contienen un número haploide de cromosomas. b. Dan origen a los gametos. c. Carecen de mitocondrias. d. Contienen un número diploide de cromosomas y representan la mayor parte de las células humanas. 1.3.* ¿Cuál de los siguientes flujos de información genética tiene lugar en las células? a. El DNA es transcrito a RNA que, después, es traducido a una proteína. b. El DNA es traducido a una proteína que, después, es transcrita a RNA. c. El RNA es transcrito a DNA que, después, es traducido a una proteína. d. Las proteínas son traducidas a RNA que, después, es transcrito a DNA. 1.4. A principios del siglo XX se consideraba que las proteínas podían transportar información genética. ¿A cuál de las siguientes causas se debía este razonamiento? a. Los cromosomas están compuestos por cantidades aproximadamente iguales de proteínas y DNA. b. Se sabía que las proteínas estaban compuestas por 20 aminoácidos diferentes, mientras que el DNA estaba compuesto por sólo 4 nucleótidos. c. Se sabía que diferentes proteínas tenían secuencias únicas, mientras que se consideraba que todas las moléculas de DNA tenían la misma secuencia. d. Todas las anteriores. 1.5.* 1.6. ¿Qué tipos de enlaces unen los nucleótidos individuales del DNA? a. Glucosídico. b. Peptídico. c. Fosfodiéster. d. Electrostático. ¿Cuál de las siguientes técnicas emplearon activamente Watson y Crick para resolver la estructura del DNA? a. Construcción de modelos de moléculas de DNA para garantizar que los átomos estuviesen correc- 27 * Las respuestas a las preguntas impares se encuentran en el Apéndice tamente ubicados. b. Cristalografía de rayos X del DNA. c. Estudios cromatográficos para determinar la composición relativa de nucleótidos de diversas fuentes. d. Estudios genéticos que demostraron que el DNA es el material genético. 1.7.* Erwin Chargaff estudió el DNA de diversos organismos y demostró que: a. El DNA es el material genético. b. El RNA es transcrito del DNA. c. La cantidad de adenina de un determinado organismo es igual a la cantidad de timina (y la de guanina a la de citosina). d. La doble hélice se mantiene unida por enlaces de hidrógeno entre las bases. 1.8. El transcriptoma de una célula se define como: a. Todas las moléculas de RNA presentes en una célula. b. Las moléculas de RNA que codifican proteínas presentes en una célula. c. Las moléculas de RNA ribosómico presentes en una célula. d. Las moléculas de RNA de transferencia presentes en una célula. 1.9.* ¿Cómo efectúan la síntesis de RNA las RNA polimerasas dependientes de DNA? a. Utilizan un molde de DNA para la polimerización de ribonucleótidos. b. Utilizan un molde de proteínas para la polimerización de ribonucleótidos. c. Utilizan un molde de RNA para la polimerización de ribonucleótidos. d. No requieren ningún molde para la polimerización de ribonucleótidos. 1.10. ¿Qué tipo de RNA funcional es un componente primario de las estructuras requeridas para la síntesis proteica? a. RNA mensajero. b. RNA ribosómico. c. RNA nuclear pequeño. d. RNA de transferencia. 1.11.* El proteoma de una célula se define como: a. Todas las proteínas que una célula es capaz de sintetizar. b. Todas las proteínas presentes en una célula durante la vida de la célula. c. Todas las proteínas presentes en una célula en un momento dado. Continúa... Capítulo 1 Genomas, transcriptomas y proteomas 28 Preguntas de elección múltiple (continuación) d. Todas las proteínas que se están sintetizando activamente en una célula en un momento dado. 1.12. ¿Qué nivel de estructura proteica describe la conformación plegada de una proteína de múltiples subunidades? a. Estructura primaria. b. Estructura secundaria. c. Estructura terciaria. d. Estructura cuaternaria. 1.13.* ¿Qué tipo de enlace covalente es importante para unir residuos cisteína localizados en diversos sitios de un polipéptido? a. Puente disulfuro. b. Enlace de hidrógeno. c. Enlace peptídico. d. Enlace fosfodiéster. 1.14. Se considera que la mayoría de las proteínas abundantes de una célula son constitutivas. ¿Cuál es su función? a. Son responsables de las funciones específicas de cada tipo celular. Preguntas de respuesta breve b. Son responsables de regular la expresión del genoma en las células. c. Son responsables de eliminar materiales de desecho de las células. d. Son responsables de las actividades bioquímicas generales que tienen lugar en todas las células. 1.15.* ¿A cuál de las siguientes características hace referencia la redundancia del código genético? a. Cada codón puede especificar más de un aminoácido. b. La mayoría de los aminoácidos tienen más de un codón. c. Hay varios codones de iniciación. d. Los codones de terminación también pueden codificar aminoácidos. 1.16. ¿Cuál de las siguientes funciones biológicas NO corresponde a las proteínas? a. Catálisis biológica. b. Regulación de procesos celulares. c. Transporte de información genética. d. Transporte de moléculas en organismos multicelulares. * Las respuestas a las preguntas impares se encuentran en el Apéndice 1.1.* Proporcione una pauta temporal para el descubrimiento del DNA, el descubrimiento de que el DNA es el material genético, el descubrimiento de la estructura del DNA y la caracterización del primer genoma. 1.8. ¿De qué manera los enlaces de hidrógeno, las interacciones electrostáticas y las fuerzas hidrófobas desempeñan papeles importantes en las estructuras secundaria, terciaria y cuaternaria de las proteínas? 1.2. ¿Qué dos tipos de interacción química estabilizan la doble hélice? 1.9.* ¿Cómo pueden tener tantas estructuras y funciones diversas las proteínas cuando todas son sintetizadas de tan sólo 20 aminoácidos? 1.3.* ¿Por qué el apareamiento de bases específico entre A y T, y G y C brinda la base para la fidelidad de la replicación del DNA? 1.10. Además de los 20 aminoácidos, las proteínas presentan diversidad química adicional debido a dos factores. ¿Cuáles son estos dos factores y cuál es su importancia? 1.4. ¿Cuáles son las dos diferencias químicas importantes entre RNA y DNA? 1.5.* ¿Por qué las moléculas de mRNA tienen semivida breve respecto de otras moléculas de RNA? 1.11.* ¿Cómo puede el codón 5’–UGA–3’ funcionar como codón de terminación y como codón para el aminoácido modificado selenocisteína? 1.6. ¿El mRNA que es traducido está en la misma forma que el sintetizado del molde de DNA? 1.12. ¿Cómo dirige el genoma la actividad biológica de una célula? 1.7* ¿Carecen alguna vez las células de un transcriptoma? Explique su respuesta. Preguntas Problemas complejos 1.1.* El texto (página 11) afirma que Watson y Crick descubrieron la estructura de la doble hélice del DNA el sábado 7 de marzo de 1953. Justifique esta afirmación. 1.2. Analice por qué la doble hélice ganó aceptación universal inmediata como estructura correcta del DNA. Preguntas sobre figuras 29 * Las respuestas a las preguntas impares se encuentran en el Apéndice 1.3.* ¿Qué experimentos llevaron a dilucidar el código genético en la década de 1960? 1.4. El transcriptoma y el proteoma son considerados, respectivamente, un producto intermedio y el producto final de la expresión del genoma. Evalúe los puntos fuertes y las limitaciones de estos términos para nuestro conocimiento de la expresión del genoma. * Las respuestas a las preguntas impares se encuentran en el Apéndice 1.1.* Analice cómo cada uno de estos experimentos ayudó a demostrar que el DNA, y no las proteínas, contenía la información genética. Capítulo 1 Genomas, transcriptomas y proteomas 30 Preguntas sobre figuras (continuación) 1.2. Identifique la desoxirribosa, los grupos fosfato y las diferentes bases nitrogenadas. ¿Puede identificar los átomos de carbono de 1’ a 5’ de la desoxirribosa? 1.4 Explique las diferencias del RNA de las células procariontes y eucariontes. 1.3.* Para este modelo espacial de B-DNA describa las características estructurales importantes de la molécula. Lecturas recomendadas 31 Lecturas recomendadas Libros y artículos sobre el descubrimiento de la doble hélice y otros hitos importantes en el estudio del DNA Brock, T. D. (1990) The emergency of Bacterial Genetics. Cold Spring Harbor Laboratory Press, New York. Historia detallada que pone en perspectiva el trabajo sobre el principio de transformación y el experimento de Hershey-Chase. Judson, H. F. (1979) The Eighth Day of Creation. Jonathan Cape, London. Relato muy accesible sobre el desarrollo de la biología molecular hasta la década de 1970. Kay, L. E. (1993) The Molecular Vision of Life. Oxford University Press, Oxford. Contiene una explicación particularmente informativa de por qué alguna vez se consideró que los genes estaban compuestos por proteína. Lander, E. S. and Weinberg, R. A. (2000) Genomics: journey to the center of biology. Science 287: 17771782. Breve descripción de genética y biología molecular desde Mendel hasta la secuencia del genoma humano. Maddox, B. (2002) Rosalind Franklin: The Dark Lady of DNA. HarperCollins, London. McCarty, M. (1985) The transforming Principle: Discovering that Genes are Made of DNA. Norton, London. Olby, R. (1974) The Path to de Double Helix. Macmillan, London. Una reseña exhaustiva de la investigación que llevó al descubrimiento de la doble hélice. Watson, J. D. (1968) The Double Helix. Atheneum, London. El descubrimiento más importante de la biología del siglo xx escrito como una telenovela.