Bustos Jaimes I, Castañeda Patlán C, Oria Hernández J, Rendón Huerta E, Reyes Vivas H, Romero Álvarez I, (eds). Mensaje Bioquímico, Vol XXXII. Depto de Bioquímica, Fac de Medicina, Universidad Nacional Autónoma de México. Cd Universitaria, México, DF, MÉXICO (2008). (http://bq.unam.mx/mensajebioquimico) (ISSN-0188-137X) LAS HERRAMIENTAS DEL MODELADO MOLECULAR Oscar Flores Herrera1, Juan Luis Rendón Gómez1, Federico Martínez Montes1, Guadalupe Guerra Sánchez2, Erick Sierra Campos2, Juan Pablo Pardo Vázquez1* 1. Departamento de Bioquímica, Facultad de Medicina, UNAM, Apartado postal 70-159, CP 04510, México, D.F. 2. Departamento de Microbiología, ENCB, IPN, CP 11340, México, D.F. *pardov@bq.unam.mx Resumen Como resultado de la secuenciación de genomas completos, la rapidez con que aparecen nuevas secuencias de aminoácidos es mucho mayor que el aumento en el número de estructuras proteicas que se obtienen por cristalografía de rayos X o resonancia magnética nuclear. Puesto que las técnicas de aislamiento y secuenciación del DNA son mucho más sencillas y rápidas que las dos que se utilizan para obtener la estructura de las biomoléculas, se espera que esta diferencia aumente en un futuro. Sin embargo, con el modelado molecular se puede acortar la distancia que existe entre el número de secuencias y estructuras. Entre los programas que se requieren para la construcción de modelos tridimensionales de proteínas se encuentran los que realizan búsquedas en bases de datos (BLAST, FASTA), los que llevan a cabo alineamientos pareados (SIM) o múltiples (ClustalX), los que predicen segmentos transmembranales (PHDhtm) o estructura secundaria (PHDsec) y los que construyen la estructura terciaria de una proteína a partir de su secuencia (Modeller y Swiss-Model). La energía de la estructura del modelo se puede minimizar utilizando varios ciclos de dinámica molecular y minimización de energía utilizando programas como NAMD y Gromacs. Un paso importante en este proceso es el de la validación del modelo con programas como Procheck, What_check, Prosa II y errat, entre otros. Palabras clave: modelado molecular, alineamiento pareado, alineamiento múltiple, BLAST, FASTA, ClustalX, matrices de similitud, PAM250, BLOSUM62, predicción de estructura secundaria, predicción de segmentos transmembranales, predicción de estructura terciaria, Modeller, Swiss_model, minimización de energía, dinámica molecular, validación de estructuras, Procheck, WhatCheck, Errat, ProsaII. 95 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Abstract Due to the numerous sequencing genome projects around the world, the gap between the number of amino acid sequences and the number of structures increases every year. Today, the best solution to this problem is molecular modeling, a technique that can decrease the sequence-structure gap. Different types of programs are used in molecular modeling. Some of these search data bases for similar sequences (BLAST, FASTA), others carry out pairwise (SIM) or multiple (ClustalX) alignments; there are also the transmembrane segment (PHDhtm) and secondary structure (PHDsec) prediction servers, and the specific programs (Modeller, SwissModel) for the construction of the 3D structure of the protein. The energy of the model is minimized thorough several cycles of molecular dynamics and energy minimization (NAMD, Gromacs) and programs like Procheck, What_check, Prosa II, and Errat are used for the validation of the structure. Keywords: molecular modeling, pairwise alignment, multiple alignment, BLAST, FASTA, ClustalX, similarity matrices, PAM250, BLOSUM62, secondary structure prediction, transmembrane segment prediction, tertiary structure prediction, Modeller, Swiss-Model, energy minimization, molecular dynamics, structure validation, Procheck, WhatCheck, Errat, ProsaII.. Introducción Uno de los grandes evolucionistas de nuestra época, Theodosius Dobshanzky, mencionaba que en biología todo se debe ver bajo la lupa de la evolución [1]. En este sentido, cuando se alinean dos o más secuencias de proteínas o DNA, lo que se busca es una relación filogenética entre ellas, averiguar si provienen de un ancestro común, para después hacer inferencias acerca de la función, de la estructura, de la posición de los segmentos transmembranales o de la semejanza del sitio activo, entre otras. Ya que las secuencias con las que se trabaja son de proteínas actuales, los cambios que ocurrieron durante la evolución (sustituciones, inserciones o eliminaciones) permitieron que la función de la proteína permaneciera, por lo que se les podría llamar mutaciones permitidas. Además, como una buena parte del trabajo que se realiza con las herramientas de la bioinformática se basa en el alineamiento de secuencias, se deben aclarar algunos términos que son fundamentales en el marco de la evolución. Homología. Dos secuencias son homólogas si se derivan de un ancestro común [2]. Con base en esta definición, queda claro que es incorrecto decir que hay cierto porcentaje de homología entre dos proteínas. O son o no son homólogas. Otro punto importante es que la homología es una inferencia que se hace con base en el parecido de las secuencias en un alineamiento. Cuando el porcentaje de identidad es alto, a partir de un 35 a 40%, la propuesta de homología es fácil. Sin embargo, cuando la identidad entre las secuencias cae por debajo del 20%, se requiere de un análisis de las secuencias más detallado para llegar a la conclusión de que las proteínas son homólogas. Con respecto al modelaje molecular, se prefieren las proteínas ortólogas que tienen la misma función a las parálogas con funciones diferentes. Ortología. Si las dos secuencias aparecieron cuando se formaron las dos especies, son ortólogas [2]. Es a partir de las secuencias ortólogas que se deben construir los árboles filogenéticos. Además, se esperaría que las proteínas ortólogas tuvieran la misma función, por lo que también se ha dicho que dos proteínas son ortólogas si están en diferentes especies y tienen la misma función. 96 Flores Herrera y cols. Paralogía. Cuando las dos secuencias se obtienen por un proceso de duplicación génica en una especie, se les llama parálogas [2]. La evolución de nuevas funciones para una proteína se basa, entre otras cosas, en la duplicación de un gen y la divergencia producida por mutaciones sobre uno de ellos. Las secuencias parálogas informan de la evolución de un genoma. También se menciona que dos secuencias son parálogas cuando se encuentran en la misma o diferente especie y tienen funciones distintas, aunque esta definición es muy restrictiva. Identidad. Porcentaje de aminoácidos idénticos que se colocan uno sobre el otro cuando se alinean las dos secuencias. El alineamiento que se muestra a continuación tiene 21 identidades (:) en un total de 60 caracteres por línea, contando también las eliminaciones (-), por lo que el porcentaje de identidad entre estas secuencias es de 35% o 21/60. KSLSAVSQLYQPENHLGLHQAEPAEIKYDYLISAVGAEPNTFGIPGVTDYGHFLKEIPNS : :.. .: .:. .: :. .:::: ::::::: . . ::::. .. ---SDDSEIKGDISH--------TEVPFDMLVVGVGAENATFGIPGVRENSCFLKEVGDA Similitud. Se toma en cuenta el parecido en las propiedades fisicoquímicas de los aminoácidos o los cambios permitidos entre los residuos con base en matrices de sustitución, como las PAM o las BLOSUM. Para obtener el porcentaje de similitud en el alineamiento que se muestra arriba, se suman las 21 identidades (:) y los 13 reemplazos conservativos (.) y el resultado se divide entre el total de caracteres: 34/60, que corresponde a un 57% de similitud. Como era de esperarse, el porcentaje de similitud es mayor que el de identidad. Clasificación de los aminoácidos Los aminoácidos que participan en la síntesis ribosomal de proteínas son 20 y están codificados en el genoma nuclear y mitocondrial de la célula. Una vez que el aminoácido se incorpora a la cadena polipeptídica puede ser blanco de varios tipos de modificaciones postraduccionales, como la fosforilación de residuos de serina y treonina o la acetilación de lisinas, entre otros. Desde un punto de vista fisicoquímico, a cada aminoácido se le pueden asignar ciertas propiedades, tales como polaridad, hidrofobicidad, tamaño y carga positiva o negativa, y se pueden clasificar en función de estas características (Figura 1). Se puede ver que la alanina cae en la categoría de los aminoácidos pequeños e hidrofóbicos, mientras que la arginina es un aminoácido muy voluminoso, polar y con carga positiva. Cuando se analizan los cambios que sufre la secuencia de una proteína durante el proceso evolutivo se observa que las sustituciones de los aminoácidos correlacionan en cierto grado con sus propiedades fisicoquímicas. Así, es fácil el intercambio entre aminoácidos polares, pero mucho menos frecuente la sustitución de uno polar por otro hidrofóbico. Asimismo, la selección natural favorece el intercambio de aminoácidos de tamaño similar y castiga la introducción de un aminoácido voluminoso en el interior de la proteína. Las fuerzas no covalentes El plegamiento de una proteína para adquirir la estructura nativa, la asociación de varias cadenas polipeptídicas para formar una proteína multimérica, y la unión del sustrato, coenzimas o cualquier otra molécula a las proteínas son procesos que están dirigidos por fuerzas no covalentes, sin la participación de enlaces covalentes. 97 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Figura 1. Clasificación de los aminoácidos con base en la polaridad, hidrofobicidad, carga, aromaticidad y tamaño. Las fuerzas no covalentes involucradas en estas reacciones son: las interacciones iónicas, los puentes de hidrógeno, el efecto hidrofóbico y las fuerzas de van der Waals. Estas cuatro fuerzas se entrelazan de manera que no pueden ser completamente separadas las unas de las otras. Por ejemplo, las fuerzas de van der Waals participan en cada uno de los otros tres fenómenos; los puentes de hidrógeno pueden ser considerados como un caso especial de interacción iónica; las interacciones iónicas pueden involucrar puentes de hidrógeno, o el efecto hidrofóbico es, en gran parte, el reflejo de los puentes de hidrógeno en el solvente. En conjunto, las interacciones no covalentes son responsables del reconocimiento molecular y de dirigir y mantener la estructura tridimensional de las proteínas. Las interacciones iónicas (electrostáticas) Cuando un ión con carga positiva interactúa con uno de carga negativa, se atraen y con ello a las moléculas o los segmentos de una proteína a los que estén unidos. Se conoce como par iónico al complejo que se forma cuando un catión y un anión en una solución interactúan favorablemente. Sin embargo, todas las interacciones entre los átomos y moléculas son, en última instancia, electrostáticas, aún las que se llevan a cabo entre moléculas no polares. Su energía varía de acuerdo con la naturaleza de las cargas involucradas y la constante dieléctrica (D) del medio. Entre iones con carga neta, la energía decae con respecto a la distancia (r) de acuerdo con la relación 1/Dr (interacciones de largo alcance), mientras que entre dipolos 6 permanentes y orientados al azar, la energía decae a razón de 1/Dr (interacción de corto 4 alcance). La energía entre una carga y un dipolo inducido decae a razón de 1/Dr . Se debe recalcar que el valor de D del agua es de 80, mientras que en la proteína puede tener valores entre 2 y 4. Las interacciones carga-carga de larga distancia en una proteína son difíciles de calcular, debido a la heterogeneidad local y a la interfase proteína-agua, la cual produce que la constante dieléctrica varíe mucho. El algoritmo de Warwicker-Watson divide a la proteína en 3 cubos de 1 Å y le asigna una constante dieléctrica apropiada. En estas condiciones el valor de D puede ser mayor que el del agua, debido a que partes de la proteína pueden actuar como un lente y enfocar o desenfocar las cargas o alinear a las moléculas del agua. 98 Flores Herrera y cols. Las fuerzas de van der Waals o de dispersión Las fuerzas de dispersión de London siguen la ley del recíproco de la sexta potencia de 12 6 la distancia: U = A/r – B/r , en donde A y B son constantes de proporcionalidad, con valores específicos para cada pareja de donadores-aceptores. Se observa que la energía asociada a la 6 atracción entre dos moléculas es función de 1/r . Nótese que esta relación es característica de la interacción entre dipolos. Cualquier molécula, aún siendo no-polar, puede presentar una separación de cargas como resultado de las fluctuaciones locales de la densidad electrónica en un instante determinado. Debido a que la interacción entre las moléculas depende de la inducción del dipolo, la polarización es un factor importante en la energía de la interacción entre dos átomos cualquiera. Recordemos que la polarizabilidad es la tendencia relativa de la nube electrónica de un átomo a ser distorsionada por la presencia de un ión vecino o un dipolo, es decir, por un campo eléctrico externo. La polarizabilidad electrónica () se define como el cociente del momento dipolo inducido (p) de un átomo entre el campo eléctrico (E) que induce este momento 2 -1 2 4 -1 dipolo: p = E. La polarizabilidad electrónica tiene las unidades del SI de: C·m ·V = Å ·s ·kg , 3 3 pero frecuentemente se expresa como volumen de polarizabilidad, con unidades de cm o Å = -24 3 10 cm . Es importante aclarar que la polarizabilidad no tiene que ver con la electronegatividad, sino más bien con la deformación de la nube electrónica: mientras más grande y alejada del núcleo sea la nube electrónica y su capacidad de deformarse, mayor será el valor de . La polarizabilidad está asociada con la constante B en la ecuación de las fuerzas de dispersión de London, y describe la fuerza de atracción entre dos átomos que están separados a una distancia de 1 Å. Así pues, mientras mayor sea la polarizabilidad, y en consecuencia el tamaño de la nube electrónica de un átomo, mayor será la energía de auto-interacción o auto-24 atracción (B). Por ejemplo, el grupo O tiene una polarizabilidad de 0.63 mL·10 y un potencial 6 de autoasociación de 220 kcal· Å /mol, mientras que para el CH2 los valores son 1.80 y 1160, respectivamente. Esto nos indica que el grupo metileno prefiere interactuar con moléculas similares que con el oxígeno. Aunque todas estas fuerzas de atracción son débiles y las energías de van der Waals bajas, todas son aditivas y pueden hacer contribuciones significativas a la asociación e interacción cuando se suman dentro de una molécula. Los puentes de hidrógeno El puente de hidrógeno es una interacción no covalente que se establece entre un ácido, conocido como donador, A-H, y una base, conocida como aceptor, B. En general, los dos átomos deben ser electronegativos, usualmente nitrógeno y oxígeno, uno de los cuales está unido covalentemente a un hidrógeno (OH, -NH), mientras que el otro expone un par de electrones sin compartir (O:, -N:). El hidrógeno compartido se encuentra en un doble pozo en el perfil de energía potencial: uno asociado con el donador (OH) y otro con el aceptor (O:). La barrera que separa los dos pozos disminuye conforme el donador y el aceptor se aproximan, y eventualmente se crea un solo pozo, en donde el protón se comparte entre los dos átomos electronegativos, lo que permite que al disociarse el puente de hidrógeno, se puedan producir + dos moléculas con carga (-OH + -O: = O y O:H ). Para los puentes de hidrógeno, la configuración óptima es la lineal y su energía puede variar entre 12 y 38 kJ/mol (3 a 9 kcal/mol). Si la energía de activación para la ruptura del puente es la misma que la energía de enlace (12.5, 25.0 y 37.6 kJ/mol), la teoría del estado de transición 10 8 6 -1 establece que los puentes se disocian con una velocidad de 4 X 10 , 3 X 10 y 2 X 10 s , respectivamente. Estos valores dejan patente la enorme velocidad de ruptura y formación de los 99 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) puentes de hidrógeno que, junto con la poca energía que se requiere para romperlos, resulta en que muchos de ellos pueden dar estabilidad a la conformación de una proteína, pero son lo suficientemente lábiles como para que los procesos biológicos se lleven a cabo con la suficiente rapidez. El efecto hidrofóbico El efecto hidrofóbico se refiere a la tendencia de los compuestos no polares, como los hidrocarburos, de transferirse desde una solución acuosa a una fase orgánica. La teoría del efecto hidrofóbico nos dice que esta segregación entre las moléculas no polares y las del agua no se debe a que existe una gran energía de interacción entre las mismas moléculas del soluto, sino que es el resultado de la reorganización de la red de puentes de hidrógeno del agua en presencia de un compuesto hidrofóbico. Un compuesto no polar en el agua produce un arreglo local del enramado de puentes de hidrógeno en donde las moléculas de agua se ordenan alrededor del compuesto hidrofóbico, causando una disminución de la entropía del sistema. Al extrapolar este concepto a las proteínas, un residuo no polar se dirige a la región hidrofóbica de la proteína, con lo cual se recupera la entropía del agua. Las consecuencias de la participación de las interacciónes iónicas (electrostáticas), de van der Waals, los puentes de hidrógeno y el efecto hidrofóbico son evidentes cuando se aprecia la estructura tridimensional de una proteína. Niveles estructurales de las proteínas En cualquier libro de texto se encuentra que existen cuatro niveles estructurales en las proteínas. El primero, llamado estructura primaria, corresponde a la secuencia de aminoácidos de la proteína junto con los puentes de disulfuro. La estructura secundaria se define por los arreglos periódicos locales de la cadena polipeptídica, y hay tres tipos básicos: la -hélice, la hoja -plegada y el giro. La estructura terciaria se forma cuando la proteína se pliega para dar la conformación nativa y la estructura cuaternaria refleja el arreglo de las subunidades en una proteína oligomérica. Como se verá a continuación, existen bases de datos para casi cada uno de los niveles estructurales de las proteínas. Bases de datos para proteínas Como se muestra en la Tabla 1, las bases de datos se pueden dividir en tres categorías, dependiendo del tipo de información que contienen [3]. Las primarias guardan secuencias de aminoácidos o de nucleótidos; las secundarias guardan expresiones regulares (patrones), matrices ponderadas (perfiles), motivos alineados (huellas), modelos de Markov ocultos (HMM), motivos alineados (bloques) o expresiones regulares borrosas (patrones). Finalmente, existen las bases de datos que contienen información estructural, como el banco de datos de proteínas cristalizadas (Protein Data Bank). 100 Flores Herrera y cols. Tabla 1. Tipos de bases de datos. PIR MIPS Swiss-Prot TrEMBL NRL-3D PROSITE BLOCKS Profiles PRINTS Pfam PDB Bases de datos Primarias http://pir.georgetown.edu/ http://mips.gsf.de/ http://ca.expasy.org/sprot/ http://ca.expasy.org/sprot/ http://www.renabi.fr/ Bases de datos secundarias http://www.ebi.ac.uk/ppsearch/ http://blocks.fhcrc.org/blocks/ http://hits.isb-sib.ch/cgi-bin/PFSCAN http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ http://pfam.sanger.ac.uk/ Base de datos de estructuras http://www.rcsb.org/pdb/home/home.do En la Tabla 1 también se muestra que existen muchas bases de datos primarias en donde se pueden conseguir secuencias de proteínas, pero la que se debe visitar primero es SWISS-PROT, cuyo nivel de anotación es excelente. Esta base de datos contiene las secuencias de aminoácidos de una gran cantidad de proteínas con ligas a otras bases de datos. A continuación se muestra un archivo de salida de SwissProt: ID AC DT DT DT DE DE GN OS OC OC OX RN RP RP RC RX RA RT RT RT RL CC CC CC CC CC CC CC CC CC CC CC CC CC CC DR DR DR DR DR NDI1_YEAST Reviewed; 513 AA. P32340; 01-OCT-1993, integrated into UniProtKB/Swiss-Prot. 01-OCT-1993, sequence version 1. 26-FEB-2008, entry version 80. Rotenone-insensitive NADH-ubiquinone oxidoreductase, mitochondrial precursor (EC 1.6.5.3) (Internal NADH dehydrogenase). Name=NDI1; OrderedLocusNames=YML120C; ORFNames=YM7056.06C; Saccharomyces cerevisiae (Baker's yeast). Eukaryota; Fungi; Dikarya; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. NCBI_TaxID=4932; [1] NUCLEOTIDE SEQUENCE [GENOMIC DNA], AND PROTEIN SEQUENCE OF 27-36 AND 41-50. STRAIN=YP102; MEDLINE=92137248; PubMed=1735444; de Vries S., van Witzenburg R., Grivell L.A., Marres C.A.M.; "Primary structure and import pathway of the rotenone-insensitive NADH-ubiquinone oxidoreductase of mitochondria from Saccharomyces cerevisiae."; Eur. J. Biochem. 203:587-592(1992). -!- FUNCTION: Catalyzes the oxidation of NADH generated inside the Mitochondrion. -!- CATALYTIC ACTIVITY: NADH + ubiquinone = NAD(+) + ubiquinol. -!- COFACTOR: Binds 1 FAD per subunit (By similarity). -!- SUBCELLULAR LOCATION: Mitochondrion inner membrane; Matrix side. Note=Bound to the mitochondrial inner membrane facing the matrix site. -!- MISCELLANEOUS: Present with 5240 molecules/cell in log phase SD medium. -!- SIMILARITY: Belongs to the NADH dehydrogenase family. ----------------------------------------------------------------------Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms Distributed under the Creative Commons Attribution-NoDerivs License ----------------------------------------------------------------------EMBL; X61590; CAA43787.1; ALT_SEQ; Genomic_DNA. EMBL; Z49218; CAA89160.1; -; Genomic_DNA. EMBL; AY723851; AAU09768.1; -; Genomic_DNA. PIR; S26704; S26704. RefSeq; NP_013586.1; -. 101 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR PE KW KW KW FT FT FT FT FT FT FT FT FT SQ DIP; DIP:5554N; -. IntAct; P32340; -. PeptideAtlas; P32340; -. Ensembl; YML120C; Saccharomyces cerevisiae. GeneID; 854919; -. GenomeReviews; Z71257_GR; YML120C. KEGG; sce:YML120C; -. CYGD; YML120c; -. SGD; S000004589; NDI1. LinkHub; P32340; -. GermOnline; YML120C; Saccharomyces cerevisiae. GO; GO:0005759; C:mitochondrial matrix; IDA:SGD. GO; GO:0008137; F:NADH dehydrogenase (ubiquinone) activity; IDA:SGD. GO; GO:0001300; P:chronological cell aging; IMP:SGD. GO; GO:0006120; P:mitochondrial electron transport, NADH to u...; IDA:SGD. GO; GO:0006116; P:NADH oxidation; IDA:SGD. GO; GO:0043065; P:positive regulation of apoptosis; IMP:SGD. InterPro; IPR013027; FAD_pyr_nucl-diS_OxRdtase. InterPro; IPR001327; Pyr_OxRdtase_NAD_bd. Pfam; PF00070; Pyr_redox; 1. Pfam; PF07992; Pyr_redox_2; 1. PRINTS; PR00368; FADPNR. 1: Evidence at protein level; Complete proteome; Direct protein sequencing; FAD; Flavoprotein; Inner membrane; Membrane; Mitochondrion; NAD; Oxidoreductase; Phosphoprotein; Transit peptide; Ubiquinone. TRANSIT 1 26 Mitochondrion. CHAIN 27 513 Rotenone-insensitive NADH-ubiquinone oxidoreductase. /FTId=PRO_0000021793. NP_BIND 55 85 FAD (By similarity). NP_BIND 229 265 NAD (By similarity). MOD_RES 27 27 Phosphoserine. MOD_RES 28 28 Phosphothreonine. VARIANT 10 10 K -> R. SEQUENCE 513 AA; 57250 MW; E3A43D75A1ADCF3B CRC64; MLSKNLYSNK RLLTSTNTLV RFASTRSTGV ENSGAGPTSF KTMKVIDPQH SDKPNVLILG SGWGAISFLK HIDTKKYNVS IISPRSYFLF TPLLPSAPVG TVDEKSIIEP IVNFALKKKG NVTYYEAEAT SINPDRNTVT IKSLSAVSQL YQPENHLGLH QAEPAEIKYD YLISAVGAEP NTFGIPGVTD YGHFLKEIPN SLEIRRTFAA NLEKANLLPK GDPERRRLLS IVVVGGGPTG VEAAGELQDY VHQDLRKFLP ALAEEVQIHL VEALPIVLNM FEKKLSSYAQ SHLENTSIKV HLRTAVAKVE EKQLLAKTKH EDGKITEETI PYGTLIWATG NKARPVITDL FKKIPEQNSS KRGLAVNDFL QVKGSNNIFA IGDNAFAGLP PTAQVAHQEA EYLAKNFDKM AQIPNFQKNL SSRKDKIDLL FEENNFKPFK YNDLGALAYL GSERAIATIR SGKRTFYTGG GLMTFYLWRI LYLSMILSAR SRLKVFFDWI KLAFFKRDFF KGL // A grandes rasgos, en el archivo se encuentran diferentes secciones que informan de múltiples aspectos de la proteína. Por ejemplo, se tiene la identidad de la proteína (ID), su número de acceso (AC), referencias relacionadas con la identificación y caracterización de la proteína, la reacción que lleva a cabo si es una enzima, los cofactores que une, su localización dentro de la célula, el número de moléculas por célula, la familia de proteínas a la que pertenece, ligas a otras bases de datos, la presencia de dominios y, finalmente, la secuencia de aminoácidos de la proteína. Búsquedas en bases de datos FASTA [4] y BLAST [5] son dos programas que se utilizan para realizar búsquedas en las bases de datos de proteínas o DNA (Tabla 2). El objetivo de estos algoritmos es encontrar secuencias que tengan cierto grado de similitud con la secuencia blanco, utilizando un método huerístico que, a diferencia de la programación dinámica, no garantiza la obtención del mejor alineamiento, aunque en la práctica está muy cerca de éste. Asimismo, en los dos algoritmos se supone que los alineamientos con altos puntajes contienen pequeñas secuencias de letras idénticas o casi idénticas, a las cuales se les denomina palabras. Mientras que BLAST busca 102 Flores Herrera y cols. palabras de un tamaño determinado (W), normalmente de 3 para proteínas y 11 para DNA, con un puntaje que esté por arriba de cierto valor límite (T), FASTA busca secuencias que sean idénticas, con palabras de 2 letras para las proteínas y de 6 para el DNA. Aunque el usuario puede cambiar el tamaño de las palabras para la búsqueda de secuencias en la base de datos, generalmente se recomienda tomar los valores por omisión. En contraste con los primeros programas, en las últimas versiones de éstos se permiten los huecos y las inserciones en los alineamientos. También se pueden colocar filtros en la búsqueda, como sería el caso de la eliminación de las secuencias de poca complejidad, caracterizadas por segmentos ricos en 2-4 tipos de aminoácidos. Tabla 2. Programas para búsquedas en bases de datos, alineamientos, modelado molecular, evaluación de modelos y minimización de energía-dinámica molecular. Programa Dirección de internet Buscadores en bases de datos FASTA http://www.ebi.ac.uk/fasta33/ BLAST http://expasy.org/tools/blast/ Alineamiento pareado global y local SIM http://expasy.org/tools/sim-prot.html LALIGN http://www.ch.embnet.org/software/LALIGN_form.html Alineamiento múltiple ClustalW2 http://www.ebi.ac.uk/Tools/clustalw2/index.html T-Coffee http://www.ebi.ac.uk/t-coffee/ MSA http://xylian.igh.cnrs.fr/msa/msa.html Modelado molecular manual Swiss-Model http://swissmodel.expasy.org/ Modeller http://www.salilab.org/modeller/ Modelado molecular manual 3D-JIGSAW http://bmm.cancerresearchuk.org/~3djigsaw/ CPHmodels http://www.cbs.dtu.dk/services/CPHmodels/ EASyPRED3D http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/ Plegamiento inverso PHYRE http://www.sbg.bio.ic.ac.uk/~phyre/ FUGUE http://www-cryst.bioc.cam.ac.uk/~fugue/ HHpred http://toolkit.tuebingen.mpg.de/hhpred SAM-T06 http://www.soe.ucsc.edu/research/compbio/SAM_T06/T06-query.html Minimización de energía y dinámica molecular NAMD http://www.ks.uiuc.edu/Research/namd/ GROMACS http://www.gromacs.org/ Evaluación de estructuras PROCHECK http://nihserver.mbi.ucla.edu/SAVS/ ProsaII https://prosa.services.came.sbg.ac.at/prosa.php WHAT_CHECK http://nihserver.mbi.ucla.edu/SAVS/ ERRAT http://nihserver.mbi.ucla.edu/SAVS/ ProQ http://www.sbc.su.se/~bjornw/ProQ/ProQ.cgi VERIFY_3D http://nihserver.mbi.ucla.edu/SAVS/ 103 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Un punto importante en la búsqueda de secuencias similares es el significado estadístico de los resultados del alineamiento, para lo cual se utilizan los valores de p (probabilidad) o E (valor esperado). Mientras más pequeños sean estos dos, mayor es la seguridad de que el alineamiento que se obtuvo se debe a que existe una relación evolutiva entre las dos secuencias y no es producto del azar. El valor de p asociado al puntaje S (relacionado con la similitud entre las secuencias) en un alineamiento indica la probabilidad de que un puntaje igual o mayor que S se obtenga al azar entre dos secuencias con una longitud y composición de aminoácidos similar y que no estén relacionadas entre sí. Por otro lado, el valor de E representa el número de resultados (hits) que se obtendrían al azar con una base de datos de cierto tamaño, con un puntaje igual o mayor que S. Por ejemplo, un valor de E igual a uno indicaría que con esa base de datos particular se esperaría obtener, por puro azar, un alineamiento pareado con un puntaje similar. Existen varias formalidades de FASTA. Por ejemplo, FASTA busca secuencias similares en bases de datos de proteínas o DNA, ya sea de una proteína blanco contra la base de datos de proteínas o de una secuencia de DNA blanco contra la base de datos de DNA; TFASTA compara una secuencia de aminoácidos contra una base de datos de DNA que se tradujo a secuencias de aminoácidos y FASTAX/Y compara las seis secuencias de aminoácidos que se obtienen de traducir una secuencia de DNA, contra una base de datos de proteínas. Cuando se realiza una búsqueda utilizando FASTA se obtiene el siguiente archivo: # /ebi/extserv/bin/fasta-35.2.10/fasta35_t -l /ebi/services/idata/v2121/fastacfg/fasta3db -Q -p -b 50 -d 50 -s BL62 -E 10.0 -f -10 -g -2 -z 1 @:1- +uniprot+ 2 FASTA searches a protein or DNA sequence data bank version 35.02 Feb. 18, 2008 Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448 Query: @ 1>>>Sequence 375 aa - 375 aa Library: UniProt 1889195618 residues in 5775821 sequences < 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 opt E() 2981 0:= 105 0:= one = represents 9225 library sequences 178 5:* 506 121:* 1915 1310:* 8000 7955:* 28913 30760:===* 80756 83416:=========* 171578 171317:==================* 290754 283124:==============================*= 422239 394933:==========================================*=== 519520 482757:====================================================*==== 547077 532526:=========================================================*== 553482 542391:==========================================================*= 517644 519277:========================================================* 459883 473842:================================================== * 395942 416586:=========================================== * 336065 355838:===================================== * 285347 297234:=============================== * 240925 244023:==========================* 192555 197673:=====================* 152196 158475:=================* 123714 126034:=============* 105293 99614:==========*= 73213 78354:========* 59230 61403:======* 46936 47981:=====* 36426 37409:====* 28544 29116:===* 21250 22632:==* 16053 17573:=* 12665 13443:=* 104 Flores Herrera y cols. 84 9783 10649:=* 86 7635 8239:* 88 6052 6375:* inset = represents 69 library sequences 90 4440 4933:* 92 3427 3817:* :=======================================* 94 2516 2953:* :===================================== * 96 1860 2285:* :=========================== * 98 1572 1768:* :======================= * 100 1195 1368:* :================== * 102 940 1058:* :============== * 104 713 819:* :===========* 106 558 634:* :=========* 108 388 490:* :====== * 110 335 379:* :=====* 112 282 294:* :====* 114 215 227:* :===* 116 200 176:* :==* 118 141 136:* :=*= >120 1684 105:* :=*======================= 1889195618 residues in 5775821 sequences Statistics: Expectation_n fit: rho(ln(x))= 3.5682+/-0.000177; mu= 7.7221+/- 0.010 mean_var=26.9296+/- 5.463, 0's: 35 Z-trim: 48 B-trim: 2872 in 1/65 Lambda= 0.247149 statistics sampled from 60000 to 5774186 sequences Kolmogorov-Smirnov statistic: 0.0164 (N=29) at 46 Algorithm: FASTA (3.5 Sept 2006) [optimized] Parameters: BL62 matrix (11:-4) ktup: 2 join: 37, opt: 25, open/ext: -10/-2, width: 16 Scan time: 220.300 The best scores are: UNIPROT:NDI1_YEAST P32340 Rotenone-insensitive NAD UNIPROT:A6ZLU4_YEAS7 A6ZLU4 NADH:ubiquinone oxidor UNIPROT:Q6FXF1_CANGA Q6FXF1 Candida glabrata strai UNIPROT:Q6CUA9_KLULA Q6CUA9 Kluyveromyces lactis s UNIPROT:Q752X6_ASHGO Q752X6 AFR447Cp. UNIPROT:A7TIW2_VANPO A7TIW2 Putative uncharacteriz ( ( ( ( ( ( 513) 513) 524) 519) 519) 532) opt bits E(5775821) 1916 690.9 1.2e-196 1916 690.9 1.2e-196 1604 579.6 3.7e-163 1569 567.1 2.1e-159 1551 560.7 1.8e-157 1543 557.9 1.3e-156 >>UNIPROT:A1CPS7_ASPCL A1CPS7 Alternative NADH-dehydroge (570 aa) initn: 829 init1: 571 opt: 591 Z-score: 1130.4 bits: 218.4 E(): 2.2e-54 Smith-Waterman score: 827; 46.9% identity (75.9% similar) in 369 aa overlap (1-369:102459) 10 20 30 DKPNVLILGSGWGAISFLKHIDTKKYNVSI :: ...:::.:::..:.:: .::..::: . UNIPRO TWLSGVGLAGALVYSIYEQRHPIEQINPSPDKKTLVILGTGWGSVSLLKKLDTENYNVVV 80 90 100 110 120 130 Sequen 40 50 60 70 80 90 Sequen ISPRSYFLFTPLLPSAPVGTVDEKSIIEPIVNFALKKKGNVTYYEAEATSINPDRNTVTI ::::.::::::::::. .: :...::.::: :. .::..: .::::::.:. ....: : UNIPRO ISPRNYFLFTPLLPSCTTGQVEHRSIMEPIRNILRQKKAHVKFYEAEATKIDYEKRVVYI 140 150 160 170 180 190 375 residues in 1 query sequences 1889195618 residues in 5775821 library sequences Tcomplib [35.02] (8 proc) start: Sat Mar 8 20:21:11 2008 done: Sat Mar 8 20:22:36 2008 Total Scan time: 220.300 Total Display time: 0.170 Function used was FASTA [version 35.02 Feb. 18, 2008] En la primera parte se indica la versión de FASTA que se utilizó para la búsqueda, la referencia en donde se describe el programa, el número de aminoácidos de la secuencia blanco 105 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) y la base de datos junto con el total de aminoácidos y secuencias que contiene. La segunda parte del reporte da el histograma con la estadística pertinente al final del mismo. El número esperado de secuencias, de acuerdo con un modelo estadístico, se grafica en el histograma con un asterisco (*) y el patrón de asteriscos da una idea de que tan bien se ajusta la teoría estadística a los puntajes de similitud obtenidos por FASTA. Como se observa en la figura, la distribución de los puntajes calculados y de los esperados con base en la longitud de las secuencias y la distribución del valor extremo es buena. Sin embargo, al final del histograma se observan varias secuencias que se salen de la predicción teórica, y es en esta zona en donde se tienen los alineamientos con valores de p muy pequeños, que no se explican con base en el azar. En esta sección se menciona la matriz de sustitución que se utilizó, el tamaño de la palabra (k-tupe, 2), y la penalización por apertura y extensión de huecos. En la tercera parte se incluye el nombre de las 50 secuencias con las mejores puntuaciones, cada una con su valor de E (valor esperado). En la cuarta parte se muestran los alineamientos pareados de la secuencia blanco contra cada una de las secuencias que resultaron de la búsqueda. Estos alineamientos se obtuvieron con el algoritmo de Smith-Waterman, las identidades se identifican con dos puntos y los reemplazos conservativos con un solo punto. Además, se señala el porcentaje de identidad y similitud entre las secuencias y la longitud de las secuencias que se utilizaron en el alineamiento. Como FASTA, BLAST (Basic Local Alignment Search Tool) es un programa que busca secuencias semejantes en las base de datos de proteínas o DNA, pero con la diferencia de que se permite el uso de palabras más grandes, con más de dos caracteres y el emparejamiento inexacto entre las palabras, lo que finalmente conduce a un aumento en la velocidad de la búsqueda. Existen también varias versiones de BLAST. BLASTN toma una secuencia de nucleótidos y busca en una base de datos de nucleótidos, BLASTP compara una secuencia de aminoácidos contra una base de datos de proteínas, BLASTX traduce el DNA a proteína y lo compara contra una base de datos de proteínas, TBLASTN toma una secuencia de aminoácidos y busca en una base de datos de DNA que se tradujo a secuencias de aminoácidos. Abajo se muestra el resultado de una búsqueda con BLASTP. BLASTP 2.2.17 [Aug-26-2007] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= Submission (375 letters) Database: UniProtKB 5,775,821 sequences; 1,889,195,589 total letters Searching..................................................done Score (bits) Sequences producing significant alignments: sp!P32340!NDI1_YEAST Rotenone-insensitive NADH-ubiquinone oxidor... tr!A6ZLU4_YEAS7 NADH:ubiquinone oxidoreductase [NDI1] [Saccharom... tr!Q6FXF1_CANGA Candida glabrata strain CBS138 chromosome B comp... tr!Q6CUA9_KLULA Kluyveromyces lactis strain NRRL Y-1140 chromoso... tr!Q752X6_ASHGO AFR447Cp [AFR447C] [Ashbya gossypii (Yeast) (Ere... 106 E Value 742 742 623 608 602 0.0 0.0 e-177 e-172 e-170 Flores Herrera y cols. Alignments >tr!A1CPS7_ASPCL Alternative NADH-dehydrogenase [ACLA_023620] [Aspergillus clavatus] Length = 570 Score = 326 bits (836), Expect = 1e-87 Identities = 171/369 (46%), Positives = 237/369 (64%), Gaps = 11/369 (2%) Query: 1 DKPNVLILGSGWGAISFLKHIDTKKYNVSIISPRSYFLFTPLLPSAPVGTVDEKSIIEPI 60 DK ++ILG+GWG++S LK +DT+ YNV +ISPR+YFLFTPLLPS G V+ +SI+EPI Sbjct: 102 DKKTLVILGTGWGSVSLLKKLDTENYNVVVISPRNYFLFTPLLPSCTTGQVEHRSIMEPI 161 Query: 61 VNFALKKKGNVTYYEAEATSINPDRNTVTIKSLSAVSQLYQPENHLGLHQAEPAEIKYDY 120 N +KK +V +YEAEAT I+ ++ V I S + E+ +D Sbjct: 162 RNILRQKKAHVKFYEAEATKIDYEKRVVYISDDSEIKG-----------DISHTEVPFDM 210 Database: UniProtKB Posted date: Feb 25, 2008 6:48 PM Number of letters in database: 1,889,195,589 Number of sequences in database: 5,775,821 Lambda 0.315 Gapped Lambda 0.267 K 0.133 H K H 0.0410 0.378 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Number of Sequences: 5775821 Number of Hits to DB: 1,386,868,061 Number of extensions: 58631406 Number of successful extensions: 136734 Number of sequences better than 10.0: 2200 Number of HSP's gapped: 135033 Number of HSP's successfully gapped: 2247 Length of query: 375 Length of database: 1,889,195,589 107 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Length adjustment: 134 Effective length of query: 241 Effective length of database: 1,115,235,575 Effective search space: 268771773575 Effective search space used: 268771773575 Neighboring words threshold: 11 Window for multiple hits: 40 X1: 16 ( 7.3 bits) X2: 38 (14.6 bits) X3: 64 (24.7 bits) S1: 42 (22.0 bits) S2: 78 (34.7 bits) También aquí la salida del programa se divide en varias secciones. La primera contiene la versión de BLAST que se utilizó para la búsqueda, la referencia del artículo en el que se describió el programa, el tamaño de la proteína blanco, la base de datos en la que se realizó la búsqueda, con su total de secuencias y aminoácidos. En la segunda aparece, en forma de una gráfica, las secuencias que aparecieron en la búsqueda, señalando, en código de color, el parecido de éstas con la secuencia blanco; la tercera parte es una lista de las secuencias con ligas a otras base de datos, sus puntajes y valores de E; en la cuarta sección se dan los alineamientos pareados de las secuencias y la última describe algunos de los parámetros que se utilizaron para la búsqueda, como el tipo de matriz de sustitución, la penalización por inicio y extensión de huecos, entre otros. Alineamiento de secuencias Con las dos secuencias de aminoácidos que se muestran abajo AMGTVVDRSTMF y AMGTVVLGRSTMF se podría proponer los siguientes alineamientos, en donde la posición de los huecos es la única diferencia entre ellos AMGTVVD--RSTMF ***** ***** AMGTVALGIRSTMF AMGTV-V-DRSTMF ***** ***** AMGTVALGIRSTMF AMGTV--VDRSTMF ***** ***** AMGTVALGIRSTMF Y sugerir un plan de puntaje: cuando dos aminoácidos idénticos quedan en la misma columna se califica con 1, si no son los mismos se le asigna cero, y si quedan frente a un hueco se califica con -2. Si se coloca el valor que le corresponde a cada columna en el primer alineamiento AMGTVVD--RSTMF ***** ***** AMGTVALGIRSTMF 11110002211111 se obtiene la calificación de +5. Se deja al lector la tarea de comprobar que con los otros alineamientos se alcanza el mismo puntaje y que este valor es el máximo que se puede conseguir si se comparan estos tres con otros alineamientos. Esta regla sencilla para evaluar un alineamiento se puede mejorar. En la práctica, el esquema de puntaje toma en cuenta el costo en la apertura y la extensión de huecos y la similitud entre los aminoácidos [3,6]. Por ejemplo, para secuencias más grandes se podría maximizar el alineamiento introduciendo huecos a diestra y siniestra, pero esto no tiene un sentido biológico. Se esperaría que la introducción de un hueco y su extensión en un gen le cueste a la naturaleza mucho menos que la introducción de ese mismo número de huecos en diferentes partes del gen. Por lo tanto, en el esquema actual 108 Flores Herrera y cols. se penaliza la aparición de huecos con cierto valor, relativamente grande, y la extensión de éstos con un valor más pequeño [3,6]. Por otro lado, en el ejemplo de arriba se utilizó una matriz de identidad, en donde la diagonal principal contiene unos y el resto de las celdas de la matriz ceros. Sin embargo, una matriz con estas características tampoco tiene sentido biológico, ya que a través de la evolución ha habido cambios en la secuencia de las proteínas que no han afectado su función, lo cual implica que se permiten ciertas sustituciones en los aminoácidos. Si se alinean varias secuencias homólogas se podría extraer la información de qué tipo de sustituciones prefieren ciertos aminoácidos y, de esta manera, construir matrices de sustitución de aminoácidos, como las PAM o las BLOSUM, que servirían para comparar secuencias [3,6]. La gráfica de puntos o dotplot Uno de los procedimientos más sencillos para comparar dos secuencias es la gráfica de puntos o dotplot, en la que se colocan a las dos secuencias en una matriz rectangular, con una de las ellas en el eje de las X (ordenadas) y la otra en el de las Y (abscisas). En las casillas en las que los aminoácidos de las dos secuencias son idénticos se coloca un punto, pero si no hay igualdad de residuos, se deja vacía [3,6]. Básicamente, con este esquema lo que se utiliza es una matriz de identidad. Para disminuir el ruido inherente a este tipo de análisis se puede filtrar la información, utilizando una ventana de W residuos y una restricción de s, de tal suerte que la gráfica se limpia. Por ejemplo, se le puede pedir al programa que muestre el resultado gráfico solamente si hay 8 emparejamientos en una ventana de 10 residuos. Aunque en el ejemplo se trabajó con una matriz de identidad, es posible utilizar otro tipo de matrices de sustitución, como las PAM o las BLOSUM. En la gráfica de puntos lo que se observa son regiones de identidad entre las dos proteínas. Cuando se comparan dos secuencias idénticas, se tiene una línea que corre en la diagonal principal (Figura 2A). Si las secuencias tienen unas regiones idénticas y otras diferentes, se observan líneas interrumpidas en la diagonal principal (Figura 2B). Si existen secuencias repetidas en la misma proteína, esto da lugar a una gráfica como la de la Figura 2C. Figura 2. La gráfica de puntos se usa para comparar secuencias. A. Una secuencia contra ella misma. B. Secuencias diferentes pero con cierto grado de similitud. C. una secuencia contra ella misma, regiones parecidas dentro de la misma secuencia debido a duplicación génica. La matriz de identidad En una matriz de identidad solamente se permiten sustituciones por el mismo aminoácido. Se califica con un uno el reemplazo de un aminoácido por sí mismo y cualquier otra sustitución se castiga con el cero (Figura 3). Esta manera de calificar las sustituciones no tiene sentido evolutivo, ya por experiencia se sabe que un residuo puede sustituirse por otro sin que se afecte la función de la proteína. 109 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) C S T P A G N D E Q H R K M I L V F Y W C 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 S 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 T P 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 G 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 N D E Q H R K M I L V F Y W 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 Figura 3. Matriz de identidad Las matrices PAM Construidas por Margaret Dayhoff, se basan en el análisis de mutaciones permitidas en las secuencias de aminoácidos durante la evolución [7]. Se utilizó una base de datos con 1572 cambios en 71 grupos de proteínas muy parecidas, con un porcentaje de identidad igual o mayor al 85%. Una matriz con una distancia evolutiva de 0 PAM tendría solamente unos en la diagonal principal de la matriz y ceros en el resto de la misma. Una matriz con una distancia evolutiva de 1 PAM tendría números cercanos a 1 en la diagonal principal y números pequeños en el resto de la misma. Una PAM de 1 correspondería a una divergencia de 1% en la secuencia de una proteína (un aminoácido reemplazado por cada 100 residuos). Para obtener una matriz PAM que indique un proceso evolutivo más largo (un porcentaje de N mutaciones aceptadas en 100 aminoácidos), se multiplica la matriz PAM1 por sí misma N veces. Esto se debe a que la construcción de estas matrices se basa en un modelo probabilístico (Markoviano) de la evolución, en donde la probabilidad de que ocurra un cambio en un aminoácido es la misma para todos ellos e independiente de los otros aminoácidos. Mientras más alejadas sean las secuencias, su porcentaje de identidad será más pequeño y el valor de la matriz PAM más grande. Con una matriz PAM250 (250 sustituciones por 100 residuos) se tienen proteínas con un 20% de identidad, por lo que se ha visto que esta matriz trabaja bien para proteínas alejadas. Sin embargo, mientras más parecidas sean las proteínas entre sí, el valor de la matriz PAM debe ser menor. En la dirección http://www.bioinformatics.nl/tools/pam.html se puede calcular una matriz PAM de cualquier valor. ¿Cuál es el procedimiento que se sigue para obtener una matriz PAM, por ejemplo la PAM250? Se comienza con los 1572 cambios de aminoácidos observados en un alineamiento de proteínas con una identidad de al menos el 85% y se cuentan los cambios entre parejas de aminoácidos [6,7]. Por ejemplo, 260 correspondieron a cambios entre fenilalanina y tirosina. Para obtener un valor para la probabilidad del cambio fenilalanina a tirosina, este número (260) se multiplica por la mutabilidad relativa de la fenilalanina y por el cociente de cambios de fenilalanina a tirosina con respecto a los cambios de fenilalanina a cualquier otro amino ácido. 110 1 Flores Herrera y cols. Estos mismos cálculos se hacen para todos los cambios de fenilalanina a los otros aminoácidos, incluyendo fenilalanina - fenilalanina. Los 20 resultados se suman y dividen por un factor de normalización para que la suma represente un cambio de 1%, con lo que se obtiene una matriz PAM1. En seguida, se multiplica la matriz PAM1 por sí misma 250 veces y se obtiene la distribución de los cambios para un proceso evolutivo de 250 PAM. Los valores del logaritmo natural del cociente de la probabilidad de que dos residuos i y j se alineen debido a que tienen una relación evolutiva y la probabilidad de que se alineen por puro azar (valores log-odds en inglés) entre la fenilalanina y la tirosina para la PAM250 se calculan de la siguiente manera: el puntaje para fenilalanina - tirosina en la matriz PAM250, 0.15, se divide entre la frecuencia de fenilalanina en la base de datos de las secuencias (0.04) para dar la frecuencia relativa del cambio. Este cociente (0.15/0.05) se convierte a logaritmo en base 10 (log 3.75 = 0.57) y se multiplica por 10 (5.7) para quitar los valores fraccionales. Si se hace lo mismo con el cambio tirosina-fenilalanina se obtiene un valor final de 8.3, y el promedio entre los dos es de 7, número que se coloca en la casilla que le corresponde al par fenilalanina-tirosina en la matriz PAM250 o a una distancia evolutiva de 250 PAM [6]. C S T P A G N D E Q H R K M I L V F Y W C 4 0 -2 -3 -2 -3 -4 -5 -5 -5 -3 -4 -5 -5 -2 -6 -2 -4 0 -2 S T P A G N 3 1 1 1 1 1 0 0 -1 -1 0 0 -2 -1 -3 -1 -3 -3 -2 3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -2 -3 -5 6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -5 -7 D E Q H R K M I L V 4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7 4 2 1 0 0 -2 -2 -3 -2 -5 -4 -7 4 3 1 1 -1 -2 -2 -2 -5 -4 -5 6 2 0 -2 -2 -2 -2 -2 0 -3 6 3 0 -2 -3 -2 -4 -4 2 5 0 -2 -3 -2 -5 -4 -3 6 2 4 2 0 -2 -4 5 2 4 1 -1 -5 6 2 2 -1 -2 4 -1 -2 -6 F Y W 2 2 1 1 2 0 1 -2 -2 -3 -2 -4 -2 -4 9 7 0 10 0 17 Figura 4. Matriz de sustitución PAM250 Las matrices BLOSUM En vez de realizar una extrapolación con base en un modelo Markoviano de la evolución y utilizando secuencias muy parecidas, Henikoff y Henikoff construyeron las matrices de sustitución analizando las sustituciones en las regiones más conservadas de las secuencias de proteínas que se guardan en la base de datos BLOCKS [8]. De allí el nombre de BLOSUM: BLOcks SUbstitution Matriz. En función del grado de similitud entre las secuencias, se obtienen las diferentes matrices. Por ejemplo, la matriz BLOSUM62 se calculó a partir de bloques de proteínas en los que si dos secuencias tenían más de 62 % de identidad, la contribución de esas secuencias se ponderaba para que no tuvieran demasiado peso en los cálculos de frecuencias. En la actualidad la que más se usa es la BLOSUM62. Al contrario de las matrices PAM, mientras más grande sea el número de la matriz, más parecidas son las secuencias que se analizan. La 111 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Tabla 3 muestra la correspondencia entre los dos tipos de matrices y el porcentaje de identidad que se espera en las proteínas. Tabla 3. Relación entre las matrices PAM, BLOSUM y el porcentaje de identidad entre las proteínas Matriz PAM 100 120 160 200 250 BLOSUM 90 80 60 52 45 % identidad 43 38 30 24 20 Para las matrices PAM y BLOSUM (en la forma log odds), un valor de 0 indica que la frecuencia de sustitución entre los dos aminoácidos es el que se esperaría por azar, un valor menor o mayor que cero indicaría que la frecuencia de sustitución es menor o mayor que el producido por azar. Se observa que entre aminoácidos con propiedades químicas semejantes los puntajes son mayores que 0, por lo que estas sustituciones ocurren con más frecuencia, ya que no afectan la función de la proteína, mientras que cambios entre aspártico y triptofano, por mencionar uno, tienen valores menores de cero, indicando que esta sustitución no está permitida, lo que resulta en una baja frecuencia de aparición. Otra ventaja de los log odds es que la suma de dos valores da la probabilidad combinada de que ocurran dos o más emparejamientos de aminoácidos en un alineamiento. Por ejemplo, la probabilidad de alinear dos Ys en una alineamiento YY/YY es 10 + 10, mientras que la de emparejar YY con TP es -2-5 =-7, un evento que no se esperaría entra proteínas homólogas. Existen diferencias importantes entre las matrices PAM y las BLOSUM. Las primeras se basan en un modelo explícito de la evolución, en donde las sustituciones o reemplazos de los aminoácidos se cuentan en las ramas de un árbol filogenético, y se obtuvieron a partir de mutaciones observadas en alineamientos globales, utilizando regiones muy conservadas y regiones con un alto grado de sustituciones y, tienen la característica de que mientras más grande sea el valor de la matriz, la distancia evolutiva es mayor. Por otro lado, las matrices BLOSUM se basan en un modelo implícito de la evolución, se obtuvieron a partir de alineamientos sin huecos de regiones muy conservadas y, al contrario de las matrices PAM, mientras más alto es el valor de la matriz, menor es la distancia evolutiva (Tabla 3). Otros tipos de matrices Así como se obtienen matrices con base en los cambios que ocurren en las secuencias debido a procesos mutacionales y selección natural, también es posible construir matrices de sustitución utilizando cualquiera de las propiedades fisicoquímicas de los aminoácidos. Este es el caso de la matriz de hidrofobicidad, en donde se cuantifica la posibilidad de intercambio con base en la hidrofobicidad de los aminoácidos [9]. De acuerdo con esta matriz, es fácil cambiar un aminoácido cargado (positivo o negativo) por otro aminoácido cargado, pero es difícil llevar a cabo la sustitución de uno cargado por otro hidrofóbico como el triptofano. 112 Flores Herrera y cols. C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 S T P A G N D E Q H R K M I L V 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 6 2 0 1 -2 -1 -3 -3 -4 -3 -3 -3 -4 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 5 0 1 1 0 -3 -2 -2 -3 -1 -2 8 0 -1 -2 -3 -3 -3 -1 2 -2 5 2 -1 -3 -2 -3 -3 -2 -3 5 -1 -3 -2 -2 -3 -2 -3 5 1 2 1 0 -1 -1 4 2 3 0 -1 -3 4 1 0 -1 -2 4 -1 -1 -3 F 6 3 1 Y 7 2 W 11 Figura 5. Matriz de sustitución BLOSUM62 Alineamiento pareado global En el alineamiento global se intenta un emparejamiento entre las dos secuencias, con el mayor número de aminoácidos alineados, incluyendo inserciones y huecos. Este tipo de alineamiento se utiliza cuando se tienen dos secuencias que son similares en toda su extensión, por lo que el objetivo es alinearlas de principio a fin. Al igual que la gráfica de puntos, las dos secuencias de aminoácidos se colocan en los dos ejes de la matriz y, a través de programación dinámica, se obtiene el mejor alineamiento posible, basándose en una matriz de sustitución y en un sistema de penalización para la introducción de huecos. Hay que recalcar que un alineamiento es un modelo que se propone y construye con base en ciertas reglas, y que si se cambia la matriz de sustitución y/o el tipo de penalización, el alineamiento será diferente. El algoritmo que se utiliza es el de Needleman y Wunsch [10], en el que se obtiene un solo camino que conduce al mejor emparejamiento. Básicamente, el algoritmo sigue la siguiente regla de recursión: con las dos siguientes restricciones: F(0,0)=0, F(i,0)=-id para i=0,1,…,n y F(0,j)=-jd para j=0,1,…,m, en donde d es la penalización por apertura de huecos. El algoritmo indica que hay que cambiar el valor de una celda en la matriz añadiendo a cada elemento el valor más grande del renglón que se encuentra debajo de la celda y a la derecha, o de la columna que se encuentra a la derecha y por debajo de la celda de interés. 113 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Alineamiento pareado local Cuando la divergencia evolutiva entre las secuencias ha sido de tal magnitud que el tamaño de la dos proteínas es diferente debido a inserciones y eliminaciones, y la similitud en grandes regiones de las proteínas es tan baja debido a la sustitución de un aminoácido por otro, entonces se recomienda el alineamiento local de las dos secuencias, que reconoce regiones de las proteínas que se mantuvieron conservadas, debido a que éstas tienen una función estructural o funcional. El alineamiento local se basa en el algoritmo propuesto por Smith y Waterman [11], que es muy parecido al de Needleman y Wunsch [10], con unos cambios. Al igual que en el anterior, las dos secuencias se colocan en los dos ejes de una matriz rectangular y a través del siguiente algoritmo de recursión: se obtienen aquellas regiones de las dos proteínas que tienen similitud. El valor F(i,j)=0 le indica al programa que tiene que iniciar un nuevo alineamiento en la posición (i,j). En este algoritmo se tiene también que F(i,0)=0 para i=0,1,…,n y F(0,j)=0 para j=0,1,…,m, en donde d es la penalización por apertura de huecos. Asimismo, en vez de iniciar la lectura reversa en la posición (n,m), se inicia en la celda que contenga el puntaje más alto y termina cuando el valor sea igual a cero, que corresponde a un nuevo inicio de alineamiento. Desde un punto de vista biológico, el alineamiento local tiene más sentido que el global, ya que se encuentran las secuencias conservadas comunes a las dos proteínas. Alineamiento múltiple Un alineamiento de muchas secuencias o alineamiento múltiple es una tabla en dos dimensiones en la que las filas corresponden a las secuencias individuales y las columnas a las posiciones de los residuos. A diferencia de los alineamientos pareados locales o globales, en el múltiple se trabaja con más de dos secuencias, con el objetivo de detectar los residuos idénticos y semejantes. Al igual que con el alineamiento pareado, en el múltiple se maximiza un puntaje, que recibe el nombre de puntaje de suma de pares. ClustalW. Como se muestra en la Figura 6, clustalW [12] lleva a cabo el alineamiento múltiple global en tres etapas: 1) realiza un alineamiento pareado entre todas las secuencias, y calcula las distancias entre ellas, 2) utiliza los puntajes de los alineamientos para construir un árbol filogenético y 3) alinea las secuencias de acuerdo con las relaciones descritas en el árbol filogenético (Figura 6). Para realizar el alineamiento, ClustalW considera que: a) la matriz de sustitución que se usa se basa en la similitud de las secuencias, utilizando una BLOSUM80 o PAM50 para secuencias más cercanas entre sí, y una PAM250 o BLOSUM50 para las más alejadas, b) las secuencias se ponderan para compensar por defectos en el puntaje de suma de pares, c) la penalización de los huecos está relacionada con el tipo de residuo y la posición que tienen en el alineamiento, por ejemplo, las penalizaciones para los residuos hidrofóbicos es mayor que para los hidrofílicos, ya que es más probable que estos últimos se encuentren en asas, y la penalización por la apertura de un hueco es mayor si en la columna no hay huecos. 114 Flores Herrera y cols. Figura 6. Los pasos que sigue clustal W para realizar el alineamiento múltiple. Predicción basada en secuencia Bajo el supuesto de que la secuencia de aminoácidos de una proteína contiene información de la estructura secundaria y terciaria, de los segmentos transmembranales y de la accesibilidad de los aminoácidos al solvente, no es sorprendente que los primeros intentos de predicción basada en secuencias se hayan concentrado en estos aspectos. La predicción de segmentos transmembranales es importante si se toma en cuenta que entre un 30 a 40% de la proteínas codificadas en un genoma son de membrana, y que solamente una minoría de éstas ha sido cristalizada. Desde un punto de vista médico y farmacológico, hay que mencionar que muchas de las proteínas de membrana son blanco de fármacos, por ejemplo los antagonistas que se unen a los receptores alfa adrenérgicos y la digoxina que interactúa con la ATPasa de Na-K, entre otros. Asimismo, hay enfermedades cuya etiología se encuentra en defectos de una proteína de membrana, como la fibrosis quística. Debido a que es más probable que la cadena polipeptídica adquiera una estructura secundaria de tipo -hélice en el seno de la membrana, ya que se pueden formar puentes de hidrógeno intracatenarios, la gran mayoría de las proteínas de membrana adoptan este tipo de estructura secundaria en la bicapa lipídica; sin embargo, cuando aparece la oportunidad de muchos cruces transmembranales se puede formar un barril beta, en donde los grupos amino y 115 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) carbonilo del enlace peptídico en una parte de la proteína cubren sus necesidades de puente de hidrógeno con otros grupos en diferentes segmentos de la proteína. Algunos ejemplos de proteínas que cruzan la membrana con segmentos que adoptan la estructura -hélice son las ATPasas de Na-K, las acuaporinas, los receptores de siete segmentos transmembranales y los canales de sodio y potasio, entre otros, mientras que las porinas y algunas toxinas bacterianas son proteínas de membrana que forman un barril beta. Con el fin de predecir los segmentos transmembranales y la accesibilidad de los aminoácidos al solvente, Kyte y Doolitle [13] propusieron el siguiente procedimiento: 1) seleccionar una escala de hidrofobicidad que describa la tendencia de los aminoácidos a residir en un medio hidrofóbico o polar (Tabla 4); 2) graficar los valores de hidrofobicidad contra la secuencia de aminoácidos y 3) suavizar la gráfica por medio de un promedio de las propensiones y utilizando ventanas deslizantes de diferentes tamaños (Figura 7). Con esta gráfica de hidrofobicidad o hidropatía se pueden predecir las regiones de una proteína que se encuentran expuestas al medio (ventana de 7 residuos, baja hidropatía) o que se encuentran en el seno de la membrana (ventana de 17 a 21 residuos, alta hidropatía). Tabla 4. Escalas de hidrofobicidad para los residuos de aminoácidos. Aminoácido Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val K-D 1.80 -4.50 -3.50 -3.50 2.50 -3.50 -3.50 -0.40 -3.20 4.50 3.80 -3.90 1.90 2.80 -1.60 -0.80 -0.70 -0.90 -1.30 4.20 E-S-K-W 0.62 -2.53 -0.78 -0.90 0.29 -0.85 -0.74 0.48 -0.40 1.38 1.06 -1.50 0.64 1.19 0.12 -0.18 -0.05 0.81 0.26 1.08 A-L 0.44 -2.42 -1.32 -0.31 0.58 -0.71 -0.34 0.00 -0.01 2.46 2.46 -2.45 1.10 2.54 1.29 -0.84 -0.41 2.56 1.63 1.73 W-A-C-S 1.94 -19.92 -9.68 -10.95 -1.24 -9.38 -10.2 2.39 -10.27 2.15 2.28 -9.52 -1.48 -0.76 0.00 -5.06 -4.88 -5.88 -6.11 1.99 H-W -0.50 3.00 0.20 3-00 -1.00 0.20 3.00 0.00 -0.50 -1.80 -1.80 3.00 -1.30 -2.50 0.00 0.30 -0.40 -3.40 -2.30 -1.50 K-D: Kyte J., Doolittle R.F. (1982) J. Mol. Biol. 157:105-132. E-S-K-W: Eisenberg D., Schwarz E., Komarony M., Wall R. (1984) J. Mol. Biol. 179:125-142. A-L: Abraham D.J., Leo A.J. (1987) Proteins: Structure, Function and Genetics 2:130-152. H-W: Hopp T.P., Woods K.R. (1981) Proc. Natl. Acad. Sci. U.S.A. 78:3824-3828. R-A: Rao M.J.K., Argos P. (1986) Biochim. Biophys. Acta 869:197-214. W-A-C-S: Wolfenden R.V., Andersson L., Cullis P.M., Southgate C.C.F. (1981) Biochemistry 20:849-855. 116 R-A 1.36 0.15 0.33 0.11 1.27 0.33 0.25 1.09 0.68 1.44 1.47 0.09 1.42 1.57 0.54 0.97 1.08 1.00 0.83 1.37 Flores Herrera y cols. + Figura 7. Gráfica de hidropatía de la ATPasa de H de la membrana plasmática de Saccharomyces cerevisiae. Uno de los problemas con el método de Kyte y Doolittle es que se obtenían falsos positivos, es decir, se predecían segmentos transmembranales en regiones hidrofóbicas de proteínas solubles. Con el fin de resolver este problema, Eisenberg y colaboradores [14] propusieron que se utilizara, junto con la hidrofobicidad, al momento hidrofóbico, que es una medida de la anfifilicidad de segmentos con conformación periódica, sea ésta de tipo -hélice o -plegada, de acuerdo con la siguiente ecuación: En este método se utiliza una escala de hidrofobicidad consenso (ver la Tabla 4) y las secuencias se clasifican en diferentes grupos dependiendo de la región en la que caigan en la gráfica de hidrofobicidad contra momento hidrofóbico (Figura 8). Así, se tienen las proteínas globulares que son solubles en agua, las proteínas de superficie, que se adosan fuertemente a la membrana (corresponderían a las monotópicas), y las proteínas “monoméricas” y “multiméricas” que cruzan una o varias veces la membrana, respectivamente. Utilizando en paralelo el método de Kyte y Doolitle y el momento hidrofóbico se incrementa el nivel de predicción de los 117 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) segmentos transmembranales, y además se añade información acerca de la posible posición de la proteína con respecto a la membrana. Figura 8. Gráfica del momento hidrofóbico contra la hidrofobicidad. Sin embargo, el mayor incremento en el nivel de predicción ocurrió cuando aparecieron las redes neurales y se incluyó información evolutiva a través de los alineamientos múltiples [1517]. Para construir una red neural lo primero que se hace es diseñar la topología de la red, es decir, el número de nodos de entrada y de salida y de nodos ocultos, y la manera en que éstos se asocian con las variables externas y entre ellos. En la segunda parte se entrena a la red utilizando como datos de entrada estructuras conocidas, y se ajusta la respuesta de la misma a las estructuras conocidas. El objetivo es que dados ciertos valores de pesos sobre las líneas que conectan los nodos, se maximice la predicción de la red para un conjunto de datos de entrenamiento. La red que se muestra en la Figura 9 consiste de tres unidades procesadoras, la capa de entrada, la de salida y una capa interna [15,16]. La capa de entrada consta de 13 a 21 unidades, que corresponden a una ventana de 13 a 21 residuos de aminoácidos, más otras cuatro unidades que informan de la frecuencia de cada aminoácido en la proteína, la longitud de la proteína, la distancia del residuo central con respecto al extremo amino terminal y al carboxilo terminal. La red se alimenta con un perfil de secuencias que se obtiene de un alineamiento, y cada unidad de entrada contiene la frecuencia asociada a cada uno de los 20 aminoácidos en esa posición; además de estos 20 lugares en la unidad, hay otros lugares adicionales para contar inserciones y eliminaciones en el alineamiento y considerar el principio y fin de la proteína. Las señales se mandan a la capa oculta, en donde se lleva a cabo el procesamiento de los datos, para pasar a la capa de salida, en donde se le asigna al aminoácido central una condición: pertenece (HTM) o no (not HTM) a la membrana. Con esto, la predicción de segmentos transmembranales se elevó al 95% con una disminución de falsos positivos. 118 Flores Herrera y cols. Figura 9. Red neural para predecir segmentos transmembranales. Además de las redes neurales, en los últimos años se han utilizado los modelos markovianos ocultos y las máquinas de vectores de soporte (support vector machines) para predecir segmentos transmembranales. En la Tabla 5 se indican algunos de los servidores que se usan para predecir segmentos transmembranales de tipo -hélice en las proteínas, mientras que la Tabla 6 muestra que cuando se piensa en barriles beta dentro de la membrana, los modelos markovianos ocultos son los mejores. Tabla 5. Ejemplos de algunos servidores para predecir hélices transmembranales. Método Dirección en internet DAS HMMMTOP PHDhtm SOUSI TMAP TMHMM-2.0 TMPred http://www.sbc.su.se/~miklos/DAS/ http://www.enzim.hu/hmmtop/ http://www.predictprotein.org/ http://bp.nuap.nagoya-u.ac.jp/sosui/ http://bioinfo4.limbo.ifm.liu.se/tmap/index.html http://www.cbs.dtu.dk/services/TMHMM-2.0/ http://www.ch.embnet.org/software/TMPRED_form.html Tabla 6. Servidores para predecir barriles beta transmembranales. Servidor Dirección en internet TBBpred TMBpro PRED-TMBB PROFtmb TMB-HUNT http://www.imtech.res.in/raghava/tbbpred/ http://www.ics.uci.edu/%7Ebaldig/tmb.html http://bioinformatics2.biol.uoa.gr/PRED-TMBB http://rostlab.org/services/proftmb http://bmbpcu36.leeds.ac.uk/~andy/betaBarrel/TMB_Hunt_2/ TMB_Hunt2.cgi HMM Modelo de Markov oculto SVM Máquinas de vectores de soporte 119 Método HMM, SVM HMM HMM SVM MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Predicción de estructura secundaria La predicción de estructura secundaria se basa en el concepto de que los residuos de aminoácidos tienen ciertas preferencias a adoptar una estructura. Con esto en mente, se pueden diseñar algoritmos que clasifiquen a los residuos en categorías, como alfa, beta o giro. La suposición básica que subyace a este pensamiento es que la estructura secundaria está determinada por el aminoácido en cuestión y por los residuos vecinos en la secuencia de aminoácidos. Se puede dividir el progreso en la predicción de estructura secundaria en tres etapas. La primera generación corresponde al trabajo de Chou y Fasman [18,19], con un enfoque estadístico que consiste en calcular la propensión de cada aminoácido a formar parte de una -hélice, una hebra o un giro, a partir del análisis de un número pequeño de estructuras cristalográficas. Es importante recalcar que en el método de Chou-Fasman la preferencia a adquirir una conformación recae en un solo aminoácido [18,19]. La propensión del aminoácido i a estar en la estructura secundaria S está dado por la siguiente ecuación: En donde j es el aminoácido, S la estructura secundaria (alfa, beta, giro), f(j,S) el número de ocurrencias de j en S, f(j) número de ocurrencias de j, Ns número total de aminoácidos en conformación S y N número total de aminoácidos. Por ejemplo, supongamos que se tiene una base de datos de 100000 aminoácidos y que de éstos, 40000 se encuentran en alfa hélice (Ns=40000). Suponer también que la base de datos contiene 9000 residuos de alanina (f(ala)=9000) y que 6000 de éstos residuos se encuentran en conformación de tipo alfa helice (f(ala,S)=6000). De acuerdo con las ecuaciones de arriba, la propensión de la alanina a adoptar la estructura alfa hélice es: P(i,S) = (f(i,S)/(f(i))/(Ns/N) P(Ala,a) = (f(Ala, a)/(f(Ala))/(Ns/N) P(Ala,a) = (5000/(9000)/(40000/100000) P(Ala,a) = 1.38 De esta manera se puede calcular las propensiones de los aminoácidos para todas las estructuras o conformaciones y obtener la Tabla 7. Si la propensión es mayor que 1 implica que el residuo tiene preferencia por esa conformación y si es menor que 1 significa que no le gusta visitar dicha conformación. Con el uso de la Tabla 7 y la receta que se detalla a continuación, se puede predecir la estructura secundaria de una proteína. El nivel de precisión que se alcanzaba con este método era de tan sólo el 50 %, comparado con el 75-77% actual. A) Predicción de hélices: 1. encontrar sitio de nucleación: 4 de 6 residuos contiguos con P(a)>1; 2. extender la hélice en ambas direcciones hasta que se encuentren 4 residuos contiguos que en promedio tengan P(a) < 1 (breaker); y 3. Si el promedio de P(a) sobre la región es >1, se predice como hélice. B) Predicción de hebras beta: 1. encontrar sitio de nucleación: 4 de 6 residuos contiguos con P(b)>1; 2. extensión: extender la hebra b en ambas direcciones hasta que se encuentren 4 residuos contiguos que en promedio tengan P(b) < 1 (breaker); 3. Si el promedio de P(b) sobre la región es >1, se predice como beta. 120 Flores Herrera y cols. Tabla 7. Valores de propensión para las aminoácidos. En la primera sección se agrupan los aminoácidos que tienen una tendencia a adoptar la estructura -hélice, en la segunda los aminoácidos con preferencia por la estructura , en la tercera los que se encuentran en giros, y hasta el final la arginina, que no tiene preferencia por una estructura en particular. Aminoácido Ala Cys Leu Met Glu Gln His Lys -Hélice 1.29 1.11 1.30 1.47 1.44 1.27 1.22 1.23 Lámina 0.90 0.74 1.02 0.97 0.75 0.80 1.08 0.77 Giro 0.78 0.80 0.59 0.39 1.00 0.97 0.69 0.96 Val Ile Phe Tyr Trp Thr 0.91 0.97 1.07 0.72 0.99 0.82 1.49 1.45 1.32 1.25 1.14 1.21 0.47 0.51 0.58 1.05 0.75 1.03 Gly Ser Asp Asn Pro 0.56 0.82 1.04 0.90 0.52 0.92 0.95 0.72 0.76 0.64 1.64 1.33 1.41 1.23 1.91 Arg 0.96 0.99 0.88 En la segunda generación se incluye el efecto de los aminoácidos vecinos en la preferencia del residuo central por una u otra estructura secundaria. Garnier, Osguthorpe y Robson (método de GOR) propusieron que los residuos vecinos tienen un efecto sobre la conformación que adopta el aminoácido central [20]. Con base en la teoría de la información y el análisis de varias estructuras cristalográficas, se obtuvieron las propensiones de cada aminoácido a pertenecer a un tipo de estructura secundaria y el efecto de los residuos vecinos sobre esta propensión. Se consideró una ventana de 17 aminoácidos y se supuso que la conformación del residuo central dependía de los vecinos, pero la de los vecinos era independiente de los correspondientes vecinos. La información estadística obtenida se vació en cuatro matrices de 20x17, una para la estructura -hélice, otra para la beta, giro y enrollamiento. La Figura 10 muestra la tabla que corresponde a la estructura -hélice. Con este algoritmo se incrementó la precisión hasta un 60-65 %. 121 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Figura 10. Valores de información direccional para la conformación a-hélice. Finalmente, en la tercera generación se incrementó la precisión (75-77%) cuando se utilizaron las redes neurales y la información evolutiva contenida en el alineamiento múltiple [2123]. La Figura 11 muestra la arquitectura de la red neural implementada por Rohst. Figura 11. Red neural para predecir la estructura secundaria de las proteínas. La entrada consiste de un perfil de secuencia que se obtiene a partir de un alineamiento, en donde cada unidad de entrada corresponde a la frecuencia asociada al aminoácido en esa posición. Las señales se mandan a la capa oculta, en donde se lleva a cabo el procesamiento de los datos, para pasar a la capa de salida, en donde se le asigna al aminoácido central una condición: alfa (H), beta (E) o enrollado (L). 122 Flores Herrera y cols. Aunque es cierto que la precisión se incrementó a un 75 %, se debe considerar la desviación estándar de ± 11% que se asocia a este valor, de lo cual se derivan tres puntos: 1) que en el 25% de los segmentos la predicción está equivocada, 2) que para el 75% de todas las proteínas entre el 60 y el 80% de los residuos se predicen correctamente y 3) que para una proteína en particular, la precisión puede ser menor que el 60% o mayor que el 80%. En la Tabla 8 se indican los mejores métodos de predicción de estructura secundaria en la actualidad. Algunos se basan en redes neurales, otros en modelos markovianos ocultos y otros en máquinas de vectores de soporte. Tabla 8. Servidores para predecir estructura secundaria de proteínas Método Dirección en internet Jpred3 NNPREDICT JUFO PORTER Prof PSIPRED DLP-SVM SSPro PHDsec http://www.compbio.dundee.ac.uk/~www-jpred/ http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html http://www.meilerlab.org/view.php http://distill.ucd.ie/porter/ http://www.aber.ac.uk/~phiwww/prof/ http://bioinf.cs.ucl.ac.uk/psipred/ http://www.tuat.ac.jp/~domserv/cgi-bin/DLP-SVM.cgi http://scratch.proteomics.ics.uci.edu/ http://www.predictprotein.org/ Predicción de estructura terciaria La Figura 12 muestra los tres caminos que se siguen para predecir la estructura terciaria de una proteína: modelado por homología, plegamiento inverso (threading) y métodos ab initio. A partir de la estructura primaria de una proteína, se buscan secuencias similares en las diferentes bases de datos primarias y se realiza un alineamiento múltiple para reconocer las regiones más conservadas, en donde no debe haber inserciones y lo más probable es que estén relacionadas con la formación de un tipo de estructura secundaria. Si se encuentra una o varias proteínas homólogas en el banco de datos de proteínas cristalizadas (PDB), entonces se lleva a cabo el modelado por homología. Sin embargo, si no se encuentran homólogos en el PDB, se realiza el plegamiento inverso, que consiste en encontrar una estructura o plegamiento compatible, de acuerdo con ciertos criterios. Si se descubre un plegamiento que esté relacionado con la secuencia, entonces se puede regresar al modelado por homología utilizando la estructura cristalográfica de este homólogo distante. Sin embargo, si no se encuentra un homólogo lejano, si el plegamiento inverso no dio resultados, entonces se predice la estructura terciaria ab initio. Una vez que se obtiene el modelo tridimensional de la proteína, se debe validar con varios programas, como Whatcheck, Procheck y Prosa II, entre otros. 123 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Figura 12. Plan de trabajo para la predicción de la estructura terciaria. Plegamiento inverso En el plegamiento inverso se busca que una secuencia sea compatible, de acuerdo con ciertos criterios, con un plegamiento determinado. El objetivo es encontrar el esqueleto que mejor se ajuste a la secuencia de la proteína y, para esto, se utiliza una biblioteca de plegamientos que se obtienen del PDB y una función objetivo para evaluar la colocación de la secuencia sobre el templado. Generalmente estas funciones son ecuaciones de energía que se obtuvieron en forma empírica [24], pero también se puede usar la distribución de la estructura secundaria entre las proteínas [25], como se muestra en la Figura 13. Asimismo, se requiere de un método para buscar todos los posibles alineamientos entre la secuencia y los templados y otro para escoger el o los templados que den los mejores resultados. A pesar de lo interesante del método, tiene ciertos problemas, ya que se trabaja con proteínas homólogas muy lejanas, 124 Flores Herrera y cols. con un porcentaje de identidad por debajo de 15%. Por consiguiente, rara vez se consigue un buen alineamiento y menos del 30% de las mejores predicciones para una secuencia son verdaderos homólogos. Figura 13. Predicción del plegamiento de una proteína utilizando la distribución de la estructura secundaria entre las proteínas de estructura conocida. Modelado por homología El modelado por homología se basa en la suposición de que las proteínas homólogas tienen un plegamiento similar y en el hecho experimental de que la estructura terciaria (el plegamiento) se conserva más que la secuencia de aminoácidos. Un ejemplo clásico de esta situación se encuentra en la familia de las globinas, en donde el porcentaje de identidad entre dos secuencias puede ser tan bajo como el 15% y tener prácticamente el mismo plegamiento. Un punto a favor del modelado por homología es que hay un número limitado de estructuras terciarias posibles, con un valor cercano a 2000 plegamientos diferentes, lo que limita el universo de búsqueda. Puesto que el objetivo del modelado molecular es construir la estructura terciaria que le corresponde a una secuencia de aminoácidos a partir de una proteína molde con estructura cristalográfica conocida, es fundamental conocer que la información que se obtiene puede ser 125 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) útil o no, dependiendo de la pregunta que se hace. Por ejemplo, con el modelo no se pueden predecir los grandes o pequeños cambios conformacionales que ocurren durante el funcionamiento de la proteína, como tampoco se pueden descubrir nuevos sitios catalíticos o alostéricos, adicionales a los de la proteína-molde. Siempre hay que tener en mente que el modelo que se obtiene está sesgado por el templado que se utilice, y si este último tiene errores, éstos se van a transferir al modelo. En contraste, el modelado molecular es útil para el diseño de mutantes para probar una hipótesis determinada, para analizar sitios activos y de unión a ligandos o modelar la especificidad de sustrato, también se ha utilizado para predecir epítopes antigénicos y realizar el docking de la proteína con ligando y proteínas. La calidad del modelo va a depender en gran medida del porcentaje de identidad entre las secuencias de aminoácidos [26]. De entrada, el alineamiento es sencillo cuando el porcentaje de identidad es igual o mayor que 40%. Por debajo del 30%, el alineamiento de las dos secuencias que se obtiene automáticamente con los programas tiene errores que deben ser corregidos por el investigador. Algunos consejos prácticos para esta etapa del modelado es que se deben evitar los huecos en las zonas de estructura secundaria, en las regiones “ocultas” de la proteína o entre dos residuos que están muy separados en la estructura terciaria del templado. También se debe inspeccionar el alineamiento en función del molde estructural. Cuando la identidad entre las dos secuencias es mayor que el 40%, no hay problemas para alinear las dos proteínas, y se obtiene un alineamiento que contiene muy pocos huecos y de tamaño pequeño. La diferencia entre el modelo y el templado se encuentra principalmente en las asas y cadenas laterales y el 90% de los átomos de la cadena principal tienen un error RMS de 1 Angstrom, por lo que la precisión del modelo es semejante a la de una estructura cristalográfica de baja resolución. Con este modelo se pueden realizar experimentos de docking con ligandos pequeños o con otras proteínas, analizar los componentes del sitio activo y sus interacciones con los ligandos. Cuando el porcentaje de identidad es del 30 al 40%, se presentan diferencias estructurales más grandes. Los errores de alineamiento y las inserciones son el mayor problema, lo cual se refleja en asas más grandes. El 80% de los átomos de la cadena principal va a tener un error RMS de 1.5 Angstroms. Estos modelos sirven para estudiar los componentes de sitios activos y alostéricos, si ya se conoce la posición de éstos en el templado. Si el porcentaje de identidad entre las secuencias está por debajo del 20%, uno de los principales problemas es el de la identificación del molde. Con estos valores, aproximadamente el 20% de los residuos se alinearán en forma equivocada, por lo que no es sorprendente encontrar un error RMS de 3 Angstroms. Estos modelos servirían para estudiar las estructuras de los sitios activos y alostéricos, confirmar una relación estructural remota y la función de la proteína en caso de que ésta se desconozca. A continuación se mencionan los pasos a seguir para realizar la predicción de la estructura terciaria de una proteína, con mención a los diferentes programas que se utilizan: 1. Identificar las proteínas homólogas y determinar el porcentaje de similitud (BLAST, FASTA) 2. Alinear las secuencias (CLUSTAL X) 3. Identificar regiones conservadas y variables 4. Generar las coordenadas para las regiones conservadas de la proteína de interés (MODELLER, Swiss-Model) 5. Generar las conformaciones de las asas (MODELLER, Swiss-Model) 6. Construir las conformaciones de las cadenas laterales de los residuos (MODELLER, Swiss-Model) 7. Optimizar la estructura (Minimización de energía: NAMD, GROMACS) 8. Validar la estructura (ProQ, PROCHECK, WHATCHECK, ERRAT, PROVE) 126 Flores Herrera y cols. Modeller Swiss-Model [27] y Modeller [28] son dos programas gratuitos que se utilizan para realizar modelado molecular. Modeller incluye varios módulos que llevan a cabo diferentes acciones, desde alinear las secuencias homólogas y determinar los residuos conservados, hasta construir el modelo con base en definiciones de las restricciones espaciales y geométricas que se obtienen del alineamiento de la estructura con la secuencia problema (distancias C-C, ángulos diedricos, accesibilidad al solvente) y restricciones estereoquímicas dadas por el campo de fuerzas CHARMM22. Métodos ab initio: Rosetta En la predicción de novo por Rosetta [29] se considera que la distribución de conformaciones visitadas por una secuencia de 9 residuos es semejante a la distribución de estructuras que adopta el mismo segmento (y secuencias relacionadas) en las proteínas conocidas del PDB. La estructura que se predice se junta con la de otras estructuras para dar la predicción final. Es decir, este programa predice la estructura terciaria a través del plegamiento de segmentos de 9 residuos de aminoácidos (Figura 14). Rosetta escoge al azar un segmento de la secuencia de 9 residuos, selecciona una secuencia lo más parecida en el banco de datos del PDB y reemplaza, en la secuencia blanco, los ángulos de torsión de la secuencia parecida. Se rechaza la estructura si se cumplen con ciertas condiciones; por ejemplo, una de estas condiciones es que si con este procedimiento se colocan dos átomos más cerca de 2.5 Angstroms, entonces se rechaza esa la estructura. Figura 14. Predicción de estructura terciaria utilizando el programa Rosetta. Minimización de energía y dinámica molecular Una vez que se obtiene el modelo tridimensional de la proteína, el siguiente paso consiste en relajar las tensiones dentro de la estructura. Para esto, se realizan varios pasos de minimización de energía y dinámica molecular [30]. En el primer caso se utiliza una función de energía potencial, también llamada campo de fuerza, para minimizar la energía del sistema. Un campo de fuerza típico o de energía potencial se muestra en la siguiente ecuación, 127 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Los tres primeros términos están relacionados con los enlaces, ángulos y ángulos torsionales definidos por la estructura covalente de la proteína, mientras que los dos últimos términos se refieren a los átomos que no están enlazados covalentemente. El cuarto término se refiere a las interacciones de van der Waals, mientras que el último término a las interacciones electrostáticas dadas por las cargas qi y qj de los átomos del sistema. Los dos primeros términos describen las energías asociadas a los cambios en las distancias de los enlaces y los ángulos del enlace con respecto a sus respectivos valores de equilibrio, li0 y i0. El tercer término describe la rotación alrededor del enlace químico, caracterizada por términos energéticos que tienen una periodicidad dada por n, y en donde las alturas de las energías rotacionales están descritas por ci. El cuarto término describe la energía de van der Waals repulsiva y atractiva de las fuerzas interatómicas en la forma de un potencial de Lennard-Jones 12-6, y el último término es el potencial electrostático de Coulomb. Con la dinámica molecular [30] se simula la evolución del sistema en el tiempo utilizando las ecuaciones de movimiento de Newton: En donde ri(t) = (xi(t), yi(t), zi(t)) es el vector de posición de la i-ésima partícula y Fi es la fuerza que actúa sobre la i-ésima partícula al tiempo t y mi es la masa de la partícula. La integración de esta ecuación da como resultado la posición de los diferentes átomos en el tiempo y una trayectoria del sistema a lo largo de este tiempo. La integración numérica de esta ecuación se lleva a cabo con el algoritmo de Verlet, cuya fórmula se deriva de la expansión de Taylor para las posiciones ri(t): 128 Flores Herrera y cols. Validación estructuras Existen diferentes programas para evaluar el modelo que se obtuvo. Procheck [31] y Whatcheck [32] analizan las propiedades estereoquímicas de la estructura, por ejemplo, las longitudes de los enlaces, los ángulos de enlace, el enlace peptídico, choques entre los pares de aminoácidos que no están enlazados covalentemente, la planaridad de anillos, quiralidad, ángulos torsionales de la cadena principal y de las cadenas laterales, entre otros. La Figura 17 muestra el gráfico de Ramachandran que se obtiene con Procheck. Otros programas utilizan funciones estadísticas de energía potencial para verificar la calidad de la estructura. Entre estos se encuentran ProQ [33], Errat [34], y PROSAII [35]. Se espera que mientras mayor sea el grado de identidad, la calidad del modelo se incremente. Un ejercicio sencillo de modelado En un laboratorio de cualquier parte del mundo el investigador principal está interesado en la calmodulina de un hongo patógeno que produce lesiones pulmonares graves en el ser humano. Esta proteína participa en diferentes vías de transducción de señales que involucran al calcio como uno de los mensajeros, por lo que considera que es un buen blanco de fármacos que podrían usarse o diseñarse para el tratamiento de la enfermedad. El investigador cree que si consigue una buena estructura terciaria de la proteína podría iniciar la búsqueda de fármacos que interactúen con la misma, utilizando un programa de docking. Puesto que ya tiene la secuencia de la proteína MADQLTEDQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMVNEVDADG NGTIDFPEFLTMMARKMKDTDSEEEIKEAFKVFDKDGNGFISAAELRHVMTNLGEKLSDN EVDEMIREADVDGDGQINYDEFVKMMLSK lo primero que hace es buscar una estructura homóloga que ya haya sido cristalizada. Para esto, abre la página de ExPASy proteomic tools (http://ca.expasy.org/tools/) y se dirige a la sección de Similarity searches, en donde encuentra varios servidores que realizan búsquedas de secuencias similares. Ejecuta el BLAST (http://www.ch.embnet.org/software/bBLAST.html) de EMBNET y selecciona la base de datos de proteínas y estructuras terciarias no redundantes, copia la secuencia problema en la ventana adecuada y ejecuta el programa. En pocos minutos obtiene 50 estructuras de calmodulina. Escoge la de Drosophila melanogaster, con el código 4CLN y con la siguiente secuencia: MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADG NGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGFISAAELRHVMTNLGEKLTDE EVDEMIREADIDGDGQVNYEEFVTMMTSK y baja el archivo 4CLN.pdb del banco de datos de proteínas de estructura conocida o PDB (http://www.rcsb.org/pdb/home/home.do). En seguida realiza un alineamiento pareado entre las dos secuencia utilizando uno de los muchos servidores de clustalW disponibles en Internet (http://www.ebi.ac.uk/Tools/clustalw2/index.html), que también se encuentra en la sección de Sequence alignment en la página de ExPASy proteomic tools (http://ca.expasy.org/tools/). Deja los valores que se dan por omisión (como el tipo de matriz de similitud que usa el programa, las penalizaciones por apertura y extensión de huecos), introduce las dos secuencias en formato FASTA en la ventana correspondiente y ejecuta el programa, obteniendo, en unos cuantos segundos, el siguiente alineamiento: 129 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) CLUSTAL 2.0.5 multiple sequence alignment hongo drosofila MADQLTEDQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMVNEVDADG 60 MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADG 60 *******:********************************************:******* hongo drosofila NGTIDFPEFLTMMARKMKDTDSEEEIKEAFKVFDKDGNGFISAAELRHVMTNLGEKLSDN 120 NGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGFISAAELRHVMTNLGEKLTDE 120 **************************:***:**************************:*: hongo drosofila EVDEMIREADVDGDGQINYDEFVKMMLSK 149 EVDEMIREADIDGDGQVNYEEFVTMMTSK 149 **********:*****:**:***.** ** El investigador se alegra, ya que las dos secuencias son muy semejantes y esto facilita el proceso de modelado e incide en la calidad del modelo final. De hecho, el porcentaje de identidad es del 92.6% y las pocas diferencias entre las dos secuencias se debe a reemplazos conservativos, como D/E, R/K y S/T, entre otros. A continuación se decide por el SwissModel para realizar el modelado de su proteína. Primero descarga el programa DeepView-SwissPDBViewer de la página http://ca.expasy.org/spdbv/, lo instala en su computadora, lo ejecuta e introduce su nombre y correo electrónico en la sección de preferencias del Swiss model. Luego utiliza el comando “Load Raw Sequence to Model” para cargar el archivo que tiene la secuencia de su proteína y abre (open) el archivo estructural con las coordenadas cristalográficas de la calmodulina de drosofila (4CLN.pdb). También abre las ventanas de “Control panel” y de “sequence alignment”. En esta última, reproduce el alineamiento que obtuvo con clustalW y, después de verificar que no hay errores, lo envía al servidor para el modelado: selecciona las opciones Swiss-Model y submit model request, con lo cual se abre una ventana en donde se le da un nombre al proyecto y, después de esto, lo envía. Media hora después le llega un correo con una liga para descargar en su computadora el archivo estructural de la calmodulina del hongo y lo revisa con un programa para visualizar biomoléculas, como Rasmol, Pymol o el mismo Swiss-PDBViewer (Figura 15). Figura 15. Modelo de la proteína con base en la estructura cristalográfica 4CLN.pdb. 130 Flores Herrera y cols. Para validarlo decide utilizar cuatro programas. Con prosa II (https://prosa.services.came.sbg.ac.at/prosa.php) obtiene un puntaje-Z de -7.5 (mientras más pequeño mejor) y dos gráficas que le indican que el modelo es bueno. En la única que se muestra aquí (Figura 16), se observa que el modelo (el punto negro) cae en la región definida por los puntajes-Z de las estructuras resueltas por cristalografía de rayos X o resonancia magnética nuclear. Figura 16. Puntaje Z para el modelo basado en la estructura cristalográfica 4CLN.pdb Luego utiliza el servidor SAVS (Structure Análisis and Verification Server, http://nihserver.mbi.ucla.edu/SAVS/) para analizar la estructura con Procheck, What_check y errat. La gráfica de Ramachandran (Figura 17) que se obtiene con Procheck muestra una estructura con algunos problemas, mientras que las barras negras en la gráfica de errat (Figura 18) indican que hay errores estructurales en la parte final de la proteína. 131 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Figura 17. Mapa de Ramachandran para el modelo basado en la estructura cristalográfica 4CLN.pdb. 132 Flores Herrera y cols. Figura 18. Gráfico generado con el programa errat para el modelo basado en la estructura cristalográfica 4CLN.pdb. Las dos líneas horizontales indican límites de confianza para identificar regiones con problemas estructurales. El factor de calidad global muestra el porcentaje de la proteína que tiene valores de error por debajo del 95%. Mientras menos problemas estructurales tenga la proteína, mayor es el valor de este parámetro. Las estructuras de alta resolución con pocos problemas estructurales generalmente tienen valores por arriba de 95%, mientras que para las de baja resolución (2.5 a 3 Å) cae alrededor del 91%. También el resumen que arroja WhatCheck al final sugiere que la proteína no está libre de problemas: ----------------------------------------------------------------------------------------------------------------------------------------------# 51 # Note: Summary report for users of a structure ==================================================== This is an overall summary of the quality of the structure as compared with current reliable structures. This summary is most useful for biologists seeking a good structure to use for modelling calculations. The second part of the table mostly gives an impression of how well the model conforms to common refinement constraint values. The first part of the table shows a number of constraint-independent quality indicators. Structure Z-scores, positive is better than average: 2nd generation packing quality : -0.852 Ramachandran plot appearance : -4.574 (bad) chi-1/chi-2 rotamer normality : -2.535 Backbone conformation : -4.157 (bad) RMS Z-scores, should be close to 1.0: Bond lengths : 0.561 (tight) Bond angles : 1.145 Omega angle restraints : 0.803 Side chain planarity : 2.086 (loose) Improper dihedral distribution : 1.990 (loose) Inside/Outside distribution : 1.043 ------------------------------------------------------------------------ Sin embargo, cuando manda el archivo cristalográfico a estos servidores, descubre que tiene los mismos problemas que el modelo, es decir, que los errores del templado se transfirieron al modelo. El investigador decide que la estructura que obtuvo es lo suficientemente buena para iniciar los experimentos de docking y se prepara su segunda taza de café mientras lee un artículo sobre el tema. 133 MENSAJE BIOQUÍMICO, Vol. XXXII (2008) Referencias 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. Dobshanzky, T. (1973) Am. Biol. Teach. 35 125-129 Fitch, W. M (2000) Trends Genet 16 227-31. Attwood, T. K. y Parry-Smith. D. J. (2002) Introducción a la Bioinformática. Pearson Education, S.A., Madrid, España. Lipman, D. J. y Pearson, W. R. (1985) Science 227 1435-1441. Altschul, S. F. Gish, W., Miller W., Myers E. W. y Lipman D. J. (1990) Basic local alignment search tool. J. Mol. Biol. 215 403-410. Mount, D. W. (2004) Bioinformatics: sequence and genome analysis. Second edition. Cold Spring Harbor Laboratory Press, New York, USA. Dayhoff, M. O., Schwartz, R. M. y Orcutt, B. C. (1978) En Atlas of protein sequence and structure, Vol. 5, Cap. 4, NBRF, Washington DC. pp 33-41. Henikoff, S. y Henikoff, J. G. (1992) Proc. Natl. Acad. Sci. USA 89 10915-10919. George, D. G., Barker, W. C. y Hunt, L. T. (1990) Methods Enzymol. 183 333-351. Needleman, S. B. y Wunsch, C. D. (1970) J. Mol. Biol 48 443-453. Smith, T. F. y Waterman, M. S. (1981) J. Mol. Biol 147 195-197. Thompson, J. D., Higgins, D. G. y Gibson, T. J. (1994) Nuc. Ac. Res. 22 4673-4680. Kyte, J. y Doolittle, R. F. (1982) J. Mol. Biol. 157, 105-132 Eisenberg, D., Schwarz, E., Komaromy, M. y Wall, R. (1984) J. Mol. Biol. 179, 125-142 Roost, B., Casadio, R., Fariselli, P. y Sander, C. (1995) Protein Sci. 4, 521-533 Chen, C. P., Kernytsky, A. y Rost, B. (2002) Protein Sci. 11, 2774-2791 Punta, M., Forrest, L. R., Bigelow, H., Kernytsky, A., Liu, J. y Rost, B. (2007) Methods 41, 460-474 Chou, P. Y. y Fasman, G. D. (1974) Biochemistry 13, 211-222 Chou, P. Y. y Fasman, G. D. (1974) Biochemistry 13, 222-245 Garnier, J., Osguthorpe, D. J. y Robson, B. (1978) J. Mol. Biol. 120, 97-120 Rost, B. y Sander, C. (1993) J. Mol. Biol. 232, 584-599 Rost, B. y Sander, C. (1994) Proteins 19, 55-72 Rost, B. (2001) J. Struct. Biol. 134, 204-218 Jones, D. T. (1999) J. Mol. Biol. 287, 797-815 Rost, B., Schneider, R. y Sander, C. (1997) J. Mol. Biol. 270, 471-480 Baker, D. y Sali, A. (2001) Science 294, 93-96 Guex, N. y Peitsch, M. C. (1997) Electrophoresis 18, 2714-2723 Fiser, A. y Sali, A. (2003) Methods Enzymol. 374, 461-491 Simons, K. T., Kooperberg, C., Huang, E. y Baker, D. (1997) J. Mol. Biol. 268, 209-225 Meller, J. (2001) Molecular dynamics. Encyclopedia of life sciences pp: 1-8 Laskowski, R. A., MacArthur, M. W., Moss, D. S. y Thornton, J. (1993) J. Appl. Cryst. 26, 283-291 Hooft, R. W. W., Vriend, G., Sander, C. y Abola, E. E. (1996) Nature 381, 272 Wallner, B. y Elofsson, A. (2003) Protein Sci. 12, 1073-1086 Colovos, C. y Yeates, T. O. (1993) Protein Sci. 2, 1511-1519 Sippl, M. J. (1993) Proteins 17, 355-362 Semblanza del Dr. Juan pablo Pardo Vázquez El Dr. Juan Pablo Pardo realizó sus estudios de licenciatura, maestría y doctorado en la Facultad de Medicina de la UNAM. En dos ocasiones trabajó en la Universidad de Yale, la primera en una estancia posdoctoral que duró tres años y, la segunda, en su año sabático. En la actualidad es Profesor Titular “C” de Tiempo Completo en el Departamento de Bioquímica de la Facultad de Medicina, en donde realiza actividades de investigación y docencia. Pertenece al nivel II del Sistema Nacional de Investigadores y, como buen universitario, su equipo de futbol son los Pumas. 134