las herramientas del modelado molecular

Anuncio
Bustos Jaimes I, Castañeda Patlán C, Oria Hernández J,
Rendón Huerta E, Reyes Vivas H, Romero Álvarez I,
(eds). Mensaje Bioquímico, Vol XXXII. Depto de
Bioquímica, Fac de Medicina, Universidad Nacional
Autónoma de México. Cd Universitaria, México, DF,
MÉXICO (2008).
(http://bq.unam.mx/mensajebioquimico)
(ISSN-0188-137X)
LAS HERRAMIENTAS DEL MODELADO MOLECULAR
Oscar Flores Herrera1, Juan Luis Rendón Gómez1, Federico Martínez Montes1,
Guadalupe Guerra Sánchez2, Erick Sierra Campos2, Juan Pablo Pardo
Vázquez1*
1. Departamento de Bioquímica, Facultad de Medicina, UNAM, Apartado postal 70-159, CP
04510, México, D.F.
2. Departamento de Microbiología, ENCB, IPN, CP 11340, México, D.F.
*pardov@bq.unam.mx
Resumen
Como resultado de la secuenciación de genomas completos, la rapidez con que
aparecen nuevas secuencias de aminoácidos es mucho mayor que el aumento en el número de
estructuras proteicas que se obtienen por cristalografía de rayos X o resonancia magnética
nuclear. Puesto que las técnicas de aislamiento y secuenciación del DNA son mucho más
sencillas y rápidas que las dos que se utilizan para obtener la estructura de las biomoléculas, se
espera que esta diferencia aumente en un futuro. Sin embargo, con el modelado molecular se
puede acortar la distancia que existe entre el número de secuencias y estructuras. Entre los
programas que se requieren para la construcción de modelos tridimensionales de proteínas se
encuentran los que realizan búsquedas en bases de datos (BLAST, FASTA), los que llevan a
cabo alineamientos pareados (SIM) o múltiples (ClustalX), los que predicen segmentos
transmembranales (PHDhtm) o estructura secundaria (PHDsec) y los que construyen la
estructura terciaria de una proteína a partir de su secuencia (Modeller y Swiss-Model). La
energía de la estructura del modelo se puede minimizar utilizando varios ciclos de dinámica
molecular y minimización de energía utilizando programas como NAMD y Gromacs. Un paso
importante en este proceso es el de la validación del modelo con programas como Procheck,
What_check, Prosa II y errat, entre otros.
Palabras clave: modelado molecular, alineamiento pareado, alineamiento múltiple, BLAST,
FASTA, ClustalX, matrices de similitud, PAM250, BLOSUM62, predicción de estructura
secundaria, predicción de segmentos transmembranales, predicción de estructura terciaria,
Modeller, Swiss_model, minimización de energía, dinámica molecular, validación de estructuras,
Procheck, WhatCheck, Errat, ProsaII.
95
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Abstract
Due to the numerous sequencing genome projects around the world, the gap between
the number of amino acid sequences and the number of structures increases every year. Today,
the best solution to this problem is molecular modeling, a technique that can decrease the
sequence-structure gap. Different types of programs are used in molecular modeling. Some of
these search data bases for similar sequences (BLAST, FASTA), others carry out pairwise (SIM)
or multiple (ClustalX) alignments; there are also the transmembrane segment (PHDhtm) and
secondary structure (PHDsec) prediction servers, and the specific programs (Modeller, SwissModel) for the construction of the 3D structure of the protein. The energy of the model is
minimized thorough several cycles of molecular dynamics and energy minimization (NAMD,
Gromacs) and programs like Procheck, What_check, Prosa II, and Errat are used for the
validation of the structure.
Keywords: molecular modeling, pairwise alignment, multiple alignment, BLAST, FASTA,
ClustalX, similarity matrices, PAM250, BLOSUM62, secondary structure prediction,
transmembrane segment prediction, tertiary structure prediction, Modeller, Swiss-Model, energy
minimization, molecular dynamics, structure validation, Procheck, WhatCheck, Errat, ProsaII..
Introducción
Uno de los grandes evolucionistas de nuestra época, Theodosius Dobshanzky,
mencionaba que en biología todo se debe ver bajo la lupa de la evolución [1]. En este sentido,
cuando se alinean dos o más secuencias de proteínas o DNA, lo que se busca es una relación
filogenética entre ellas, averiguar si provienen de un ancestro común, para después hacer
inferencias acerca de la función, de la estructura, de la posición de los segmentos
transmembranales o de la semejanza del sitio activo, entre otras. Ya que las secuencias con las
que se trabaja son de proteínas actuales, los cambios que ocurrieron durante la evolución
(sustituciones, inserciones o eliminaciones) permitieron que la función de la proteína
permaneciera, por lo que se les podría llamar mutaciones permitidas. Además, como una buena
parte del trabajo que se realiza con las herramientas de la bioinformática se basa en el
alineamiento de secuencias, se deben aclarar algunos términos que son fundamentales en el
marco de la evolución.
Homología. Dos secuencias son homólogas si se derivan de un ancestro común [2].
Con base en esta definición, queda claro que es incorrecto decir que hay cierto porcentaje de
homología entre dos proteínas. O son o no son homólogas. Otro punto importante es que la
homología es una inferencia que se hace con base en el parecido de las secuencias en un
alineamiento. Cuando el porcentaje de identidad es alto, a partir de un 35 a 40%, la propuesta
de homología es fácil. Sin embargo, cuando la identidad entre las secuencias cae por debajo
del 20%, se requiere de un análisis de las secuencias más detallado para llegar a la conclusión
de que las proteínas son homólogas. Con respecto al modelaje molecular, se prefieren las
proteínas ortólogas que tienen la misma función a las parálogas con funciones diferentes.
Ortología. Si las dos secuencias aparecieron cuando se formaron las dos especies, son
ortólogas [2]. Es a partir de las secuencias ortólogas que se deben construir los árboles
filogenéticos. Además, se esperaría que las proteínas ortólogas tuvieran la misma función, por lo
que también se ha dicho que dos proteínas son ortólogas si están en diferentes especies y
tienen la misma función.
96
Flores Herrera y cols.
Paralogía. Cuando las dos secuencias se obtienen por un proceso de duplicación génica
en una especie, se les llama parálogas [2]. La evolución de nuevas funciones para una proteína
se basa, entre otras cosas, en la duplicación de un gen y la divergencia producida por
mutaciones sobre uno de ellos. Las secuencias parálogas informan de la evolución de un
genoma. También se menciona que dos secuencias son parálogas cuando se encuentran en la
misma o diferente especie y tienen funciones distintas, aunque esta definición es muy restrictiva.
Identidad. Porcentaje de aminoácidos idénticos que se colocan uno sobre el otro cuando
se alinean las dos secuencias. El alineamiento que se muestra a continuación tiene 21
identidades (:) en un total de 60 caracteres por línea, contando también las eliminaciones (-), por
lo que el porcentaje de identidad entre estas secuencias es de 35% o 21/60.
KSLSAVSQLYQPENHLGLHQAEPAEIKYDYLISAVGAEPNTFGIPGVTDYGHFLKEIPNS
: :..
.:
.:. .: :. .:::: ::::::: . . ::::. ..
---SDDSEIKGDISH--------TEVPFDMLVVGVGAENATFGIPGVRENSCFLKEVGDA
Similitud. Se toma en cuenta el parecido en las propiedades fisicoquímicas de los
aminoácidos o los cambios permitidos entre los residuos con base en matrices de sustitución,
como las PAM o las BLOSUM. Para obtener el porcentaje de similitud en el alineamiento que se
muestra arriba, se suman las 21 identidades (:) y los 13 reemplazos conservativos (.) y el
resultado se divide entre el total de caracteres: 34/60, que corresponde a un 57% de similitud.
Como era de esperarse, el porcentaje de similitud es mayor que el de identidad.
Clasificación de los aminoácidos
Los aminoácidos que participan en la síntesis ribosomal de proteínas son 20 y están codificados
en el genoma nuclear y mitocondrial de la célula. Una vez que el aminoácido se incorpora a la
cadena polipeptídica puede ser blanco de varios tipos de modificaciones postraduccionales,
como la fosforilación de residuos de serina y treonina o la acetilación de lisinas, entre otros.
Desde un punto de vista fisicoquímico, a cada aminoácido se le pueden asignar ciertas
propiedades, tales como polaridad, hidrofobicidad, tamaño y carga positiva o negativa, y se
pueden clasificar en función de estas características (Figura 1). Se puede ver que la alanina cae
en la categoría de los aminoácidos pequeños e hidrofóbicos, mientras que la arginina es un
aminoácido muy voluminoso, polar y con carga positiva. Cuando se analizan los cambios que
sufre la secuencia de una proteína durante el proceso evolutivo se observa que las sustituciones
de los aminoácidos correlacionan en cierto grado con sus propiedades fisicoquímicas. Así, es
fácil el intercambio entre aminoácidos polares, pero mucho menos frecuente la sustitución de
uno polar por otro hidrofóbico. Asimismo, la selección natural favorece el intercambio de
aminoácidos de tamaño similar y castiga la introducción de un aminoácido voluminoso en el
interior de la proteína.
Las fuerzas no covalentes
El plegamiento de una proteína para adquirir la estructura nativa, la asociación de varias
cadenas polipeptídicas para formar una proteína multimérica, y la unión del sustrato, coenzimas
o cualquier otra molécula a las proteínas son procesos que están dirigidos por fuerzas no
covalentes, sin la participación de enlaces covalentes.
97
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Figura 1. Clasificación de los aminoácidos con base en la polaridad, hidrofobicidad,
carga, aromaticidad y tamaño.
Las fuerzas no covalentes involucradas en estas reacciones son: las interacciones
iónicas, los puentes de hidrógeno, el efecto hidrofóbico y las fuerzas de van der Waals. Estas
cuatro fuerzas se entrelazan de manera que no pueden ser completamente separadas las unas
de las otras. Por ejemplo, las fuerzas de van der Waals participan en cada uno de los otros tres
fenómenos; los puentes de hidrógeno pueden ser considerados como un caso especial de
interacción iónica; las interacciones iónicas pueden involucrar puentes de hidrógeno, o el efecto
hidrofóbico es, en gran parte, el reflejo de los puentes de hidrógeno en el solvente. En conjunto,
las interacciones no covalentes son responsables del reconocimiento molecular y de dirigir y
mantener la estructura tridimensional de las proteínas.
Las interacciones iónicas (electrostáticas)
Cuando un ión con carga positiva interactúa con uno de carga negativa, se atraen y con
ello a las moléculas o los segmentos de una proteína a los que estén unidos. Se conoce como
par iónico al complejo que se forma cuando un catión y un anión en una solución interactúan
favorablemente. Sin embargo, todas las interacciones entre los átomos y moléculas son, en
última instancia, electrostáticas, aún las que se llevan a cabo entre moléculas no polares. Su
energía varía de acuerdo con la naturaleza de las cargas involucradas y la constante dieléctrica
(D) del medio. Entre iones con carga neta, la energía decae con respecto a la distancia (r) de
acuerdo con la relación 1/Dr (interacciones de largo alcance), mientras que entre dipolos
6
permanentes y orientados al azar, la energía decae a razón de 1/Dr (interacción de corto
4
alcance). La energía entre una carga y un dipolo inducido decae a razón de 1/Dr . Se debe
recalcar que el valor de D del agua es de 80, mientras que en la proteína puede tener valores
entre 2 y 4.
Las interacciones carga-carga de larga distancia en una proteína son difíciles de
calcular, debido a la heterogeneidad local y a la interfase proteína-agua, la cual produce que la
constante dieléctrica varíe mucho. El algoritmo de Warwicker-Watson divide a la proteína en
3
cubos de 1 Å y le asigna una constante dieléctrica apropiada. En estas condiciones el valor de D
puede ser mayor que el del agua, debido a que partes de la proteína pueden actuar como un
lente y enfocar o desenfocar las cargas o alinear a las moléculas del agua.
98
Flores Herrera y cols.
Las fuerzas de van der Waals o de dispersión
Las fuerzas de dispersión de London siguen la ley del recíproco de la sexta potencia de
12
6
la distancia: U = A/r – B/r , en donde A y B son constantes de proporcionalidad, con valores
específicos para cada pareja de donadores-aceptores. Se observa que la energía asociada a la
6
atracción entre dos moléculas es función de 1/r . Nótese que esta relación es característica de
la interacción entre dipolos.
Cualquier molécula, aún siendo no-polar, puede presentar una separación de cargas
como resultado de las fluctuaciones locales de la densidad electrónica en un instante
determinado. Debido a que la interacción entre las moléculas depende de la inducción del dipolo,
la polarización es un factor importante en la energía de la interacción entre dos átomos
cualquiera. Recordemos que la polarizabilidad es la tendencia relativa de la nube electrónica de
un átomo a ser distorsionada por la presencia de un ión vecino o un dipolo, es decir, por un
campo eléctrico externo. La polarizabilidad electrónica () se define como el cociente del
momento dipolo inducido (p) de un átomo entre el campo eléctrico (E) que induce este momento
2 -1
2 4
-1
dipolo: p = E. La polarizabilidad electrónica tiene las unidades del SI de: C·m ·V = Å ·s ·kg ,
3
3
pero frecuentemente se expresa como volumen de polarizabilidad, con unidades de cm o Å =
-24
3
10 cm . Es importante aclarar que la polarizabilidad no tiene que ver con la electronegatividad,
sino más bien con la deformación de la nube electrónica: mientras más grande y alejada del
núcleo sea la nube electrónica y su capacidad de deformarse, mayor será el valor de .
La polarizabilidad está asociada con la constante B en la ecuación de las fuerzas de
dispersión de London, y describe la fuerza de atracción entre dos átomos que están separados a
una distancia de 1 Å. Así pues, mientras mayor sea la polarizabilidad, y en consecuencia el
tamaño de la nube electrónica de un átomo, mayor será la energía de auto-interacción o auto-24
atracción (B). Por ejemplo, el grupo O tiene una polarizabilidad de 0.63 mL·10 y un potencial
6
de autoasociación de 220 kcal· Å /mol, mientras que para el CH2 los valores son 1.80 y 1160,
respectivamente. Esto nos indica que el grupo metileno prefiere interactuar con moléculas
similares que con el oxígeno.
Aunque todas estas fuerzas de atracción son débiles y las energías de van der Waals
bajas, todas son aditivas y pueden hacer contribuciones significativas a la asociación e
interacción cuando se suman dentro de una molécula.
Los puentes de hidrógeno
El puente de hidrógeno es una interacción no covalente que se establece entre un ácido,
conocido como donador, A-H, y una base, conocida como aceptor, B. En general, los dos átomos
deben ser electronegativos, usualmente nitrógeno y oxígeno, uno de los cuales está unido
covalentemente a un hidrógeno (OH, -NH), mientras que el otro expone un par de electrones
sin compartir (O:, -N:). El hidrógeno compartido se encuentra en un doble pozo en el perfil de
energía potencial: uno asociado con el donador (OH) y otro con el aceptor (O:). La barrera
que separa los dos pozos disminuye conforme el donador y el aceptor se aproximan, y
eventualmente se crea un solo pozo, en donde el protón se comparte entre los dos átomos
electronegativos, lo que permite que al disociarse el puente de hidrógeno, se puedan producir
+
dos moléculas con carga (-OH + -O: = O y O:H ).
Para los puentes de hidrógeno, la configuración óptima es la lineal y su energía puede
variar entre 12 y 38 kJ/mol (3 a 9 kcal/mol). Si la energía de activación para la ruptura del puente
es la misma que la energía de enlace (12.5, 25.0 y 37.6 kJ/mol), la teoría del estado de transición
10
8
6 -1
establece que los puentes se disocian con una velocidad de 4 X 10 , 3 X 10 y 2 X 10 s ,
respectivamente. Estos valores dejan patente la enorme velocidad de ruptura y formación de los
99
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
puentes de hidrógeno que, junto con la poca energía que se requiere para romperlos, resulta en
que muchos de ellos pueden dar estabilidad a la conformación de una proteína, pero son lo
suficientemente lábiles como para que los procesos biológicos se lleven a cabo con la suficiente
rapidez.
El efecto hidrofóbico
El efecto hidrofóbico se refiere a la tendencia de los compuestos no polares, como los
hidrocarburos, de transferirse desde una solución acuosa a una fase orgánica. La teoría del
efecto hidrofóbico nos dice que esta segregación entre las moléculas no polares y las del agua
no se debe a que existe una gran energía de interacción entre las mismas moléculas del soluto,
sino que es el resultado de la reorganización de la red de puentes de hidrógeno del agua en
presencia de un compuesto hidrofóbico. Un compuesto no polar en el agua produce un arreglo
local del enramado de puentes de hidrógeno en donde las moléculas de agua se ordenan
alrededor del compuesto hidrofóbico, causando una disminución de la entropía del sistema. Al
extrapolar este concepto a las proteínas, un residuo no polar se dirige a la región hidrofóbica de
la proteína, con lo cual se recupera la entropía del agua.
Las consecuencias de la participación de las interacciónes iónicas (electrostáticas), de
van der Waals, los puentes de hidrógeno y el efecto hidrofóbico son evidentes cuando se aprecia
la estructura tridimensional de una proteína.
Niveles estructurales de las proteínas
En cualquier libro de texto se encuentra que existen cuatro niveles estructurales en las
proteínas. El primero, llamado estructura primaria, corresponde a la secuencia de aminoácidos
de la proteína junto con los puentes de disulfuro. La estructura secundaria se define por los
arreglos periódicos locales de la cadena polipeptídica, y hay tres tipos básicos: la -hélice, la
hoja -plegada y el giro. La estructura terciaria se forma cuando la proteína se pliega para dar la
conformación nativa y la estructura cuaternaria refleja el arreglo de las subunidades en una
proteína oligomérica. Como se verá a continuación, existen bases de datos para casi cada uno
de los niveles estructurales de las proteínas.
Bases de datos para proteínas
Como se muestra en la Tabla 1, las bases de datos se pueden dividir en tres categorías,
dependiendo del tipo de información que contienen [3]. Las primarias guardan secuencias de
aminoácidos o de nucleótidos; las secundarias guardan expresiones regulares (patrones),
matrices ponderadas (perfiles), motivos alineados (huellas), modelos de Markov ocultos (HMM),
motivos alineados (bloques) o expresiones regulares borrosas (patrones). Finalmente, existen
las bases de datos que contienen información estructural, como el banco de datos de proteínas
cristalizadas (Protein Data Bank).
100
Flores Herrera y cols.
Tabla 1. Tipos de bases de datos.
PIR
MIPS
Swiss-Prot
TrEMBL
NRL-3D
PROSITE
BLOCKS
Profiles
PRINTS
Pfam
PDB
Bases de datos Primarias
http://pir.georgetown.edu/
http://mips.gsf.de/
http://ca.expasy.org/sprot/
http://ca.expasy.org/sprot/
http://www.renabi.fr/
Bases de datos secundarias
http://www.ebi.ac.uk/ppsearch/
http://blocks.fhcrc.org/blocks/
http://hits.isb-sib.ch/cgi-bin/PFSCAN
http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/
http://pfam.sanger.ac.uk/
Base de datos de estructuras
http://www.rcsb.org/pdb/home/home.do
En la Tabla 1 también se muestra que existen muchas bases de datos primarias en
donde se pueden conseguir secuencias de proteínas, pero la que se debe visitar primero es
SWISS-PROT, cuyo nivel de anotación es excelente. Esta base de datos contiene las
secuencias de aminoácidos de una gran cantidad de proteínas con ligas a otras bases de datos.
A continuación se muestra un archivo de salida de SwissProt:
ID
AC
DT
DT
DT
DE
DE
GN
OS
OC
OC
OX
RN
RP
RP
RC
RX
RA
RT
RT
RT
RL
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC
DR
DR
DR
DR
DR
NDI1_YEAST
Reviewed;
513 AA.
P32340;
01-OCT-1993, integrated into UniProtKB/Swiss-Prot.
01-OCT-1993, sequence version 1.
26-FEB-2008, entry version 80.
Rotenone-insensitive NADH-ubiquinone oxidoreductase, mitochondrial
precursor (EC 1.6.5.3) (Internal NADH dehydrogenase).
Name=NDI1; OrderedLocusNames=YML120C; ORFNames=YM7056.06C;
Saccharomyces cerevisiae (Baker's yeast).
Eukaryota; Fungi; Dikarya; Ascomycota; Saccharomycotina;
Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.
NCBI_TaxID=4932;
[1]
NUCLEOTIDE SEQUENCE [GENOMIC DNA], AND PROTEIN SEQUENCE OF 27-36 AND
41-50.
STRAIN=YP102;
MEDLINE=92137248; PubMed=1735444;
de Vries S., van Witzenburg R., Grivell L.A., Marres C.A.M.;
"Primary structure and import pathway of the rotenone-insensitive
NADH-ubiquinone oxidoreductase of mitochondria from Saccharomyces
cerevisiae.";
Eur. J. Biochem. 203:587-592(1992).
-!- FUNCTION: Catalyzes the oxidation of NADH generated inside the
Mitochondrion.
-!- CATALYTIC ACTIVITY: NADH + ubiquinone = NAD(+) + ubiquinol.
-!- COFACTOR: Binds 1 FAD per subunit (By similarity).
-!- SUBCELLULAR LOCATION: Mitochondrion inner membrane; Matrix side.
Note=Bound to the mitochondrial inner membrane facing the matrix
site.
-!- MISCELLANEOUS: Present with 5240 molecules/cell in log phase SD
medium.
-!- SIMILARITY: Belongs to the NADH dehydrogenase family.
----------------------------------------------------------------------Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms
Distributed under the Creative Commons Attribution-NoDerivs License
----------------------------------------------------------------------EMBL; X61590; CAA43787.1; ALT_SEQ; Genomic_DNA.
EMBL; Z49218; CAA89160.1; -; Genomic_DNA.
EMBL; AY723851; AAU09768.1; -; Genomic_DNA.
PIR; S26704; S26704.
RefSeq; NP_013586.1; -.
101
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
PE
KW
KW
KW
FT
FT
FT
FT
FT
FT
FT
FT
FT
SQ
DIP; DIP:5554N; -.
IntAct; P32340; -.
PeptideAtlas; P32340; -.
Ensembl; YML120C; Saccharomyces cerevisiae.
GeneID; 854919; -.
GenomeReviews; Z71257_GR; YML120C.
KEGG; sce:YML120C; -.
CYGD; YML120c; -.
SGD; S000004589; NDI1.
LinkHub; P32340; -.
GermOnline; YML120C; Saccharomyces cerevisiae.
GO; GO:0005759; C:mitochondrial matrix; IDA:SGD.
GO; GO:0008137; F:NADH dehydrogenase (ubiquinone) activity; IDA:SGD.
GO; GO:0001300; P:chronological cell aging; IMP:SGD.
GO; GO:0006120; P:mitochondrial electron transport, NADH to u...; IDA:SGD.
GO; GO:0006116; P:NADH oxidation; IDA:SGD.
GO; GO:0043065; P:positive regulation of apoptosis; IMP:SGD.
InterPro; IPR013027; FAD_pyr_nucl-diS_OxRdtase.
InterPro; IPR001327; Pyr_OxRdtase_NAD_bd.
Pfam; PF00070; Pyr_redox; 1.
Pfam; PF07992; Pyr_redox_2; 1.
PRINTS; PR00368; FADPNR.
1: Evidence at protein level;
Complete proteome; Direct protein sequencing; FAD; Flavoprotein;
Inner membrane; Membrane; Mitochondrion; NAD; Oxidoreductase;
Phosphoprotein; Transit peptide; Ubiquinone.
TRANSIT
1
26
Mitochondrion.
CHAIN
27
513
Rotenone-insensitive NADH-ubiquinone
oxidoreductase.
/FTId=PRO_0000021793.
NP_BIND
55
85
FAD (By similarity).
NP_BIND
229
265
NAD (By similarity).
MOD_RES
27
27
Phosphoserine.
MOD_RES
28
28
Phosphothreonine.
VARIANT
10
10
K -> R.
SEQUENCE
513 AA; 57250 MW; E3A43D75A1ADCF3B CRC64;
MLSKNLYSNK RLLTSTNTLV RFASTRSTGV ENSGAGPTSF KTMKVIDPQH SDKPNVLILG
SGWGAISFLK HIDTKKYNVS IISPRSYFLF TPLLPSAPVG TVDEKSIIEP IVNFALKKKG
NVTYYEAEAT SINPDRNTVT IKSLSAVSQL YQPENHLGLH QAEPAEIKYD YLISAVGAEP
NTFGIPGVTD YGHFLKEIPN SLEIRRTFAA NLEKANLLPK GDPERRRLLS IVVVGGGPTG
VEAAGELQDY VHQDLRKFLP ALAEEVQIHL VEALPIVLNM FEKKLSSYAQ SHLENTSIKV
HLRTAVAKVE EKQLLAKTKH EDGKITEETI PYGTLIWATG NKARPVITDL FKKIPEQNSS
KRGLAVNDFL QVKGSNNIFA IGDNAFAGLP PTAQVAHQEA EYLAKNFDKM AQIPNFQKNL
SSRKDKIDLL FEENNFKPFK YNDLGALAYL GSERAIATIR SGKRTFYTGG GLMTFYLWRI
LYLSMILSAR SRLKVFFDWI KLAFFKRDFF KGL
//
A grandes rasgos, en el archivo se encuentran diferentes secciones que informan de
múltiples aspectos de la proteína. Por ejemplo, se tiene la identidad de la proteína (ID), su
número de acceso (AC), referencias relacionadas con la identificación y caracterización de la
proteína, la reacción que lleva a cabo si es una enzima, los cofactores que une, su localización
dentro de la célula, el número de moléculas por célula, la familia de proteínas a la que pertenece,
ligas a otras bases de datos, la presencia de dominios y, finalmente, la secuencia de
aminoácidos de la proteína.
Búsquedas en bases de datos
FASTA [4] y BLAST [5] son dos programas que se utilizan para realizar búsquedas en
las bases de datos de proteínas o DNA (Tabla 2). El objetivo de estos algoritmos es encontrar
secuencias que tengan cierto grado de similitud con la secuencia blanco, utilizando un método
huerístico que, a diferencia de la programación dinámica, no garantiza la obtención del mejor
alineamiento, aunque en la práctica está muy cerca de éste. Asimismo, en los dos algoritmos se
supone que los alineamientos con altos puntajes contienen pequeñas secuencias de letras
idénticas o casi idénticas, a las cuales se les denomina palabras. Mientras que BLAST busca
102
Flores Herrera y cols.
palabras de un tamaño determinado (W), normalmente de 3 para proteínas y 11 para DNA, con
un puntaje que esté por arriba de cierto valor límite (T), FASTA busca secuencias que sean
idénticas, con palabras de 2 letras para las proteínas y de 6 para el DNA. Aunque el usuario
puede cambiar el tamaño de las palabras para la búsqueda de secuencias en la base de datos,
generalmente se recomienda tomar los valores por omisión. En contraste con los primeros
programas, en las últimas versiones de éstos se permiten los huecos y las inserciones en los
alineamientos. También se pueden colocar filtros en la búsqueda, como sería el caso de la
eliminación de las secuencias de poca complejidad, caracterizadas por segmentos ricos en 2-4
tipos de aminoácidos.
Tabla 2. Programas para búsquedas en bases de datos, alineamientos, modelado molecular,
evaluación de modelos y minimización de energía-dinámica molecular.
Programa
Dirección de internet
Buscadores en bases de datos
FASTA
http://www.ebi.ac.uk/fasta33/
BLAST
http://expasy.org/tools/blast/
Alineamiento pareado global y local
SIM
http://expasy.org/tools/sim-prot.html
LALIGN
http://www.ch.embnet.org/software/LALIGN_form.html
Alineamiento múltiple
ClustalW2
http://www.ebi.ac.uk/Tools/clustalw2/index.html
T-Coffee
http://www.ebi.ac.uk/t-coffee/
MSA
http://xylian.igh.cnrs.fr/msa/msa.html
Modelado molecular manual
Swiss-Model
http://swissmodel.expasy.org/
Modeller
http://www.salilab.org/modeller/
Modelado molecular manual
3D-JIGSAW
http://bmm.cancerresearchuk.org/~3djigsaw/
CPHmodels
http://www.cbs.dtu.dk/services/CPHmodels/
EASyPRED3D
http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/
Plegamiento inverso
PHYRE
http://www.sbg.bio.ic.ac.uk/~phyre/
FUGUE
http://www-cryst.bioc.cam.ac.uk/~fugue/
HHpred
http://toolkit.tuebingen.mpg.de/hhpred
SAM-T06
http://www.soe.ucsc.edu/research/compbio/SAM_T06/T06-query.html
Minimización de energía y dinámica molecular
NAMD
http://www.ks.uiuc.edu/Research/namd/
GROMACS
http://www.gromacs.org/
Evaluación de estructuras
PROCHECK
http://nihserver.mbi.ucla.edu/SAVS/
ProsaII
https://prosa.services.came.sbg.ac.at/prosa.php
WHAT_CHECK
http://nihserver.mbi.ucla.edu/SAVS/
ERRAT
http://nihserver.mbi.ucla.edu/SAVS/
ProQ
http://www.sbc.su.se/~bjornw/ProQ/ProQ.cgi
VERIFY_3D
http://nihserver.mbi.ucla.edu/SAVS/
103
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Un punto importante en la búsqueda de secuencias similares es el significado estadístico
de los resultados del alineamiento, para lo cual se utilizan los valores de p (probabilidad) o E
(valor esperado). Mientras más pequeños sean estos dos, mayor es la seguridad de que el
alineamiento que se obtuvo se debe a que existe una relación evolutiva entre las dos secuencias
y no es producto del azar. El valor de p asociado al puntaje S (relacionado con la similitud entre
las secuencias) en un alineamiento indica la probabilidad de que un puntaje igual o mayor que S
se obtenga al azar entre dos secuencias con una longitud y composición de aminoácidos similar
y que no estén relacionadas entre sí. Por otro lado, el valor de E representa el número de
resultados (hits) que se obtendrían al azar con una base de datos de cierto tamaño, con un
puntaje igual o mayor que S. Por ejemplo, un valor de E igual a uno indicaría que con esa base
de datos particular se esperaría obtener, por puro azar, un alineamiento pareado con un puntaje
similar.
Existen varias formalidades de FASTA. Por ejemplo, FASTA busca secuencias similares
en bases de datos de proteínas o DNA, ya sea de una proteína blanco contra la base de datos
de proteínas o de una secuencia de DNA blanco contra la base de datos de DNA; TFASTA
compara una secuencia de aminoácidos contra una base de datos de DNA que se tradujo a
secuencias de aminoácidos y FASTAX/Y compara las seis secuencias de aminoácidos que se
obtienen de traducir una secuencia de DNA, contra una base de datos de proteínas. Cuando se
realiza una búsqueda utilizando FASTA se obtiene el siguiente archivo:
# /ebi/extserv/bin/fasta-35.2.10/fasta35_t -l /ebi/services/idata/v2121/fastacfg/fasta3db
-Q -p -b 50 -d 50 -s BL62 -E 10.0 -f -10 -g -2 -z 1 @:1- +uniprot+ 2
FASTA searches a protein or DNA sequence data bank
version 35.02 Feb. 18, 2008
Please cite:
W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448
Query: @
1>>>Sequence 375 aa - 375 aa
Library: UniProt 1889195618 residues in 5775821 sequences
< 20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
opt
E()
2981
0:=
105
0:=
one = represents 9225 library sequences
178
5:*
506
121:*
1915 1310:*
8000 7955:*
28913 30760:===*
80756 83416:=========*
171578 171317:==================*
290754 283124:==============================*=
422239 394933:==========================================*===
519520 482757:====================================================*====
547077 532526:=========================================================*==
553482 542391:==========================================================*=
517644 519277:========================================================*
459883 473842:================================================== *
395942 416586:=========================================== *
336065 355838:===================================== *
285347 297234:=============================== *
240925 244023:==========================*
192555 197673:=====================*
152196 158475:=================*
123714 126034:=============*
105293 99614:==========*=
73213 78354:========*
59230 61403:======*
46936 47981:=====*
36426 37409:====*
28544 29116:===*
21250 22632:==*
16053 17573:=*
12665 13443:=*
104
Flores Herrera y cols.
84 9783 10649:=*
86 7635 8239:*
88 6052 6375:*
inset = represents 69 library sequences
90 4440 4933:*
92 3427 3817:*
:=======================================*
94 2516 2953:*
:===================================== *
96 1860 2285:*
:===========================
*
98 1572 1768:*
:======================= *
100 1195 1368:*
:================== *
102
940 1058:*
:============== *
104
713
819:*
:===========*
106
558
634:*
:=========*
108
388
490:*
:====== *
110
335
379:*
:=====*
112
282
294:*
:====*
114
215
227:*
:===*
116
200
176:*
:==*
118
141
136:*
:=*=
>120 1684
105:*
:=*=======================
1889195618 residues in 5775821 sequences
Statistics: Expectation_n fit: rho(ln(x))= 3.5682+/-0.000177; mu= 7.7221+/- 0.010
mean_var=26.9296+/- 5.463, 0's: 35 Z-trim: 48 B-trim: 2872 in 1/65
Lambda= 0.247149
statistics sampled from 60000 to 5774186 sequences
Kolmogorov-Smirnov statistic: 0.0164 (N=29) at 46
Algorithm: FASTA (3.5 Sept 2006) [optimized]
Parameters: BL62 matrix (11:-4) ktup: 2
join: 37, opt: 25, open/ext: -10/-2, width: 16
Scan time: 220.300
The best scores are:
UNIPROT:NDI1_YEAST P32340 Rotenone-insensitive NAD
UNIPROT:A6ZLU4_YEAS7 A6ZLU4 NADH:ubiquinone oxidor
UNIPROT:Q6FXF1_CANGA Q6FXF1 Candida glabrata strai
UNIPROT:Q6CUA9_KLULA Q6CUA9 Kluyveromyces lactis s
UNIPROT:Q752X6_ASHGO Q752X6 AFR447Cp.
UNIPROT:A7TIW2_VANPO A7TIW2 Putative uncharacteriz
(
(
(
(
(
(
513)
513)
524)
519)
519)
532)
opt bits E(5775821)
1916 690.9 1.2e-196
1916 690.9 1.2e-196
1604 579.6 3.7e-163
1569 567.1 2.1e-159
1551 560.7 1.8e-157
1543 557.9 1.3e-156
>>UNIPROT:A1CPS7_ASPCL A1CPS7 Alternative NADH-dehydroge (570 aa)
initn: 829 init1: 571 opt: 591 Z-score: 1130.4 bits: 218.4 E(): 2.2e-54
Smith-Waterman score: 827; 46.9% identity (75.9% similar) in 369 aa overlap (1-369:102459)
10
20
30
DKPNVLILGSGWGAISFLKHIDTKKYNVSI
:: ...:::.:::..:.:: .::..::: .
UNIPRO TWLSGVGLAGALVYSIYEQRHPIEQINPSPDKKTLVILGTGWGSVSLLKKLDTENYNVVV
80
90
100
110
120
130
Sequen
40
50
60
70
80
90
Sequen ISPRSYFLFTPLLPSAPVGTVDEKSIIEPIVNFALKKKGNVTYYEAEATSINPDRNTVTI
::::.::::::::::. .: :...::.::: :. .::..: .::::::.:. ....: :
UNIPRO ISPRNYFLFTPLLPSCTTGQVEHRSIMEPIRNILRQKKAHVKFYEAEATKIDYEKRVVYI
140
150
160
170
180
190
375 residues in 1 query
sequences
1889195618 residues in 5775821 library sequences
Tcomplib [35.02] (8 proc)
start: Sat Mar 8 20:21:11 2008 done: Sat Mar 8 20:22:36 2008
Total Scan time: 220.300 Total Display time: 0.170
Function used was FASTA [version 35.02 Feb. 18, 2008]
En la primera parte se indica la versión de FASTA que se utilizó para la búsqueda, la
referencia en donde se describe el programa, el número de aminoácidos de la secuencia blanco
105
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
y la base de datos junto con el total de aminoácidos y secuencias que contiene. La segunda
parte del reporte da el histograma con la estadística pertinente al final del mismo. El número
esperado de secuencias, de acuerdo con un modelo estadístico, se grafica en el histograma con
un asterisco (*) y el patrón de asteriscos da una idea de que tan bien se ajusta la teoría
estadística a los puntajes de similitud obtenidos por FASTA. Como se observa en la figura, la
distribución de los puntajes calculados y de los esperados con base en la longitud de las
secuencias y la distribución del valor extremo es buena. Sin embargo, al final del histograma se
observan varias secuencias que se salen de la predicción teórica, y es en esta zona en donde se
tienen los alineamientos con valores de p muy pequeños, que no se explican con base en el
azar. En esta sección se menciona la matriz de sustitución que se utilizó, el tamaño de la palabra
(k-tupe, 2), y la penalización por apertura y extensión de huecos. En la tercera parte se incluye el
nombre de las 50 secuencias con las mejores puntuaciones, cada una con su valor de E (valor
esperado). En la cuarta parte se muestran los alineamientos pareados de la secuencia blanco
contra cada una de las secuencias que resultaron de la búsqueda. Estos alineamientos se
obtuvieron con el algoritmo de Smith-Waterman, las identidades se identifican con dos puntos y
los reemplazos conservativos con un solo punto. Además, se señala el porcentaje de identidad y
similitud entre las secuencias y la longitud de las secuencias que se utilizaron en el alineamiento.
Como FASTA, BLAST (Basic Local Alignment Search Tool) es un programa que busca
secuencias semejantes en las base de datos de proteínas o DNA, pero con la diferencia de que
se permite el uso de palabras más grandes, con más de dos caracteres y el emparejamiento
inexacto entre las palabras, lo que finalmente conduce a un aumento en la velocidad de la
búsqueda. Existen también varias versiones de BLAST. BLASTN toma una secuencia de
nucleótidos y busca en una base de datos de nucleótidos, BLASTP compara una secuencia de
aminoácidos contra una base de datos de proteínas, BLASTX traduce el DNA a proteína y lo
compara contra una base de datos de proteínas, TBLASTN toma una secuencia de aminoácidos
y busca en una base de datos de DNA que se tradujo a secuencias de aminoácidos. Abajo se
muestra el resultado de una búsqueda con BLASTP.
BLASTP 2.2.17 [Aug-26-2007]
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs", Nucleic Acids Res. 25:3389-3402.
Query= Submission
(375 letters)
Database: UniProtKB
5,775,821 sequences; 1,889,195,589 total letters
Searching..................................................done
Score
(bits)
Sequences producing significant alignments:
sp!P32340!NDI1_YEAST Rotenone-insensitive NADH-ubiquinone oxidor...
tr!A6ZLU4_YEAS7 NADH:ubiquinone oxidoreductase [NDI1] [Saccharom...
tr!Q6FXF1_CANGA Candida glabrata strain CBS138 chromosome B comp...
tr!Q6CUA9_KLULA Kluyveromyces lactis strain NRRL Y-1140 chromoso...
tr!Q752X6_ASHGO AFR447Cp [AFR447C] [Ashbya gossypii (Yeast) (Ere...
106
E
Value
742
742
623
608
602
0.0
0.0
e-177
e-172
e-170
Flores Herrera y cols.
Alignments
>tr!A1CPS7_ASPCL Alternative NADH-dehydrogenase [ACLA_023620] [Aspergillus clavatus]
Length = 570
Score = 326 bits (836), Expect = 1e-87
Identities = 171/369 (46%), Positives = 237/369 (64%), Gaps = 11/369 (2%)
Query: 1
DKPNVLILGSGWGAISFLKHIDTKKYNVSIISPRSYFLFTPLLPSAPVGTVDEKSIIEPI 60
DK ++ILG+GWG++S LK +DT+ YNV +ISPR+YFLFTPLLPS
G V+ +SI+EPI
Sbjct: 102 DKKTLVILGTGWGSVSLLKKLDTENYNVVVISPRNYFLFTPLLPSCTTGQVEHRSIMEPI 161
Query: 61
VNFALKKKGNVTYYEAEATSINPDRNTVTIKSLSAVSQLYQPENHLGLHQAEPAEIKYDY 120
N
+KK +V +YEAEAT I+ ++ V I
S +
E+ +D
Sbjct: 162 RNILRQKKAHVKFYEAEATKIDYEKRVVYISDDSEIKG-----------DISHTEVPFDM 210
Database: UniProtKB
Posted date: Feb 25, 2008 6:48 PM
Number of letters in database: 1,889,195,589
Number of sequences in database: 5,775,821
Lambda
0.315
Gapped
Lambda
0.267
K
0.133
H
K
H
0.0410
0.378
0.140
Matrix: BLOSUM62
Gap Penalties: Existence: 11, Extension: 1
Number of Sequences: 5775821
Number of Hits to DB: 1,386,868,061
Number of extensions: 58631406
Number of successful extensions: 136734
Number of sequences better than 10.0: 2200
Number of HSP's gapped: 135033
Number of HSP's successfully gapped: 2247
Length of query: 375
Length of database: 1,889,195,589
107
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Length adjustment: 134
Effective length of query: 241
Effective length of database: 1,115,235,575
Effective search space: 268771773575
Effective search space used: 268771773575
Neighboring words threshold: 11
Window for multiple hits: 40
X1: 16 ( 7.3 bits)
X2: 38 (14.6 bits)
X3: 64 (24.7 bits)
S1: 42 (22.0 bits)
S2: 78 (34.7 bits)
También aquí la salida del programa se divide en varias secciones. La primera contiene
la versión de BLAST que se utilizó para la búsqueda, la referencia del artículo en el que se
describió el programa, el tamaño de la proteína blanco, la base de datos en la que se realizó la
búsqueda, con su total de secuencias y aminoácidos. En la segunda aparece, en forma de una
gráfica, las secuencias que aparecieron en la búsqueda, señalando, en código de color, el
parecido de éstas con la secuencia blanco; la tercera parte es una lista de las secuencias con
ligas a otras base de datos, sus puntajes y valores de E; en la cuarta sección se dan los
alineamientos pareados de las secuencias y la última describe algunos de los parámetros que se
utilizaron para la búsqueda, como el tipo de matriz de sustitución, la penalización por inicio y
extensión de huecos, entre otros.
Alineamiento de secuencias
Con las dos secuencias de aminoácidos que se muestran abajo
AMGTVVDRSTMF y AMGTVVLGRSTMF
se podría proponer los siguientes alineamientos, en donde la posición de los huecos es la única
diferencia entre ellos
AMGTVVD--RSTMF
*****
*****
AMGTVALGIRSTMF
AMGTV-V-DRSTMF
*****
*****
AMGTVALGIRSTMF
AMGTV--VDRSTMF
*****
*****
AMGTVALGIRSTMF
Y sugerir un plan de puntaje: cuando dos aminoácidos idénticos quedan en la misma
columna se califica con 1, si no son los mismos se le asigna cero, y si quedan frente a un hueco
se califica con -2. Si se coloca el valor que le corresponde a cada columna en el primer
alineamiento
AMGTVVD--RSTMF
*****
*****
AMGTVALGIRSTMF
11110002211111
se obtiene la calificación de +5. Se deja al lector la tarea de comprobar que con los otros
alineamientos se alcanza el mismo puntaje y que este valor es el máximo que se puede
conseguir si se comparan estos tres con otros alineamientos. Esta regla sencilla para evaluar un
alineamiento se puede mejorar. En la práctica, el esquema de puntaje toma en cuenta el costo
en la apertura y la extensión de huecos y la similitud entre los aminoácidos [3,6]. Por ejemplo,
para secuencias más grandes se podría maximizar el alineamiento introduciendo huecos a
diestra y siniestra, pero esto no tiene un sentido biológico. Se esperaría que la introducción de un
hueco y su extensión en un gen le cueste a la naturaleza mucho menos que la introducción de
ese mismo número de huecos en diferentes partes del gen. Por lo tanto, en el esquema actual
108
Flores Herrera y cols.
se penaliza la aparición de huecos con cierto valor, relativamente grande, y la extensión de éstos
con un valor más pequeño [3,6]. Por otro lado, en el ejemplo de arriba se utilizó una matriz de
identidad, en donde la diagonal principal contiene unos y el resto de las celdas de la matriz
ceros. Sin embargo, una matriz con estas características tampoco tiene sentido biológico, ya
que a través de la evolución ha habido cambios en la secuencia de las proteínas que no han
afectado su función, lo cual implica que se permiten ciertas sustituciones en los aminoácidos. Si
se alinean varias secuencias homólogas se podría extraer la información de qué tipo de
sustituciones prefieren ciertos aminoácidos y, de esta manera, construir matrices de sustitución
de aminoácidos, como las PAM o las BLOSUM, que servirían para comparar secuencias [3,6].
La gráfica de puntos o dotplot
Uno de los procedimientos más sencillos para comparar dos secuencias es la gráfica de
puntos o dotplot, en la que se colocan a las dos secuencias en una matriz rectangular, con una
de las ellas en el eje de las X (ordenadas) y la otra en el de las Y (abscisas). En las casillas en
las que los aminoácidos de las dos secuencias son idénticos se coloca un punto, pero si no hay
igualdad de residuos, se deja vacía [3,6]. Básicamente, con este esquema lo que se utiliza es
una matriz de identidad. Para disminuir el ruido inherente a este tipo de análisis se puede filtrar la
información, utilizando una ventana de W residuos y una restricción de s, de tal suerte que la
gráfica se limpia. Por ejemplo, se le puede pedir al programa que muestre el resultado gráfico
solamente si hay 8 emparejamientos en una ventana de 10 residuos. Aunque en el ejemplo se
trabajó con una matriz de identidad, es posible utilizar otro tipo de matrices de sustitución, como
las PAM o las BLOSUM. En la gráfica de puntos lo que se observa son regiones de identidad
entre las dos proteínas. Cuando se comparan dos secuencias idénticas, se tiene una línea que
corre en la diagonal principal (Figura 2A). Si las secuencias tienen unas regiones idénticas y
otras diferentes, se observan líneas interrumpidas en la diagonal principal (Figura 2B). Si existen
secuencias repetidas en la misma proteína, esto da lugar a una gráfica como la de la Figura 2C.
Figura 2. La gráfica de puntos se usa para comparar secuencias. A. Una secuencia
contra ella misma. B. Secuencias diferentes pero con cierto grado de similitud. C. una
secuencia contra ella misma, regiones parecidas dentro de la misma secuencia debido a
duplicación génica.
La matriz de identidad
En una matriz de identidad solamente se permiten sustituciones por el mismo
aminoácido. Se califica con un uno el reemplazo de un aminoácido por sí mismo y cualquier otra
sustitución se castiga con el cero (Figura 3). Esta manera de calificar las sustituciones no tiene
sentido evolutivo, ya por experiencia se sabe que un residuo puede sustituirse por otro sin que
se afecte la función de la proteína.
109
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
C
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
S
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
T
P
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
A
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
G
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
1
0
Figura 3. Matriz de identidad
Las matrices PAM
Construidas por Margaret Dayhoff, se basan en el análisis de mutaciones permitidas en
las secuencias de aminoácidos durante la evolución [7]. Se utilizó una base de datos con 1572
cambios en 71 grupos de proteínas muy parecidas, con un porcentaje de identidad igual o mayor
al 85%. Una matriz con una distancia evolutiva de 0 PAM tendría solamente unos en la diagonal
principal de la matriz y ceros en el resto de la misma. Una matriz con una distancia evolutiva de 1
PAM tendría números cercanos a 1 en la diagonal principal y números pequeños en el resto de
la misma. Una PAM de 1 correspondería a una divergencia de 1% en la secuencia de una
proteína (un aminoácido reemplazado por cada 100 residuos). Para obtener una matriz PAM que
indique un proceso evolutivo más largo (un porcentaje de N mutaciones aceptadas en 100
aminoácidos), se multiplica la matriz PAM1 por sí misma N veces. Esto se debe a que la
construcción de estas matrices se basa en un modelo probabilístico (Markoviano) de la
evolución, en donde la probabilidad de que ocurra un cambio en un aminoácido es la misma para
todos ellos e independiente de los otros aminoácidos. Mientras más alejadas sean las
secuencias, su porcentaje de identidad será más pequeño y el valor de la matriz PAM más
grande. Con una matriz PAM250 (250 sustituciones por 100 residuos) se tienen proteínas con un
20% de identidad, por lo que se ha visto que esta matriz trabaja bien para proteínas alejadas.
Sin embargo, mientras más parecidas sean las proteínas entre sí, el valor de la matriz PAM debe
ser menor. En la dirección http://www.bioinformatics.nl/tools/pam.html se puede calcular una
matriz PAM de cualquier valor.
¿Cuál es el procedimiento que se sigue para obtener una matriz PAM, por ejemplo la
PAM250? Se comienza con los 1572 cambios de aminoácidos observados en un alineamiento
de proteínas con una identidad de al menos el 85% y se cuentan los cambios entre parejas de
aminoácidos [6,7]. Por ejemplo, 260 correspondieron a cambios entre fenilalanina y tirosina. Para
obtener un valor para la probabilidad del cambio fenilalanina a tirosina, este número (260) se
multiplica por la mutabilidad relativa de la fenilalanina y por el cociente de cambios de
fenilalanina a tirosina con respecto a los cambios de fenilalanina a cualquier otro amino ácido.
110
1
Flores Herrera y cols.
Estos mismos cálculos se hacen para todos los cambios de fenilalanina a los otros aminoácidos,
incluyendo fenilalanina - fenilalanina. Los 20 resultados se suman y dividen por un factor de
normalización para que la suma represente un cambio de 1%, con lo que se obtiene una matriz
PAM1. En seguida, se multiplica la matriz PAM1 por sí misma 250 veces y se obtiene la
distribución de los cambios para un proceso evolutivo de 250 PAM. Los valores del logaritmo
natural del cociente de la probabilidad de que dos residuos i y j se alineen debido a que tienen
una relación evolutiva y la probabilidad de que se alineen por puro azar (valores log-odds en
inglés) entre la fenilalanina y la tirosina para la PAM250 se calculan de la siguiente manera: el
puntaje para fenilalanina - tirosina en la matriz PAM250, 0.15, se divide entre la frecuencia de
fenilalanina en la base de datos de las secuencias (0.04) para dar la frecuencia relativa del
cambio. Este cociente (0.15/0.05) se convierte a logaritmo en base 10 (log 3.75 = 0.57) y se
multiplica por 10 (5.7) para quitar los valores fraccionales. Si se hace lo mismo con el cambio
tirosina-fenilalanina se obtiene un valor final de 8.3, y el promedio entre los dos es de 7, número
que se coloca en la casilla que le corresponde al par fenilalanina-tirosina en la matriz PAM250 o
a una distancia evolutiva de 250 PAM [6].
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
C
4
0
-2
-3
-2
-3
-4
-5
-5
-5
-3
-4
-5
-5
-2
-6
-2
-4
0
-2
S
T
P
A
G
N
3
1
1
1
1
1
0
0
-1
-1
0
0
-2
-1
-3
-1
-3
-3
-2
3
0
1
0
0
0
0
-1
-1
-1
0
-1
0
-2
0
-2
-3
-5
6
1
-1
-1
-1
-1
0
0
0
-1
-2
-2
-3
-1
-5
-5
-6
2
1
0
0
0
0
-1
-2
-1
-1
-1
-2
0
-4
-3
-6
5
0
1
0
-1
-2
-3
-2
-3
-3
-4
-1
-5
-5
-7
D
E
Q
H
R
K
M
I
L
V
4
3
2
1
-1
0
-3
-2
-4
-2
-6
-4
-7
4
2
1
0
0
-2
-2
-3
-2
-5
-4
-7
4
3
1
1
-1
-2
-2
-2
-5
-4
-5
6
2
0
-2
-2
-2
-2
-2
0
-3
6
3
0
-2
-3
-2
-4
-4
2
5
0
-2
-3
-2
-5
-4
-3
6
2
4
2
0
-2
-4
5
2
4
1
-1
-5
6
2
2
-1
-2
4
-1
-2
-6
F
Y
W
2
2
1
1
2
0
1
-2
-2
-3
-2
-4
-2
-4
9
7
0
10
0
17
Figura 4. Matriz de sustitución PAM250
Las matrices BLOSUM
En vez de realizar una extrapolación con base en un modelo Markoviano de la evolución
y utilizando secuencias muy parecidas, Henikoff y Henikoff construyeron las matrices de
sustitución analizando las sustituciones en las regiones más conservadas de las secuencias de
proteínas que se guardan en la base de datos BLOCKS [8]. De allí el nombre de BLOSUM:
BLOcks SUbstitution Matriz. En función del grado de similitud entre las secuencias, se obtienen
las diferentes matrices. Por ejemplo, la matriz BLOSUM62 se calculó a partir de bloques de
proteínas en los que si dos secuencias tenían más de 62 % de identidad, la contribución de esas
secuencias se ponderaba para que no tuvieran demasiado peso en los cálculos de frecuencias.
En la actualidad la que más se usa es la BLOSUM62. Al contrario de las matrices PAM, mientras
más grande sea el número de la matriz, más parecidas son las secuencias que se analizan. La
111
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Tabla 3 muestra la correspondencia entre los dos tipos de matrices y el porcentaje de identidad
que se espera en las proteínas.
Tabla 3. Relación entre las matrices PAM, BLOSUM y el porcentaje de identidad entre las
proteínas
Matriz
PAM
100
120
160
200
250
BLOSUM
90
80
60
52
45
% identidad
43
38
30
24
20
Para las matrices PAM y BLOSUM (en la forma log odds), un valor de 0 indica que la
frecuencia de sustitución entre los dos aminoácidos es el que se esperaría por azar, un valor
menor o mayor que cero indicaría que la frecuencia de sustitución es menor o mayor que el
producido por azar. Se observa que entre aminoácidos con propiedades químicas semejantes
los puntajes son mayores que 0, por lo que estas sustituciones ocurren con más frecuencia, ya
que no afectan la función de la proteína, mientras que cambios entre aspártico y triptofano, por
mencionar uno, tienen valores menores de cero, indicando que esta sustitución no está
permitida, lo que resulta en una baja frecuencia de aparición. Otra ventaja de los log odds es que
la suma de dos valores da la probabilidad combinada de que ocurran dos o más
emparejamientos de aminoácidos en un alineamiento. Por ejemplo, la probabilidad de alinear dos
Ys en una alineamiento YY/YY es 10 + 10, mientras que la de emparejar YY con TP es -2-5 =-7,
un evento que no se esperaría entra proteínas homólogas.
Existen diferencias importantes entre las matrices PAM y las BLOSUM. Las primeras se
basan en un modelo explícito de la evolución, en donde las sustituciones o reemplazos de los
aminoácidos se cuentan en las ramas de un árbol filogenético, y se obtuvieron a partir de
mutaciones observadas en alineamientos globales, utilizando regiones muy conservadas y
regiones con un alto grado de sustituciones y, tienen la característica de que mientras más
grande sea el valor de la matriz, la distancia evolutiva es mayor. Por otro lado, las matrices
BLOSUM se basan en un modelo implícito de la evolución, se obtuvieron a partir de
alineamientos sin huecos de regiones muy conservadas y, al contrario de las matrices PAM,
mientras más alto es el valor de la matriz, menor es la distancia evolutiva (Tabla 3).
Otros tipos de matrices
Así como se obtienen matrices con base en los cambios que ocurren en las secuencias
debido a procesos mutacionales y selección natural, también es posible construir matrices de
sustitución utilizando cualquiera de las propiedades fisicoquímicas de los aminoácidos. Este es el
caso de la matriz de hidrofobicidad, en donde se cuantifica la posibilidad de intercambio con
base en la hidrofobicidad de los aminoácidos [9]. De acuerdo con esta matriz, es fácil cambiar un
aminoácido cargado (positivo o negativo) por otro aminoácido cargado, pero es difícil llevar a
cabo la sustitución de uno cargado por otro hidrofóbico como el triptofano.
112
Flores Herrera y cols.
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
C
9
-1
-1
-3
0
-3
-3
-3
-4
-3
-3
-3
-3
-1
-1
-1
-1
-2
-2
-2
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
4
1
-1
1
0
1
0
0
0
-1
-1
0
-1
-2
-2
-2
-2
-2
-3
4
1
-1
1
0
1
0
0
0
-1
0
-1
-2
-2
-2
-2
-2
-3
7
-1
-2
-2
-1
-1
-1
-2
-2
-1
-2
-3
-3
-2
-4
-3
-4
4
0
-2
-2
-1
-1
-2
-1
-1
-1
-1
-1
0
-2
-2
-3
6
0
-1
-2
-2
-2
-2
-2
-3
-4
-4
-3
-3
-3
-2
6
1
0
0
1
0
0
-2
-3
-3
-3
-3
-2
-4
6
2
0
1
-2
-1
-3
-3
-4
-3
-3
-3
-4
5
2
0
0
1
-2
-3
-3
-2
-3
-2
-3
5
0
1
1
0
-3
-2
-2
-3
-1
-2
8
0
-1
-2
-3
-3
-3
-1
2
-2
5
2
-1
-3
-2
-3
-3
-2
-3
5
-1
-3
-2
-2
-3
-2
-3
5
1
2
1
0
-1
-1
4
2
3
0
-1
-3
4
1
0
-1
-2
4
-1
-1
-3
F
6
3
1
Y
7
2
W
11
Figura 5. Matriz de sustitución BLOSUM62
Alineamiento pareado global
En el alineamiento global se intenta un emparejamiento entre las dos secuencias, con el
mayor número de aminoácidos alineados, incluyendo inserciones y huecos. Este tipo de
alineamiento se utiliza cuando se tienen dos secuencias que son similares en toda su extensión,
por lo que el objetivo es alinearlas de principio a fin. Al igual que la gráfica de puntos, las dos
secuencias de aminoácidos se colocan en los dos ejes de la matriz y, a través de programación
dinámica, se obtiene el mejor alineamiento posible, basándose en una matriz de sustitución y en
un sistema de penalización para la introducción de huecos. Hay que recalcar que un
alineamiento es un modelo que se propone y construye con base en ciertas reglas, y que si se
cambia la matriz de sustitución y/o el tipo de penalización, el alineamiento será diferente. El
algoritmo que se utiliza es el de Needleman y Wunsch [10], en el que se obtiene un solo camino
que conduce al mejor emparejamiento. Básicamente, el algoritmo sigue la siguiente regla de
recursión:
con las dos siguientes restricciones: F(0,0)=0, F(i,0)=-id para i=0,1,…,n y F(0,j)=-jd para
j=0,1,…,m, en donde d es la penalización por apertura de huecos. El algoritmo indica que hay
que cambiar el valor de una celda en la matriz añadiendo a cada elemento el valor más grande
del renglón que se encuentra debajo de la celda y a la derecha, o de la columna que se
encuentra a la derecha y por debajo de la celda de interés.
113
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Alineamiento pareado local
Cuando la divergencia evolutiva entre las secuencias ha sido de tal magnitud que el
tamaño de la dos proteínas es diferente debido a inserciones y eliminaciones, y la similitud en
grandes regiones de las proteínas es tan baja debido a la sustitución de un aminoácido por otro,
entonces se recomienda el alineamiento local de las dos secuencias, que reconoce regiones de
las proteínas que se mantuvieron conservadas, debido a que éstas tienen una función estructural
o funcional. El alineamiento local se basa en el algoritmo propuesto por Smith y Waterman [11],
que es muy parecido al de Needleman y Wunsch [10], con unos cambios. Al igual que en el
anterior, las dos secuencias se colocan en los dos ejes de una matriz rectangular y a través del
siguiente algoritmo de recursión:
se obtienen aquellas regiones de las dos proteínas que tienen similitud. El valor F(i,j)=0 le indica
al programa que tiene que iniciar un nuevo alineamiento en la posición (i,j). En este algoritmo se
tiene también que F(i,0)=0 para i=0,1,…,n y F(0,j)=0 para j=0,1,…,m, en donde d es la
penalización por apertura de huecos. Asimismo, en vez de iniciar la lectura reversa en la posición
(n,m), se inicia en la celda que contenga el puntaje más alto y termina cuando el valor sea igual a
cero, que corresponde a un nuevo inicio de alineamiento. Desde un punto de vista biológico, el
alineamiento local tiene más sentido que el global, ya que se encuentran las secuencias
conservadas comunes a las dos proteínas.
Alineamiento múltiple
Un alineamiento de muchas secuencias o alineamiento múltiple es una tabla en dos
dimensiones en la que las filas corresponden a las secuencias individuales y las columnas a las
posiciones de los residuos. A diferencia de los alineamientos pareados locales o globales, en el
múltiple se trabaja con más de dos secuencias, con el objetivo de detectar los residuos idénticos
y semejantes. Al igual que con el alineamiento pareado, en el múltiple se maximiza un puntaje,
que recibe el nombre de puntaje de suma de pares.
ClustalW. Como se muestra en la Figura 6, clustalW [12] lleva a cabo el alineamiento
múltiple global en tres etapas: 1) realiza un alineamiento pareado entre todas las secuencias, y
calcula las distancias entre ellas, 2) utiliza los puntajes de los alineamientos para construir un
árbol filogenético y 3) alinea las secuencias de acuerdo con las relaciones descritas en el árbol
filogenético (Figura 6). Para realizar el alineamiento, ClustalW considera que: a) la matriz de
sustitución que se usa se basa en la similitud de las secuencias, utilizando una BLOSUM80 o
PAM50 para secuencias más cercanas entre sí, y una PAM250 o BLOSUM50 para las más
alejadas, b) las secuencias se ponderan para compensar por defectos en el puntaje de suma de
pares, c) la penalización de los huecos está relacionada con el tipo de residuo y la posición que
tienen en el alineamiento, por ejemplo, las penalizaciones para los residuos hidrofóbicos es
mayor que para los hidrofílicos, ya que es más probable que estos últimos se encuentren en
asas, y la penalización por la apertura de un hueco es mayor si en la columna no hay huecos.
114
Flores Herrera y cols.
Figura 6. Los pasos que sigue clustal W para realizar el alineamiento múltiple.
Predicción basada en secuencia
Bajo el supuesto de que la secuencia de aminoácidos de una proteína contiene
información de la estructura secundaria y terciaria, de los segmentos transmembranales y de la
accesibilidad de los aminoácidos al solvente, no es sorprendente que los primeros intentos de
predicción basada en secuencias se hayan concentrado en estos aspectos.
La predicción de segmentos transmembranales es importante si se toma en cuenta que
entre un 30 a 40% de la proteínas codificadas en un genoma son de membrana, y que
solamente una minoría de éstas ha sido cristalizada. Desde un punto de vista médico y
farmacológico, hay que mencionar que muchas de las proteínas de membrana son blanco de
fármacos, por ejemplo los antagonistas que se unen a los receptores alfa adrenérgicos y la
digoxina que interactúa con la ATPasa de Na-K, entre otros. Asimismo, hay enfermedades cuya
etiología se encuentra en defectos de una proteína de membrana, como la fibrosis quística.
Debido a que es más probable que la cadena polipeptídica adquiera una estructura
secundaria de tipo -hélice en el seno de la membrana, ya que se pueden formar puentes de
hidrógeno intracatenarios, la gran mayoría de las proteínas de membrana adoptan este tipo de
estructura secundaria en la bicapa lipídica; sin embargo, cuando aparece la oportunidad de
muchos cruces transmembranales se puede formar un barril beta, en donde los grupos amino y
115
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
carbonilo del enlace peptídico en una parte de la proteína cubren sus necesidades de puente de
hidrógeno con otros grupos en diferentes segmentos de la proteína. Algunos ejemplos de
proteínas que cruzan la membrana con segmentos que adoptan la estructura -hélice son las
ATPasas de Na-K, las acuaporinas, los receptores de siete segmentos transmembranales y los
canales de sodio y potasio, entre otros, mientras que las porinas y algunas toxinas bacterianas
son proteínas de membrana que forman un barril beta.
Con el fin de predecir los segmentos transmembranales y la accesibilidad de los
aminoácidos al solvente, Kyte y Doolitle [13] propusieron el siguiente procedimiento: 1)
seleccionar una escala de hidrofobicidad que describa la tendencia de los aminoácidos a residir
en un medio hidrofóbico o polar (Tabla 4); 2) graficar los valores de hidrofobicidad contra la
secuencia de aminoácidos y 3) suavizar la gráfica por medio de un promedio de las
propensiones y utilizando ventanas deslizantes de diferentes tamaños (Figura 7). Con esta
gráfica de hidrofobicidad o hidropatía se pueden predecir las regiones de una proteína que se
encuentran expuestas al medio (ventana de 7 residuos, baja hidropatía) o que se encuentran en
el seno de la membrana (ventana de 17 a 21 residuos, alta hidropatía).
Tabla 4. Escalas de hidrofobicidad para los residuos de aminoácidos.
Aminoácido
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
K-D
1.80
-4.50
-3.50
-3.50
2.50
-3.50
-3.50
-0.40
-3.20
4.50
3.80
-3.90
1.90
2.80
-1.60
-0.80
-0.70
-0.90
-1.30
4.20
E-S-K-W
0.62
-2.53
-0.78
-0.90
0.29
-0.85
-0.74
0.48
-0.40
1.38
1.06
-1.50
0.64
1.19
0.12
-0.18
-0.05
0.81
0.26
1.08
A-L
0.44
-2.42
-1.32
-0.31
0.58
-0.71
-0.34
0.00
-0.01
2.46
2.46
-2.45
1.10
2.54
1.29
-0.84
-0.41
2.56
1.63
1.73
W-A-C-S
1.94
-19.92
-9.68
-10.95
-1.24
-9.38
-10.2
2.39
-10.27
2.15
2.28
-9.52
-1.48
-0.76
0.00
-5.06
-4.88
-5.88
-6.11
1.99
H-W
-0.50
3.00
0.20
3-00
-1.00
0.20
3.00
0.00
-0.50
-1.80
-1.80
3.00
-1.30
-2.50
0.00
0.30
-0.40
-3.40
-2.30
-1.50
K-D: Kyte J., Doolittle R.F. (1982) J. Mol. Biol. 157:105-132.
E-S-K-W: Eisenberg D., Schwarz E., Komarony M., Wall R. (1984) J. Mol. Biol. 179:125-142.
A-L: Abraham D.J., Leo A.J. (1987) Proteins: Structure, Function and Genetics 2:130-152.
H-W: Hopp T.P., Woods K.R. (1981) Proc. Natl. Acad. Sci. U.S.A. 78:3824-3828.
R-A: Rao M.J.K., Argos P. (1986) Biochim. Biophys. Acta 869:197-214.
W-A-C-S: Wolfenden R.V., Andersson L., Cullis P.M., Southgate C.C.F. (1981) Biochemistry 20:849-855.
116
R-A
1.36
0.15
0.33
0.11
1.27
0.33
0.25
1.09
0.68
1.44
1.47
0.09
1.42
1.57
0.54
0.97
1.08
1.00
0.83
1.37
Flores Herrera y cols.
+
Figura 7. Gráfica de hidropatía de la ATPasa de H de la membrana plasmática de
Saccharomyces cerevisiae.
Uno de los problemas con el método de Kyte y Doolittle es que se obtenían falsos
positivos, es decir, se predecían segmentos transmembranales en regiones hidrofóbicas de
proteínas solubles. Con el fin de resolver este problema, Eisenberg y colaboradores [14]
propusieron que se utilizara, junto con la hidrofobicidad, al momento hidrofóbico, que es una
medida de la anfifilicidad de segmentos con conformación periódica, sea ésta de tipo -hélice o
-plegada, de acuerdo con la siguiente ecuación:
En este método se utiliza una escala de hidrofobicidad consenso (ver la Tabla 4) y las
secuencias se clasifican en diferentes grupos dependiendo de la región en la que caigan en la
gráfica de hidrofobicidad contra momento hidrofóbico (Figura 8). Así, se tienen las proteínas
globulares que son solubles en agua, las proteínas de superficie, que se adosan fuertemente a la
membrana (corresponderían a las monotópicas), y las proteínas “monoméricas” y “multiméricas”
que cruzan una o varias veces la membrana, respectivamente. Utilizando en paralelo el método
de Kyte y Doolitle y el momento hidrofóbico se incrementa el nivel de predicción de los
117
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
segmentos transmembranales, y además se añade información acerca de la posible posición de
la proteína con respecto a la membrana.
Figura 8. Gráfica del momento hidrofóbico contra la hidrofobicidad.
Sin embargo, el mayor incremento en el nivel de predicción ocurrió cuando aparecieron
las redes neurales y se incluyó información evolutiva a través de los alineamientos múltiples [1517]. Para construir una red neural lo primero que se hace es diseñar la topología de la red, es
decir, el número de nodos de entrada y de salida y de nodos ocultos, y la manera en que éstos
se asocian con las variables externas y entre ellos. En la segunda parte se entrena a la red
utilizando como datos de entrada estructuras conocidas, y se ajusta la respuesta de la misma a
las estructuras conocidas. El objetivo es que dados ciertos valores de pesos sobre las líneas que
conectan los nodos, se maximice la predicción de la red para un conjunto de datos de
entrenamiento.
La red que se muestra en la Figura 9 consiste de tres unidades procesadoras, la capa de
entrada, la de salida y una capa interna [15,16]. La capa de entrada consta de 13 a 21 unidades,
que corresponden a una ventana de 13 a 21 residuos de aminoácidos, más otras cuatro
unidades que informan de la frecuencia de cada aminoácido en la proteína, la longitud de la
proteína, la distancia del residuo central con respecto al extremo amino terminal y al carboxilo
terminal. La red se alimenta con un perfil de secuencias que se obtiene de un alineamiento, y
cada unidad de entrada contiene la frecuencia asociada a cada uno de los 20 aminoácidos en
esa posición; además de estos 20 lugares en la unidad, hay otros lugares adicionales para
contar inserciones y eliminaciones en el alineamiento y considerar el principio y fin de la proteína.
Las señales se mandan a la capa oculta, en donde se lleva a cabo el procesamiento de los
datos, para pasar a la capa de salida, en donde se le asigna al aminoácido central una condición:
pertenece (HTM) o no (not HTM) a la membrana. Con esto, la predicción de segmentos
transmembranales se elevó al 95% con una disminución de falsos positivos.
118
Flores Herrera y cols.
Figura 9. Red neural para predecir segmentos transmembranales.
Además de las redes neurales, en los últimos años se han utilizado los modelos
markovianos ocultos y las máquinas de vectores de soporte (support vector machines) para
predecir segmentos transmembranales. En la Tabla 5 se indican algunos de los servidores que
se usan para predecir segmentos transmembranales de tipo -hélice en las proteínas, mientras
que la Tabla 6 muestra que cuando se piensa en barriles beta dentro de la membrana, los
modelos markovianos ocultos son los mejores.
Tabla 5. Ejemplos de algunos servidores para predecir hélices transmembranales.
Método
Dirección en internet
DAS
HMMMTOP
PHDhtm
SOUSI
TMAP
TMHMM-2.0
TMPred
http://www.sbc.su.se/~miklos/DAS/
http://www.enzim.hu/hmmtop/
http://www.predictprotein.org/
http://bp.nuap.nagoya-u.ac.jp/sosui/
http://bioinfo4.limbo.ifm.liu.se/tmap/index.html
http://www.cbs.dtu.dk/services/TMHMM-2.0/
http://www.ch.embnet.org/software/TMPRED_form.html
Tabla 6. Servidores para predecir barriles beta transmembranales.
Servidor
Dirección en internet
TBBpred
TMBpro
PRED-TMBB
PROFtmb
TMB-HUNT
http://www.imtech.res.in/raghava/tbbpred/
http://www.ics.uci.edu/%7Ebaldig/tmb.html
http://bioinformatics2.biol.uoa.gr/PRED-TMBB
http://rostlab.org/services/proftmb
http://bmbpcu36.leeds.ac.uk/~andy/betaBarrel/TMB_Hunt_2/
TMB_Hunt2.cgi
HMM Modelo de Markov oculto
SVM Máquinas de vectores de soporte
119
Método
HMM, SVM
HMM
HMM
SVM
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Predicción de estructura secundaria
La predicción de estructura secundaria se basa en el concepto de que los residuos de
aminoácidos tienen ciertas preferencias a adoptar una estructura. Con esto en mente, se pueden
diseñar algoritmos que clasifiquen a los residuos en categorías, como alfa, beta o giro. La
suposición básica que subyace a este pensamiento es que la estructura secundaria está
determinada por el aminoácido en cuestión y por los residuos vecinos en la secuencia de
aminoácidos. Se puede dividir el progreso en la predicción de estructura secundaria en tres
etapas. La primera generación corresponde al trabajo de Chou y Fasman [18,19], con un
enfoque estadístico que consiste en calcular la propensión de cada aminoácido a formar parte de
una -hélice, una hebra o un giro, a partir del análisis de un número pequeño de estructuras
cristalográficas. Es importante recalcar que en el método de Chou-Fasman la preferencia a
adquirir una conformación recae en un solo aminoácido [18,19]. La propensión del aminoácido i a
estar en la estructura secundaria S está dado por la siguiente ecuación:
En donde j es el aminoácido, S la estructura secundaria (alfa, beta, giro), f(j,S) el número de
ocurrencias de j en S, f(j) número de ocurrencias de j, Ns número total de aminoácidos en
conformación S y N número total de aminoácidos.
Por ejemplo, supongamos que se tiene una base de datos de 100000 aminoácidos y que
de éstos, 40000 se encuentran en alfa hélice (Ns=40000). Suponer también que la base de
datos contiene 9000 residuos de alanina (f(ala)=9000) y que 6000 de éstos residuos se
encuentran en conformación de tipo alfa helice (f(ala,S)=6000). De acuerdo con las ecuaciones
de arriba, la propensión de la alanina a adoptar la estructura alfa hélice es:
P(i,S) = (f(i,S)/(f(i))/(Ns/N)
P(Ala,a) = (f(Ala, a)/(f(Ala))/(Ns/N)
P(Ala,a) = (5000/(9000)/(40000/100000)
P(Ala,a) = 1.38
De esta manera se puede calcular las propensiones de los aminoácidos para todas las
estructuras o conformaciones y obtener la Tabla 7. Si la propensión es mayor que 1 implica que
el residuo tiene preferencia por esa conformación y si es menor que 1 significa que no le gusta
visitar dicha conformación. Con el uso de la Tabla 7 y la receta que se detalla a continuación, se
puede predecir la estructura secundaria de una proteína. El nivel de precisión que se alcanzaba
con este método era de tan sólo el 50 %, comparado con el 75-77% actual.
A) Predicción de hélices: 1. encontrar sitio de nucleación: 4 de 6 residuos contiguos con P(a)>1;
2. extender la hélice en ambas direcciones hasta que se encuentren 4 residuos contiguos que en
promedio tengan P(a) < 1 (breaker); y 3. Si el promedio de P(a) sobre la región es >1, se predice
como hélice.
B) Predicción de hebras beta: 1. encontrar sitio de nucleación: 4 de 6 residuos contiguos con
P(b)>1; 2. extensión: extender la hebra b en ambas direcciones hasta que se encuentren 4
residuos contiguos que en promedio tengan P(b) < 1 (breaker); 3. Si el promedio de P(b) sobre la
región es >1, se predice como beta.
120
Flores Herrera y cols.
Tabla 7. Valores de propensión para las aminoácidos. En la primera sección se agrupan los
aminoácidos que tienen una tendencia a adoptar la estructura -hélice, en la segunda los
aminoácidos con preferencia por la estructura , en la tercera los que se encuentran en giros, y
hasta el final la arginina, que no tiene preferencia por una estructura en particular.
Aminoácido
Ala
Cys
Leu
Met
Glu
Gln
His
Lys
-Hélice
1.29
1.11
1.30
1.47
1.44
1.27
1.22
1.23
Lámina 0.90
0.74
1.02
0.97
0.75
0.80
1.08
0.77
Giro
0.78
0.80
0.59
0.39
1.00
0.97
0.69
0.96
Val
Ile
Phe
Tyr
Trp
Thr
0.91
0.97
1.07
0.72
0.99
0.82
1.49
1.45
1.32
1.25
1.14
1.21
0.47
0.51
0.58
1.05
0.75
1.03
Gly
Ser
Asp
Asn
Pro
0.56
0.82
1.04
0.90
0.52
0.92
0.95
0.72
0.76
0.64
1.64
1.33
1.41
1.23
1.91
Arg
0.96
0.99
0.88
En la segunda generación se incluye el efecto de los aminoácidos vecinos en la
preferencia del residuo central por una u otra estructura secundaria. Garnier, Osguthorpe y
Robson (método de GOR) propusieron que los residuos vecinos tienen un efecto sobre la
conformación que adopta el aminoácido central [20]. Con base en la teoría de la información y el
análisis de varias estructuras cristalográficas, se obtuvieron las propensiones de cada
aminoácido a pertenecer a un tipo de estructura secundaria y el efecto de los residuos vecinos
sobre esta propensión. Se consideró una ventana de 17 aminoácidos y se supuso que la
conformación del residuo central dependía de los vecinos, pero la de los vecinos era
independiente de los correspondientes vecinos. La información estadística obtenida se vació en
cuatro matrices de 20x17, una para la estructura -hélice, otra para la beta, giro y enrollamiento.
La Figura 10 muestra la tabla que corresponde a la estructura -hélice. Con este algoritmo se
incrementó la precisión hasta un 60-65 %.
121
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Figura 10. Valores de información direccional para la conformación a-hélice.
Finalmente, en la tercera generación se incrementó la precisión (75-77%) cuando se
utilizaron las redes neurales y la información evolutiva contenida en el alineamiento múltiple [2123]. La Figura 11 muestra la arquitectura de la red neural implementada por Rohst.
Figura 11. Red neural para predecir la estructura secundaria de las proteínas.
La entrada consiste de un perfil de secuencia que se obtiene a partir de un alineamiento,
en donde cada unidad de entrada corresponde a la frecuencia asociada al aminoácido en esa
posición. Las señales se mandan a la capa oculta, en donde se lleva a cabo el procesamiento
de los datos, para pasar a la capa de salida, en donde se le asigna al aminoácido central una
condición: alfa (H), beta (E) o enrollado (L).
122
Flores Herrera y cols.
Aunque es cierto que la precisión se incrementó a un 75 %, se debe considerar la
desviación estándar de ± 11% que se asocia a este valor, de lo cual se derivan tres puntos: 1)
que en el 25% de los segmentos la predicción está equivocada, 2) que para el 75% de todas las
proteínas entre el 60 y el 80% de los residuos se predicen correctamente y 3) que para una
proteína en particular, la precisión puede ser menor que el 60% o mayor que el 80%.
En la Tabla 8 se indican los mejores métodos de predicción de estructura secundaria en la
actualidad. Algunos se basan en redes neurales, otros en modelos markovianos ocultos y otros
en máquinas de vectores de soporte.
Tabla 8. Servidores para predecir estructura secundaria de proteínas
Método
Dirección en internet
Jpred3
NNPREDICT
JUFO
PORTER
Prof
PSIPRED
DLP-SVM
SSPro
PHDsec
http://www.compbio.dundee.ac.uk/~www-jpred/
http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html
http://www.meilerlab.org/view.php
http://distill.ucd.ie/porter/
http://www.aber.ac.uk/~phiwww/prof/
http://bioinf.cs.ucl.ac.uk/psipred/
http://www.tuat.ac.jp/~domserv/cgi-bin/DLP-SVM.cgi
http://scratch.proteomics.ics.uci.edu/
http://www.predictprotein.org/
Predicción de estructura terciaria
La Figura 12 muestra los tres caminos que se siguen para predecir la estructura terciaria
de una proteína: modelado por homología, plegamiento inverso (threading) y métodos ab initio. A
partir de la estructura primaria de una proteína, se buscan secuencias similares en las diferentes
bases de datos primarias y se realiza un alineamiento múltiple para reconocer las regiones más
conservadas, en donde no debe haber inserciones y lo más probable es que estén relacionadas
con la formación de un tipo de estructura secundaria. Si se encuentra una o varias proteínas
homólogas en el banco de datos de proteínas cristalizadas (PDB), entonces se lleva a cabo el
modelado por homología. Sin embargo, si no se encuentran homólogos en el PDB, se realiza el
plegamiento inverso, que consiste en encontrar una estructura o plegamiento compatible, de
acuerdo con ciertos criterios. Si se descubre un plegamiento que esté relacionado con la
secuencia, entonces se puede regresar al modelado por homología utilizando la estructura
cristalográfica de este homólogo distante. Sin embargo, si no se encuentra un homólogo lejano,
si el plegamiento inverso no dio resultados, entonces se predice la estructura terciaria ab initio.
Una vez que se obtiene el modelo tridimensional de la proteína, se debe validar con varios
programas, como Whatcheck, Procheck y Prosa II, entre otros.
123
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Figura 12. Plan de trabajo para la predicción de la estructura terciaria.
Plegamiento inverso
En el plegamiento inverso se busca que una secuencia sea compatible, de acuerdo con
ciertos criterios, con un plegamiento determinado. El objetivo es encontrar el esqueleto que
mejor se ajuste a la secuencia de la proteína y, para esto, se utiliza una biblioteca de
plegamientos que se obtienen del PDB y una función objetivo para evaluar la colocación de la
secuencia sobre el templado. Generalmente estas funciones son ecuaciones de energía que se
obtuvieron en forma empírica [24], pero también se puede usar la distribución de la estructura
secundaria entre las proteínas [25], como se muestra en la Figura 13. Asimismo, se requiere de
un método para buscar todos los posibles alineamientos entre la secuencia y los templados y
otro para escoger el o los templados que den los mejores resultados. A pesar de lo interesante
del método, tiene ciertos problemas, ya que se trabaja con proteínas homólogas muy lejanas,
124
Flores Herrera y cols.
con un porcentaje de identidad por debajo de 15%. Por consiguiente, rara vez se consigue un
buen alineamiento y menos del 30% de las mejores predicciones para una secuencia son
verdaderos homólogos.
Figura 13. Predicción del plegamiento de una proteína utilizando la distribución de la
estructura secundaria entre las proteínas de estructura conocida.
Modelado por homología
El modelado por homología se basa en la suposición de que las proteínas homólogas
tienen un plegamiento similar y en el hecho experimental de que la estructura terciaria (el
plegamiento) se conserva más que la secuencia de aminoácidos. Un ejemplo clásico de esta
situación se encuentra en la familia de las globinas, en donde el porcentaje de identidad entre
dos secuencias puede ser tan bajo como el 15% y tener prácticamente el mismo plegamiento.
Un punto a favor del modelado por homología es que hay un número limitado de estructuras
terciarias posibles, con un valor cercano a 2000 plegamientos diferentes, lo que limita el
universo de búsqueda.
Puesto que el objetivo del modelado molecular es construir la estructura terciaria que le
corresponde a una secuencia de aminoácidos a partir de una proteína molde con estructura
cristalográfica conocida, es fundamental conocer que la información que se obtiene puede ser
125
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
útil o no, dependiendo de la pregunta que se hace. Por ejemplo, con el modelo no se pueden
predecir los grandes o pequeños cambios conformacionales que ocurren durante el
funcionamiento de la proteína, como tampoco se pueden descubrir nuevos sitios catalíticos o
alostéricos, adicionales a los de la proteína-molde. Siempre hay que tener en mente que el
modelo que se obtiene está sesgado por el templado que se utilice, y si este último tiene errores,
éstos se van a transferir al modelo. En contraste, el modelado molecular es útil para el diseño de
mutantes para probar una hipótesis determinada, para analizar sitios activos y de unión a
ligandos o modelar la especificidad de sustrato, también se ha utilizado para predecir epítopes
antigénicos y realizar el docking de la proteína con ligando y proteínas.
La calidad del modelo va a depender en gran medida del porcentaje de identidad entre
las secuencias de aminoácidos [26]. De entrada, el alineamiento es sencillo cuando el porcentaje
de identidad es igual o mayor que 40%. Por debajo del 30%, el alineamiento de las dos
secuencias que se obtiene automáticamente con los programas tiene errores que deben ser
corregidos por el investigador. Algunos consejos prácticos para esta etapa del modelado es que
se deben evitar los huecos en las zonas de estructura secundaria, en las regiones “ocultas” de la
proteína o entre dos residuos que están muy separados en la estructura terciaria del templado.
También se debe inspeccionar el alineamiento en función del molde estructural.
Cuando la identidad entre las dos secuencias es mayor que el 40%, no hay problemas
para alinear las dos proteínas, y se obtiene un alineamiento que contiene muy pocos huecos y
de tamaño pequeño. La diferencia entre el modelo y el templado se encuentra principalmente en
las asas y cadenas laterales y el 90% de los átomos de la cadena principal tienen un error RMS
de 1 Angstrom, por lo que la precisión del modelo es semejante a la de una estructura
cristalográfica de baja resolución. Con este modelo se pueden realizar experimentos de docking
con ligandos pequeños o con otras proteínas, analizar los componentes del sitio activo y sus
interacciones con los ligandos.
Cuando el porcentaje de identidad es del 30 al 40%, se presentan diferencias
estructurales más grandes. Los errores de alineamiento y las inserciones son el mayor problema,
lo cual se refleja en asas más grandes. El 80% de los átomos de la cadena principal va a tener
un error RMS de 1.5 Angstroms. Estos modelos sirven para estudiar los componentes de sitios
activos y alostéricos, si ya se conoce la posición de éstos en el templado.
Si el porcentaje de identidad entre las secuencias está por debajo del 20%, uno
de los principales problemas es el de la identificación del molde. Con estos valores,
aproximadamente el 20% de los residuos se alinearán en forma equivocada, por lo que no es
sorprendente encontrar un error RMS de 3 Angstroms. Estos modelos servirían para estudiar las
estructuras de los sitios activos y alostéricos, confirmar una relación estructural remota y la
función de la proteína en caso de que ésta se desconozca.
A continuación se mencionan los pasos a seguir para realizar la predicción de la
estructura terciaria de una proteína, con mención a los diferentes programas que se utilizan:
1. Identificar las proteínas homólogas y determinar el porcentaje de similitud (BLAST,
FASTA)
2. Alinear las secuencias (CLUSTAL X)
3. Identificar regiones conservadas y variables
4. Generar las coordenadas para las regiones conservadas de la proteína de interés
(MODELLER, Swiss-Model)
5. Generar las conformaciones de las asas (MODELLER, Swiss-Model)
6. Construir las conformaciones de las cadenas laterales de los residuos (MODELLER,
Swiss-Model)
7. Optimizar la estructura (Minimización de energía: NAMD, GROMACS)
8. Validar la estructura (ProQ, PROCHECK, WHATCHECK, ERRAT, PROVE)
126
Flores Herrera y cols.
Modeller
Swiss-Model [27] y Modeller [28] son dos programas gratuitos que se utilizan para
realizar modelado molecular. Modeller incluye varios módulos que llevan a cabo diferentes
acciones, desde alinear las secuencias homólogas y determinar los residuos conservados, hasta
construir el modelo con base en definiciones de las restricciones espaciales y geométricas que
se obtienen del alineamiento de la estructura con la secuencia problema (distancias C-C,
ángulos diedricos, accesibilidad al solvente) y restricciones estereoquímicas dadas por el campo
de fuerzas CHARMM22.
Métodos ab initio: Rosetta
En la predicción de novo por Rosetta [29] se considera que la distribución de
conformaciones visitadas por una secuencia de 9 residuos es semejante a la distribución de
estructuras que adopta el mismo segmento (y secuencias relacionadas) en las proteínas
conocidas del PDB. La estructura que se predice se junta con la de otras estructuras para dar la
predicción final. Es decir, este programa predice la estructura terciaria a través del plegamiento
de segmentos de 9 residuos de aminoácidos (Figura 14). Rosetta escoge al azar un segmento
de la secuencia de 9 residuos, selecciona una secuencia lo más parecida en el banco de datos
del PDB y reemplaza, en la secuencia blanco, los ángulos de torsión de la secuencia parecida.
Se rechaza la estructura si se cumplen con ciertas condiciones; por ejemplo, una de estas
condiciones es que si con este procedimiento se colocan dos átomos más cerca de 2.5
Angstroms, entonces se rechaza esa la estructura.
Figura 14. Predicción de estructura terciaria utilizando el programa Rosetta.
Minimización de energía y dinámica molecular
Una vez que se obtiene el modelo tridimensional de la proteína, el siguiente paso
consiste en relajar las tensiones dentro de la estructura. Para esto, se realizan varios pasos de
minimización de energía y dinámica molecular [30]. En el primer caso se utiliza una función de
energía potencial, también llamada campo de fuerza, para minimizar la energía del sistema. Un
campo de fuerza típico o de energía potencial se muestra en la siguiente ecuación,
127
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Los tres primeros términos están relacionados con los enlaces, ángulos y ángulos
torsionales definidos por la estructura covalente de la proteína, mientras que los dos últimos
términos se refieren a los átomos que no están enlazados covalentemente. El cuarto término se
refiere a las interacciones de van der Waals, mientras que el último término a las interacciones
electrostáticas dadas por las cargas qi y qj de los átomos del sistema. Los dos primeros términos
describen las energías asociadas a los cambios en las distancias de los enlaces y los ángulos
del enlace con respecto a sus respectivos valores de equilibrio, li0 y i0. El tercer término describe
la rotación alrededor del enlace químico, caracterizada por términos energéticos que tienen una
periodicidad dada por n, y en donde las alturas de las energías rotacionales están descritas por
ci. El cuarto término describe la energía de van der Waals repulsiva y atractiva de las fuerzas
interatómicas en la forma de un potencial de Lennard-Jones 12-6, y el último término es el
potencial electrostático de Coulomb.
Con la dinámica molecular [30] se simula la evolución del sistema en el tiempo utilizando
las ecuaciones de movimiento de Newton:
En donde ri(t) = (xi(t), yi(t), zi(t)) es el vector de posición de la i-ésima partícula y Fi es la
fuerza que actúa sobre la i-ésima partícula al tiempo t y mi es la masa de la partícula. La
integración de esta ecuación da como resultado la posición de los diferentes átomos en el tiempo
y una trayectoria del sistema a lo largo de este tiempo.
La integración numérica de esta ecuación se lleva a cabo con el algoritmo de Verlet,
cuya fórmula se deriva de la expansión de Taylor para las posiciones ri(t):
128
Flores Herrera y cols.
Validación estructuras
Existen diferentes programas para evaluar el modelo que se obtuvo. Procheck [31] y
Whatcheck [32] analizan las propiedades estereoquímicas de la estructura, por ejemplo, las
longitudes de los enlaces, los ángulos de enlace, el enlace peptídico, choques entre los pares de
aminoácidos que no están enlazados covalentemente, la planaridad de anillos, quiralidad,
ángulos torsionales de la cadena principal y de las cadenas laterales, entre otros. La Figura 17
muestra el gráfico de Ramachandran que se obtiene con Procheck. Otros programas utilizan
funciones estadísticas de energía potencial para verificar la calidad de la estructura. Entre estos
se encuentran ProQ [33], Errat [34], y PROSAII [35]. Se espera que mientras mayor sea el grado
de identidad, la calidad del modelo se incremente.
Un ejercicio sencillo de modelado
En un laboratorio de cualquier parte del mundo el investigador principal está interesado
en la calmodulina de un hongo patógeno que produce lesiones pulmonares graves en el ser
humano. Esta proteína participa en diferentes vías de transducción de señales que involucran al
calcio como uno de los mensajeros, por lo que considera que es un buen blanco de fármacos
que podrían usarse o diseñarse para el tratamiento de la enfermedad. El investigador cree que si
consigue una buena estructura terciaria de la proteína podría iniciar la búsqueda de fármacos
que interactúen con la misma, utilizando un programa de docking. Puesto que ya tiene la
secuencia de la proteína
MADQLTEDQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMVNEVDADG
NGTIDFPEFLTMMARKMKDTDSEEEIKEAFKVFDKDGNGFISAAELRHVMTNLGEKLSDN
EVDEMIREADVDGDGQINYDEFVKMMLSK
lo primero que hace es buscar una estructura homóloga que ya haya sido cristalizada. Para esto,
abre la página de ExPASy proteomic tools (http://ca.expasy.org/tools/) y se dirige a la sección
de Similarity searches, en donde encuentra varios servidores que realizan búsquedas de
secuencias similares. Ejecuta el BLAST (http://www.ch.embnet.org/software/bBLAST.html) de
EMBNET y selecciona la base de datos de proteínas y estructuras terciarias no redundantes,
copia la secuencia problema en la ventana adecuada y ejecuta el programa. En pocos minutos
obtiene 50 estructuras de calmodulina. Escoge la de Drosophila melanogaster, con el código
4CLN y con la siguiente secuencia:
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADG
NGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGFISAAELRHVMTNLGEKLTDE
EVDEMIREADIDGDGQVNYEEFVTMMTSK
y baja el archivo 4CLN.pdb del banco de datos de proteínas de estructura conocida o PDB
(http://www.rcsb.org/pdb/home/home.do). En seguida realiza un alineamiento pareado entre las
dos secuencia utilizando uno de los muchos servidores de clustalW disponibles en Internet
(http://www.ebi.ac.uk/Tools/clustalw2/index.html), que también se encuentra en la sección de
Sequence alignment en la página de ExPASy proteomic tools (http://ca.expasy.org/tools/).
Deja los valores que se dan por omisión (como el tipo de matriz de similitud que usa el programa,
las penalizaciones por apertura y extensión de huecos), introduce las dos secuencias en formato
FASTA en la ventana correspondiente y ejecuta el programa, obteniendo, en unos cuantos
segundos, el siguiente alineamiento:
129
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
CLUSTAL 2.0.5 multiple sequence alignment
hongo
drosofila
MADQLTEDQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMVNEVDADG 60
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADG 60
*******:********************************************:*******
hongo
drosofila
NGTIDFPEFLTMMARKMKDTDSEEEIKEAFKVFDKDGNGFISAAELRHVMTNLGEKLSDN 120
NGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGFISAAELRHVMTNLGEKLTDE 120
**************************:***:**************************:*:
hongo
drosofila
EVDEMIREADVDGDGQINYDEFVKMMLSK 149
EVDEMIREADIDGDGQVNYEEFVTMMTSK 149
**********:*****:**:***.** **
El investigador se alegra, ya que las dos secuencias son muy semejantes y esto facilita el
proceso de modelado e incide en la calidad del modelo final. De hecho, el porcentaje de
identidad es del 92.6% y las pocas diferencias entre las dos secuencias se debe a reemplazos
conservativos, como D/E, R/K y S/T, entre otros. A continuación se decide por el SwissModel
para realizar el modelado de su proteína. Primero descarga el programa DeepView-SwissPDBViewer de la página http://ca.expasy.org/spdbv/, lo instala en su computadora, lo ejecuta e
introduce su nombre y correo electrónico en la sección de preferencias del Swiss model. Luego
utiliza el comando “Load Raw Sequence to Model” para cargar el archivo que tiene la secuencia
de su proteína y abre (open) el archivo estructural con las coordenadas cristalográficas de la
calmodulina de drosofila (4CLN.pdb). También abre las ventanas de “Control panel” y de
“sequence alignment”. En esta última, reproduce el alineamiento que obtuvo con clustalW y,
después de verificar que no hay errores, lo envía al servidor para el modelado: selecciona las
opciones Swiss-Model y submit model request, con lo cual se abre una ventana en donde se le
da un nombre al proyecto y, después de esto, lo envía. Media hora después le llega un correo
con una liga para descargar en su computadora el archivo estructural de la calmodulina del
hongo y lo revisa con un programa para visualizar biomoléculas, como Rasmol, Pymol o el
mismo Swiss-PDBViewer (Figura 15).
Figura 15. Modelo de la proteína con base en la estructura cristalográfica 4CLN.pdb.
130
Flores Herrera y cols.
Para
validarlo
decide
utilizar
cuatro
programas.
Con
prosa
II
(https://prosa.services.came.sbg.ac.at/prosa.php) obtiene un puntaje-Z de -7.5 (mientras más
pequeño mejor) y dos gráficas que le indican que el modelo es bueno. En la única que se
muestra aquí (Figura 16), se observa que el modelo (el punto negro) cae en la región definida
por los puntajes-Z de las estructuras resueltas por cristalografía de rayos X o resonancia
magnética nuclear.
Figura 16. Puntaje Z para el modelo basado en la estructura cristalográfica 4CLN.pdb
Luego utiliza el servidor SAVS (Structure Análisis and Verification Server,
http://nihserver.mbi.ucla.edu/SAVS/) para analizar la estructura con Procheck, What_check y
errat. La gráfica de Ramachandran (Figura 17) que se obtiene con Procheck muestra una
estructura con algunos problemas, mientras que las barras negras en la gráfica de errat (Figura
18) indican que hay errores estructurales en la parte final de la proteína.
131
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Figura 17. Mapa de Ramachandran para el modelo basado en la estructura cristalográfica 4CLN.pdb.
132
Flores Herrera y cols.
Figura 18. Gráfico generado con el programa errat para el modelo basado en la
estructura cristalográfica 4CLN.pdb. Las dos líneas horizontales indican límites de
confianza para identificar regiones con problemas estructurales. El factor de calidad
global muestra el porcentaje de la proteína que tiene valores de error por debajo del 95%.
Mientras menos problemas estructurales tenga la proteína, mayor es el valor de este
parámetro. Las estructuras de alta resolución con pocos problemas estructurales
generalmente tienen valores por arriba de 95%, mientras que para las de baja resolución
(2.5 a 3 Å) cae alrededor del 91%.
También el resumen que arroja WhatCheck al final sugiere que la proteína no está libre
de problemas:
----------------------------------------------------------------------------------------------------------------------------------------------# 51 # Note: Summary report for users of a structure
====================================================
This is an overall summary of the quality of the structure as
compared with current reliable structures. This summary is most
useful for biologists seeking a good structure to use for modelling
calculations.
The second part of the table mostly gives an impression of how well
the model conforms to common refinement constraint values. The
first part of the table shows a number of constraint-independent
quality indicators.
Structure Z-scores, positive is better than average:
2nd generation packing quality : -0.852
Ramachandran plot appearance
: -4.574 (bad)
chi-1/chi-2 rotamer normality : -2.535
Backbone conformation
: -4.157 (bad)
RMS Z-scores, should be close to 1.0:
Bond lengths
:
0.561 (tight)
Bond angles
:
1.145
Omega angle restraints
:
0.803
Side chain planarity
:
2.086 (loose)
Improper dihedral distribution :
1.990 (loose)
Inside/Outside distribution
:
1.043
------------------------------------------------------------------------
Sin embargo, cuando manda el archivo cristalográfico a estos servidores, descubre que tiene los
mismos problemas que el modelo, es decir, que los errores del templado se transfirieron al
modelo. El investigador decide que la estructura que obtuvo es lo suficientemente buena para
iniciar los experimentos de docking y se prepara su segunda taza de café mientras lee un
artículo sobre el tema.
133
MENSAJE BIOQUÍMICO, Vol. XXXII (2008)
Referencias
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
Dobshanzky, T. (1973) Am. Biol. Teach. 35 125-129
Fitch, W. M (2000) Trends Genet 16 227-31.
Attwood, T. K. y Parry-Smith. D. J. (2002) Introducción a la Bioinformática. Pearson Education, S.A.,
Madrid, España.
Lipman, D. J. y Pearson, W. R. (1985) Science 227 1435-1441.
Altschul, S. F. Gish, W., Miller W., Myers E. W. y Lipman D. J. (1990) Basic local alignment search
tool. J. Mol. Biol. 215 403-410.
Mount, D. W. (2004) Bioinformatics: sequence and genome analysis. Second edition. Cold Spring
Harbor Laboratory Press, New York, USA.
Dayhoff, M. O., Schwartz, R. M. y Orcutt, B. C. (1978) En Atlas of protein sequence and structure,
Vol. 5, Cap. 4, NBRF, Washington DC. pp 33-41.
Henikoff, S. y Henikoff, J. G. (1992) Proc. Natl. Acad. Sci. USA 89 10915-10919.
George, D. G., Barker, W. C. y Hunt, L. T. (1990) Methods Enzymol. 183 333-351.
Needleman, S. B. y Wunsch, C. D. (1970) J. Mol. Biol 48 443-453.
Smith, T. F. y Waterman, M. S. (1981) J. Mol. Biol 147 195-197.
Thompson, J. D., Higgins, D. G. y Gibson, T. J. (1994) Nuc. Ac. Res. 22 4673-4680.
Kyte, J. y Doolittle, R. F. (1982) J. Mol. Biol. 157, 105-132
Eisenberg, D., Schwarz, E., Komaromy, M. y Wall, R. (1984) J. Mol. Biol. 179, 125-142
Roost, B., Casadio, R., Fariselli, P. y Sander, C. (1995) Protein Sci. 4, 521-533
Chen, C. P., Kernytsky, A. y Rost, B. (2002) Protein Sci. 11, 2774-2791
Punta, M., Forrest, L. R., Bigelow, H., Kernytsky, A., Liu, J. y Rost, B. (2007) Methods 41, 460-474
Chou, P. Y. y Fasman, G. D. (1974) Biochemistry 13, 211-222
Chou, P. Y. y Fasman, G. D. (1974) Biochemistry 13, 222-245
Garnier, J., Osguthorpe, D. J. y Robson, B. (1978) J. Mol. Biol. 120, 97-120
Rost, B. y Sander, C. (1993) J. Mol. Biol. 232, 584-599
Rost, B. y Sander, C. (1994) Proteins 19, 55-72
Rost, B. (2001) J. Struct. Biol. 134, 204-218
Jones, D. T. (1999) J. Mol. Biol. 287, 797-815
Rost, B., Schneider, R. y Sander, C. (1997) J. Mol. Biol. 270, 471-480
Baker, D. y Sali, A. (2001) Science 294, 93-96
Guex, N. y Peitsch, M. C. (1997) Electrophoresis 18, 2714-2723
Fiser, A. y Sali, A. (2003) Methods Enzymol. 374, 461-491
Simons, K. T., Kooperberg, C., Huang, E. y Baker, D. (1997) J. Mol. Biol. 268, 209-225
Meller, J. (2001) Molecular dynamics. Encyclopedia of life sciences pp: 1-8
Laskowski, R. A., MacArthur, M. W., Moss, D. S. y Thornton, J. (1993) J. Appl. Cryst. 26, 283-291
Hooft, R. W. W., Vriend, G., Sander, C. y Abola, E. E. (1996) Nature 381, 272
Wallner, B. y Elofsson, A. (2003) Protein Sci. 12, 1073-1086
Colovos, C. y Yeates, T. O. (1993) Protein Sci. 2, 1511-1519
Sippl, M. J. (1993) Proteins 17, 355-362
Semblanza del Dr. Juan pablo Pardo Vázquez
El Dr. Juan Pablo Pardo realizó sus estudios de
licenciatura, maestría y doctorado en la Facultad de Medicina
de la UNAM. En dos ocasiones trabajó en la Universidad de
Yale, la primera en una estancia posdoctoral que duró tres
años y, la segunda, en su año sabático. En la actualidad es
Profesor Titular “C” de Tiempo Completo en el Departamento
de Bioquímica de la Facultad de Medicina, en donde realiza
actividades de investigación y docencia. Pertenece al nivel II
del Sistema Nacional de Investigadores y, como buen
universitario, su equipo de futbol son los Pumas.
134
Descargar