Análisis de genomas. Métodos para la predicción y anotación de la

Anuncio
Universidad Autónoma de Madrid
Facultad de Ciencias
Departamento de Biología Molecular
Análisis de genomas.
Métodos para la predicción y anotación
de la función de las proteínas
TESIS DOCTORAL
Federico Abascal Sebastián de Erice
Centro Nacional de Biotecnología
Madrid 2003
Universidad Autónoma de Madrid
Facultad de Ciencias
Departamento de Biología Molecular
Análisis de genomas.
Métodos para la predicción y anotación
de la función de las proteínas
Memoria presentada para optar al grado de Doctor en Ciencias por:
Federico Abascal Sebastián de Erice
Director: Dr. Alfonso Valencia Herrera
Tutor: Dr. Carlos Martínez Alonso
Agradecimientos
A mi familia, por estar siempre ahí. A Silvia, por los empujones.
A mi amigo Osvaldo, por su cariño y por inspirar gran parte de este trabajo.
A mi director, Alfonso, por darme esta oportunidad; por la paciencia y comprensión.
A todos mis compañeros del grupo de Diseño de Proteínas: Sito, Damien, Juan Antonio,
Juan Carlos S., David, José Manuel, Osvaldo, Ramón R., Paulino, Ramón A., Pedro,
Christian, María, Belén, Robert, Armando, Bruno, Juan Carlos O., Javier H., Martin, Luis,
Mónica, Amalia, Edulovi, Edu A.L, Ángel, Antonio. Ha sido estupendo conocerlos y
convivir con ellos. A todos tengo algo que agradecer. En especial a José María, con quien
más he colaborado y que me ha ayudado muchas veces. A Javi, Manolo y Michael por las
excursiones cafeteras. A aquéllos que en momentos bajos me han tendido una mano.
A los profesores de la Facultad de Biológicas de la UAM. En especial al profesor LópezSáez, por despertar mi interés por la Biología Molecular.
Al personal del CNB.
A Javi y Javiera por hacer un poco más legible esta tesis. A Michael por el toque británico.
A Mada y a Mamen por hacer más fáciles y agradables los trámites. A mi tutor, Carlos
Martínez, por la buena disposición.
A los miembros del tribunal.
A la Comunidad Autónoma de Madrid, por la beca.
A Brad, a Betel, a Palmira y Yaíma, a Fernando, a mis tías Mª Rita y Mª del Mar, a
Javiera, a Diego, a Javi Llorente, a Mar, a mis sobris (en especial a Marta, que comenzó
su andadura por el mundo un día antes que yo con la tesis), a Dios, ...
Abreviaturas
ADN: ácido desoxirribonucleico.
ARN: ácido ribonucleico.
ARNt: ARN transferente.
ATP: adenosín trifosfato.
BAp: Buchnera aphidicola, endosimbionte del pulgón Acyrthosiphon pisum.
BBp: Buchnera aphidicola (Baizongia pistaciae).
BSg: Buchnera aphidicola (Schizaphis graminum).
BSI: búsquedas con secuencias intermedias.
COGs: clusters of orthologous groups.
EC: Enzyme Commission.
Fm: falso positivo, no homólogo (de false match).
GTP: guanosín trifosfato.
HMM: Hidden Markov models.
MinCut: corte mínimo de un grafo.
MG: Mycoplasma genitalium.
MP: Mycoplasma pneumoniae.
Ncut: normalized cut o corte normalizado de un grafo.
Tm: positivo verdadero, homólogo (de true match).
Um: positivo incierto, homólogo incierto (de unknown match).
Índice
Abreviaturas
Breve resumen en inglés - Brief summary.............................................................................................4
Introducción ...................................................................................................................................................
5
1.- Prólogo - Introducción......................................................................................................................5
2.- Análisis de genomas........................................................................................................................5
2.1. Algunos sistemas para el análisis automático de genomas.............................................6
GeneQuiz.....................................................................................................................6
GAIA: Genome Annotation and Information Analisys.................................................6
PEDANT: Protein Extraction, Description, and ANalysis Tool....................................6
RiceGAAS: Rice Genome Automated Annotation System.........................................7
3.- Una introducción a la evolución de las proteínas............................................................................7
3.1.- Homólogos y análogos.....................................................................................................8
3.2.- Ortólogos y parálogos......................................................................................................8
3.3.- Las proteínas se organizan en superfamilias, familias y subfamilias..............................9
3.4.- Proteínas, dominios y evolución......................................................................................9
3.5.- Las proteínas en su contexto.........................................................................................10
4.- Predicción de la función de las proteínas y anotación automática...............................................10
4.1.- Anotación de proteínas a partir de la información funcional existente para sus
homólogos...............................................................................................................................11
5.- Búsqueda de homólogos................................................................................................................11
5.1.- BLAST.............................................................................................................................11
5.2.- PSI-BLAST.....................................................................................................................12
5.3.- HMMs: modelos de Markov ocultos...............................................................................12
5.4.- Búsquedas con secuencias intermedias (BSI)..............................................................14
6.- Dificultades de la anotación automática de función......................................................................14
7.- Interpretación adecuada de las homologías: ¿cuánto se parece la función de dos proteínas con
un origen común?................................................................................................................................14
7.1.- Durante la evolución se han generado nuevas funciones mediante el barajado de
dominios..................................................................................................................................14
7.2.- Homólogos: ortólogos y parálogos. Familias y subfamilias...........................................15
8.-Clasificación de proteínas...............................................................................................................15
8.1.- Árboles filogenéticos......................................................................................................15
8.2.- PROTOMAP...................................................................................................................16
8.3.- COGs..............................................................................................................................17
8.4.- GeneRAGE.....................................................................................................................17
8.5.- SYSTERS.......................................................................................................................18
8.6.- TRIBES...........................................................................................................................18
8.7.- PFam e InterPro.............................................................................................................18
8.8.- SequenceSpace.............................................................................................................18
9.- Anotaciones funcionales en las bases de datos: tipos, contaminación, nomenclatura................19
9.1.- Swiss-Prot y su suplemento TrEMBL.............................................................................19
9.1.1.- Información presente en Swiss-Prot y TrEMBL.............................................19
9.2.- ¿Qué es la función de las proteínas? ¿Cómo describirla?...........................................20
9.2.1.- Ontologías para definir la función de las proteínas.......................................20
10.- Algunas aproximaciones a la anotación automática de la función de las proteínas..................21
10.1.- GeneQuiz: automatización del análisis y anotación de genomas...............................21
10.2.- Anotación automática de TrEMBL...............................................................................22
10.3.- PRECIS........................................................................................................................23
10.4.- Andrade (1999).............................................................................................................23
Objetivos........................................................................................................................................................
25
Métodos..........................................................................................................................................................
26
1.- ORFandDB, un sistema para el análisis de genomas.....................................................................26
2.- Búsqueda de homólogos con secuencias intermedias (BSI)........................................................28
1
2.1.- Iteración del método.......................................................................................................29
2.2.- La homología se confina a dominios concretos - selección de subsecuencias............29
2.3.- Limitación del espacio de búsqueda..............................................................................29
2.4.- Evaluación de la sensibilidad y la precisión del método - Base de datos de SCOP
como estándar de homología.................................................................................................30
2.4.1.- Base de datos de SCOP y nuestro conjunto de prueba................................30
2.5.- Descripción del espacio de secuencias mediante un GRAFO......................................31
3.- Identificación de familias de proteínas - Clustering o agrupamiento.............................................31
3.1.- Recursividad y condiciones de parada del clustering....................................................31
3.2.- Algunas definiciones: capacidad media, conectividad y proximidad.............................32
3.3.- Evaluación del clustering - Base de datos COGs como estándar de ortología............32
3.3.1.- Condiciones de parada y métodos de reconstrucción en la comparación con
COGs.........................................................................................................................33
4.- Transferencia de anotaciones funcionales....................................................................................33
4.1.- Análisis de la cobertura de los alineamientos................................................................35
4.2.-Transferencia de descripciones generales de la función (línea DE de Swiss-Prot)......35
4.2.1.- Análisis léxico.................................................................................................36
4.3.- Transferencia de palabras clave (keywords del campo KW de Swiss-Prot).................36
4.4.- Transferencia de códigos de actividad enzimática........................................................37
4.5.- Anotación de grupos vecinos.........................................................................................37
Resultados.....................................................................................................................................................39
1.- Identificación de proteínas homólogas mediante búsquedas recursivas con secuencias
intermedias (BSI).................................................................................................................................39
1.1.- Comparación de la sensibilidad y especificidad de las búsquedas BSI con respecto a
BLAST y PSI-BLAST..............................................................................................................40
1.2.- Evolución de la búsqueda de homólogos a lo largo de las rondas o iteraciones.........41
1.3.- Los distintos métodos de búsqueda encuentran distintas relaciones, aunque hay un
grado de coincidencia elevado...............................................................................................41
1.4.- Algunos ejemplos...........................................................................................................42
1.5.- Coste computacional de los métodos de búsqueda y del algoritmo de agrupamiento....44
2.-Evaluación de la capacidad del algoritmo de agrupamiento para identificar familias de
proteínas..............................................................................................................................................
45
2.1.- Agrupamiento alrededor de la proteína humana ras-p21 en un espacio de secuencias
altamente poblado..................................................................................................................46
2.2.- Los genes de Mycoplasma genitalium en el espacio de secuencias conformado por los
21 genomas completos de la base de datos COGs..............................................................46
2.2.1.- Distribución de los tamaños de los grupos de los genes de MG..................46
2.2.2.- Comparación con COGs................................................................................51
3.- Anotación automática de la función de las proteínas. Ejemplos ilustrativos y aplicación al análisis
del genoma de Buchnera aphidicola...................................................................................................55
3.1.- Ejemplos ilustrativos: TETM_NEIME y PDXK_SHEEP.....................................................55
3.1.1.- TETM_NEIME: la proteína que confiere resistencia a la tetraciclina en
Neisseria meningitidis................................................................................................55
3.1.2.- PDXK_SHEEP: quinasa de piridoxina de oveja (anotación original: 'pyridoxine
kinase').......................................................................................................................58
3.2.- Anotación del proteoma de Buchnera aphidicola (Baizongia pistaciae).......................61
3.2.1.- Palabras clave y códigos de actividad enzimática.........................................63
3.2.1.1.- Palabras clave................................................................................63
3.2.1.1.1.- Palabras clave que no tienen una relación directa con la
función de las proteínas...................................................................63
3.2.1.1.2.- Otros ejemplos................................................................64
3.2.1.2.- Códigos de actividad enzimática....................................................64
4.- Análisis del genoma de Buchnera aphidicola (Baizongia pistaciae).............................................65
4.1.- La vida de buchnera: ¿qué tiene de interesante?.........................................................65
4.2.- Cómo se anotó el genoma. Métodos empleados..........................................................65
4.3.- Algunas observaciones acerca de los resultados..........................................................67
4.4.- Nuestra aportación al proyecto......................................................................................69
2
Discusión.......................................................................................................................................................
70
1.- Análisis de genomas: ORFandDB....................................................................................................70
2.- Búsqueda de homólogos: las búsquedas con secuencias intermedias permiten explorar un
espacio evolutivo amplio.....................................................................................................................71
2.1.- La efectividad del método de BSI es comparable a la de PSI-BLAST y superior a la de
BLAST.....................................................................................................................................72
2.2.- Particularidades de BSI y PSI-BLAST...........................................................................72
2.3.- El problema de los dominios y nuestra solución............................................................72
2.4.- Ventajas y desventajas de las BSI.................................................................................73
2.5.- Los homólogos lejanos y la predicción de función........................................................73
3.- Interpretación de las homologías: análisis del mapa del espacio de secuencias obtenido
mediante BSI. Algoritmos de agrupamiento........................................................................................74
3.1.- Algunos métodos que probamos para analizar el espacio de secuencias...................74
3.1.1.- ¿Por qué no usar un árbol filogenético para la clasificación de proteínas?..75
3.2.- Los grupos que observamos en el espacio de secuencias se corresponden con grupos
de proteínas con una clara relación funcional: subfamilias y grupos de ortólogos...............75
3.2.1.- Comparación con COGs: coincidencias, sesgo filogenético, reconstrucción
de grupos de ortólogos..............................................................................................75
3.3.- Ventajas y limitaciones de nuestro método...................................................................76
3.3.1.- Aplicación del método de agrupamiento en otros escenarios.......................76
3.4.- Interés de la identificación de grupos de ortólogos y subfamilias.................................76
4.- La anotación de la función de las proteínas: particularidades de este problema y algunos
aspectos del método que hemos presentado.....................................................................................77
4.1.- Anotación automática y los homólogos: ortólogos y parálogos....................................77
4.2.- La naturaleza multidominio de las proteínas.................................................................78
4.3.- El modo en que se describe la función de una proteína: riqueza del lenguaje,
vocabularios controlados y ontologías...................................................................................78
4.3.1.- Acuerdos para describir la función de las proteínas y ontologías.................79
4.4.- Métodos relacionados con este trabajo. Anotación automática de TrEMBL................80
4.5.- El impacto de las anotaciones automáticas en la calidad de la información contenida
en las bases de datos.............................................................................................................80
4.6.- El futuro de la predicción de la función de las proteínas...............................................81
Conclusiones................................................................................................................................................
80
Glosario..........................................................................................................................................................
81
Referencias....................................................................................................................................................84
Anexo - Publicaciones...............................................................................................................................91
•
Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the identification of
protein families. Bioinformatics. 18:908-921.
•
van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U, Fernandez JM,
Jimenez L, Postigo M, Silva FJ, Tamames J, Viguera E, Latorre A, Valencia A, Moran F, Moya
A. (2003) Reductive genome evolution in Buchnera aphidicola. Proc Natl Acad Sci U S A.
100:581-586.
•
Abascal F, Valencia A. (2003) capítulo "Bioinformática" en Gen-Ética. Ed. Ariel. 139-160 (no
incluido en el anexo).
•
Abascal F, Valencia A. (2003) Automatic annotation of protein function based on family
identification. Proteins. In press.
3
Genome Analysis.
Methods for the prediction and annotation of proteins function.
Sequencing of entire genomes represents an important advance, but we are still far from
understanding the information contained in this genetic blueprint. The comparison of
genomes from different organisms will reveal clues in a similar fashion to the Rosetta
Stone in Egyptian hieroglyphics. The analysis and annotation of genomes, mainly finding
genes and predicting their function, is the first step towards this comparison. The
organisation and interrelation of the huge amount of heterogeneous information related to
genome analysis is another important task.
The work presented in this thesis is part of a project for the development of a system for
genome analysis: ORFandDB. The core of the system is a relational-schema where data
from many sources is linked into the database. This data comprises protein annotations
from external databases such as Swiss-Prot and TrEMBL, taxonomic information from the
NCBI, biochemical activities from Enzyme, and protein classifications from databases such
as PFam or COGs. Dynamic data resulting from the execution of computational methods
such as gene prediction with GeneID, or BLAST and PSI-BLAST protein similarity
searches, is also integrated into the schema.
Protein function prediction and annotation provides insights about genomes, and is
necessary for genome comparisons, for example when deriving particular properties such
as the pathogenicity of a given strain of bacteria. The most powerful current approach for
inferring the function of new proteins is studying the annotations of their homologues,
since their common origin is assumed to be reflected in their structure and function.
Unfortunately, as proteins evolve they acquire new functions, so annotation based on
homology must be carried out in the context of orthologues or subfamilies. Evolution adds
new complications through domain shuffling: homology (or orthology) frequently
corresponds to domains rather than complete proteins. Moreover, the function of a protein
may result from combining the functions of its domains. Additionally, automatic annotation
has to deal with database annotation problems, such as errors (which are then likely to be
propagated), inconsistencies and different degrees of function specification.
Our strategy for automatic annotation of protein function is based on searching for
homologues with intermediate sequence searches and using these results to build a graph
representing the sequence space of proteins. We use a clustering strategy based on the
normalized cut algorithm to identify protein families or groups of orthologues that probably
share a common function. The domain problem is approached by analysing the local
alignments of the homologues. Analysing multiple annotations reduces the technical
problems related to database annotations by allowing us to find the annotation most
representative of the others.
ORFandDB and the method for automatic protein function annotation (FUNCut) have been
applied to the analysis of the genome of Buchnera aphidicola (Baizongia pistaciae).
4
Introducción
1.- Prólogo - Introducción
De un tiempo a esta parte, y cada vez en mayor medida, nuevos métodos experimentales están
generando ingentes cantidades de datos que nos ayudarán a entender mejor los aspectos
moleculares de los organismos. Esto se ha traducido en un crecimiento exponencial de las bases
de datos de secuencias, que actualmente contienen más de 22 millones secuencias de
nucleótidos, correspondientes a aproximadamente 28.000 millones de bases (Benson et al.,
2003), y más de un millón de proteínas. Del mismo modo ha sucedido con el número de genomas
descritos: ya se han secuenciado más de 150 y hay en torno a 600-800 que pronto lo estarán
(Bernal et al., 2001). Y no sólo conocemos más secuencias sino que hay nuevas técnicas como
los arrays o matrices ADN que nos permiten conocer de forma muy rápida el grado de expresión
de miles de genes simultáneamente (Lockhart et al., 1996; Butte et al., 2000; Getz et al., 2000),
como si pudiéramos obtener una fotografía del estado de todos ellos en un momento dado;
repitiendo estas fotografías a distintos intervalos de tiempo podemos obtener una película.
Además, gracias al desarrollo de nuevas técnicas o al perfeccionamiento de las que ya
disponíamos, ha sido posible realizar los primeros intentos de describir el mapa de todas las
interacciones entre las proteínas de un organismo (Uetz et al., 2000; Gavin et al., 2002), lo que
constituye una nueva visión global frente a la visión más reduccionista de estudiar las proteínas
de forma aislada. En cuanto al conocimiento adquirido a lo largo de las últimas décadas, éste se
encuentra disperso en doce millones de artículos científicos. El problema que se nos presenta es
qué hacer con toda esta información, cómo distinguir el grano de la paja. El caso del genoma
humano puede ser ilustrativo del reto al que nos enfrentamos: en palabras del reciente premio
Nobel Sydney Brenner: "Enviar un hombre a la Luna es muy fácil. Lo difícil es traerle de vuelta.
Con el genoma pasa lo mismo. Describir el genoma humano es trivial. Pero cuando acabemos
[recientemente se ha terminado un primer borrador del mapa del genoma humano], habrá que
traerlo de vuelta: comprender el significado, resolver los grandes problemas de la biología de
nuestra especie. La mayor parte de la gente cree que la secuencia del genoma humano va a ser
una especie de mensaje llegado de los cielos. Pero lo cierto es que ese mensaje nos va a decir
muy poco. Nos va a decir algo como: 'Mira, esto es lo que tienes que entender ahora'".
Los métodos computacionales, que ya han mostrado su utilidad en áreas como la búsqueda de
genes o la predicción de la función y la estructura de las proteínas, van a resultar decisivos e
imprescindibles para afrontar los nuevos retos de la Biología Molecular (Fuchs, 2002).
2.- Análisis de genomas
Cuando obtenemos la secuencia de un genoma vemos poco más que una o varias largas
cadenas de letras. Allí está la información que buscamos, pero no la sabemos interpretar. El
análisis de genomas se refiere a la tarea de entender qué dice la secuencia de un genoma:
básicamente, qué genes contiene, dónde se encuentran, y qué función realizan las proteínas que
son codificadas por ellos (Rouze et al., 1999; Stein, 2001; Rust et al., 2002). A lo largo de la
evolución, los cambios que sufren los genomas y sus genes, están sometidos a la presión natural,
por lo que según las ventajas o inconvenientes que los cambios acarreen, dependerá que lleguen
a las siguientes generaciones, o lo que es lo mismo, que los podamos observar en la actualidad.
La comparación de genomas, genes y proteínas de distintas especies es la aproximación más
intuitiva y directa para interpretar el libro de instrucciones que hay en los genomas (Koonin, 2001;
Salzberg, 2003).
El proyecto en que se encuadra esta tesis incluye tres aspectos básicos del análisis de genomas.
5
El primero es la predicción de genes, labor ésta que ha sido realizada por el grupo del Dr. Roderic
Guigó, del Institut Municipal d'Investigació Mèdica (IMIM). El segundo es el desarrollo de un
sistema para almacenar de forma razonable e interrelacionada tanta información, en el cual he
colaborado y ha sido el trabajo principal de D. José María Fernández, del grupo del Dr. Alfonso
Valencia. Y el tercero es la parte del proyecto que se describe con más detalle en esta tesis,
consistente en la predicción y anotación de la función de las proteínas. Es decir, la tarea de
obtener automáticamente información acerca del posible papel que desempeña una proteína en la
célula.
2.1. Algunos sistemas para el análisis automático de genomas
El papel de la Bioinformática en el análisis de genomas es especialmente relevante. Existen
numerosos sistemas que han tratado de ayudar en esta área, decidiendo qué métodos
computacionales utilizar para caracterizar los genomas, así como el modo en que debe
organizarse la información para facilitar la interpretación y la comparación de los resultados. A
continuación describimos algunos de estos robots.
GeneQuiz (Andrade et al., 1999)
Éste es uno de los primeros sistemas que han tratado de integrar en un mismo marco los
métodos computacionales que existen para el análisis de secuencias. El sistema lidia con las
diversas dificultades (técnicas y biológicas): existe un módulo (GQupdate) para la actualización
automática de las bases de datos con la nueva información que vamos conociendo; otro
(GQsearch) para la aplicación de diversas herramientas de análisis de secuencias; otro módulo
(GQreason; se describe con mayor detalle más adelante) para la interpretación de los resultados
del modulo GQsearch y la anotación automática de la función; y otro (GQbrowse) para mostrar los
resultados al usuario a través de una interfaz web. Como entrada el sistema puede recibir una
secuencia o un conjunto de secuencias que podrían representar el proteoma de un organismo.
Con este sistema se han analizado los proteomas de diversas bacterias, pudiéndose consultar las
anotaciones en:
http://www.sander.ebi.ac.uk/genequiz/.
GAIA: Genome Annotation and Information Analisys (Bailey et al., 1998)
Este sistema está pensado para facilitar el análisis de genomas a los investigadores. La idea no
es anotar cada uno de los genes y sus funciones, sino almacenar de forma ordenada toda la
información que se tiene sobre un genoma (repeticiones, regiones que se transcriben, parecidos
de secuencias con otras entradas, etcétera) para facilitar la interpretación de la información. GAIA
consta de una base de datos para almacenar los datos y un sistema para acceder a éstos. En la
base de datos la información se organiza de acuerdo a tres conceptos principales: 1) entradas,
correspondientes a secuencias; 2) características, que comprenden la información de interés
biológico; 3) y experimentos, los cuales describen qué evidencias están detrás de las
características.
PEDANT: Protein Extraction, Description, and ANalysis Tool (Frishman et al., 2001)
En este sistema se analizan los genomas que están disponibles públicamente. A partir de la
secuencia de uno de éstos se puede realizar una búsqueda de genes utilizando distintas
herramientas dependiendo de si la especie analizada es eucariota o procariota. Como entrada del
sistema, además de genomas, pueden proporcionarse secuencias de ESTs (expressed sequence
tags o fragmentos de secuencias expresadas). Una vez identificados los genes, las proteínas se
asignan automáticamente a categorías funcionales y estructurales utilizando para este propósito
el programa PSI-BLAST, con el que se busca en bases de datos públicas que contienen
información funcional y estructural. Finalmente, a través de una interfaz web se puede consultar
toda esta información para una proteína determinada o bien se pueden comparar los resultados
obtenidos para un conjunto de proteomas. Los resultados se almacenan en una base de datos
relacional.
6
RiceGAAS: Rice Genome Automated Annotation System (Sakata et al., 2002)
En este caso no se trata de un sistema de propósito general, sino que se desarrolló
explícitamente para analizar el genoma del arroz. El sistema consta de las siguientes
características funcionales: 1) una colección de secuencias genómicas del arroz; 2) la ejecución
concertada de programas de predicción de genes y de búsqueda de homologías; 3) la integración
de los resultados procedentes de los distintos métodos y la interpretación automática de los
mismos; 4) un modulo de actualización para incluir información de reciente publicación; 5) y una
interfaz web para visualizar los resultados.
Éstos son algunos de los sistemas que tratan de facilitar el análisis de genomas, aunque existen
otros, como por ejemplo MagPIE (Gaasterland & Sensen, 1996) o Ensembl (Clamp et al., 2003).
La estructura de todos ellos suele ser similar: un módulo para aplicar diversos métodos
computacionales a las secuencias, otro para almacenar los resultados y otro para mostrarlos al
usuario. En algunos casos existen además módulos para interpretar automáticamente los
resultados y extraer conclusiones biológicas, por ejemplo, en algunos casos se realiza una
anotación de la función de las proteínas.
En realidad, estos sistemas afrontan el análisis de genomas de un modo simplista: no hacen
mucho más que ejecturar un conjunto de herramientas bioinformáticas para anotar los genomas y
sus genes, pero la comparación de genomas, de qué genes comparten y cuáles no los distintos
organismos, o la reconstrucción y la comparación de las rutas metabólicas, aún está pendiente de
ser automatizada. El trabajo de Manolis Kellis y colaboradores (Kellis et al., 2003), que
secuenciaron varias especies de levaduras para tratar de comprender mejor el genoma de
Saccharomyces cerevisiae, puede ser un adelanto de lo que será el futuro. Gracias a la
comparación de estos genomas consiguieron identificar 48 pequeñas proteínas nuevas. Además
sugirieron que 503 secuencias que se pensaba que eran genes, en realidad no eran tales. La
comparación de las regiones intergénicas permitió encontrar 42 nuevos motivos de secuencia que
posiblemente tengan una función reguladora.
3.- Una introducción a la evolución de las proteínas
Cuando comparamos la secuencia de aminoácidos de proteínas que realizan una misma función
y que proceden de organismos distintos, observamos que son parecidas y que se puede
establecer una correspondencia entre las posiciones de las secuencias de unas y otras,
existiendo posiciones que son idénticas y otras donde hay diferencias. De acuerdo a nuestros
conocimientos sobre evolución molecular, estas proteínas se parecen porque tienen origen común
y las diferencias se deben a que a lo largo del tiempo los genes han divergido, mediante la
acumulación de cambios o mutaciones en sus secuencias.
La comparación de proteínas homólogas (aquéllas que tienen un origen común) nos puede dar
mucha información acerca de cómo se ha producido la evolución de los organismos y también
acerca de las propias proteínas, ya que el hecho de que unos cambios o mutaciones se
mantengan está relacionado con cómo afectan a la estructura o la función de la proteína, y
también con la importancia que tenga la función para el organismo, o con el modo de vida de
éste. De este modo, los residuos más directamente implicados en la realización de la función
suelen presentar menor variación, ya que cambios en éstos pueden provocar una pérdida de
función. La importancia de estos estudios comparativos de proteínas homólogas fue destacada
por primera vez por (Zuckerkandl & Pauling, 1965) y luego ha sido puesta de manifiesto en
numerosos trabajos. Pero no siempre es fácil obtener información a partir de la comparación de
secuencias, ya que muchas veces lo que observamos no está ahí por ser óptimo sino porque es
un reflejo de la historia evolutiva; como dijo Sydney Brenner: "Si las matemáticas son el arte de lo
perfecto y la física es el arte de lo óptimo, la biología no es más que el arte de lo satisfactorio:
cualquier cosa sirve, siempre que funcione". Esto se puede expresar de forma más precisa
utilizando los términos de selección positiva, negativa y neutra, que se refieren a cómo resulta un
cambio para un organismo.
Las proteínas con secuencias suficientemente parecidas suelen tener un origen común
7
(Zuckerkandl & Pauling, 1965) (lo contrario se considera altamente improbable) y presentan una
arquitectura tridimensional similar (Chothia & Lesk, 1986), pero frecuentemente realizan funciones
distintas (Henikoff et al., 1997), aunque estas funciones puedan tener cierto parecido. Por función
de una proteína entendemos el papel que ésta desarrolla, como puede ser la participación en una
ruta metabólica, la transmisión de señales al interior de la célula o la regulación de la función de
otras proteínas.
La duplicación génica está considerada como uno de los fenómenos más relevantes en la
evolución de las proteínas para adquirir nuevas funciones (Ohno et al., 1968; Watts & Watts,
1968; Ohta, 1989; Lang et al., 2000): al existir dos copias de un gen, la presión selectiva frente a
cambios en residuos importantes es menor (si uno de los genes pierde la función, aún queda la
del otro) y esto facilita la exploración de nuevos nichos funcionales. Existen familias de proteínas
en las que este fenómeno ha resultado especialmente satisfactorio, por lo que en estas
superfamilias podemos observar gran variedad de funciones. Por ejemplo, la superfamilia de
hidrolasas de nucleótidos trifosfato que contienen un lazo P incluye familias tan variadas como las
de las helicasas de ARN, las proteínas G y los transportadores ABC (Koonin, 1993). Todas ellas
tienen un origen común y una estructura tridimensional similar. Incluso dentro de la familia de las
proteínas G, encontramos gran variedad de subfamilias, como por ejemplo las proteínas ras,
implicadas en el control del ciclo celular; rab, relacionada con el tráfico de vesículas; arf, que
también forma parte de la maquinaria de tráfico intracelular; o los factores de elongación de la
traducción Tu y G. Alguien, un enzimólogo quizás, podría considerar que realizan una misma
función ya que todas ellas hidrolizan GTP, pero el caso es que esta actividad está acoplada a muy
distintos procesos celulares; lo que pone de manifiesto uno de los principales problemas que
encontramos cuando queremos anotar la función de las proteínas de forma automática: la
interpretación de la función tiene un componente subjetivo muy importante. Según la formación
que tenga el científico que anota la proteína, prestará mayor atención a unos aspectos u otros de
la función.
3.1.- Homólogos y análogos.
Existen numerosos métodos, como veremos más adelante, para encontrar parecidos entre
secuencias de proteínas (Pearson, 1996). Si estos parecidos no son demasiado claros es difícil
saber si reflejan un origen común, es decir si ambas proteínas son homólogas, o si los hemos
encontrado por azar en las bases de datos. El concepto de análogos se utiliza para referirnos a
proteínas que tienen una estructura o una función similar pero un origen distinto, como por
ejemplo estas dos superfamilias de proteínas capaces de unir nucleótidos: el dominio ATPasa de
tipo actina y las hidrolasas de nucleótidos trifosfato que contienen un lazo P. Ambas tienen una
función análoga (unen nucleótidos) pero un origen distinto. Resulta más difícil encontrar ejemplos
de análogos estructurales porque para ello necesitamos probar que el parecido estructural se ha
alcanzado por convergencia: si un gran parecido de secuencia es prueba de homología, su
ausencia en caso de similitud estructural no es prueba de convergencia. Un posible ejemplo de
analogía estructural se encuentra en el caso de los beta propellers o hélices de láminas beta:
dentro de esta arquitectura general, en que distintas láminas beta se disponen como aspas de
una hélice, encontramos casos de hélices de 4, 5, 6, 7 y 8 aspas; a su vez las aspas puede estar
constituidas por un número característico de cadenas beta (Murzin et al., 1995).
3.2.- Ortólogos y parálogos
Dos términos que frecuentemente se usan para especificar el tipo de homología existente entre
dos proteínas son los de ortólogos y parálogos (Fitch, 1970; Tatusov et al., 1997). Hablamos de
ortólogos cuando nos referimos a genes o proteínas de especies distintas que provienen de un
mismo gen en el último ancestro común. Este tipo de homólogos suelen conservar una función
común. Por otra parte, hablamos de parálogos cuando nos referimos a genes de la misma
especie o de especies distintas que han surgido de un proceso de duplicación. En (Remm et al.,
2001) se propone una nueva nomenclatura para distinguir entre parálogos que se han originado
por duplicación después de un evento de especiación (in-paralogs), los cuales suelen conservar la
función, y parálogos por duplicación previa a la especiación (out-paralogs), en los que la función
suele ser distinta (figura 1).
8
Figura 1. Ortólogos y parálogos. En la figura se ilustran dos tipos de parálogos: los in-paralogs y los out-paralogs. No se trata
de un árbol real sino figurado, para ilustrar el concepto. Se muestra la hipotética evolución de dos subfamilias de proteínas en
tres especies distintas.
3.3.- Las proteínas se organizan en superfamilias, familias y subfamilias
Otra forma de expresar las relaciones evolutivas existentes entre las proteínas homólogas es
utilizando una clasificación jerárquica de las mismas en superfamilias, familias y subfamilias
(Henrissat & Romeu, 1995; Murzin et al., 1995; Yona et al., 1999). No siempre necesitamos
utilizar esta jerarquía ya que hay grupos de proteínas en las que sólo observamos ortólogos (e inparalogs), entonces sencillamente hablamos de una familia de proteínas. Este es el caso de la
subunidad sigma de la polimerasa de ARN, que no conocemos homólogos con otras funciones.
Cuando hablamos de una superfamilia, como por ejemplo la de las hidrolasas de nucleótidos
trifosfato que contienen un lazo P, ésta incluye a proteínas con una estructura tridimensional
similar y que tienen un mismo origen evolutivo. Dentro de una superfamilia encontramos familias,
y dentro de éstas, subfamilias. Una subfamilia, como podría ser la de las proteínas rab, es un
grupo de ortólogos (y también in-paralogs) que realizan una misma función; por otra parte, las
proteínas homólogas que pertenecen a distintas subfamilias son out-paralogs. Las subfamilias
con características similares y un pasado común más cercano se agrupan en familias de
proteínas, así las subfamilias rab, ras, rho... se agruparían en la familia de las proteínas
relacionadas con ras. La elección de qué niveles de esta jerarquía (súper-, sub-) debemos usar
responde a razones subjetivas basadas en las características de cada grupo de proteínas
homólogas; por ejemplo, se utiliza el término superfamilia cuando se trata de un grupo de
homólogos en el que hay muy diversas funciones, de forma que se puede establecer una
subjerarquía de familias y subfamilias.
Las proteínas pertenecientes a una misma subfamilia se parecen más entre sí que con respecto a
las proteínas de otras subfamilias homólogas, en parte porque tienen un origen evolutivo más
cercano entre ellas y en parte debido a que cada subfamilia realiza funciones particulares y la
presión selectiva afecta de forma característica a la divergencia en sus secuencias.
3.4.- Proteínas, dominios y evolución
Además de los procesos de duplicación y divergencia, durante la evolución se han generado
9
nuevas proteínas con nuevas funciones mediante la combinación de dominios de proteínas ya
existentes (Rossmann & Argos, 1981; Blake, 1983; Gilbert, 1985; McCarthy & Hardie, 1984).
Como si del juego del lego se tratara, se pueden combinar distintos módulos, o situar una función
en un contexto determinado. Así, por ejemplo, encontramos dominios de tipo CARD (es un
dominio reclutador de caspasas e interacciona con otros dominios CARD; Hofmann et al., 1997)
asociados a distintos dominios tales como el dominio quinasa de la proteína rick o los dominios
proteasa de algunas caspasas, gracias a lo cual, la función reclutadora del dominio CARD se
acopla a fosforilación o a proteolisis. Este barajado de dominios (domain shuffling) introduce
complicaciones adicionales cuando queremos establecer las relaciones evolutivas que hay entre
las proteínas, ya que dos proteínas multidominio puede que sean homólogas respecto a algún
dominio y no respecto a otro.
3.5.- Las proteínas en su contexto
Los aspectos que hemos discutido acerca de cómo evolucionan las proteínas se refieren a los
fenómenos que permiten que cambien y que se adapten mejor o adquieran nuevas funciones.
Además de estos aspectos, debemos tener en cuenta la importancia del contexto en el que se
encuentran las proteínas, lo cual tiene múltiples implicaciones. Por ejemplo, hay casos en que una
misma proteína puede tener funciones distintas en diferentes tejidos, tal y como sucede con la
deshidrogenasa de gliceraldehído-3-fosfato, que en el cristalino de los ojos actúa como una
proteína estructural mientras que en la mayoría de las células participa como enzima de la
glucolisis (Piatigorsky & Wistow, 1991). Las proteínas no están solas, sino que interaccionan
específicamente unas con otras y frecuentemente la función de una sólo tiene sentido en relación
a la función de otra proteína. De este modo, cuando un organismo pierde casualmente un gen,
esto ha de tener un reflejo en los genes relacionados. Asimismo, cuanto más importante sea la
función de una proteína para un organismo, mayor será la presión selectiva sobre la conservación
de su secuencia. El hábitat en que vive un organismo también queda reflejado en la secuencia de
sus proteínas; por ejemplo, en microorganismos termófilos las proteínas han evolucionado para
ser más estables y suelen tener más puentes salinos, disulfuro y de hidrogeno (Das & Gerstein,
2000; Gromiha, 2001).
Las relaciones evolutivas no son siempre verticales, de padres a hijos, sino que a veces se
producen intercambios de material genético entre distintas especies. Puede ser que proteínas con
orígenes distintos, no homólogas, lleguen a realizar una misma función. En estos casos, si se
produce una transferencia horizontal de material genético puede suceder que a partir de ese
momento un organismo tenga dos proteínas no homólogas para una misma función y que acabe
perdiendo la que originalmente poseía; a este fenómeno nos referimos como desplazamiento
génico no ortólogo (Koonin et al., 1996). Los procesos de transferencia horizontal muchas veces
son los responsables de las disparidades que encontramos en diferentes clasificaciones
filogenéticas.
En resumen, las secuencias que observamos actualmente son testigos de la historia evolutiva de
los organismos; una historia en la que muchos factores han influido.
4.- Predicción de la función de las proteínas y anotación automática.
Hay muchos enfoques para aproximarse al conocimiento de la función de las proteínas. El más
clásico, y también más fiable y eficiente, se basa en la observación de que las proteínas
homólogas conservan algún parecido funcional (Devos & Valencia, 2000). Recientemente se han
vislumbrado nuevas estrategias que son de especial ayuda cuando no existen proteínas
homólogas de función conocida, o cuando queremos estudiar la función de las proteínas desde
otro ángulo. Gracias a la tecnología de las matrices de ADN, podemos conocer los patrones de
expresión de miles de genes en distintas situaciones: aquellos genes con patrones similares, sean
o no homólogos, es posible que estén implicados en los mismos procesos celulares (Oliveros et
al., 2000; Bilu & Linial, 2002; Pavlidis et al., 2002). Por otra parte, los esfuerzos que se están
aplicando para describir el mapa de interacciones proteína-proteína también pueden arrojar luz
sobre este problema, ya que si sabemos con quién interacciona una proteína podemos suponer
10
que realiza una función similar o complementaria a la de sus compañeras (Letovsky & Kasif,
2003; Vazquez et al., 2003; Huynen et al., 2003). Incluso, el hecho de que genes se encuentren
cercanos en el genoma, o que pertenezcan a un mismo operón en el caso de bacterias, puede
indicar a veces que colaboran en un mismo proceso biológico (Overbeek et al., 1999; Tamames,
2001). En (Jensen et al., 2002) y (Gomez et al., 2003) se ha mostrado que las características de
las proteínas tales como el punto isoeléctrico, la predicción de su localización subcelular, o de
sitios potenciales de modificaciones post-traduccionales, la cantidad de residuos básicos que
tiene o su tamaño pueden ser utilizadas para determinar a grosso modo la función general en que
participan, es decir la clase funcional (ejemplos: traducción, replicación, transporte, etc.); por
ejemplo, si observamos una proteína con un punto isoeléctrico muy alto, de pequeño tamaño y sin
segmentos transmembrana, podría tratarse de una proteína ribosomal y por tanto pertenecería a
la clase funcional de la traducción. Aunque la resolución de estas nuevas aproximaciones es baja,
representan una alternativa de valor cuando no existen homólogos de función conocida o cuando
queremos observar el paisaje desde distintas perspectivas.
4.1.- Anotación de proteínas a partir de la información funcional existente para sus homólogos.
En esta aproximación, la de estudiar la función de proteínas homólogas, podemos distinguir
algunos pasos como: la búsqueda de proteínas homólogas en las bases de datos, la
interpretación de estas homologías para determinar hasta qué punto podemos asumir una
conservación funcional entre los homólogos, o la propia transferencia de la información funcional
desde el homólogo a la proteína problema. A lo largo de los siguientes puntos se introducirán
estos aspectos, las dificultades que podemos encontrar y cómo se han intentado resolver.
5.- Búsqueda de homólogos
Existen numerosos métodos para encontrar secuencias parecidas entre la enorme cantidad de
secuencias de las bases de datos. Estos métodos se basan en modelos estadísticos para
determinar cuándo estos parecidos se deben a que ambas proteínas comparten un mismo origen
y cuándo se deben a parecidos al azar. Se pueden distinguir dos tipos de métodos: los que
realizan comparaciones entre pares de secuencias y otros más recientes (de nueva generación),
que incluyen información de la familia de proteínas para, por un lado, encontrar homólogos
lejanos (aquéllos que se parecen poco) y, por otro, para discriminar mejor los parecidos que son
fruto del azar de aquéllos que reflejan una homología.
¿Cómo lo hacen? cuando comparamos dos secuencias de forma aislada y observamos unos
pocos residuos idénticos (conservados) es más difícil saber si es algo significativo si no sabemos
si esos mismos residuos están conservados en la familia de proteínas; dicho de otro modo: si los
residuos más importantes para la función de la proteínas son los que aparecen idénticos, la
confianza de que las proteínas sean homólogas es mayor. Esta información de qué residuos son
más importantes sale a la luz con los alineamientos múltiples de secuencias. Estos métodos de
nueva generación son capaces de detectar tres veces más homólogos remotos que los
tradicionales (Park et al., 1998). Entre los primeros métodos se encuentran BLAST (Altschul et al.,
1990; Altschul et al., 1997) y FASTA (Pearson, 1988); y entre los segundos: los basados en
perfiles (Gribskov et al., 1987; Luthy et al., 1994; Thompson et al., 1994), como por ejemplo PSIBLAST (Altschul et al., 1997), y los basados en HMMs o modelos de markov ocultos (Krogh et al.,
1994; Baldi et al., 1994; Eddy, 1996). Finalmente, existe un método que se encuentra a caballo
entre ambos enfoques: el de las búsquedas con secuencias intermedias o BSI (Park et al., 1997;
Gerstein, 1998; Salamov et al., 1999; Li et al., 2000; Abascal & Valencia, 2002), que trabaja con
pares de secuencias pero que, de forma indirecta, permite incluir información de la familia de
proteínas.
5.1.- BLAST (Altschul et al., 1997)
Este método realiza de forma muy rápida una búsqueda de secuencias parecidas en las bases de
datos. Para cuantificar los parecidos se determina una puntuación del alineamiento entre las dos
secuencias. Esta puntuación se obtiene consultando una matriz de substitución en la que está
11
representado, mediante un valor numérico, la frecuencia con que se observan los posibles
cambios entre aminoácidos o la frecuencia con que éstos se conservan. En el caso de BLOSUM
(Henikoff & Henikoff, 1992), la matriz se construye analizando alineamientos múltiples y contando
la frecuencia con que se observan las posibles sustituciones de aminoácidos, a partir de estas
frecuencias y de las frecuencias esperadas se calculan log-odds de los que se derivan las
puntuaciones. BLAST aplica un marco estadístico (basado en un modelo aleatorio que describe
cómo se distribuyen las puntuaciones de parecidos al azar y qué parámetros afectan a esta
distribución) para determinar cuán significativa es una determinada puntuación dadas las
características de la secuencia problema, de la base de datos y de la matriz de substitución, y
proporciona un e-value (valor esperado) que indica, para cada puntuación, cuántas veces
esperaríamos que por azar apareciese esa determinada puntuación o una mejor en la base de
datos utilizada (Karlin & Altschul, 1993; Altschul & Gish, 1996; Pearson, 1998). De forma que si
una puntuación tiene asignado un e-value de 1, quiere decir que por azar esperamos encontrar un
parecido con al menos esa puntuación en la base de datos. Si el e-value es de 1e-03,
esperaremos encontrar 1e-03 parecidos al azar, o lo que es lo mismo, en una de cada mil
búsquedas encontraríamos un parecido debido al azar que alcanzase una puntuación igual o
mejor. Cuando tratamos con e-values menores de 0.01 éstos son prácticamente idénticos a los pvalues, los cuales indican con qué probabilidad un parecido es debido al azar. La relación entre
ambos valores es: P = 1 - e-E, siendo P la probabilidad o p-value y E el valor esperado o e-value.
El método de BLAST resulta muy útil para conocer de forma rápida cuáles son los homólogos
cercanos de una proteína, pero no es capaz de distinguir los homólogos remotos de los falsos
homólogos, a diferencia de los siguientes métodos, que frecuentemente lo consiguen.
5.2.- PSI-BLAST (Altschul et al., 1997)
Este método trabaja en el contexto de familias de proteínas para cuantificar los parecidos y
encontrar homólogos remotos. Su modo de funcionamiento es iterativo: después de realizar una
primera búsqueda con BLAST se construye un alineamiento múltiple con los homólogos
encontrados. A partir de este alineamiento se elabora un perfil o matriz de dimensiones L x n,
siendo L la longitud del alineamiento múltiple y n el número de letras posibles (los 20 tipos de
aminoácidos más algunos otros como el tipo hueco o gap o el tipo X o desconocido). Se calcula la
frecuencia de cada tipo de aminoácido en cada posición del alineamiento, de forma que, en el
perfil resultante, queda incluida información más descriptiva de la familia de proteínas en cuestión
que la obtenida con una matriz de sustitución general (de dimensiones n x n), la cual se construye
a partir de familias muy diversas y no tiene en cuenta la distinta importancia que pueden tener
diferentes posiciones de la secuencia. Al final, las puntuaciones que observamos en el perfil
dependen tanto de la frecuencia en que aparecen los residuos como de las propiedades físicoquímicas de éstos. Con este perfil se realiza una nueva búsqueda, esta vez comparando las
secuencias de la base de datos con respecto al perfil, y los nuevos parecidos encontrados se
utilizan para rehacer el perfil y volver a buscar.
Un problema que puede aparecer con esta aproximación es que si se incluyen falsos homólogos
en la elaboración del perfil puede suceder que en las siguientes búsquedas proteínas no
homólogas presenten una elevada puntuación.
5.3.-HMMs: modelos de Markov ocultos (Eddy, 1996)
Una limitación de PSI-BLAST y otros métodos que utilizan perfiles es que la base probabilística
para determinar las puntuaciones no es sólida. Los perfiles de tipo HMM alivian en gran medida
esta limitación, lo cual se manifiesta en una mayor efectividad para distinguir homólogos lejanos
de parecidos al azar. Siguiendo la descripción de Rabiner (Rabiner, 1989), uno se refiere a un
HMM como algo que genera una secuencia. El HMM está compuesto por un conjunto de estados
(por ejemplo cada una de las posiciones de un alineamiento múltiple). Cada estado 'emite'
símbolos (por ejemplo residuos observados en una determinada posición) de acuerdo a unas
probabilidades de emisión de símbolos, y los estados están interconectados por probabilidades de
transición entre estados, de modo que a partir de un estado se indica con qué probabilidad puede
producirse un salto directo al siguiente nodo, a una inserción o a una deleción. Ya en otras
palabras, es un modelo que, una vez entrenado con un conjunto de proteína homólogas, indica
12
Figura 2. Esquema general de la búsqueda de homólogos y el algoritmo de agrupamiento para
identificar familias de proteínas. En a vemos cómo se obtienen homólogos de las bases de datos y cómo
las BSI permiten identificar homologías lejanas a lo largo de cinco iteraciones. b: a partir de los e-values que
BLAST ha determinado para todas las proteínas que ha encontrado (como si comparáramos todas contra
todas), podemos representar el espacio de secuencias mediante un grafo. c: el algoritmo de agrupamiento
identifica automáticamente qué grupos pueden diferenciarse en ese grafo, deteniendo el agrupamiento
cuando considera que un corte mínimo normalizado ya no es apropiado (según las condiciones de parada
definidas en la sección de métodos). La proteína problema será anotada a partir de la información funcional
existente para las proteínas que han quedado en su mismo grupo (d). El método de anotación también
asignará una anotación para los grupos vecinos.
13
con qué probabilidad se podría obtener cualquier secuencia de símbolos a partir del mismo.
Aplicándolo a la búsqueda de homólogos podemos usarlo para determinar la probabilidad con que
cada secuencia de una base de datos podría ser generada a partir del HMM, lo cual guarda
relación con la probabilidad de que esas secuencias tengan un origen común con las usadas para
construir el modelo.
5.4.- Búsquedas con secuencias intermedias (BSI) (Park et al., 1997; Abascal & Valencia, 2002)
Este método se basa en la aplicación de la propiedad transitiva de la homología entre proteínas:
si dos proteínas A y B son homólogas, y B es homóloga a una tercera proteína C, entonces A y C
también son homólogas; esta propiedad sólo es aplicable cuando las regiones o dominios
homólogos se corresponden: en el caso de proteínas multidominio sólo se cumple si el dominio
compartido entre A y B es el mismo que el compartido entre B y C. Naturalmente, la propiedad
transitiva se puede extender indefinidamente.
Una vez encontrados los homólogos cercanos a una proteína mediante un método de búsqueda
tal que BLAST, podemos utilizar las secuencias de éstos para, mediante nuevas búsquedas,
encontrar sus homólogos cercanos, que pueden ser lejanos con respecto a la proteína inicial. Es
como dar un paseo por el espacio de secuencias, saltando de unas proteínas a otras, aunque
estos saltos nunca podrán ser muy grandes debido a las limitaciones de los métodos tradicionales
de búsqueda.
Si recopilamos todas las distancias (puntuaciones o e-values) entre las proteínas encontradas
mediante BLAST, dispondremos de una descripción del mapa del espacio de secuencias (figura
2), el cual puede ser utilizado con diversos fines, como veremos más adelante.
6.- Dificultades de la anotación automática de función
A continuación describiremos algunas de las dificultades que encontramos a la hora de anotar
automáticamente la función de una proteína y cuáles son los errores que más frecuentemente
podemos cometer y debemos evitar. Podemos distinguir dificultades técnicas, relacionadas con la
calidad de las anotaciones que existen en las bases de datos, con cómo procesar
automáticamente las anotaciones o con el problema de cómo está definida la función de las
proteínas, que tiene un componente subjetivo importante, esto es, dos personas seguramente
anotarían de forma diferente la función de una misma proteína. Por otra parte encontramos
dificultades reales, que tienen que ver con las propias secuencias y con el modo en que
evolucionan las proteínas. A medida que describamos estos problemas, señalaremos cuáles han
sido algunas de las soluciones que se han propuesto.
7.- Interpretación adecuada de las homologías: ¿cuánto se parece la función de dos
proteínas con un origen común?
7.1.- Durante la evolución se han generado nuevas funciones mediante el barajado de dominios
(Rossmann & Argos, 1981; Blake, 1983; Gilbert, 1985; McCarthy & Hardie, 1984)
Como se ha mencionado anteriormente, las proteínas frecuentemente constan de varios dominios
estructurales, cada uno de los cuales desempeña una función determinada, existiendo por
ejemplo dominios adaptadores que median en interacciones proteína-proteína (ej.: dominio SH3),
dominios capaces de llevar a cabo reacciones enzimáticas (ej.: dominio proteína quinasa) o
dominios con una función estructural como los dominios transmembrana. A lo largo de la
evolución se han generado proteínas con nuevas funciones mediante el barajado de los distintos
dominios. En (Tood et al., 2001) se observó que en 27 de 31 superfamilias analizadas la
organización de dominios variaba entre los distintos miembros (ver ejemplo en la sección 3.4 de la
introducción).
Por tanto, cuando queremos saber si dos proteínas homólogas realizan la misma función hay que
estudiar qué dominios tienen cada una de ellas, o qué regiones de sus secuencias son las que
alinean (Smith & Zhang, 1997; Bork & Koonin, 1998; Bork et al., 1998; Doerks et al., 1998;
14
Andrade, 1999). También hay que tener en cuenta estas consideraciones cuando se aplica la
propiedad transitiva de la homología (Yona et al., 1999; Park et al., 1997; Abascal & Valencia,
2002).
Sin embargo, la identificación de los dominios tampoco resuelve el problema: así como no es
trivial determinar la estructura tridimensional de una proteína a partir de su secuencia
aminoacídica, las propiedades de las proteínas pueden ser explicadas, pero no deducidas, a partir
de sus dominios (Attwood, 2000).
7.2.- Homólogos: ortólogos y parálogos. Familias y subfamilias.
En la aproximación al estudio de cómo ha evolucionado la función de proteínas homólogas de
(Devos & Valencia, 2000), se analizó cuánto variaban los códigos de actividad enzimática de la
Enzyme Commission (EC; se puede encontrar una descripción en: Bairoch, 2000) entre proteínas
homólogas con distintos grados de parecido. Esta clasificación de los enzimas es jerárquica y
consta de cuatro dígitos el primero de los cuales identifica la clase: 1, oxidorreductasas; 2,
transferasas; 3, hidrolasas; 4, liasas; 5, isomerasas; y 6, sintetasas; los siguientes dígitos se
refieren al mecanismo molecular, los cofactores que intervienen en la reacción, el sustrato, etc.
Los resultados mostraron que cuanto menor era el porcentaje de identidad de secuencia de las
proteínas alineadas tanto menos se conservaban los códigos EC: la tendencia general es que por
encima del 80% de identidad se conservan los cuatro dígitos, entre el 50 y el 80%, sólo los tres
primeros, y tanto menos cuanto menor es el parecido. Estas tendencias son generales: en el caso
de la hidrolasa de pollo (código pdb 3lzt) y la lactoalbúmina alfa de cabra (1hfyA) la identidad de
secuencia es del 41%, pero los códigos EC son completamente distintos (3.2.1.17 y 2.4.1.22),
mientras que en el caso de la glutation S-transferasa de humanos y su homóloga en Arabidopsis
thaliana, la conservación del EC es total aunque el parecido sea de sólo el 16%.
Todd y sus colaboradores (Todd et al., 2001) también estudiaron la variación de los códigos EC,
observando que éstos variaban en prácticamente la mitad de 167 superfamilias de proteínas
analizadas; en 22 de estas superfamilias el código EC variaba completamente.
Estos resultados muestran que un mismo dominio o proteína puede dar lugar a distintas funciones
a través de procesos de mutación. El hecho de que no exista una correlación perfecta entre
cuánto se parecen dos secuencias y cuán similar es su función se debe a que cada subfamilia o
familia de proteínas presenta un grado de divergencia distinto, dependiendo de su antigüedad y
de las constricciones que sobre la secuencia impongan la conservación de la función y la
estructura. Por tanto, para saber cuándo se ha conservado la función debemos analizar las
proteínas en el contexto de familias y subfamilias, de grupos de ortólogos, en definitiva (Smith &
Zhang, 1997; Tatusov et al., 1997; Bork & Koonin, 1998; Doerks et al., 1998; Andrade et al., 1999;
Ponting et al., 2001).
8.-Clasificación de proteínas
A continuación presentamos algunos trabajos de clasificación de proteínas que guardan relación
con los dos puntos previos. Estas aproximaciones presentan distintas características según el
método de clasificación aplicado, el conjunto de proteínas por clasificar y la información que
persiguen obtener.
8.1.- Árboles filogenéticos
Existen diversas formas de determinar la historia evolutiva de un conjunto de secuencias
relacionadas. Algunos métodos utilizan como información de partida conjuntos de características
(por ejemplo, el tipo de residuo presente en cada posición de cada secuencia) y otros se basan en
simples medidas de distancias entre las secuencias. El objetivo es encontrar el árbol que más
sencillamente concuerde con las observaciones de partida.
Los métodos basados en distancias son los más usados y entre ellos se encuentran los de
UPGMA y de neighbor joining o de unión al vecino (Saitou & Nei, 1987). El funcionamiento básico
del método de UPGMA es el siguiente: primeramente, cada secuencia está representada por un
nodo y se unen los dos nodos más cercanos en un nuevo nodo (representa el ancestro de ambas
15
secuencias). Entonces se vuelven a calcular las distancias entre los nodos aún no unidos y el
nuevo nodo. Y se vuelven a unir los dos nodos más cercanos y a recalcular las distancias. Y así
hasta que el árbol está completo. Este método asume que en las distintas ramas del árbol el ritmo
al que han divergido es constante, ya que el cálculo de la distancia entre un nuevo nodo AB (el
ancestro de los nodos A y B) y los otros se toma como la media de la distancia de los dos nodos
A y B y cada uno de los otros. Sin embargo, rara vez el reloj molecular es constante, por lo que
este método puede generar árboles incorrectos. Otro método basado en distancias es el de unión
al vecino (Saitou & Nei, 1987). Éste método asume que el mejor árbol es aquél en el que la
longitud total de las ramas es menor. En cada etapa se unen los dos nodos que minimizan la
longitud del árbol. Seguidamente se recalculan las distancias entre el nuevo nodo y el resto. Este
proceso se repite hasta que el árbol está completo. Tiene las ventajas de que es rápido y de que
no asume un ritmo constante de divergencia, aunque no garantiza que obtengamos el árbol con
una longitud de las ramas mínima. El método de minimum evolution o evolución mínima
(Thompson, 1973) es similar aunque es menos eficiente.
Los métodos basados en caracteres, aplicados a proteínas, tienen en cuenta cada una de las
posiciones de un alineamiento múltiple, y procuran obtener aquel árbol que concuerde mejor con
las sustituciones observadas. Cuando los homólogos son lejanos una diferencia observada en
una posición puede equivaler a varias mutaciones sucesivas por lo que estos métodos pueden
producir resultados erróneos. El método de máxima parsimonia (Eck & Dayhoff, 1966) asume
que el árbol ideal es aquél en el que el número de cambios para ir desde una secuencia ancestral
a cualquier descendiente es mínimo. El de máxima verosimilitud (Cavalli-Sforza & Edwards,
1967; Felsenstein, 1981) utiliza un modelo probabilístico. Para cada posición de cada secuencia,
calcula la probabilidad de transición de un tipo de residuo a otro en cada rama del árbol. Dado
que el método asume que cada posición de las secuencias es independiente de las otras, el árbol
con una verosimilitud máxima se puede calcular a partir del producto de las verosimilitudes de las
distintas posiciones.
Los árboles filogenéticos, aunque pueden ser usados para eso, no proporcionan una clasificación
en familias y subfamilias, sino que van más allá e indican para cada secuencia cuál es,
aparentemente, la más cercana. Para identificar las distintas familias habría que observar el árbol
o bien desarrollar un método que hiciese esto automáticamente. El análisis de un árbol
filogenético puede revelar muchos aspectos funcionales de las proteínas, por ejemplo podemos
determinar qué posiciones están conservadas por razones históricas y cuales lo están por motivos
funcionales.
8.2.- PROTOMAP (Yona et al., 1999)
El objetivo que persigue es obtener una clasificación jerárquica del conjunto de todas las
proteínas conocidas. Para ello, calcula el parecido entre todas las secuencias mediante métodos
como el de BLAST. Esta información es representada mediante un grafo G(V, E), que es una
estructura de datos en la que hay nodos y arcos que unen los nodos entre sí. En el caso de grafos
con peso estos arcos tienen asociado un valor. En PROTOMAP cada secuencia es representada
por un nodo y las relaciones entre las secuencias (cuando existen) se plasman mediante un arco
entre los nodos con un valor asociado equivalente al del e-value. Una vez representado así el
conjunto de las secuencias, se aplica el algoritmo para obtener la clasificación jerárquica:
0.- Se unen todos aquellos nodos conectados por arcos con un e-value menor de 1e-100,
resultando en un conjunto inicial de grupos de secuencias o clusters.
1.- Se calculan las distancias entre los clusters como la media geométrica de los e-values
asociados a los arcos que los interrelacionan. De todos los arcos posibles entre las secuencias de
dos clusters, sólo se observan aquéllos con un e-value menor de 1; para calcular la distancia
entre dos clusters, a todos los arcos que no existen se les asigna un e-value de 1. De esta forma,
las distancias serán menores cuantos más arcos existan entre dos clusters, y cuanto menores
sean los e-values asociados a éstos.
2.- Si esta distancia es menor que la raíz cuadrada de un umbral T, se unen los clusters y se
vuelven a recalcular las distancias.
3.- El procedimiento de los pasos 1 y 2 se aplica recursivamente utilizando distintos umbrales T,
(T=1e-95; T=1e-90; T=1e-85; ... T=1e-00=1).
16
El resultado es una clasificación jerárquica: a medida que se relaja el T observamos grupos o
clusters cada vez más poblados que incluyen grupos de secuencias más alejados. La inspección
visual de esta jerarquía permite identificar familias y subfamilias.
8.3.- COGs (Tatusov et al., 1997; Tatusov et al., 2001)
La base de datos de COGs (clusters of orthologous groups o conjuntos de grupos de ortólogos)
tiene como objetivo clasificar en grupos de ortólogos las proteínas de microorganismos de los que
conocemos su genoma completo. La idea es buscar los best bidirectional hits (BeTs) o 'mayores
parecidos en ambas direcciones': si la proteína A del genoma X tiene uno o más homólogos en el
genoma Y, pero el más parecido es A', y si A' (de Y) tiene también uno o más homólogos en X,
pero el que más se parece es A, entonces se supone que A y A' son ortólogos, mientras que las
otras homologías son entre parálogos. Esta forma de identificar ortólogos puede fallar en
determinadas situaciones, como por ejemplo cuando se produce una pérdida de genes diferente
en dos especies: si en un genoma de una especie ancestral hubiese dos genes homólogos A y B
y en dos especies descendientes de ésta se hubiesen perdido por deleción uno de estos genes,
en una especie el A y en la otra el B, resultaría que hay un BeT entre ambos genomas entre las
proteínas A y B, que son parálogas y no ortólogas. Este posible problema es resuelto en COGs de
dos maneras. El algoritmo usado para construir los COGs es el siguiente:
1.- Hallar los BeTs entre todas las proteínas de los genomas de microorganismos conocidos
(actualmente hay 43 genomas en COGs, aunque en la nueva versión que están preparando habrá
66, y además se incluirán genomas de eucariotas superiores).
2.- Fusionar los parálogos presentes dentro de una misma especie que provengan de una
duplicación reciente, esto es, los que se parecen más entre ellos que con respecto a cualquier
otro gen de otro genoma (in-paralogs). De esta forma eliminamos el ruido que puede introducir su
presencia.
3.- Dentro del grafo de genes (nodos) y relaciones tipo BeT (arcos) se buscan triángulos de genes
que, procediendo de especies de linajes diferentes, sean BeTs entre ellos, es decir, estén
conectados entre sí. El hecho de que existan relaciones BeT cruzadas entre genomas no
cercanos evolutivamente aumenta la confianza de que la relación BeT identifique una relación de
ortología.
4.-A continuación, se fusionan todos aquellos triángulos que compartan alguno de sus lados. Los
grupos resultantes representan COGs, en los que hay ortólogos e in-paralogs.
5.- Finalmente, se realiza un análisis caso por caso para eliminar falsos positivos o separar dos
grupos de ortólogos que erróneamente hayan quedado unidos en un sólo COG. En los casos en
que en alguno de los organismos se haya producido una fusión génica las relaciones BeT no
identifican todas las relaciones de ortología, que en estos casos pueden ser dobles, es decir, un
gen fusionado puede tener dos ortólogos en otra especie, uno por cada uno de los genes que se
han fusionado. En estos casos de proteínas multidominio problemáticas se dividen éstas en
unidades evolutivas menores, es decir, en dominios aislados, y se vuelve a repetir el análisis. Por
otra parte, en el caso de COGs que contienen muchos genes se realiza un análisis filogenético y
una inspección de los alineamientos para determinar si conviene subdividirlos en COGs menores.
Además se realiza una anotación manual de la función o funciones presentes en cada COG.
Esta aproximación sólo se puede aplicar a genomas completos de microorganismos ya que para
tener confianza en que un BeT entre dos especies representa una ortología debemos conocer
todos los genes de ambos genomas. Su aplicación a organismos eucariotas superiores puede
resultar más complicada debido a que en éstos, al haber más proteínas multidominio que en
microorganismos, el establecimiento de relaciones de ortología mediante BeTs puede fallar más a
menudo. Por ejemplo, en eucariotas sucede que en muchas rutas biosintéticas, como las de las
rutas de síntesis de purinas y pirimidinas, varias enzimas aparecen juntas en una misma cadena
polipeptídica, mientras que en bacterias suelen aparecer separadas (Henikoff et al., 1997).
8.4.- GeneRAGE (Enright & Ouzounis, 2000)
En este trabajo se clasifican todas las proteínas en grupos de secuencias relacionadas, mediante
un algoritmo de single linkage clustering o agrupamiento por simple enlace: todos aquellos nodos
de un grafo que estén conectados por algún arco con una similitud (e-value, z-score...) menor que
17
un umbral determinado se consideran pertenecientes a un mismo grupo. Para aplicar de forma
adecuada la propiedad transitiva de la homología GeneRAGE incorpora un método para dividir
automáticamente las proteínas en dominios. Su objetivo es clasificar en grupos de homólogos,
pero no ofrece información más detallada o precisa.
8.5.- SYSTERS (Krause et al., 2000; Krause et al., 2002)
El objetivo es la clasificación automática de todas las proteínas de Swiss-Prot (Bairoch &
Apweiler, 2000) y PIR (Wu et al., 2002) en grupos de forma jerárquica, en superfamilias, familias y
subfamilias. A partir de los parecidos entre las secuencias, encontrados con BLAST, se realiza un
primer agrupamiento utilizando el algoritmo de agrupamiento por simple enlace. Estos grupos
luego son divididos en otros más pequeños utilizando un algoritmo de corte mínimo (Wu & Leahy,
1993), lo cual resulta en una jerarquía.
8.6.- TRIBES (Enright et al., 2002; Enright et al., 2003)
Aplica un método llamado TRIBE-MCL, el cual está basado en el algoritmo de Markov cluster o
grupo de Markov. En un grafo en el que las secuencias parecidas están conectadas entre sí, en
un grupo de proteínas correspondiente a una familia encontraremos muchas conexiones. De este
modo es fácil imaginar que existen más caminos posibles (definidos por los arcos que conectan
los nodos) entre dos secuencias de una misma familia que entre secuencias que, aunque
conectadas, sean de familias distintas. Si simulamos random walks o paseos aleatorios por el
grafo, aquellos caminos por los que pasemos más frecuentemente definirán las familias de
proteínas. Este método es bastante robusto frente al problema de la promiscuidad de los dominios
y se ha utilizado para detectar y anotar familias de proteínas del genoma humano en el proyecto
de Ensembl (Clamp et al., 2003).
8.7.- PFam (Sonnhammer et al., 1997; Bateman et al., 2002) e InterPro (Apweiler et al., 2000;
Mulder et al., 2003)
En PFam se clasifican dominios y no proteínas. Se utilizan diversas fuentes de información acerca
de los dominios conocidos para generar unos HMMs-semilla tales que sirvan para identificar en
otras proteínas (mediante búsquedas con HMMs) esos mismos dominios. Este proceso de
generación de un HMM-semilla es manual, y el radio evolutivo que abarca depende de razones
subjetivas y de las características del dominio, así, en algunos casos un dominio de Pfam se
corresponde con varias familias mientras que en otros con una sola. Actualmente existen 5.193
dominios definidos en PFam-A, presentes en un 73% de las proteínas de Swiss-Prot y TrEMBL
(Bairoch & Apweiler, 2000). Paralelamente, aparte de estos dominios conocidos de PFam-A, se
derivan otros, esta vez automáticamente, a partir de la base de datos ProDom (Corpet et al.,
1998), para intentar cubrir los casos de dominios que aún no han sido identificados.
Aproximadamente un 20% de las proteínas de Swiss-Prot y TrEMBL presentan al menos un
dominio de éstos, es decir, un dominio de Pfam-B.
InterPro es una iniciativa para poner en un mismo marco los datos de PFam y de otras bases de
datos de dominios como PRINTS (Attwood et al., 1998), PROSITE (Sigrist et al., 2002), ProDom
(Corpet et al., 1998), SMART (Schultz et al., 1998) y TIGRFAMs (Haft et al., 2001). En esta base
de datos se introduce una jerarquía definiendo superfamilias, familias y subfamilias e indicando
para cada categoría cuál es el correspondiente dominio en cada una de las bases de datos
mencionadas.
8.8.- SequenceSpace (Casari et al., 1995)
Ésta es una aproximación a la clasificación de las proteínas un poco distinta de las otras y puede
aplicarse tanto para identificar residuos funcionales en las proteínas como para determinar qué
familias existen. El punto de partida es un alineamiento múltiple. Cada proteína del alineamiento
se representa como un vector, de modo que situamos cada proteína en un espacio de secuencias
con un número de dimensiones proporcional a la longitud tenga el alineamiento (20xL, de los
veinte tipos de aminoácidos por la longitud del alineamiento). Mediante un análisis de
componentes principales se pueden proyectar las proteínas sobre un espacio de menos
18
dimensiones y así visualizar qué grupos de proteínas hay en el alineamiento. Paralelamente se
puede identificar qué residuo-posiciones del alineamiento múltiple reflejan de un mejor modo la
situación de las proteínas, los cuales posiblemente están relacionados con las funciones
particulares de cada familia o subfamilia.
9.- Anotaciones funcionales en las bases de datos: tipos, contaminación, nomenclatura.
A medida que se secuencian nuevas proteínas, se deposita esta información en bases de datos
de acceso público. Paralelamente, se lleva a cabo una anotación de la función de estas proteínas,
bien a partir de datos experimentales o bien a partir de los parecidos observados con otras
secuencias de función conocida. También existen programas que, al predecir características
como la localización subcelular de la proteína (Horton & Nakai, 1997; Emanuelsson et al., 2000) o
si ésta presenta hélices transmembrana (Krogh et al., 2001; Rost & Liu, 2003), aportan
información funcional valiosa. Algunos de los repositorios de proteínas más conocidos son: SwissProt (Bairoch & Apweiler, 2000), PIR (Wu et al., 2002), TrEMBL (Bairoch & Apweiler, 2000) y PDB
(Berman et al., 2000). Debido a que la mayoría de las veces la anotación se hace basándose en
la homología entre las proteínas, la posible contaminación de las bases de datos es uno de los
mayores problemas, ya que una anotación inicial incorrecta puede ser propagada a nuevas
proteínas homólogas.
9.1.- Swiss-Prot y su suplemento TrEMBL (Bairoch & Apweiler, 2000; Apweiler, 2001)
Estas bases de datos de proteínas son mantenidas en colaboración por el Swiss Institute for
Bioinformatics (SIB) y por el European Bioinformatics Institute (EBI). El problema que supone el
hecho e conocer una ingente cantidad de secuencias se afronta en este consorcio del siguiente
modo. Por una parte, se obtienen las traducciones automáticas de las secuencias codificantes en
la base de datos de nucleótidos de EMBL (Stoesser et al., 1999), el primo europeo de GenBank.
El volumen de información así generado periódicamente es tal que no es posible anotar
manualmente la función de cada una de esas proteínas, sino que estas secuencias son anotadas
utilizando métodos automáticos, y los resultados se almacenan en la base de datos de TrEMBL,
como antesala a su entrada en Swiss-Prot. Allí, en Swiss-Prot, se intenta anotar la mayor cantidad
posible de información acerca de cada proteína, pero siempre de un modo supervisado por
expertos. A pesar de que en Swiss-Prot sólo están un 10% de las proteínas que conocemos, sus
anotaciones tienen una elevada calidad. En agosto de 2003, en TrEMBL había depositadas
938.394 secuencias, mientras que en Swiss-Prot había 132.244. La fuente principal para la
anotación automática en TrEMBL son las propias anotaciones que hay en Swiss-Prot. Más
adelante se describen algunos de los métodos que han desarrollado para construir TrEMBL.
9.1.1.- Información presente en Swiss-Prot y TrEMBL
En cada entrada correspondiente a una proteína, encontramos especificado en distintos campos:
el identificador único de la proteína, una descripción general de su función y actividad enzimática,
el nombre del gen correspondiente, el nombre de la(s) especie(s) de que proviene así como su
taxonomía, enlaces a otras bases de datos, los títulos de algunos de los artículos en los que se
estudia esa proteína, la propia secuencia aminoacídica, algunas de las características de la
misma como estructura secundaria (si se conoce), centro activo, sitios de modificación posttraduccional, y un largo etcétera.
En cuanto a las características más funcionales de las proteínas existen cuatro campos
destacables:
• línea o campo 'DE': en él se describe de forma breve y general de qué proteína se trata o cuál
es su función. También se indica el código EC en caso de tratarse de un enzima. Ejemplo: Sacyl fatty acid synthase thioesterase, medium chain (EC 3.1.2.14)
(Thioesterase II).
• línea o campo 'CC': en este campo se incluyen comentarios más amplios que aportan más
información, tales como la estructura cuaternaria de la proteína (si la tiene y se conoce), la
química de la reacción enzimática (si es un enzima), si tiene expresión específica de tejido,
19
etcétera.
línea o campo 'KW': a partir de un vocabulario limitado y controlado de palabras clave o
keywords se describen algunas de las características más relevantes de las proteínas. Este
vocabulario consta de unas 880 palabras, tales como Apoptosis, Biological rhythms o
Down's syndrome.
• línea o campo 'FT': en éste se especifican características de las distintas regiones de la
proteína como la localización del centro activo, la estructura secundaria o los sitios de
modificación post-traduccional.
•
9.2.- ¿Qué es la función de las proteínas? ¿Cómo describirla?
Además de la contaminación de las bases de datos, otro problema relevante se deriva de la falta
de acuerdo en la definición de la función de una proteína (Smith & Zhang, 1997; Wilson et al.,
2000). Así, en el caso de la proteína ras-p21, un enzimólogo posiblemente verá una proteína
capaz de unir e hidrolizar GTP; un biólogo molecular, quizás, una proteína implicada en la
transducción de señales al interior celular; un biólogo celular, verá, sin embargo, una proteína que
puede estar asociada a transformación celular; y alguien que estudie la genética del cáncer, se
referirá a esta proteína como a un proto-oncogén. En realidad, cuando se anota una proteína se
pueden tener en cuenta muchos de estos aspectos simultáneamente; por ejemplo, LITA_HUMAN
está anotada en Swiss-Prot como “Lithostathine 1 alpha precursor (Pancreatic stone protein)
(PSP) (Pancreatic thread protein) (PTP) (Islet of langerhans regenerating protein) (REG)
(Regenerating protein I alpha) (Islet cells regeneration factor) (ICRF))”, pero las descripciones no
siempre son tan prolijas.
Por otra parte, ya se ha mencionado que los ortólogos suelen conservar la función, aunque
también es verdad que, aún conservándola, pueden existir ligeras diferencias de una especie a
otra. Una especificación demasiado precisa de la función de una proteína puede, por tanto, no ser
susceptible de ser transferida a un ortólogo. Por ejemplo, las proteínas PS2_HUMAN y PS2_MOUSE
están anotadas como "PS2 protein precursor (HP1.A) (Breast cancer estrogen-inducible protein)
(PNR-2)" y "PS2 protein precursor", respectivamente. En el primer caso, dada la importancia del
dato que relaciona esta proteína con cáncer en humanos se incluye esta información en la
descripción, pero no tiene por qué ser válida para el ratón.
También es significativo el problema de que existen muchas formas de referirse a una misma
función, dado que el lenguaje humano es muy rico en construcciones y sinonimias. Por ejemplo,
las sintetasas de ARNt, en hongos aparecen anotadas como ligasas de ARNt. O, por ejemplo, el
caso de la dihydroxyacetone-P”, que los japoneses e ingleses suelen citar como “glycerone-P”
(ejemplos tomados de Smith & Zhang, 1997).
Una solución propuesta para resolver estos problemas es desarrollar vocabulario específico para
definir la función de las proteínas.
9.2.1.- Ontologías para definir la función de las proteínas
Actualmente existen varias iniciativas que tratan de poner un poco de orden en el mare mágnum
de las anotaciones de las proteínas (Stevens et al., 2000; Ashburner et al., 2000). En el caso de
las actividades enzimáticas, la Enzyme Commission establece un vocabulario estricto para
representar cada una de las posibles reacciones bioquímicas (cada reacción se describe
utilizando cuatro dígitos). Evidentemente, aunque útil, esta aproximación resulta insuficiente para
definir la función de las proteínas, ya que ésta es mucho más que actividades bioquímicas (de
hecho sólo una reducida fracción de las proteínas tienen actividad enzimática); para definir la
función debemos referir otros aspectos como cuál es el objetivo biológico de la proteína o si ésta
forma parte de alguna estructura subcelular o componente molecular. Para aliviar estos
problemas se han desarrollado diversas ontologías.
Si, referido a un área de conocimiento, como por ejemplo la biología, discernimos qué conceptos
más pequeños constituyen los ladrillos con los que se construyen otros más elevados, y si
definimos estos conceptos y el modo en que se interrelacionan entre sí, habremos definido una
ontología (se define la semántica y la gramática) (Stevens et al., 2000). En realidad, hay ciertas
disparidades en el modo en que se entiende el concepto de ontología en distintas áreas del
conocimiento. Originalmente, se ha utilizado en filosofía para referirse al intento de determinar
20
qué tipo de entidades o “cosas” existen en el universo; posiblemente, en su intento por categorizar
lo que observamos, Aristóteles se convirtió en uno de los primeros ontologistas. Los ingenieros
informáticos, cuando hablan de ontologías, incluyen también la información de cómo se
relacionan las distintas entidades, aunque a veces en los esquemas que desarrollan no definen
las entidades (Smith et al., 2003).
La iniciativa de GeneOntology (Ashburner et al., 2000) trata de desarrollar una ontología para
definir la función de los genes en un organismo. Para ello establece entidades como proteína,
gen, citoplasma, núcleo, ligando o adenilato ciclasa de una forma jerárquica e interrelacionada:
mediante un grafo dirigido acíclico, y a partir de tres conceptos muy generales (componente
celular, función molecular y proceso biológico). Una vez definida la ontología, diversos equipos
están anotando manualmente proteínas conectándolas con distintos nodos de este grafo acíclico.
Esta tarea es lenta y aún no son muchas las proteínas así anotadas
(http://www.geneontology.org/doc/GO.current.annotations.html). Algunas iniciativas han tratado de
anotar automáticamente las proteínas según esta ontología (Xie et al., 2002; Hennig et al., 2003;
Blaschke & Valencia, 2003; Jensen et al., 2003), pero con resultados dudosos. Actualmente se
está tratando de integrar con Swiss-Prot, TrEMBL e InterPro utilizando una combinación de
métodos automáticos y manuales (Camon et al., 2003). En realidad, a pesar de su nombre, no es
una verdadera ontología, ya que más que intentar definir de forma lógica y coherente las distintas
entidades y sus relaciones, trata de establecer un esquema lo más sencillo posible para describir
la función de las proteínas de acuerdo a nuestros esquemas mentales; se puede decir que
sacrifica coherencia en pos de eficiencia (Smith et al., 2003). Además, sólo un 20% de las
entidades que establece tienen una definición asociada. Sería mucho más complicado crear una
verdadera ontología, pero facilitaría mucho la automatización de las anotaciones, que actualmente
se basa principalmente en la supervisión de expertos que relacionan un gen o proteína con una
serie de nodos de la jerarquía.
Otra iniciativa interesante es la de TaO, la ontología del sistema TAMBIS (Stevens et al., 2000).
Este sistema, TAMBIS, tiene como objetivo que el acceso a la información de las bases de datos
biológicas sea más sencillo para los usuarios, a la vez que interrelaciona la información de
diversas fuentes. Para llevar a cabo este propósito, el sistema se sustenta en una ontología: TaO,
la cual tiene algunas características interesantes como que puede crecer de modo automático, sin
intervención humana. Su objetivo no es tanto definir la biología molecular sino el modo en que la
información biológica está representada en las bases de datos. La ontología se construye
utilizando un lenguaje de representación del conocimiento conocido como Description Logics
(DLs) o lógica de descripción. Al igual que GeneOntology, tampoco es una ontología en sentido
estricto.
Podemos encontrar otras iniciativas para la representación del conocimiento biológico en: The
RiboWeb Ontology (Altman et al., 1999), The EcoCyc Ontology (Karp et al., 1997) y The Ontology
for Molecular Biology (Schulze-Kremer, 1998).
Estos intentos de representar el conocimiento biológico han despertado cierta polémica: los
detractores sugieren que nuestro conocimiento es una representación simplista y en continua
evolución de la naturaleza y por tanto, esfuerzos por normalizar nuestra forma de referirnos a los
procesos biológicos hará más difícil que aparezcan nuevas ideas o enfoques (Brenner, 2002). Los
defensores recuerdan que la ontología no es estática, también puede evolucionar y que el objetivo
perseguido no es sustituir al conocimiento experto sino poner un poco de orden en el
conocimiento que está disperso en las bases de datos, lo cual ayudará especialmente a la
interpretación mediante métodos computacionales de la información existente (Hunter, 2002).
10.- Algunas aproximaciones a la anotación automática de la función de las proteínas
A continuación se exponen algunos de los esfuerzos para automatizar la tarea de anotar las
proteínas.
10.1.- GeneQuiz: automatización del análisis y anotación de genomas (Andrade et al., 1999)
Este sistema (introducido más arriba), que fue uno de los primeros intentos de automatización del
21
análisis de genomas, integra la información de varios métodos bioinformáticos en un mismo
esquema, facilitando el acceso a éstos para los no iniciados. Además realiza una anotación
funcional: por un lado asigna una clase funcional general a partir del estudio de las palabras
claves de los homólogos; por otro, asigna una descripción más específica de la función (del tipo
de las presentas en el campo 'DE' de Swiss-Prot). A partir de los homólogos encontrados con
diversos programas de búsqueda como BLAST, iterativamente, empezando por los homólogos
más parecidos, realiza un análisis léxico para determinar si la anotación funcional de éstos es
informativa y susceptible de ser heredada por otra proteína. Primeramente, gracias a algunas
reglas, se descartan aquellas descripciones que claramente no son informativas de la función de
las proteínas, como por ejemplo descripciones que contienen "sequencing in progress" o
"polyprotein". Seguidamente, si la descripción ha pasado el primer filtro, se eliminan de ella todas
aquellas palabras o combinaciones de éstas que son frecuentes en las bases de datos y que no
contienen información funcional ("in * intergenic region", "protein", "probable", "hypothetical", etc.)
y entonces se aplican algunas reglas para determinar si lo que queda de la descripción contienen
información funcional (por ejemplo que contenga códigos enzimáticos), en cuyo caso se acepta.
Si no es aceptada por esta vía, aún queda otra posibilidad: se eliminan de lo que queda de la
descripción todas aquellas palabras pequeñas (de menos de 5 letras), los números y las palabras
compuestas por números y letras; si tras este filtrado aún queda al menos una palabra en la
descripción, entonces se acepta. De todas las descripciones aceptadas, se transfiere aquélla
correspondiente al homólogo más parecido.
Algunas fuentes de error que puede sufrir esta aproximación son, como señalan los propios
autores, la incapacidad para distinguir cuándo los homólogos pertenecen o no a una misma
subfamilia o cuando la función transferida no se corresponde con la región o dominios homólogos
sino con otra distinta.
10.2 Anotación automática de TrEMBL
Se han aplicado grandes esfuerzos en la tarea de anotar automáticamente las proteínas de
TrEMBL previamente a la anotación manual de Swiss-Prot, con el objetivo de intentar reducir en
lo posible el creciente abismo que existe entre el número de proteínas cuya anotación ha sido
supervisada por expertos y el número de las que conocemos poco más que su secuencia.
Algunos de los métodos que se han desarrollado se exponen a continuación:
• EditToTrembl (Moller et al., 1999): en este trabajo se pretende enriquecer de forma automática
la información funcional presente en las líneas CC, FT y KW de TrEMBL, esto es, se intenta
añadir información como la actividad enzimática, la localización subcelular, la presencia de
péptidos señal o regiones transmembrana a cada proteína. La anotación se lleva a cabo por
medio de la ejecución intrincada de diversos métodos de análisis de secuencias, tales como
TMHMM (predicción de hélices transmembrana) o NNPSL (predicción de localización
subcelular), y de la extracción de información de otras bases de datos, tales como Enzyme,
Prints, PFam o Prosite. A través de wrappers o envoltorios se definen los parámetros de cada
programa y se traducen los distintos formatos al formato propio de TrEMBL. Asimismo, se
establecen una pre-condiciones que indican en qué situaciones es apropiado o no ejecutar
alguno de estos analizadores. También se definen las interdependencias entre las distintas
fuentes de información, así, por ejemplo, antes de predecir la localización subcelular con el
método de NNPSL se debe confirmar que la proteína no es transmembrana, bien mediante el
método de TMHMM, o mediante la identificación de patrones de PROSITE que sólo aparezcan
en proteínas que no son transmembrana. El sistema consta de otros módulos que se encargan
de interpretar los resultados de los wrappers y las interdependencias descritas para ejecutar
los distintos métodos. Finalmente, sólo se anota aquella información que se considera
altamente fiable.
• (Fleischmann et al., 1999): este trabajo, en el que se trata de transferir información funcional
desde homólogos de función conocida, es un complemento al de EditToTrembl. La información
que se intenta transferir es muy variada: la descripción de la función general de la proteína, sus
dominios, su actividad catalítica, sus cofactores, la regulación que tiene o si se expresa
específicamente en un determinado tejido, entre otras. El objetivo que persigue este método es
usar la información funcional de los homólogos evitando los riesgos que conlleva transferir la
22
función desde la proteína más parecida o no tener en cuenta la organización de dominios de
las proteínas. Para ello las proteínas de función conocida de una base de datos como SwissProt son agrupadas según características como la presencia de patrones de Prosite, los cuales
identifican dominios o motivos. Entonces se determina qué parte de la anotación de estas
proteínas es común a todas (o casi todas) las de un mismo agrupamiento, gracias a lo cual se
derivan reglas tales como que la presencia del patrón de Prosite PS00157 se corresponde con
una descripción general de la función como 'Ribulose bisphosphate carboxylase large chain'
(línea DE), con un código EC '4.1.1.39' o con unas palabras clave determinadas. Para reducir
el riesgo de contaminación de la base de datos con anotaciones incorrectas se exige además
que la taxonomía del organismo del que procede la proteína sea coherente con la
representación taxonómica presente en los grupos de proteínas. Gracias a estas reglas,
aunque con una baja cobertura (sólo se anotan el 10% de las proteínas de TrEMBL), se puede
añadir automáticamente información funcional de una forma muy fiable. Esta limitación de la
cobertura podría salvarse utilizando como criterio para el agrupamiento de proteínas otras
bases de datos distintas de Prosite, especialmente si éstas tienen una jerarquía, como es el
caso de InterPro. De hecho, en las últimas versiones se sigue este nuevo esquema.
• (Kretschmann et al., 2001): usando el algoritmo de data mining o minería de datos de C4.5
(Winston, 1992) se derivan automáticamente reglas para la anotación de palabras claves a
partir de un diccionario de unos 850 términos. Al igual que en el anterior método, se
determinan grupos de proteínas, aunque esta vez a partir de InterPro y no Prosite. El algoritmo
de C4.5 es capaz de extraer conocimiento de un conjunto de datos: a partir de una tabla en la
que hay columnas con distinta información, y filas con datos concretos (por ejemplo, proteínas)
se intenta identificar qué columnas (o combinaciones de éstas) están más íntimamente
relacionadas con una característica observada, en este caso 'la presencia de una determinada
palabra clave'. El resultado es una lista de reglas que pueden servir para anotar tanto
automática como manualmente nuevas proteínas, ya que las reglas pueden ser interpretadas.
Cada una de estas reglas tiene asociada una evidencia estadística, lo cual permite elegir unas
u otras según qué grados de fiabilidad y cobertura se deseen (como es natural, éstos son
inversamente proporcionales).
10.3.- PRECIS (Reich et al., 2001): más que un método de anotación es un destilador de
información. A partir de un conjunto de identificadores de proteínas homólogas de Swiss-Prot
(procedentes del resultado de una búsqueda con BLAST, por ejemplo), trata de generar un
resumen de la información de todas ellas. Si las proteínas del conjunto pertenecen a una misma
subfamilia, tendrán mucha información en común; mientras que si en el conjunto hay más de una
subfamilia, no, por lo que deberá proporcionarse un destilado diferente según el caso. Para
distinguir estas dos posibles situaciones se analizan los identificadores de Swiss-Prot, los cuales
tienen la forma de 'algunos caracteres referentes a la función' más un '_' más un identificador del
organismo (ejemplo: PRIO_ BOVIN se corresponde con la 'Major prion protein 1 precursor' de vaca).
El resumen se destila a partir de los campos más informativos de Swiss-Prot (líneas DE, KW, CC,
enlaces a otras bases de datos, etcétera). Según las características de estos campos se aplican
distintas reglas: por ejemplo, en cuanto al campo DE, se selecciona aquella descripción más
común en el conjunto; para el campo de referencias a otras bases de datos se seleccionan todas
y se eliminan las repeticiones; lo mismo ocurre con el caso de enfermedades asociadas a la
proteína (campo 'CC -Disease'). En el caso de que haya más de una subfamilia en el conjunto, la
solución es generar un máximo de cinco resúmenes, uno por cada una de las subfamilias más
representadas.
10.4.- Andrade (1999): en este trabajo se presenta una alternativa que trata de utilizar la
información funcional de múltiples homólogos para realizar una anotación específica de las
distintas regiones de la proteína. A partir de los homólogos encontrados con BLAST, se construye
un alineamiento múltiple con MView (Brown et al., 1998). Las descripciones de todas estas
proteínas homólogas son procesadas para eliminar elementos no informativos y detectar palabras
o conjuntos de éstas (word-unit) comunes a al menos parte de estas descripciones. Para cada
residuo de la proteína problema, y para cada word-unit se calcula una puntuación que,
23
básicamente, es más alta cuanto mayor sea la correlación entre la conservación de esa posición y
la presencia de la word-unit. El resultado es una curva para cada word-unit con sus puntuaciones
a lo largo de la secuencia de la proteína problema. Esta curva es suavizada con un filtro
Gaussiano para facilitar la interpretación. Aquellas word-unit con puntuaciones más altas serán
los mejores descriptores de la función de la proteína problema para cada región de ésta: si consta
de dos dominios funcionales podremos observar, quizás, que las dos word-unit con mejor
puntuación tienen curvas con mesetas o picos en dominios distintos de la proteína.
Este método es resistente a inconsistencias en las anotaciones o niveles de especificación de
función no heredables (por demasiado precisos) gracias a que usa la información de múltiples
homólogos. También tiene en cuenta la organización de dominios de las proteínas. Sin embargo,
su automatización no es sencilla y no tiene en cuenta directamente el problema de la presencia
de distintas subfamilias de proteínas.
24
Objetivos
1.- El objetivo a mayor escala del proyecto es el desarrollo de un robot, ORFandDB, para el análisis
de genomas.
• Este sistema cubre gran parte de los aspectos que se requieren para el análisis de
genomas y la anotación de la función de las proteínas. Bajo un esquema relacional se
almacena la información de numerosas bases de datos así como los resultados de
diversos programas de análisis de secuencias: modelado de genes, búsqueda de
homologías o anotaciones funcionales.
2.- Estudio de la búsqueda de homólogos basada en la aplicación de la propiedad transitiva de la
homología.
• El objetivo es desarrollar un método para aplicar esta propiedad y evaluar su capacidad
para encontrar homólogos lejanos, comparándolo con BLAST y PSI-BLAST.
3.- Estudio de las características del espacio de secuencias.
• Analizaremos la posibilidad de utilizar los resultados del método de búsqueda de
homólogos para cartografiar el mapa del espacio de secuencias.
4.- Desarrollo de un método de clustering o agrupamiento para encontrar grupos de proteínas
diferenciados del resto en el espacio de secuencias.
• Evaluaremos la calidad de los grupos encontrados comparándolos con otras
clasificaciones de proteínas.
• Queremos determinar si los grupos encontrados se corresponden con grupos de
ortólogos o subfamilias con una función común.
5.- Elaboración de un método de anotación automática de la función de las proteínas.
• La idea es utilizar la información resultante de la búsqueda de homólogos y del
agrupamiento para, a partir de proteínas que supuestamente tienen una función común,
analizar sus anotaciones y proporcionar una para una proteína problema.
• Analizaremos los alineamientos entre los homólogos para determinar si cubren la mayor
parte de sus secuencias, para tratar de anotar la función a partir de proteínas con una
misma organización de dominios.
• Analizaremos las anotaciones presentes en las bases de datos para determinar cuándo
éstas son informativas y transferibles a proteínas homólogas (análisis léxico).
• Las características funcionales que queremos anotar son: descripciones generales de la
función, palabras clave y códigos de actividad enzimática.
6.- Aplicación de los citados desarrollos al análisis del genoma de Buchnera aphidicola (Baizongia
pistaciae) (van Ham et al., 2003).
25
Métodos
A continuación se exponen los métodos que hemos desarrollado para crear el sistema de análisis
de genomas de ORFandDB. Primeramente, se describen las características básicas del sistema en
su conjunto, para, seguidamente, explicar cuáles han sido los métodos investigado para anotar
automáticamente la función de las proteínas, para lo cual se expondrán primero las características
del método de búsqueda con secuencias intermedias, después se explicará el algoritmo de
agrupamiento y, finalmente, la transferencia de anotaciones funcionales propiamente dicha.
1.- ORFandDB, un sistema para el análisis de genomas
El esquema general de este sistema es el siguiente:
•
Un diagrama de base de datos de tipo entidad-relación, mediante el cual el conocimiento
biológico es desgranado en algunos de sus componentes (ejemplos: proteína, gen, palabra
clave, familia, función, genoma, cromosoma, artículo científico) y son establecidas las
relaciones entre estos conceptos (ejemplos: codificado por, pertenece a, se localiza en, se
parece a). El almacenamiento ordenado de esta información facilita su análisis y comprensión.
En la figura 3 se muestran algunas de las entidades más significativas (y sus relaciones).
• Un conjunto de métodos bioinformáticos para predecir genes en los genomas, encontrar
relaciones de homología o para predecir la función de las proteínas.
• Un módulo para consultar la información contenida en la base de datos, ya sea utilizando el
lenguaje de consulta SQL (structured query language o lenguaje de consulta estructurado) o a
través de una interfaz web.
El conocimiento biológico se introduce en la base de datos de dos formas distintas. Por un lado,
encontramos un conocimiento más estático en las bases de datos públicas como Swiss-Prot,
GenBank, NCBI-Taxonomy o Pfam, en las que para cada secuencia, organismo o familia se
facilita cierta cantidad de información. Por otro lado, podemos incluir información más dinámica a
partir de la interrelación de las distintas entradas a través de métodos computacionales. Por
ejemplo, dos proteínas de Swiss-Prot pueden quedar relacionadas a través de BLAST si este
método encuentra que éstas se parecen. Además hay métodos, como el de anotación automática
de función, que pueden añadir información adicional a entradas de proteínas ya existentes.
En las bases de datos públicas el conocimiento biológico está especificado de formas más o
menos distintas. Por ejemplo, podemos encontrar que para indicar la actividad enzimática de una
proteína en Swiss-Prot esta información se encuentra en la línea 'DE', entre paréntesis, mientras
que a lo mejor en otra base de datos se encuentra en otro campo, o utilizando un lenguaje
sinónimo. Uno de los objetivos de ORFandDB es traducir toda esa información a un mismo
lenguaje, de forma que sea más sencillo relacionar la información que encontramos en unas y
otras bases de datos. Esta situación se repite en el caso de los resultados de los métodos
bioinformáticos: por ejemplo, para indicar que se ha encontrado un parecido de secuencia
significativo entre dos proteínas, se hace de forma distinta según el método empleado (ejemplos:
BLAST y FASTA).
En la figura 4 se muestra un esquema del funcionamiento básico del sistema.
Para consultar la información almacenada en la base de datos ORFandDB se puede utilizar el
lenguaje
SQL.
Existe
un
servidor
web,
con
dirección
https://www.pdg.cnb.uam.es/jmfernandez/ORFandDB/index.html, en el que se facilita esta labor,
ya que allí se muestra, mediante diagramas, cuál es la estructura general de la base de datos.
Además se puede ver qué tablas existen y qué campos hay en cada tabla. Dado que la mayor
parte de las veces las consultas van a ser las mismas, y dado también que son pocas las
26
Figura 3. Diagrama simplificado de parte del esquema de la base de datos ORFandDB. Se muestran algunas
de las entidades que utilizamos para almacenar la información relativa al genoma de buchnera: qué proteínas
tenía, por qué genes estaban codificadas, en qué parte del genoma se encontraban, qué homólogos tenían,
etcétera.
personas que conocen el lenguaje SQL, conviene desarrollar una interfaz web que enmascare
este lenguaje. En el caso del análisis del genoma de Buchnera aphidicola, creamos una que
fácilmente
puede
ser
aplicable
a
otros
proyectos.
Se
encuentra
en
http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/. Allí se puede buscar por nombre de
gen o proteína, categoría funcional o por palabra clave. Una vez encontrados los resultados, éstos
se presentan de forma que podemos ver qué relaciones tienen con otros resultados en la base de
datos. Por ejemplo, si en la base de datos existe la información de cuál es el gen que codifica una
proteína X, entonces en la página de resultados de la proteína X aparecerá un enlace para ver la
página correspondiente al gen.
En este sistema podemos distinguir tres áreas de trabajo principales: por un lado el desarrollo del
27
Figura 4. ORFandDB: esquema general de este sistema para el análisis de genomas.
esqueleto de ORFandDB, es decir, la base de datos y los programas para actualizarla y traducir la
información de distintas fuentes de datos a un mismo lenguaje. Este apartado ha sido
desarrollado principalmente por José María Fernández. Por otra parte, la predicción de genes,
trabajo que ha sido llevado a cabo en el grupo del Dr. Roderic Guigó. Y por último, un método
para anotar automáticamente la función de las proteínas, que es la parte en la que se pone el
acento en esta tesis.
2.- Búsqueda de homólogos con secuencias intermedias (BSI)
El principio de este método de búsqueda de secuencias parecidas en las bases de datos es la
aplicación de la propiedad transitiva de la homología entre proteínas: a partir de una proteína
problema (o semilla) se identifican aquéllas con un parecido significativo, y éstas a su vez son
usadas como nuevas proteínas problema para encontrar nuevos parecidos. Los métodos que
como BLAST realizan comparaciones sencillas entre pares de secuencias no son efectivos
cuando los homólogos son lejanos y el porcentaje de identidad entre sus secuencias está por
debajo del 30-35%. Sin embargo, esta homología remota se puede identificar utilizando
información de familia, como en el caso de PSI-BLAST o las búsquedas con HMM, o también
cuando existen secuencias evolutivamente intermedias entre los homólogos remotos, que
mantienen un alto parecido con éstos, así es como trabajan las búsquedas con secuencias
intermedias (figura 2.a) (Park et al., 1997; Gerstein, 1998; Salamov et al., 1999; Li et al., 2000;
Abascal & Valencia, 2002).
28
2.1.- Iteración del método
La efectividad de la aplicación de la propiedad transitiva para identificar homologías remotas ha
sido evaluada realizando un único salto o ronda de búsquedas en (Park et al., 1997, Gerstein,
1998). En este trabajo hemos extendido el principio a múltiples saltos o rondas, esto es, no sólo
los homólogos encontrados en la primera proteína son utilizados para nuevas búsquedas, sino
que los resultantes de estas nuevas búsquedas serán utilizados para otras, y así indefinidamente,
intentando abarcar un radio evolutivo mayor. Esta aproximación con múltiples rondas añade
algunas dificultades, como veremos más adelante.
2.2.- La homología se confina a dominios concretos - selección de subsecuencias
Para aplicar la propiedad transitiva de la homología de forma correcta debe tenerse en cuenta la
naturaleza multidominio de las proteínas, la cual puede provocar que proteínas no relacionadas
evolutivamente queden conectadas a través de proteínas intermedias con varios dominios. Para
evitarlo las búsquedas han de realizarse con las regiones de las secuencias que presuntamente
tienen un origen evolutivo común, y no con las proteínas completas. En el caso de búsquedas BSI
con una sola iteración esto es sencillo: basta con extraer el fragmento de la secuencia que ha
alineado significativamente y utilizarlo para lanzar la nueva búsqueda. Cuando realizamos
múltiples rondas sucede que, a partir de la segunda iteración, en que buscamos con todos los
homólogos encontrados en la primera iteración, un nuevo homólogo podrá ser encontrado gracias
a varias de las secuencias usadas para las búsquedas, alineando regiones más o menos
diferentes en los distintos casos. Para seleccionar la subsecuencia que deberá ser utilizada en la
siguiente ronda se extraen los fragmentos de secuencia del nuevo homólogo que han alineado en
cada caso, y se unen todos aquellos fragmentos que se superpongan al menos un 50%. En el
caso de que existan dos (o más) conjuntos de fragmentos no superponibles (esta situación puede
darse en proteínas multidominio), se selecciona el conjunto con una mayor puntuación de
alineamiento acumulada, esto es, la suma de las puntuaciones de los alineamientos de los
fragmentos pertenecientes a ese conjunto. Esto se hace porque para la siguiente ronda queremos
seleccionar una subsecuencia y para construirla no podemos juntar cosas que naturalmente estén
separadas en la proteína, en regiones distintas; podríamos seleccionar varias subsecuencias para
una misma proteína, pero esto complicaría bastante el análisis posterior así como el mapa del
espacio de secuencias que queremos obtener.
A veces ocurre que un alineamiento local del tipo de BLAST se extiende de forma incorrecta a
regiones no homólogas en los extremos, de modo que puede incluirse un fragmento de un
dominio no homólogo vecino, el cual en nuevas búsquedas podría provocar que identificáramos
falsas homologías. Para evitarlo, se realiza una poda de los extremos: una vez seleccionado el
conjunto de fragmentos que tiene mayor puntuación acumulada, en lugar de seleccionar las
coordenadas mínimas y máximas observadas en el conjunto para construir la nueva
subsecuencia, se selecciona únicamente el mínimo y el máximo que estén soportados por al
menos el 20% de los fragmentos.
2.3.- Limitación del espacio de búsqueda
Una de las limitaciones prácticas de este método es el enorme número de búsquedas de tipo
BLAST que tiene que realizar, especialmente en familias de proteínas muy numerosas. Además,
cuando una proteína no homóloga se incluye erróneamente en el proceso, arrastra a todas las de
su familia en las siguientes iteraciones. Para minimizar algunos de estos aspectos, se fija un límite
máximo variable del número de secuencias obtenidas. Por ejemplo, si el límite máximo se fija en
1500 búsquedas y en la N iteración ya se han realizado 1200 búsquedas, y éstas han permitido
encontrar 500 nuevas proteínas parecidas, se seleccionan las 300 con una mayor puntuación
acumulada, de forma análoga a cómo se seleccionan los conjuntos de fragmentos, descartando
las otras 200.
29
2.4.- Evaluación de la sensibilidad y la precisión del método - Base de datos de SCOP como
estándar de homología
Para evaluar la efectividad del método de BSI, comparamos sus resultados con los de BLAST y
PSI-BLAST, midiendo la sensibilidad y especificidad con que puede encontrar homologías
lejanas.
2.4.1.- Base de datos de SCOP (Murzin et al., 1995) y nuestro conjunto de prueba
En la base de datos de SCOP se clasifican de forma jerárquica y supervisada los dominios de
proteínas de estructura tridimensional conocida. Los niveles de esta jerarquía son: 1) clase o
arquitectura general (ejemplo: proteínas todo beta); 2) tipo de plegamiento (ejemplo: sandwich
beta del tipo inmunoglobulina); 3) superfamilia (ejemplo: inmunoglobulinas); 4) familia; y 5)
proteínas y especies. Las superfamilias incluyen proteínas con una estructura similar para las que
existe alguna evidencia que sugiera un origen evolutivo común. Cuando la estructura es similar
pero no existe esta evidencia, se agrupan en una misma categoría de tipo de plegamiento pero en
distintas superfamilias.
A partir de esta base de datos, que se utiliza frecuentemente como referencia para distinguir
homologías verdaderas, creamos un conjunto de prueba para evaluar los distintos métodos de
búsqueda de homólogos. Para ello seleccionamos las proteínas de las cuatro arquitecturas
básicas (todo alfa, todo beta, alfa/beta y alfa+beta; clases en SCOP: http://scop.mrclmb.cam.ac.uk/scop/data/scop.b.html). En algunas ocasiones, un dominio de una proteína está
constituido por regiones separadas (no consecutivas) de la cadena polipeptídica. En estos casos,
en SCOP se cortan y pegan estas secuencias, creando secuencias 'artificiales', las cuales
también son descartadas del conjunto de prueba. Asimismo, como nuestro objetivo es determinar
la capacidad de encontrar homólogos lejanos (aquéllos no se parecen demasiado),
seleccionamos (con el programa ASTRAL, Brenner et al., 2000) un subconjunto tal que no haya en
él proteínas con una identidad de secuencia mayor del 40%. Este conjunto contiene 556
superfamilias y 1531 familias, en total 3.624 proteínas, y será el conjunto donde busquemos
homologías. Este conjunto se une a una base de datos construida a partir de Swiss-Prot, TrEMBL
y TrEMBL_new, a la que llamamos nrdb, que contiene 794.315 secuencias, de la cual a su vez es
seleccionada una base de datos no redundante al 90% (nrdb90, 475.909), de forma que se
reduce sensiblemente el espacio de búsqueda (un 40%) sin perder demasiada sensibilidad (ver
tabla 1) (Li et al., 2001).
Para efectuar las búsquedas seleccionamos 1.531 proteínas, una por cada familia del conjunto de
SCOP creado, de forma que podamos evaluar si son capaces de encontrar a las otras proteínas
de sus familias y superfamilias.
base de datos
número de letras
set_3624
set_3624+nr90
número de secuencias
673.709
3.624
166.026.790
475.909
factor ~ 246
factor ~131
Relaciones posibles entre las secuencias de SCOP del conjunto de búsqueda (SET_1531)
y de la base de datos (SET_3624)
Número posible de relaciones verdaderas (tm):
Número posible de relaciones inciertas (um):
Número posible de relaciones incorrectas (fm):
Número posible de relaciones
Tabla 1. Algunas características del conjunto de secuencias empleado en el estudio.
14.388
26.279
5.506.146
5.546.813
Para comparar la eficiencia de los distintos métodos de búsqueda: BLAST, PSI-BLAST y BSI,
medimos su sensibilidad y precisión. La sensibilidad se refiere a la proporción de homólogos
verdaderos que son capaces de encontrar. La precisión se refiere a la proporción de falsos
30
positivos con respecto al total de positivos.
2.5.- Descripción del espacio de secuencias mediante un GRAFO
Asociado a cada búsqueda con BLAST obtenemos una lista de proteínas parecidas y una
estimación estadística (p.e. el e-value) de cuán significativos son estos parecidos. Si ponemos en
conjunto la información de todas las búsquedas intermedias, obtenemos un conjunto de proteínas
y una medida del parecido o distancia entre ellas (esta medida de parecidos no existirá para todos
los pares posibles de proteínas, sólo para aquellos para los que BLAST haya encontrado un
parecido significativo). Este material constituye una representación (o mapa) del espacio de
secuencias (figura 2.b), que puede ser representado mediante un grafo G(V,E), que es una
estructura de datos en la que hay nodos (V) conectados por arcos (E) que pueden tener asociado
un peso (w). En este caso, como en otras aproximaciones, las secuencias son representadas
mediante nodos, los arcos reflejan la existencia de un parecido encontrado con BLAST, y su peso
se corresponde con una medida de estos parecidos: el -log10(E-value).
3.- Identificación de familias de proteínas - Clustering o agrupamiento.
Una vez obtenido el mapa del espacio de secuencias, la cuestión es cómo estudiarlo, cómo
detectar qué proteínas están significativamente más cercanas entre sí que con respecto al resto,
en otras palabras, qué grupos son distinguibles en el grafo. Existen muchos tipos de grafos y cada
tipo requiere unos métodos distintos para su interpretación (Aguirre, 2002).
Para interpretar el mapa generado mediante búsquedas de tipo BSI, utilizamos un algoritmo
basado en teoría de flujo en grafos. Este método, conocido como algoritmo de corte normalizado
(Ncut), es una modificación del algoritmo clásico de corte mínimo de un grafo (minCut; Wu &
Leahy, 1993), y fue desarrollado por (Shi & Malik, 1997) con el objetivo de identificar
automáticamente las distintos elementos presentes en imágenes.
El grafo de partida tiene arcos con un peso tal que reflejan el flujo entre los nodos: cuanto mayor
es el peso, mayor el flujo, o análogamente, más cercanos. Puede interpretarse como una medida
inversa a la distancia. La capacidad de un corte en un grafo es:
Cut(A, B) = Sum w(i, j); i pertenece a A, j a B.
El corte mínimo de un grafo es aquél con una capacidad mínima, y representa qué arcos hay que
eliminar para, con un menor coste, dividir el grafo en dos subgrafos. El proceso puede aplicarse
recursivamente a los subgrafos hijos. Este método de agrupamiento tiende a separar pequeños
conjuntos de nodos cuando los grupos que se desearían separar están muy conectados entre sí.
Por esta razón Shi y Malik, modificaron el concepto de corte mínimo por el de corte normalizado,
que se define como:
Ncut(A, B) = cut(A,B)/asso(A,V) + cut(A,B)/asso(B,V)
donde asso(A,V) es la suma de todos los arcos que conectan los nodos de A con los de V (V
incluye a A). De esta forma, se pondera la capacidad del corte según el grado de desconexión
que el corte induce en el grafo, evitando la preferencia por pequeños grupos.
3.1.- Recursividad y condiciones de parada del clustering
El algoritmo opera de forma recursiva: una vez encontrado el mejor corte normalizado, su
conveniencia es evaluada y, si es apropiado, se aplica y nuevamente se busca el mejor corte
normalizado en cada uno de los subgrafos resultantes.
El agrupamiento se detiene cuando ninguna de estas dos condiciones se cumple; o dicho de otra
forma: si alguna de éstas se cumple, el agrupamiento continua:
• la media aritmética de los pesos o capacidades de los arcos existentes dentro de alguno de los
sub-grafos hijos excede (de acuerdo a una medida relativa) el valor de esta media para los
arcos que conectan los dos sub-grafos hijos. Esta medida relativa puede ser el doble, el triple o
el cuádruple. Normalmente usamos el doble.
• el número de arcos que existen dentro de alguno de los hijos dividido entre el número posible
31
de arcos, es mayor que esta misma medida en el padre.
Estas son las condiciones que hemos considerado más apropiadas para adaptar el algoritmo al
problema de la clasificación de proteínas a partir de mapas provenientes de búsquedas BSI. Una
de ellas tiene que ver con la fuerza de los arcos y la otra con la cantidad de éstos; en ambos
casos las condiciones son relativas a las características de los grupos que se van a separar: un
traje a la medida de cada familia de proteínas.
3.2.- Algunas definiciones: capacidad media, conectividad y proximidad
• Capacidad media: es la media aritmética de los pesos de los arcos (los -log10(E-value)). Una
capacidad media de 10 entre dos clusters se corresponde con e-values alrededor de 1e-10.
• Conectividad: es el número de arcos observados dividido entre el número de arcos posibles
(los arcos que habría si todos los nodos estuviesen conectados). Nota: aquí el término
conectividad tiene un significado diferente al que comúnmente se otorga en teoría de grafos.
• Proximidad: sirve para medir la distancia entre dos grupos y es el producto de la conectividad
por la capacidad media (de los arcos que van de un grupo a otro).
3.3.- Evaluación del clustering - Base de datos COGs como estándar de ortología
Para evaluar la validez de la representación del espacio de secuencias propuesta así como el
método de identificación de grupos en ese espacio, hicimos una comparación con la base de
datos de COGs (Tatusov et al., 1997), en la cual se clasifican los genes de genomas completos
de microorganismos en grupos de ortólogos.
Para esta comparación utilizamos la versión de COGs de junio de 2001, que incluye genes
provenientes de 21 genomas, de los cuales:
• 16 corresponden a bacterias: Aquifex aeolicus (abreviatura: Q, número de proteínas: 1526);
Thermotoga maritima (V, 1852); Synechocystis (C, 3168); Escherichia coli (E, 4292); Bacillus
subtilis (B, 4122); Mycobacterium tuberculosis (R, 3924); Haemophilus influenzae (H, 1694);
Helicobacter pylori (U, 1577); Helicobacter pylori J99 (J, 1492); Mycoplasma genitalium (MG,
468); Mycoplasma pneumoniae (MP, 678); Borrelia burgdorferi (O, 1256); Treponema pallidum
(L, 1033); Chlamydia trachomatis (I, 895); Chlamydia pneumoniae (N, 1053); y Rickettsia
prowazekii (X, 834).
• Cuatro a genomas de arqueas: Archaeoglobus fulgidus (A, 2411); Methanococcus jannaschii
(M, 1747); Methanobacterium thermoautotrophicum (T, 1871); y Pyrococcus horikoshii (K,
2072).
• Y uno a un eucariota: Saccharomyces cerevisiae (Y, 5932).
La base de datos resultante contiene 57.546 secuencias de proteínas de estos 21 genomas, y
conforma el espacio de secuencias a explorar. Escogimos los 468 genes de MG (Mycoplasma
genitalium) para realizar 468 experimentos de búsquedas BSI y agrupamiento de sus resultados.
En cada caso, se comparan el tamaño y contenido génico del grupo resultante y el COG
correspondiente.
En la comparación del contenido génico de nuestros grupos y los de COGs se utilizan dos
términos: coherencia y coincidencia. El primero, coherencia, se refiere a que uno de los grupos es
un subconjunto del otro. La coincidencia se refiere a los casos en que hay coherencia y además el
contenido es el mismo (+/-1 gen).
El espacio de secuencias conformado por las proteínas de estos 21 genomas no está muy
poblado, por lo que la identificación de grupos es sensible a irregularidades (p.e. cuando existen
dos o tres genomas muy cercanos entre sí, sus proteínas pueden quedar separadas del resto).
Por esta razón, investigamos dos condiciones de parada y dos métodos de reconstrucción (unión
de grupos vecinos) para una mejor comparación.
También se realizó una comparación con la base de datos de PROTOMAP (Yona et al., 1999), en
lo que representa un contexto más favorable dado el mayor número de secuencias a partir de las
cuales construir un mapa apropiado. Para esta comparación se realizaron búsquedas BSI y
agrupamiento para la proteína ras/p21 humana, utilizando como base de datos Swiss-Prot
(versión 39.20 de junio de 2001).
32
3.3.1.- Condiciones de parada y métodos de reconstrucción en la comparación con COGs.
Para estudiar la sensibilidad del método de agrupamiento a las irregularidades del espacio de
secuencias, estudiamos cómo respondía éste a la condición de parada basada en el peso relativo
de los arcos. En un caso, se requirió que la capacidad media dentro de los subgrafos debía ser
doble (X2) comparada con la capacidad media entre éstos. En el otro caso, se requirió que fuera
cuádruple (X4). A estas dos aproximaciones nos referiremos como "X2 simple" y "X4 simple". Por
otra parte, se aplicaron diversos métodos de reconstrucción para, a partir de estos resultados, dar
marcha atrás en el proceso de agrupamiento y unir los grupos entre sí para obtener grupos de
mayor tamaño.
Reconstrucción:
A partir del conjunto de grupos resultantes y las distancias entre éstos, obtenidos mediante una
búsqueda BSI y un agrupamiento, se estudiaron distintos modos de unir el grupo que contenía la
proteína semilla con los grupos vecinos.
• estrategia join6 o estrategia simple: en este caso se unen el grupo que contiene la proteína
usada como semilla para las BSI con el grupo vecino más cercano según la capacidad media
entre los grupos, siempre y cuando ésta sea mayor de 6.
• estrategias basadas en medidas de entropía relativa (S_one y S_var): En este caso para una
reconstrucción más apropiada se emplea información filogenética. La entropía relativa mide el
parecido entre dos distribuciones y se define como:
Srel = H(P || Q) = Sum i(P(xi)log(P(xi)/Q(xi)));
donde P(xi) es la frecuencia de i en una determinada distribución P, y Q(xi) lo mismo pero en
otra distribución Q. Cuanto más parecidas sean ambas distribuciones, menor será su entropía
relativa. En nuestro caso, definimos P(xi) como la frecuencia con que observamos el genoma i
en el conjunto de grupos aceptados (ver más adelante), y Q(xi) es la frecuencia con que
esperaríamos observarlo en una distribución determinada (un grupo completo de ortólogos, en
este caso). En el caso de S_one, definimos la distribución Q como aquella en que todos los
genomas presentes en el análisis (21) tienen la misma frecuencia (1/21). En el caso de S_var,
definimos Q(xi) como ni/nt, siendo ni el número de genes en el genoma i, y nt el número total
de genes en los 21 genomas. El algoritmo de reconstrucción es recursivo, y estos son sus
pasos:
0) inicializar el conjunto de grupos aceptados con el grupo que contiene el gen semilla.
1) calcular la entropía relativa dentro del conjunto de grupos aceptados.
2) encontrar el grupo con una mayor conectividad con alguno de los grupos aceptados. Si
dos clusters tienen igual conectividad, se selecciona aquél con una mayor capacidad
media.
3) calcular la entropía relativa que se obtendría si el grupo seleccionado se aceptase.
4) si la entropía relativa descendiese con la adición de este cluster, entonces se aceptaría
y se volvería al paso 1. En caso contrario la unión de vecinos terminaría.
La idea detrás de los modelos S_one y S_var es que en un grupo completo de ortólogos
esperaríamos, en un caso, tener un representante por cada organismo, y en el otro, tener un
número de representantes proporcional al tamaño del proteoma de cada organismo. Este
modo de reconstrucción añade grupos según su distancia y utiliza la información filogenética
para decidir cuándo detener la adición de grupos.
4.- Transferencia de anotaciones funcionales
El método desarrollado utiliza la información de múltiples homólogos para realizar una anotación
funcional lo más completa y fiable posible (Abascal & Valencia, 2003). El material básico con el
que trabaja es un grupo de homólogos que supuestamente realicen una misma función, esto es,
una subfamilia o un grupo de ortólogos, como puede ser los resultados del algoritmo de
agrupamiento. Disponer de un conjunto de proteínas con una función común permite estudiar qué
anotaciones comparten, o qué diferencias presentan, pudiendo seleccionar aquellos elementos
que con más fiabilidad puedan ser heredados por la proteína que se quiere anotar
33
Figura 5. Esquema general del método de anotación de la función de una proteína problema. A partir de
los resultados del método de agrupamiento, se analizan las anotaciones funcionales y los alineamientos de las
proteínas que han quedado en el mismo grupo que la proteína problema. Las categorías de alineamientos
establecen un orden de preferencia para la transferencia de anotaciones.
34
automáticamente.
La fuente de información que utiliza este método es el conjunto de grupos determinados por el
algoritmo de agrupamiento y las distancias entre ellos. Entre estos grupos se encuentra aquél que
contiene a la proteína semilla, y las proteínas que han quedado agrupadas con ésta idealmente
desempeñan una misma función biológica. El esquema básico del método se representa en la
figura 5.
4.1.- Análisis de la cobertura de los alineamientos
Para tener en consideración el posible problema de transferir funciones que puedan localizarse en
regiones no homólogas de las proteínas, se analiza si los distintos alineamientos comprenden o
no la longitud completa de las secuencias problema y molde. Se clasifican estas relaciones en
cuatro categorías, que serán tenidas en cuentas a la hora de transferir la anotación. Por orden de
idoneidad como fuentes de información:
• categoría 1: es la ideal, en la que ambas proteínas alinean completamente (>80% de la
longitud de sus secuencias).
• categoría 2: en este caso, la proteína molde alinea completamente pero no así la problema.
Simplificadamente, la transferencia de la anotación desde el molde podría ser incompleta, ya
que parte de la proteína problema podría aportar una función adicional y no puede ser anotada.
• categoría 3: la proteína problema alinea completamente, pero no la molde. En este caso, la
transferencia podría ser incorrecta, ya que la función del molde podría asociarse (o estar
influenciada) por la zona no homóloga de su secuencia.
• categoría 4: la peor, en este caso el alineamiento es parcial en las dos proteínas, reflejando un
posible caso de transferencia funcional incompleta e incorrecta.
Nota: si la proteína molde está anotada como 'fragmento', se entiende que el alineamiento no es
completo, aunque éste cubra toda la longitud de su secuencia.
4.2.-Transferencia de descripciones generales de la función (línea DE de Swiss-Prot)
El objetivo básico es seleccionar aquella descripción más representativa de entre las
descripciones de las proteínas que han quedado agrupadas en torno a la proteína problema, es
decir, aquella descripción más parecida al resto. Para alcanzar esta meta, se realizan los
siguientes pasos:
1) primeramente se eliminan de las descripciones todas aquellas palabras que aparecen
frecuentemente en las descripciones y que no contienen información funcional (ejemplos:
FRAGMENT, HYPOTHETICAL, COSMID, PROTEIN).
2) se extraen de cada descripción las palabras que la conforman y se calcula la frecuencia
de cada palabra, entendida ésta como el número de descripciones con esa palabra
dividido entre el número total de descripciones.
3) se deriva una puntuación de representatividad de cada descripción sumando las
frecuencias de las palabras que la componen y dividiendo por el número de palabras. Para
evitar penalizar a las anotaciones de Swiss-Prot que contienen muchos sinónimos (en un
formato determinado: entre paréntesis), se divide el número de palabras por el número de
sinónimos. Aquella descripción con una puntuación más alta será la más representativa.
Dado que el agrupamiento no siempre es capaz de separar dos subfamilias que a lo mejor son
muy cercanas, se ponderan las puntuaciones de representatividad con las puntuaciones de los
alineamientos, de forma que ponemos una presión en la dirección de preferir proteínas más
parecidas, aunque no sean aquéllas con las descripciones más representativas. Para ello, se
calcula la fracción (tanto por uno) que cada puntuación de representatividad representa con
respecto a la suma de todas estas puntuaciones; se hace lo mismo con las puntuaciones de
similitud del alineamiento. Ambas fracciones se suman, resultando en una puntuación nueva de
idoneidad para la transferencia funcional.
El algoritmo para seleccionar la anotación a transferir es el siguiente (siguiendo el orden de
idoneidad de las categorías de alineamiento):
0) tomar como categoría actual la categoría de alineamiento 1.
1) seleccionar aquellas descripciones que correspondan a proteínas que alinean según la
categoría actual.
35
2) de éstas, seleccionar aquella descripción con una mejor puntuación de idoneidad para
la transferencia. Si no hay ninguna descripción en esta categoría, descender a una
categoría inferior y volver al paso 1.
3) realizar un análisis léxico para determinar si la descripción seleccionada es transferible (
ver más adelante). Si no es transferible, descender a una categoría inferior y volver al
paso 1.
4) aplicar un filtro para limpiar un poco la descripción, eliminando elementos no
transferibles como el peso molecular de la proteína o la palabra 'fragment'.
Finalmente, si ha podido realizarse la transferencia funcional, se indica, como ilustración de la
fiabilidad del proceso, la categoría de alineamiento empleada.
4.2.1.- Análisis léxico
• En la mayoría de los casos el procedimiento aplicado para medir la representatividad de las
descripciones conducirá a seleccionar aquéllas que son susceptibles de ser transferidas,
dando menor puntuación a las que contengan elementos extraños. Sin embargo, no garantiza
estos resultados, por lo que es necesario determinar, mediante algunas reglas si la descripción
contiene información funcional y en ella no hay elementos específicos no transferibles. El
análisis léxico que realizamos está inspirado en el seguido en GeneQuiz (Andrade et al., 1999).
Gracias a las siguientes reglas se detectan gran parte de las descripciones no informativas:
• La presencia de palabras como 'intergenic', 'cosmid' o 'genomic sequence' es suficiente
para rechazar una descripción.
• Una construcción no informativa frecuente es: "[Hypothetical|Putative] [Mol.Weight]
[Lipo|Glyco]Protein [word]", donde los elementos entre corchetes indican palabras que
pueden o no aparecer y la barra '|' indica las posibles alternativas. Estas descripciones
son descartadas, excepto cuando el elemento opcional "word" aparezca en al menos
otra de las descripciones del grupo (lo que indica que posiblemente contenga
información útil como puede ser el nombre del gen, pero no un número de acceso o
identificador proveniente de un proyecto genómico). El elemento '[Mol.Weight]'
representa la siguiente expresión regular en el lenguaje de programación de perl: \d+(\.)
*(\d)*(\s)*K(D)*(A)*(\s)*.
• Otro filtro que se aplica consiste en eliminar todas aquellas palabras que son no
informativas ('hypothetical', 'protein', 'fragment', etcétera) y determinar si después de
esta operación queda alguna palabra y si ésta está presente o no en algunas de las
otras descripciones del grupo.
4.3.- Transferencia de palabras clave (keywords del campo KW de Swiss-Prot)
Las palabras clave se refieren a diversas características de las proteínas, y algunas como por
ejemplo 'Myristate' (para indicar que la proteína se miristila), 'Calcium-binding' (la proteína une
Calcio) o 'ATP-binding' (une ATP) tienen una relación aún más directa con regiones concretas de
la secuencia de las proteínas que las descripciones generales de la línea 'DE'. Por esta razón, la
transferencia de palabras clave sólo se realiza a partir de proteínas de las categorías 1 y 2, en las
que la proteína homóloga a la problema alinea completamente.
El método que empleamos trata de seleccionar un conjunto lo más grande posible de palabras
clave, pero en el que no se mezclen palabras que no co-ocurren, que por ejemplo pueden ser
autoexcluyentes (ver figura 6).
36
Proteínas: palabras clave
Palabras clave: frecuencia
Prot 1: A B C
Prot 2: A B C
Prot 3: A B C
Prot 4: A B D
Prot 5: A B D
Prot 6: A E F
Prot 7: A E F
Prot 8: A E F
A: 8
B: 5
C: 3
E: 3
F: 3
D: 2
Figura 6. Asignación de palabras clave. Las palabras clave aceptadas son: A, B y C. A pesar de que C, E y F
aparecen con la misma frecuencia, sólo C es transferida, para evitar mezclar palabras no co-ocurrentes. El proceso:
primeramente A es seleccionada como semilla. Después, dado que B aparece asociada a A cinco veces (esto es: más
de cuatro (8/2) veces), B es aceptada. Seguidamente, C también es aceptada porque está asociada a B más de 2,5
(5/2) veces. Y aquí se detiene el proceso porque ninguna otra palabra cumple la condición de estar asociada a alguna
de las palabras aceptadas más de la mitad de las veces en que la palabra aceptada aparece.
En el conjunto de proteínas presentes en el grupo (subfamilia, idealmente) de la proteína
problema observamos una serie de palabras clave con una frecuencia determinada. Se calcula en
cuántas proteínas aparece cada palabra clave (Fkwi) y el número de veces en que cada par de
palabras clave aparecen asociadas a una misma proteína (Fkwij). Con esta información se
construye un grafo en el que las palabras clave están conectadas por arcos con un peso
equivalente a Fkwij. Se inicializa el conjunto de palabras clave aceptadas con una semilla. El
modo de seleccionar la semilla es el siguiente: se calcula una puntuación de idoneidad de
palabras clave para cada proteína ponderando la puntuación de alineamiento con la puntuación
de representatividad (de modo análogo a como se calcula la puntuación de idoneidad para las
descripciones funcionales); se selecciona como semilla la palabra clave más frecuente de
aquéllas que pertenecen a la proteína con una mejor puntuación. Seguidamente, se recorre el
grafo recursivamente buscando palabras clave que estén conectadas a alguna de las palabras
aceptadas, y si Fkwij es mayor que Fkwi/2 (siendo i la que ya está aceptada), entonces se añade
al conjunto de aceptadas. Esta forma de proceder permite obtener un conjunto lo más numeroso
posible de palabras clave sin mezclar palabras que no aparecen simultáneamente, que podrían
ser auto-excluyentes, como en el caso de que proviniesen de dos subfamilias distintas que han
quedado agrupadas conjuntamente.
4.4.- Transferencia de códigos de actividad enzimática
El código enzimático que se transfiere es aquél asociado a la proteína con una mejor categoría y
puntuación de alineamiento de secuencia con la proteína problema. La categoría de alineamiento
correspondiente a esta proteína se emplea para indicar el nivel de fiabilidad de la transferencia.
4.5.- Anotación de grupos vecinos
Los otros grupos de proteínas resultantes del algoritmo de agrupamiento, idealmente
corresponderán a otras subfamilias relacionadas, que pueden presentar funciones más o menos
parecidas, más o menos distintas, con respecto a la función de la subfamilia a la que pertenece la
proteína problema. Asignar una función a cada uno de estos grupos vecinos puede ser
informativo, especialmente en aquellos casos en que la proteína haya sido agrupada de forma
solitaria (en un singleton o grupo de tamaño 1). Para cada grupo suficientemente grande (más de
tres proteínas) se construye una anotación general a partir de las descripciones de las proteínas
contenidas en ellos. Finalmente se indica la proximidad de cada uno de estos grupos al grupo de
la proteína problema. El algoritmo diseñado para esta anotación es similar al usado en el caso de
las palabras clave, realizándose estos pasos para cada uno de los grupos vecinos:
1) las descripciones funcionales de las proteínas presentes en el mismo grupo son divididas en
palabras. Se eliminan las palabras que aparecen frecuentemente pero que no aportan información
funcional (ejemplos: protein, hypothetical, fragment, etc).
2) se calcula la frecuencia (Fwi) de cada palabra, entendida como la fracción de descripciones
que presentan la palabra. Se selecciona la más frecuente como semilla.
37
3) se construye un grafo en el que los nodos son las distintas palabras (incluyendo las no
informativas) y los arcos conectan palabras que aparecen en una misma descripción, siendo el
peso de éstos el número de veces que esto ocurre (Fwij).
4) se aceptan aquellas palabras que aparezcan conectadas a la semilla con una Fwij > Fwsemilla
(aquí está la diferencia con el procedimiento aplicado para las palabras clave; la razón de usar
este criterio es que no queremos extender lo más posible la descripción, sino obtener una
descripción lo más representativa posible del resto de descripciones).
A continuación se presenta una particularidad que no encontramos en el caso de las palabras
clave: tenemos una lista de palabras pero éstas han de ser ordenadas para obtener una
descripción legible. Para intentar resolverlo, se calcula, para cada palabra aceptada, la posición
relativa más frecuente (..., -3, -2, -1, +1, +2...) con respecto a la semilla, y a partir de estas
posiciones se ordena la lista de palabras. La descripción resultante no es todo lo buena que se
desearía porque el procedimiento no tiene en cuenta signos de puntuación o paréntesis, y cuando
una misma palabra aparece más de una vez en una descripción, sólo se tiene en cuenta la
primera ocurrencia.
38
Resultados
1.- Identificación de proteínas homólogas mediante búsquedas recursivas con secuencias
intermedias (BSI).
Uno de nuestros objetivos iniciales fue el de estudiar el comportamiento de los métodos de
búsqueda de homólogos como BLAST y su aplicación iterativa en forma de búsquedas con
secuencias intermedias (BSI). Quisimos determinar la capacidad de estos métodos para encontrar
homólogos lejanos, aquéllos cuya secuencia se parece muy poco. También estudiamos la
posibilidad de utilizar la información que generaban para obtener mapas del espacio de
secuencias apropiados. Para analizar estos aspectos realizamos 1.531 experimentos de BSI con
las secuencias del conjunto de prueba SET_1531. Cada uno de estos experimentos se llevó a
cabo con la base de datos SET_3624+nr90, es decir, buscando en ella, y aplicando cuatro
iteraciones con un umbral de e-value de 0.1. De cada experimento de búsqueda BSI resultó un
grafo en el que las proteínas encontradas en la base de datos aparecen conectadas entre sí
cuando BLAST ha hallado parecidos de secuencia con un e-value por debajo del umbral. El
número máximo de secuencias aceptadas se estableció en 1.500, para evitar que se generaran
grafos demasiado grandes y para reducir el tiempo de cálculo.
Sensibilidad y especificidad de algunos métodos de búsqueda de homólogos
5500
5000
4500
4000
3500
3000
fm
um
tm
2500
2000
1500
1000
500
blast-0.01*
blast-0.05*
blast-0.1*
psi-0.005
psi-0.1
bsi-1e-10
bsi-1e-05
bsi-0.0001
bsi-0.001
bsi-0.1
0
Figura 7. Sensibilidad y especificidad de los métodos de búsqueda de homólogos BLAST, BSI y PSIBLAST utilizando distintos parámetros. En el eje Y se muestra el número de ocurrencias de las clases
relaciones correctas (tm), inciertas (um) e incorrectas (fm); en el X se muestran los distintos métodos con
distintos umbrales de e-value: las cinco primeras columnas se correscponden con los resultados de las
búsquedas BSI con umbrales de 0.1, 0.001, 0.0001, 1e-05 y 1e-10, las dos siguientes con los de PSI-BLAST y
las tres últimas con los de BLAST. (*)Los e-values empleados para BLAST no son comparables ya que el valor
de esta medida estadística depende del tamaño de la base de datos (cuanto mayor sea ésta mayor también
será la probabilidad de encontrar parecidos por azar), y en el caso de BLAST las búsquedas se realizaron
directamente sobre la base de datos SET_3624, sin incluir la nrdb90 (la relación aproximada entre los e-values de los
métodos de PSI-BLAST y BSI con respecto a BLAST es de 246, es decir un e-value de 0.1 correspondería a uno de 24.6 si el
espacio de búsqueda fuera el conformado por la base de datos SET_3624+nrdb90).
39
Quisimos estudiar qué efecto tiene usar distintos umbrales de parecido para encontrar homólogos
lejanos utilizando el método de BSI. Para realizar este análisis obtuvimos subgrafos a partir de los
grafos originales (aquéllos con umbral de 0.1) del siguiente modo: seleccionamos todas aquellas
secuencias (nodos) que fuese posible alcanzar a través de arcos con un e-value menor que un
cierto umbral, a partir de la proteína semilla. Esta aproximación es equivalente, aunque no igual, a
realizar el experimento de BSI desde el principio con un umbral distinto. Del uso de distintos
umbrales resultaron distintos niveles de sensibilidad y especificidad (o precisión). En la figura 7 y
en la tabla 2 se muestran estos resultados. Por ejemplo, aplicando el umbral inicial de e-value de
0.1 (bsi-0.1), resultaron 788.114 positivos, de los cuales más de 5.297 se correspondían con
secuencias provenientes de SCOP. Estas 5.297 secuencias nos permiten estimar la efectividad
del método. En los 1.531 experimentos aparecieron 3.107 positivos verdaderos u homólogos
conocidos, aquéllos que pertenecían a la misma superfamilia de SCOP que la proteína semilla del
experimento en cuestión. También se encontraron 163 positivos que pertenecían a una
superfamilia distinta pero que por tener una estructura similar (mismo fold o plegamiento en
SCOP) se consideran como positivos inciertos. Finalmente, en los resultados se incluyeron 2.027
falsos positivos, proteínas que sabemos que tienen un origen distinto al de la proteína semilla.
Con umbrales más restrictivos el número de falsos positivos decrece sensiblemente, en mayor
proporción que el número de positivos verdaderos.
RESULTADOS GLOBALES
total
tm
um
fm
bsi-0.1
788.114
3.107
163
2.027
bsi-0.001
355.565
2.558
85
138
bsi-0.0001
295.224
2.115
51
84
bsi-1e-05
244.909
1.763
32
51
bsi-1e-10
128.738
861
6
17
bsi-1e-15
85.945
562
0
0
psi-0.1
312.029
2.366
82
79
psi-0.005
297.849
2.265
71
68
blast-1*
3.266
1.399
33
1.834
blast-0.1*
1.370
1.154
9
207
blast-0.05*
1.214
1.097
7
110
blast-0.01*
1.019
983
5
31
Tabla 2. Sensibilidad y especificidad de los métodos de búsqueda de
homólogos BLAST, BSI y PSI-BLAST utilizando distintos parámetros. En la
columna total se indica el número total de proteínas encontradas tras las 1.531
búsquedas. En las siguientes columnas se indica el número de relaciones
correctas (tm), inciertas (um) e incorrectas (fm). (*)El número total de parecidos
encontrados utilizando BLAST no es comparable al de los otros métodos ya que
en SET_3624+nrdb90 (la base de datos usada para BSI y PSI-BLAST) hay
475.909 secuencias, mientras que en SET_3624 tan sólo hay 3.624.
1.1.- Comparación de la sensibilidad y especificidad de las búsquedas BSI con respecto a
BLAST y PSI-BLAST
A continuación, y para dar un sentido a los valores de especificidad y sensibilidad obtenidos con
BSI, comparamos éstos con los que se pueden obtener con BLAST y PSI-BLAST. En la figura 7 y
la tabla 2 también se muestra esta comparación. Se puede apreciar que los niveles de
sensibilidad (capacidad de encontrar homologías remotas) tanto de BSI como de PSI-BLAST son
claramente superiores a los que se pueden alcanzar con BLAST, permitiendo detectar, a un
mismo nivel de especificidad (capacidad de discriminar entre parecidos debidos al azar y
homologías verdaderas), más del doble de homologías lejanas. En cuanto a las búsquedas de
tipo BSI, observamos que éstas pueden llegar a ser más sensibles que PSI-BLAST, pero con el
40
coste de una pérdida notable de especificidad, es decir, pueden hallar una mayor cantidad de
homólogos remotos pero incluyendo numerosos falsos positivos. La comparación a un mismo
nivel de especificidad revela que PSI-BLAST posee una sensibilidad ligeramente superior a BSI
(la comparación más oportuna es aquélla entre BSI-0.0001 y PSI-0.1).
1.2.- Evolución de la búsqueda de homólogos a lo largo de las rondas o iteraciones
También quisimos estudiar el comportamiento de BSI y PSI-BLAST a lo largo de las distintas
iteraciones. Observamos que, en general, el método de BSI permite detectar las homologías
lejanas más rápidamente que PSI-BLAST, es decir, en las primeras rondas. El patrón de aparición
de falsos positivos con BSI es inverso ya que la proporción de éstos crecen en las rondas
posteriores (tabla 3). PSI-BLAST muestra un comportamiento más constante, ya que la
proporción de relaciones correctas e incorrectas en sus resultados se mantiene más o menos
constante a lo largo de las rondas. El distinto comportamiento de ambos métodos en cuanto a la
aparición de falsos positivos se explica por el modo como les afecta la aparición, en una ronda
determinada, de una falsa homología: en el caso de BSI, éstos homólogos falsos provocan un
efecto de arrastre que conduce a que en la siguientes rondas sean incluidos también las otras
proteínas de su familia. Sin embargo, la presencia de algún homólogo falso en el perfil que genera
PSI-BLAST puede que no tenga suficiente peso para que se produzca este arrastre,
especialmente si en el perfil existe una amplia representación de homólogos verdaderos.
RESULTADOS POR
RONDAS
tm - um - fm - total
Método / ronda
1
2
3
4 (ó >4*)
bsi-0.1
758-0-7-101.069
922-29-106-137.721
1.013-91-966-329.884 414-43-948-219.440
bsi-0.0001
751-0-7-100.304
770-20-22-105.762
517-30-47-76.072
77-1-8-13.086
psi-0.1
695-0-4-91.973
556-5-11-68.110
363-13-6-45.514
752-64-58-106.432
psi-0.005
610-0-3-82.340
529-2-7-63.237
358-13-4-44.816
768-56-54-107.456
Tabla 3. Evolución de la aparición de homólogos y parecidos al azar a lo largo de las distintas iteraciones. En
cada celda se muestra, separado por '-', el número de homologías remotas detectadas (tm), de relaciones inciertas
(um), de falsas homologías (fm) y el número total de parecidos detectados. (*)Dado que para PSI-BLAST se llevaron a
cabo 20 rondas, en la última celda se muestran los resultados acumulados desde la 4ª ronda hasta la última.
1.3.- Los distintos métodos de búsqueda encuentran distintas relaciones, aunque hay un grado de
coincidencia elevado.
El siguiente aspecto que decidimos estudiar fue si las relaciones que detectaban ambos métodos,
BSI y PSI-BLAST, eran o no coincidentes. En la figura 8 se muestra el grado de solapamiento en
cuanto a las relaciones de homólogos verdaderos, inciertos y falsos homólogos. En el caso de las
homologías verdaderas la coincidencia de ambos métodos es mayor (70-79% de las relaciones
encontradas mediante BSI y PSI-BLAST, respectivamente) que en el caso de las relaciones
inciertas e incorrectas. Es interesante que ambos métodos son capaces de detectar conjuntos de
relaciones de homología independientes, es decir, tanto uno como otro aportan información
adicional con respecto al otro: aunque PSI-BLAST es capaz de detectar, en total, 251 homologías
lejanas más que BSI (2336 frente a 2115), BSI encuentra 454 relaciones que no logró identificar
PSI-BLAST.
En cuanto a las relaciones incorrectas (falsos homólogos), el grado de coincidencia de los dos
métodos es menor (en torno al 33-31%). El hecho de que el solapamiento sea mayor para las
homologías verdaderas constituye una señal que nos puede servir para aumentar la confianza en
los resultados: es decir, si una relación es identificada por los dos métodos, entonces la confianza
que tendremos de que refleje un origen evolutivo común será mayor. Además, hemos observado
que, al menos en muchos de los casos en que ambos métodos encuentran una misma falsa
homología, ésta tiene su origen en las características especiales del conjunto de prueba
empleado, como discutiremos más adelante. Posiblemente, en una situación más natural, el
solapamiento en el conjunto de relaciones incorrectas sería menor.
41
Figura 8. Grado de coincidencia en las relaciones detectadas mediante BSI y PSIBLAST. Del total de relaciones encontradas en cada categoría (correctas, inciertas e
incorrectas) se representa cuánto solapan los conjuntos correspondientes a BSI y PSIBLAST.
1.4.- Algunos ejemplos
Un ejemplo que sirve para ilustrar cómo se comportan PSI-BLAST y BSI es el de la superfamilia
c.1.15 (según la nomenclatura de SCOP). Esta superfamilia es la correspondiente a la de las
isomerasas de xilosa y otras proteínas relacionadas. En nuestro conjunto (SET_3624) hay 4
secuencias de estas superfamilia, las cuales están agrupadas en 3 familias distintas: 2 xilosa
isomerasas (c.1.15.3), 1 ramnosa isomerasa (c.1.15.2) y una endonucleasa de tipo IV (c.1.15.1).
Realizamos tres experimentos con cada método de búsqueda: uno por cada representante de
cada familia. La comparación que se muestra a continuación se basó en los resultados de PSIBLAST con un umbral de 0.1 y de BSI con un umbral de 0.0001. Usando como semilla la
secuencia d1d8wa_:c.1.15.2 (ramnosa isomerasa), las búsquedas de tipo BSI permitieron
encontrar 43 proteínas, 3 de las cuales pertenecían a SCOP y eran homologías verdaderas. El
agrupamiento de estas 43 proteínas reveló que se organizaban en varios grupos o subfamilias: la
subfamilia de las isomerasas de ramnosa, dos subfamilias de isomerasas de xilosa y dos grupos
de isomerasas poco caracterizadas, como se muestra en la figura 9 (b). Por su parte, en la
primera ronda PSI-BLAST encontró los cuatro miembros de la familia de las ramnosa isomerasas,
42
a)
b)
----------------------------------------------------------------Resultados por rondas
ronda nº
1
2
3
4
5
nº de secuencias 1
4
3
14
21
----------------------------------------------------------------43 secuencias => mapa del espacio de secuencias => agrupamiento
----------------------------------------------------------------Grupos resultantes:
#1 (tamaño 3): probable isomerasa de azúcar
#2 (tamaño 2): idem
#3 (tamaño 27): isomerasa de xilosa
(scop:d1a0ca_:c.1.15.3)
#4 (tamaño 4): isomerasa de xilosa
(scop:d1xis__:c.1.15.3)
#5 (tamaño 5): isomerasa de L-ramnosa
(scop:d1d8wa_:c.1.15.2)**
[**: grupo que contiene la proteína semilla)
----------------------------------------------------------------Aparición de los grupos a lo largo de las rondas
ronda nº 1
2
3
4
5
grupo
1
1
2,3
2,3,4,5 4,5
(las búsquedas no convergieron)
----------------------------------------------------------------Capacidad media entre grupos
1
2
3
4
5
1
118.000 51.393
0.000
2.460
2.334
2
51.393
68.100
2.680
4.215
2.850
3
0.000
2.680
68.914
13.531
0.000
4
2.460
4.215
13.531
68.898
0.000
5
2.334
2.850
0.000
0.000
143.900
----------------------------------------------------------------Número de conexiones entre grupos
1
2
3
4
5
1
0
6
0
2
5
2
6
0
12
8
1
3
0
12
0
162
0
(scop:
d1a0ca_:c.1.15.3)
4
2
8
162 d1xis__:c.1.15.3)
0
0
(scop:
5
5
1
0
0
0
isomerasas de xilosa
-----------------------------------------------------------------
3
4
5
isomerasas de
L-ramnosa
(scop: d1d8wa_:c.15.2)
1
2
probables isomerasas
Figura 9. Ejemplo de superfamilia c.1.15. Tras las búsquedas BSI con d1d8wa_:c.1.15.2 (isomerasa
de ramnosa) se aplicó el algoritmo de agrupamiento, que dio lugar a los resultados que se muestran. En
la parte superior (a) se muestran algunos datos acerca de la evolución de la búsqueda a lo largo de las
rondas o acerca de los grupos que resultaron y de cómo fueron apareciendo según las ronda. También se
muestra en dos matrices el grado de conexión entre los distintos grupos. En la parte inferior de la figura
(b) se representan esquemáticamente los resultados del agrupamiento. Cada círculo se corresponde con
un círculo cuyo tamaño es proporcional al número de proteínas que alberga. En el interior de los círculos
se muestra el identificador del grupo, para poder relacionarlos con la información que aparece en a. Las
líneas que conectan los grupos tienen un grosor proporcional a la fuerza de sus conexiones.
Se observa que existe una correcta separación de las distintas familias. Los dos grupos de isomerasas de
xilosa son claramente distintos por lo que son separados: la capacidad media dentro de ambos grupos es
de aproximadamente 68 (se corresponde con e-values alrededor de 1e-68), mientras que la capacidad
media entre los dos grupos es sólo de 13.5. A pesar de tener una misma anotación funcional y de
pertenecer a la misma familia de SCOP, esta separación concuerda con la conocida existencia de dos
clases de isomerasas de xilosa (Hartley et al., 2000).
Por su parte, PSI-BLAST converge enseguida porque en la primera ronda tan sólo son encontradas las
cinco isomerasas de ramnosa, y el perfil generado con ellas resulta pobre porque contiene proteínas
demasiado parecidas y que no son suficientemente cercanas a otra subfamilia. En el caso de las
búsquedas de tipo BSI, se encuentran algunos parecidos entre estas proteínas y las del grupo 1, lo que
permite, en posteriores rondas, alcanzar a las otras subfamilias.
pero el perfil que construyó a partir de estos alineamientos no permitió detectar otras homologías.
Estos resultados están ilustrados y ampliados en la figura 9 (a). Sin embargo, cuando ambos tipos
de búsquedas se iniciaron usando como semilla un representante de otra familia, como el de las
isomerasas de xilosa, el resultado fue bien distinto: PSI-BLAST logró encontrar las cuatro
familias homólogas de SCOP, mientras que las BSI sólo identificaron la propia familia. El caso de
43
la familia de las endonucleasas es similar, ya que PSI-BLAST también resultó más efectivo. Las
diferencias observadas usando distintas proteínas semilla se explican de distinta manera para los
dos métodos. En el caso de PSI-BLAST, la capacidad de entontrar nuevas homologías depende
de qué secuencias se usen para construir el perfil. Si este perfil no contiene suficiente información
(léase información variada), es posible que no resulte efectivo. Por su parte, las búsquedas BSI
ofrecen resultados diferentes cuando se usan distintas semillas porque dependen de
alineamientos locales y de búsquedas con subsecuencias. Supongamos el siguiente escenario en
el que tres proteínas (A, B y C) son homólogas: para que el alineamiento de A y B tenga una
puntuación buena (con un e-value por debajo del umbral) éste ha de ser largo y cubrir las
secuencias completas de A y B, pero el mejor alineamiento local entre B y C se confina a una
zona pequeña de sus secuencias. En esta situación, iniciando la búsqueda con A, se encontrará
B y buscando con la secuencia de B que ha alineado con A se podrá encontrar C. Sin embargo, si
empezamos la búsqueda con C, se encontrará B, pero la búsqueda siguiente con la corta
subsecuencia de B no permitirá encontrar a A.
Otro ejemplo interesante es el de la proteína d1j9qa1:b.6.1.3, que es una nitrito reductasa,
representante, en nuestro conjunto, de una familia de 17 miembros de proteínas reductasas que
contienen cobre y que son multidominio. Esta familia y otras tres se agrupan en una superfamilia,
la de las cupredoxinas, de 32 proteínas (32 en el conjunto SET_3624). Los métodos de PSIBLAST y BSI, utilizados con los mismos parámetros que en el ejemplo anterior, encontraron 14 y
9 homologías (del total de 32 posibles), respectivamente. Estos dos conjuntos solapan en seis
elementos, es decir, PSI-BLAST encontró ocho que no detectó BSI; y BSI tres que no encontró
PSI-BLAST. En total, incluyendo las otras proteínas que no pertenecen a SCOP, PSI-BLAST
encontró 320 parecidos, y BSI 300. Las búsquedas BSI con umbrales más permisivos (e-value de
0.1) permitieron detectar hasta 21 homólogos de SCOP, pero la confianza de este método con
tales umbrales es baja y requiere una inspección cuidadosa de los resultados.
En cuanto a las falsas homologías, algunas se deben a parecidos que por azar existen entre
proteínas sin un pasado común y que erróneamente son considerados como positivos por los
métodos de búsqueda, aunque usualmente tienen e-values poco significativos. Sin embargo,
otras falsas relaciones, como se ilustra a continuación, nacen de las particularidades del conjunto
de prueba, en el cual, en lugar de utilizar proteínas completas se emplean sus dominios (tal y
como están definidos en SCOP). En el caso de d1kapp2:d.92.1.6, tanto BSI (bsi-0.0001) como
PSI-BLAST identifican erróneamente una relación con d1ck7a6:a.20.1.2. Aplicando el algoritmo
de agrupamiento a los resultados de bsi-0.0001 apreciamos que este falso homólogo de la
superfamilia a.20.1 queda en un grupo de tamaño 1 (queda aislado) y que este grupo esta muy
fuertemente conectado a otro de la superfamilia d.92.1. La razón por la que estas superfamilias no
homólogas aparecen tan fuertemente conectadas es que los dominios de ambas superfamilias
aparecen juntos en proteínas de tipo metaloproteinasas de la matriz, y tras las búsquedas BSI (y
también en el caso de PSI-BLAST) se produce una extensión de los alineamientos que provoca la
inclusión de parte de la secuencia del dominio vecino, de forma que queda incluido en los
resultados. Un examen superficial de los casos en que hay falsas homologías pero con
conexiones fuertes sugiere que éstas tienen su origen en este tipo de artefactos, que en
escenarios más reales, con proteínas completas, no se producirían. La poda de los extremos (ver
la sección de Métodos) limita los efectos de este fenómeno pero no los elimina completamente.
1.5.- Coste computacional de los métodos de búsqueda y del algoritmo de agrupamiento.
Las búsquedas BSI se realizaron utilizando una máquina BlastMachine de Paracel de 16
procesadores. Estas búsquedas tardaron 19 días en concluir. El algoritmo de agrupamiento suele
tardar menos que las búsquedas BSI, pero como el tiempo de cálculo crece exponencialmente,
con grafos de más de 1.400-1.500 nodos, tarda más que las propias búsquedas. Debido a esto, y
a que el agrupamiento se realizó utilizando un solo procesador, el agrupamiento de los resultados
de las BSI tardó casi un mes. Este algoritmo puede resolver un grafo de 1000 nodos en uno o
unos pocos minutos (el tiempo es variable) mientras que puede tardar una o varias horas con un
grafo que contenga 1.500 nodos.
44
2.- Evaluación de la capacidad del algoritmo de agrupamiento para identificar familias de
proteínas.
Los resultados de las búsquedas recursivas BSI, o los de otros métodos de comparación entre
pares de secuencias, pueden representarse como un grafo. Las características del espacio de
secuencias, de este modo, quedan reflejadas en dicha estructura de datos. Para interpretar estos
grafos decidimos investigar algunos métodos de agrupamiento o clustering. En este apartado se
examina la efectividad del mejor algoritmo que encontramos, el basado en el corte normalizado
(Ncut). Los resultados de este trabajo inspiraron el método de anotación de función.
Primeramente se muestra una comparación del análisis del espacio de secuencias circundante a
la proteína ras-p21 humana con respecto a la base de datos PROTOMAP. Seguidamente, a partir
de la aplicación de este algoritmo a cada uno de los genes de Mycoplasma genitalium, se expone
una comparación sistemática con la base de datos COGs.
Figura 10. Comparación de los resultados del agrupamiento de las búsquedas BSI usando la proteína rasH
humana con PROTOMAP. En la parte izquierda de la figura se muestran los resultados del algoritmo de Ncut. Sólo
se representan los grupos con más de tres secuencias, por lo que son obviados 18 grupos pequeños que en total
contenían 21 proteínas. Los resultados originales pueden consultarse en:
http://www.pdg.cnb.uam.es/fabascal/RAS/P01112.faa.Cft.ncut.html. En la parte derecha se comparan estos resultados
con la representación en forma de árbol de los grupos según la base de datos PROTOMAP. El agrupamiento que
realiza PROTOMAP es jerárquico y en él se van aglomerando pequeños grupos para dar lugar a otros mayores a
medida que se relaja el umbral. En el nivel correspondiente al umbral más permisivo (umbral de 1), la proteína
rash_human forma un grupo conjuntamente con los otros miembros de la familia ras (ran, rab, rho...); en este mismo
nivel, las proteínas ARF, SAR y Galpha se encuentran juntas en un grupo vecino que contiene 177 proteínas. En la
figura se muestra el árbol de cómo se ha ido formando el grupo de ras.
(Las diferencias en los tamaños de los grupos son el reflejo de que se han usado distintas versiones de Swiss-Prot (la
versión que usamos nosotros contenía 97.586 secuencias, mientras que la de PROTOMAP, la versión 35, sólo
72.623).
45
2.1.- Agrupamiento alrededor de la proteína humana ras-p21 en un espacio de secuencias
altamente poblado
Este experimento se realizó usando la proteína swiss:RASH_HUMAN como semilla de una
búsqueda BSI de cuatro rondas, con un umbral de e-value de 1e-07 y en la base de datos SwissProt. Seguidamente se efectuó el agrupamiento. Los grupos resultantes fueron comparados con
los de PROTOMAP (Yona et al., 1999), el cual, a distintos niveles jerárquicos, ofrece una
descripción automática de la organización de las proteínas en familias y subfamilias. En la figura
10 se ilustra esta comparación. El algoritmo identificó satisfactoriamente las subfamilias ras/ral,
ran, gem/rad, rab, rab7, rac/rho, ran, arf, sar y G-alfa. La relación de la subfamilia ras con rab,
rab7 y ran es fuerte, mientras que con rho es más débil. Estos resultados coinciden con lo que
sabemos acerca de esta familia (Ranea & Valencia, 1998). También se observa bastante
concordancia con la clasificación de PROTOMAP: al nivel 1e-00, en esta base de datos se
observan dos grupos, uno con ras y las subfamilias cercanas y otro con arf, sar y las G-alfa. A
medida que el nivel se hace más restrictivo en PROTOMAP, se observa que el grupo de las
proteínas Ras y parientes cercanos se divide: primero se separan las rho/rac (aunque no todas);
posteriormente, se separan las rab (aunque tampoco todas). Algunos resultados del algoritmo de
agrupamiento basado en el corte normalizado son destacables, como el hecho de que no sólo
separa correctamente todas las subfamilias sino que es capaz de identificar satisfactoriamente la
diferencia existente entre las proteínas rab7 y las otras rab, clasificándolas en dos grupos
diferentes.
2.2.- Los genes de Mycoplasma genitalium en el espacio de secuencias conformado por los 21
genomas completos de la base de datos COGs
En la base de datos de COGs (Tatusov et al., 1997), al igual que en nuestro caso, se trata de
identificar grupos de ortólogos o subfamilias. El método que emplean es semi-automático, es
decir, los resultados son supervisados por expertos. Estos dos aspectos de COGs son los que
nos impulsaron a utilizar esta clasificación como marco de comparación y evaluación del método
de agrupamiento. A diferencia de COGs, donde se clasifican todos los genes de varios genomas,
nosotros aplicamos el método al espacio de secuencias próximo a cada uno de los genes de
Mycoplasma genitalium. Por tanto, para la comparación, sólo se tuvieron en cuenta aquellos
grupos de COGs que contenían algún gen de este organismo.
Para obtener los mapas del espacio de secuencias colindante con cada uno de los 468 genes de
Mycoplasma genitalium (MG) utilizamos los resultados de BLAST que están disponibles en la
propia base de datos de COGs. A partir de estos BLAST se simuló, para cada gen, una BSI de
tres rondas, con un umbral de e-value de 1e-05. Posteriormente aplicamos el algoritmo de
agrupamiento a cada uno de estos 468 mapas, en un caso con el umbral X2 y en otro con el X4.
Es decir, requiriendo que, para que continuase el agrupamiento, la capacidad media dentro de los
subgrafos fuese doble (X2) o cuádruple (X4) con respecto a la capacidad media entre éstos. Para
comprender mejor los resultados del agrupamiento, que produjo grupos de pequeño tamaño,
intentamos reconstruir los grupos de ortólogos mediante diversas estrategias que generaron las
series de resultados: X2 join6, X4 join6, X2 S_one, X4 S_one, y X2 S_var y X4 S_var.
Para evaluar la efectividad del método, analizamos diversas características de los resultados,
como por ejemplo cuáles eran los tamaños de los grupos que contenían los genes de MG tras el
agrupamiento. Esta distribución de tamaños se comparó en las distintas series de resultados y
con respecto a COGs. Asimismo, determinamos si el contenido de los grupos era coherente y
coincidente comparado con el de los grupos de COGs.
2.2.1.- Distribución de los tamaños de los grupos de los genes de MG
La observación de los tamaños de los 468 grupos que contienen cada uno de los genes de MG
ofrece los primeros indicios de la eficiencia del método. Por ejemplo, si esperamos que en cada
grupo de ortólogos haya un representante de cada genoma, entonces, el tamaño de 21 debería
ser el que observemos más frecuentemente.
46
Figura 11. Distribución de los tamaños de los grupos obtenidos para cada uno de los genes de
Mycoplasma genitalium. El eje Y indica el número de ocurrencias; el X los tamaños de los grupos. Se
muestran las distribuciones de tamaños para las series X2/X4 simple (a y b), X2/X4 join6 (c y d), X2/X4
S_var (e y f) y la distribución de COGs (g; en este caso sólo se representan los grupos que contienen más
de tres linajes).
a) Series X2 y X4 simple: en las gráficas a y b de la figura 11 se puede apreciar que el algoritmo
de agrupamiento aplicado a este conjunto generó grupos de pequeño tamaño. Observamos dos
tamaños especialmente frecuentes: aquéllos con dos o tres genes y aquéllos con 16 ó 17. El
análisis de los grupos con dos o tres genes reveló que la mayoría se correspondían con grupos
en los que quedaban aislados los genes de MG y MP (Mycoplasma pneumoniae). Los grupos
vecinos de éstos solían contener los ortólogos de las otras bacterias, pero el algoritmo los
separaba. Por ejemplo, el grupo MG092 contenía dos proteínas ribosomales S18 provenientes de
MG y MP. Había dos grupos vecinos a éste: uno de ellos contenía el ortólogo de R. prowazekii,
mientras que el otro contenía los ortólogos de las otras trece bacterias, más un in-paralog (o
duplicación reciente) de M. tuberculosis. El ortólogo de S. cerevisiae no aparecía en los
resultados porque ha divergido notablemente (e-value de 0.0004, el cual estaba por encima de
nuestro umbral). Este caso ilustra el hecho de que gran parte de los grupos de este tamaño
aparecieron porque MG y MP son muy parecidas entre sí, y, al no haber una amplia
representación filogenética, el algoritmo interpreta que constituyen un grupo diferenciado del
47
resto. Por otra parte, algunos de los grupos con dos o tres genes eran reflejo de la existencia de
genes específicos del género mycoplasma. Por ejemplo, el gen MG241 quedaba agrupado con el
ortólogo de MP y sólo había un grupo vecino a éste, también específico de mycoplasma.
El caso de los tamaños 16-17 es análogo. La mayoría de estos grupos contenían los ortólogos de
las 16 bacterias presentes en el estudio, bien porque se tratara de genes específicos de ellas o
bien porque los ortólogos de arqueas y de eucariotas quedaban separados en grupos vecinos.
Por ejemplo, el grupo MG073, en la serie X4 simple, contenía 18 genes correspondientes a la
subunidad B de las excinucleasas ABC, no existiendo ortólogos ni en arqueas ni en eucariotas, a
excepción de un gen de M. thermoautotrophicum, el cual, posiblemente haya sido adquirido por
transferencia horizontal de genes.
En la serie X2 simple se obtuvieron 40 grupos con 16-17 genes; de éstos, 29 (72.5%) no
contenían ninguna duplicación, es decir, en el grupo había un representante por cada genoma; si
contabilizamos los grupos que contenían un máximo de tres duplicaciones, entonces observamos
37 grupos (92.5%). La situación en la serie X4 simple era similar: 56 grupos con 16-17 genes, de
los cuales 44 (78.6%) no contenían ni una duplicación, mientras que 51 (91.1%) contenían tres o
menos. Esto indica que estos grupos se componían básicamente de una secuencia por cada uno
de los genomas bacterianos, y por tanto, el tamaño de los grupos puede indicar, a grosso modo,
si se ha reconstruido un grupo de ortólogos o no.
En los resultados observamos un número pequeño de grupos con más de 21 genes. La mayoría
de éstos se correspondían con mezclas incorrectas de grupos de ortólogos. Por ejemplo, el grupo
MG345 contenía 43 secuencias de sintetasas de isoleucil- y valil-ARNt, que son dos grupos de
ortólogos muy cercanos evolutivamente y por tanto difíciles de separar. También se observaron
11 grandes grupos de 458 genes: se trataba de los transportadores de tipo ABC, que constituyen
un caso especialmente difícil. (Nota aclarativa: se observaron 11 ocurrencias, una por cada gen
de MG, pero en realidad era el mismo conjunto de genes)
Para explorar las posibles implicaciones que, sobre los tamaños de los grupos, podía tener un
'sesgo filogenético', realizamos diversas reconstrucciones a partir de la información de las
distancias existentes entre los grupos tras aplicar el algoritmo de corte normalizado.
b) Series X2 y X4 join6: en las gráficas c y d de la figura 11 se muestra el resultado que sobre la
distribución de tamaños tuvo la unión del grupo más cercano, siempre y cuando la capacidad
media fuese superior a 6, a cada grupo MG. Pudimos observar que, así como se producía un
lógico aumento en los tamaños, la calidad de éstos también cambiaba. En el caso del grupo
MG431, con isomerasas de triosas-fosfato, la aplicación de join6 resultó en la unión del grupo
original (que contenía 15 genes de bacterias y un gen de S. cerevisiae) con un grupo con los
cuatro ortólogos de arqueas. La capacidad media entre ambos grupos era de 6.3, justo por
encima del umbral. En el caso del grupo MG429, éste contenía 11 kinasas de fosfoenolpiruvato y
fue unido a un grupo que contenía 13 sintetasas de fosfoenolpiruvato. La capacidad media de las
conexiones entre estos dos grupos era muy alta (23.2), pero en este caso ambos grupos
constituían conjuntos de ortólogos independientes, es decir, eran grupos parálogos y su unión no
resultaba pertinente. Estos dos casos ilustran el hecho de que no existe un umbral fijo que pueda
definir los límites de las distintas familias, sino que cada una tiene unas características
particulares.
c) Series S_var y S_one (X2 y X4): el procedimiento S_var implica una agregación incremental de
grupos vecinos según el algoritmo descrito en la sección de Métodos, atendiendo a la
representación filogenética resultante para detener el proceso. El ejemplo de MG283 puede
aclarar su funcionamiento (figura 12). Inicialmente el gen MG283 formaba un grupo con la otra
sintetasa de prolín-ARNt de MP. El grupo más cercano, curiosamente, contenía estos seis genes:
los cuatro ortólogos de arqueas, el del eucariota S. cerevisiae y el de la bacteria B. burgdorferi. La
unión de ambos grupos fue aceptada porque conllevaba una disminución de la entropía relativa.
El siguiente grupo más cercano contenía los 13 ortólogos bacterianos restantes más otra versión
del gen de S. cerevisiae; este grupo también fue unido. El proceso se detuvo, satisfactoriamente,
cuando se intentó unir el siguiente grupo vecino, que contenía 19 sintetasas de treonín-ARNt. El
48
método de agrupamiento puso de manifiesto algunas características intrigantes de esta familia: 1)
hay dos versiones del gen eucariota, la primera más cercana a arqueas, la segunda más cercana
a bacterias; y 2) tanto los ortólogos del género bacteriano de micoplasma como el ortólogo de B.
burgdorferi están más cercanos evolutivamente a los ortólogos de las arqueas que a los de las
otras bacterias.
Otro ejemplo interesante es el de la reconstrucción alrededor de la proteína ribosomal S2
(MG070). Inicialmente, el gen de MG quedó aislado junto al de MP. Durante la reconstrucción
primero fue unido a un grupo vecino que contenía los otros 14 ortólogos bacterianos.
Seguidamente se unió un grupo que contenía el ortólogo de levadura. Posteriormente se agregó
el grupo con los 4 representantes de arqueas. Y, finalmente, se añadió otro grupo que contenía
dos copias extra (in-paralogs) del ortólogo de S. cerevisiae (según el modelo de S_one, esta
última unión habría sido rechazada). Estas dos copias han divergido bastante del ortólogo
original, por lo que a lo mejor desempeñan funciones distintas. El COG correspondiente a este
gen de MG contenía las mismas 23 secuencias.
Figura 12. Representación libre de los resultados del algoritmo de agrupamiento para el gen
MG283 y la reconstrucción basada en el procedimiento S_var. La representación de grupos y
sus conexiones es similar a la descrita en la figura 9. La elipse negra punteada indica el conjunto de
grupos que se unieron, mientras que la elipse de color gris indica cuál fue la última agregación
rechazada. En la parte inferior se indica cómo se produjo la reconstrucción y cómo afectó ésta al
número de genes y genomas, así como a la entropía relativa.
La distribución de tamaños mejoró sensiblemente en estas series de resultados (gráficas g y h de
la figura 11), ya que la frecuencia de los tamaños 16-17 y 20-21 (y 22-23) aumentó de forma
notable. Estos tamaños se corresponden con conjuntos de ortólogos provenientes del filo de las
bacterias o de todas las especies, respectivamente. El estudio de la representación filogenética
en los grupos permitió que los dos casos descritos para la serie join6 fuesen resueltos con éxito:
en el caso de MG431 se completó satisfactoriamente el conjunto de ortólogos mientras que en el
caso de MG429 se evitó la inclusión de secuencias parálogas.
De los 53 grupos con 16 ó 17 secuencias obtenidos en X2 S_var, 33 grupos (62.3%) no contenían
ninguna duplicación, y 49 (92.5%) contenían tres o menos. En el rango de tamaños de 20 a 23,
había 72 grupos, 57 de los cuales (79.2%) contenían tres o menos duplicaciones. Por tanto, los
grupos estaban formados principalmente por un ortólogo por cada una de las especies,
49
Figura 13. Comparación de los dos modelos de distribución esperada de ortólogos
(modelos S_var y S_one). El modelo S_var asume que la contribución de ortólogos (e inparalogs) por cada genoma será proporcional al tamaño del genoma. El modelo S_one
asume que cada genoma contribuirá igualmente, independientemente de su tamaño. La
representación es equivalente a la de la figura 11. En gris claro se muestran los
resultados de S_one; en oscuro los de S_var.
incluyendo pocas duplicaciones, lo cual indica que estas duplicaciones se correspondían con inparalogs en lugar de out-paralogs (parálogos que pertenecen a distintas familias de proteínas).
Observamos que, curiosamente, los tamaños 22-23 eran más frecuentes que los tamaños 20-21,
por lo que decidimos estudiar su origen. De los 42 grupos de tamaño 22-23 que contenían pocas
duplicaciones (había 53 grupos con este tamaño), la mayoría de ellos contenían duplicaciones o
in-paralogs de levadura (36 de 42; 86%), siendo mucho menor este porcentaje para el inmediato
perseguidor, B. subtilis, con el 19%. Es interesante comprobar que el número de duplicaciones no
tiene una relación clara con el número de genes del organismo, ya que ambos organismos,
levadura y B. subtilis, tienen proteomas de tamaño no muy distinto: 5.932 y 4.122 secuencias,
respectivamente. Parece que esta característica está más relacionada con la historia evolutiva de
los organismos ya que existen evidencias acerca de una duplicación ancestral del genoma de
levadura (Wolfe & Shields, 1997).
El nivel de redundancia (cantidad de in-paralogs) que mostraban estos grupos de ortólogos
50
parecía más próximo al esperado en el modelo S_one que al de S_var, ya que el primero supone
que en un grupo de ortólogos habrá un representante por cada genoma, mientras que el segundo
espera que la cantidad de representantes sea proporcional al tamaño del genoma. Sin embargo,
como muestra la comparación de tamaños de la figura 13, los mejores resultados se obtienen con
el modelo S_var. La razón es que S_one incorpora in-paralogs de forma menos eficiente,
quedando atrapado más fácilmente en mínimos locales de entropía relativa. Es por esto que,
comparado con S_var, con S_one fueron más frecuentes los tamaños 16-17 que los del rango 2023.
2.2.2.- Comparación con COGs
El estudio de la distribución de tamaños de los grupos tan sólo constituye una perspectiva parcial
acerca del éxito del método, por lo que decidimos complementar esta visión realizando una
comparación con la base de datos COGs. Primero comparamos las distribuciones de tamaños en
COGs y en nuestros resultados. Seguidamente analizamos si los grupos que obtuvimos contenían
los mismos genes que los de COGs.
a) comparación de los tamaños de los grupos: Para este análisis sólo se tuvieron en cuenta los
COGs que contenían algún gen de MG. Como se puede apreciar en la gráfica g de la figura 11
COGs presentó dos poblaciones de tamaños de grupos que eran claramente más frecuentes, y se
trataba de las correspondientes con los tamaños 16-17 y 22-23. En el primero de estos rangos
encontramos 62 grupos, 40 de los cuales no contenían ninguna duplicación (65%), mientras que
50 (81%) contenían tres o menos. Observamos 87 grupos con un número de secuencias entre 20
y 23, de los cuales 10 no tenían ninguna duplicación (11%) y 67 (77%) tenían tres o menos. Tanto
la distribución de tamaños como la redundancia interna observada en los grupos resultaban muy
similares a las obtenidas con el procedimiento S_var (ver figura 14).
Figura 14. Comparación de la distribución de tamaños para X4 S_var y COGs. La
representación es similar a la de la figura 11. En gris claro: S_var; en oscuro: COGs.
b) comparación del contenido de los grupos: Quizás la perspectiva más relevante para conocer la
eficiencia del método es la de comparar el contenido de los grupos. Para esta comparación se
tuvieron en cuenta las series simple y S_var con respecto a los grupos de COGs. Los grupos que
generó el algoritmo Ncut a partir del espacio de secuencias, es decir, los grupos de la serie
simple, fueron más pequeños que los COGs correspondientes, debido a la ya mencionada
sensibilidad del algoritmo frente a las irregularidades del espacio de secuencias, provocadas
51
éstas por una desigual representación filogenética. A pesar de esta tendencia, también existieron
coincidencias con respecto a COGs. Esta información queda reflejada en la figura 15 como una
acumulación de puntos en la diagonal, o bajo ella. En la gráfica también se puede apreciar que los
grupos con 16 ó 17 genes, que eran los más frecuentes en X4 simple, se correspondían
principalmente con grupos de 23 genes en COGs; esto era así porque el algoritmo Ncut tendía a
separar el conjunto de ortólogos de bacterias del resto. Por otra parte, los resultados de X4 S_var
eran muy similares a los de COGs, como se puede apreciar por la concentración de puntos en la
diagonal de la gráfica, siendo especialmente notable la coincidencia en los tamaños 16 y 17 y 2223.
En cuanto al contenido de los grupos en X4 S_var y en COGs, había 350 grupos comparables
(aquéllos que contenían genes procedentes de al menos tres linajes distintos), de los cuales 298
(85%) eran coherentes (definido en la sección de Métodos) y 159 (53%) coincidentes.
La acumulación de puntos bajo las diagonales indica que los grupos de COGs suelen ser
mayores que los de X4 simple y X4 S_var. Ya se ha discutido el origen de estos hechos para el
caso de X4 simple. En el de X4 S_var las explicaciones posibles son que el proceso de
reconstrucción quede atrapado en un mínimo local de entropía relativa, o que la distribución
esperada no coincida con la real.
En algunos casos los grupos que obtuvimos contenían más secuencias que los COGs
correspondientes. En el caso de X4 simple esto sucedió en 8 ocasiones, mientras que en X4
S_var en 48. En la mayor parte de estos grupos, la diferencia de tamaño era de más de 15
secuencias, como se puede apreciar en la gráfica b de la figura 15. La mayoría de estas
diferencias estaban relacionadas con transportadores de tipo ABC y con casos en que dos o más
grupos de ortólogos habían quedado unidos, especialmente en el caso de X4 S_var.
La comparación de los resultados de X2 simple y COGs reveló que, de 150 grupos comparables,
había 11 casos (7.3%) en los que la composición de los grupos era diferente, es decir, no era
coherente (o solapante). Este porcentaje de desacuerdo con COGs crecía hasta el 7.5% para X2
join6 (25 de 332 casos) y hasta el 12.5% (43 de 344 casos) para X2 S_var. En cuanto a las
discrepancias (por incoherencia) entre X2 simple y COGs, 9 de ellas se correspondían con
transportadores ABC y las otras dos con los casos de MG258 y MG457 que se discuten a
continuación. El grupo de MG258 se originó a partir de la proteína “factor A de liberación de la
cadena” de M. genitalium, y contenía 32 secuencias, tanto de factores A como de factores B, es
decir contenía dos subfamilias de proteínas que no habían sido separadas. Por su parte, COGs
distinguía entre estas subfamilias agrupándolas en el COG0216 (20 factores A, de los cuales 18
están presentes en el grupo de Ncut) y en el COG118 (14 factores B). La incoherencia surgía
porque Ncut separó dos factores A del resto de factores A, antes que separar los factores B de los
A. Curiosamente, los dos factores A que estaban ausentes en el grupo MG258 corresponden a
segundas copias de los ortólogos de levadura y de E. coli (los genes YLR281c y yaeJ). Estas
secuencias no fueron incorporadas en el grupo porque eran bastante divergentes, como se puede
apreciar en el árbol filogenético de la figura 16. Por tanto, el algoritmo Ncut identificó
satisfactoriamente esta divergencia, que indica que quizás esas dos secuencias no sean factores
A, y por tanto no deberían estar en el COG0216, a pesar de que no supo separar dos subfamilias
distintas.
a)
23,23
17,17
16,16
23,17
23,16
52
X4 S_var
X4 simple
13,13
17,17
16,16
11,11
22,22
a)
23,23
17,17
16,16
17,17
16,16
23,17
X4 S_var
X4 simple
13,13
23,16
22,22
11,11
Figura 15. Comparación del contenido de los grupos de Ncut y de S_var en relación al de los correspondientes
COGs. En a se muestra la relación entre los tamaños del los grupos de COGs y de (Ncut) simple/S_var para los
grupos coherentes. El tamaño de los puntos es proporcional al número de ocurrencias: por ejemplo, un punto gordo en
las coordenadas (23,23) refleja que para muchos genes de MG han resultado grupos de tamaño 23 con ambos
métodos. En b se muestra otra visión de lo mismo, a partir de la proyección de las diagonales de a. El eje X
representa la diferencia de tamaño entre los grupos coherentes, y el eje Y el número de ocurrencias. En el recuadro
se indica el número de grupos coherentes (Coh) y coincidentes (Idt) (recordemos que coherentes son aquéllos en los
que un grupo es subconjunto del otro y coincidentes son aquéllos que siendo coherentes contienen las mismas
secuencias (+/-1 secuencia). También se indica el número de grupos no coherentes (noC) y el número de grupos
comparables (Tot, que equivale a Coh + noC). C!N es el número de casos en que COGs, pero no Ncut, consigue
agrupar al gen de MG en un grupo que contiene al menos tres linajes. N!C es lo mismo, salvo que indica el número de
veces que Ncut asignó un gen a un grupo y no lo hizo COGs.
La otra incoherencia, la observada al comparar el grupo MG457 con COGs ilustra el caso en que
la supervisión por parte de expertos permite resolver algunas situaciones problemáticas. El gen
MG457 de M. genitalium, anotado como proteína ftsH, se correspondía con el COG0465, el cual
contiene 27 secuencias anotadas como Zinc-proteasas dependientes de ATP. El grupo MG457
contenía 61 secuencias: 26 correspondientes al COG0465 y el resto a diversos COGs (COG0464,
COG1222 y COG1223). Aparte del error que implica agrupar juntos distintos grupos de ortólogos,
el error de incoherencia surge por la falta del gen HI1465 de H. influenzae, aquél que está en el
COG0465 pero no en nuestro grupo. Este gen pertenece al grupo de ortólogos pero no fue
incluido porque carece de un fragmento largo del extremo N-terminal, lo que provoca que la
53
similitud de secuencia con respecto a sus ortólogos decrezca sensiblemente. Esta particularidad
está correctamente contemplada en COGs.
Figura 16. Árbol filogenético de las secuencias de los grupos COG1186 y COG0216: el caso de MG258. Se
muestra el árbol filogenético de estos dos COGs. La barra azul representa aquellos genes que pertenecen al
COG1186. La roja a aquéllos del COG0216. Dentro del recuadro rojo se encuentran los genes que no fueron
incluidos en el grupo de Ncut, mientras que en el azul están los genes que si lo fueron. El árbol fue creado con
ClustalW aplicando 1000 ciclos de bootstrap y teniendo en cuenta las posiciones con huecos (gaps).
El grupo MG120 sirve de ejemplo de discrepancia, aunque existe coherencia, entre los resultados
de COGs y los del método de reconstrucción de S_var (ver figura 17). MG120 y MG121 están
anotados como 'componentes permeasa no caracterizados de transportadores de tipo ABC' y
pertenecen al COG1079, el cual contiene 21 genes. En los resultados de X2 simple para el gen
MG120, los genes de MG y MP formaban un grupo aislado de los otros ortólogos dado que la
distancia relativa con respecto a éstos era grande. En la reconstrucción de S_var, este grupo fue
unido a un grupo con 6 genes que contenía los ortólogos de K, V, B, O, L y A. El siguiente grupo
candidato a la unión contenía un solo gen y no fue unido porque esto habría conducido a un
aumento de la entropía relativa. El COG correspondiente es más grande e incluso contiene
54
secuencias que no aparecían en las búsquedas BSI; posiblemente en dicho COG hay dos grupos
de ortólogos que deberían ser separados.
Figura 17. Comparación de los
resultados obtenidos para el gen
MG120 y los del grupo de COGs
correspondiente. Los resultados del
agrupamiento X2 simple se muestran
mediante círculos que representan
los distintos grupos, letras que indican
los genomas representados en cada
grupo y líneas que ilustran las
conexiones entre los distintos grupos
(el grosor de las líneas representa la
fuerza de las conexiones). La línea de
puntos indica la separación entre
grupos de ortólogos más probable.
3.- Anotación automática de la función de las proteínas. Ejemplos ilustrativos y aplicación
al análisis del genoma de Buchnera aphidicola
En este apartado mostramos algunos ejemplos que ilustran cómo es el proceso de anotación
automática de función a partir de los resultados de las búsquedas BSI y del algoritmo de
agrupamiento (Abascal & Valencia, 2003). Para cada uno de los ejemplos se utilizaron distintos
parámetros (número de rondas y umbral de e-value) para obtener representaciones más sencillas
(más fáciles de exponer) acerca de las familias de proteínas implicadas, ya que cada familia tiene
distintos tamaños y está compuesta por distintos números de subfamilias, con diferentes grados
de divergencia.
Posteriormente exponemos la aplicación de este método a la anotación del genoma de Buchnera
aphidicola (Baizongia pistaciae) (van Ham et al., 2003) y analizamos los errores revelados tras la
inspección de los resultados.
3.1.- Ejemplos ilustrativos: TETM_NEIME y PDXK_SHEEP
3.1.1.- TETM_NEIME: la proteína que confiere resistencia a la tetraciclina en Neisseria meningitidis
(anotación original: 'tetracycline resistance protein tetM (Tet(M))')
La búsqueda BSI se realizó utilizando la base de datos nrdb90, iterando 3 veces y con un umbral
de e-value de 1e-07. Los resultados del BLAST de la primera ronda se muestran en la figura 18.
En la figura se puede apreciar que las proteínas de la propia subfamilia de TETM_NEIME son las
que obtienen una mejor puntuación, quedando al principio de la lista. Sin embargo, el límite de la
subfamilia no sería claro si atendiésemos a las puntuaciones, ya que las de las proteínas de la
siguiente subfamilia, la de los factores de elongación de tipo G, no son muy distintas. El
agrupamiento de los resultados de las búsquedas BSI permitió separar ambos grupos y también
otras subfamilias cercanas (tabla 4).
55
Score
(bits)
Sequences producing significant alignments:
TET1_ENTFA (Q47810) Tetracycline resistance protein tetM from tr...
TETS_LACLA (Q48712) Tetracycline resistance protein tetS (Tet(S)).
TETO_CAMCO (P23835) Tetracycline resistance protein tetO (Tet(O)).
TETW_BUTFI (O52836) Tetracycline resistance protein tetW (Tet(W)).
Q93K56 (Q93K56) Tetracycline resistance protein.
Q9RLW0 (Q9RLW0) TetT.
P70882 (P70882) TETA(Q)3 PROTEIN.
TETP_CLOPE (Q46306) Tetracycline resistance protein tetP (Tetb(P)).
Q97J38 (Q97J38) Tetracycline resistance protein, tetQ family, GT...
TETM_STRLI (Q02652) Tetracycline resistance protein tetM.
AAK87139 (AAK87139) AGR_C_2489p.
OTRA_STRRM (Q55002) Oxytetracycline resistance protein.
Q97KR3 (Q97KR3) Tetracycline resistance protein tetP, contain GT...
Q8XLR6 (Q8XLR6) Probable tetracycline resistant protein.
EFG_THETH (P13551) Elongation factor G (EF-G).
Q9AIG7 (Q9AIG7) Elongation factor G.
EFG_AQUAE (O66428) Elongation factor G (EF-G).
EFG_THEMA (P38525) Elongation factor G (EF-G).
Q8YP62 (Q8YP62) Translation elongation factor EF-G.
Q9PI16 (Q9PI16) Elongation factor G.
EFG_CHLMU (Q9PJV6) Elongation factor G (EF-G).
BAB56709 (BAB56709) Translational elongation factor G.
Q9F4B2 (Q9F4B2) Translation elongation factor G, EF-G (Fragment).
EFG_SYNP6 (P18667) Elongation factor G (EF-G).
Q9RXK5 (Q9RXK5) ELONGATION FACTOR G.
1225
981
979
885
858
558
501
437
426
326
317
308
263
257
256
251
251
247
243
242
241
240
239
239
238
E
Value
0.0
0.0
0.0
0.0
0.0
e-158
e-141
e-122
e-118
3e-88
2e-85
7e-83
2e-69
1e-67
2e-67
1e-65
1e-65
2e-64
3e-63
6e-63
1e-62
2e-62
3e-62
3e-62
8e-62
Figura 18. Resultado de BLAST para la proteína swiss:TETM_NEIME. Se puede apreciar que los e-value de
BLAST ordenan de forma apropiada las secuencias de las subfamilias de los EF-G y de tet. Aunque atendiendo a la
magnitud de los e-value no existe una clara separación entre estas subfamilias, el algoritmo de agrupamiento es capaz
de distinguirlas, pero separando también dos tet bastante divergentes de su subfamilia. Las tres intensidades de gris
se corresponden con los tres grupos obtenidos tras el agrupamiento.
La asunción de que las proteínas que han sido agrupadas junto a la original realizan una misma
función, permite analizar sus anotaciones en conjunto y seleccionar aquélla que es más
representativa de las demás. La anotación resultante fue 'TETRACYCLINE RESISTANCE PROTEIN
TETS (TET(S))' en lugar de TETM. Este es un caso especialmente problemático porque, aunque
todas estas proteínas pertenecen a la misma subfamilia y tienen la misma función básica, en su
descripción se especifica el tipo de determinante de resistencia a la tetraciclina. Las anotaciones
encontradas en la base de datos, o bien la propia nomenclatura de los distintos determinantes,
parece que son inconsistentes, o en todo caso que la especificidad no tiene un reflejo en la
historia evolutiva. Por ejemplo, el porcentaje de identidad de secuencia entre algunos Tet(M) y Tet
(lo-que-sea) es mucho mayor que entre dos Tet(M): en el caso del alineamiento de TETM_NEIME y
TETS_LACLA el porcentaje es del 77%, mientras que en el de TETM_NEIME y TETM_STRLI es sólo del
35%. En la figura 19 se muestra un árbol filogenético de esta subfamilia, incluyendo algunas
proteínas de la subfamilia más próxima, la de los EF-G.
56
Id. del grupo
Tamaño
#2
59
Translation initiation factor IF-2
#3
50
GTP-binding protein lepA
#4
35
GTP-binding protein TypA/BipA
#5
74
Elongation factor 2 (EF-2)
#10
80
Elongation factor G (EF-G)
#13
13
Tetracycline resistance protein tet[W M S R ...]
#14
24
Peptide chain release factor 3 (RF-3) (bacteria)
248
Elongation factor 1-alpha
plus 18 Eukaryotic peptide chain release factor 3
25
NodQ bifunctional enzyme
and CysN/cysC bifunctional enzyme
#18
11
Selenocysteine-specific elongation factor
#21
117
Elongation factor Tu (EF-Tu)
#15
#17
Subfamilia
Tabla 4. Las subfamilias encontradas tras las BSI de la proteína swiss:TETM_NEIME y el subsiguiente
agrupamiento de los resultados, el cual generó 21 grupos, de los cuales se representan en la tabla aquéllos que
contenían más de dos secuencias. Nota: algunas subfamilias pueden estar incompletas porque las búsquedas fueron
limitadas a un máximo de 750 secuencias. Además, el tamaño de las subfamilias es menor del real porque se empleo
una base de datos no-redundante al 90%.
Las palabras clave ('keywords') que las proteínas de esta subfamilia tenían asignadas eran:
Q02652
Protein biosynthesis; Antibiotic resistance; GTP-binding.
Q93K56
GTP-binding.
Q46306
Protein biosynthesis; Antibiotic resistance; GTP-binding.
Q51238
Protein biosynthesis; Antibiotic resistance; GTP-binding; Plasmid.
Q47810
Protein biosynthesis; Antibiotic resistance; GTP-binding;
Transposable element.
P23835
Protein biosynthesis; Antibiotic resistance; GTP-binding.
Q97J38
Complete proteome.
O52836
Protein biosynthesis; Antibiotic resistance; GTP-binding.
Q48712
Protein biosynthesis; Antibiotic resistance; GTP-binding; Plasmid.
P70882
GTP-binding.
Q55002
Protein biosynthesis; Antibiotic resistance; GTP-binding.
Q9RLW0
GTP-binding.
De las cuales se seleccionaron para la anotación automática: GTP-binding, Protein
biosynthesis y Antibiotic resistance, descartándose: Plasmid, Transposable element y
Complete proteome, por no estar suficientemente conectadas a las anteriores.
Los grupos vecinos a éste fueron anotados así:
ID:10;
ID:14;
ID:4;
ID:3;
ID:5;
ID:21;
ID:2;
ID:15;
ID:17;
SIZE:80; PROXIMITY:46.95
SIZE:24; PROXIMITY:26.95
SIZE:35; PROXIMITY:20.42
SIZE:50; PROXIMITY:16.25
SIZE:74; PROXIMITY:13.45
SIZE:117; PROXIMITY:10.51
SIZE:59; PROXIMITY:6.13
SIZE:248; PROXIMITY:3.07
SIZE:25; PROXIMITY:1.96
ID:18;
SIZE:11; PROXIMITY:1.87
ELONGATION FACTOR G EF
PEPTIDE CHAIN RELEASE FACTOR 3
GTP BINDING PROTEIN TYPA
GTP BINDING PROTEIN LEPA
ELONGATION FACTOR 2
ELONGATION FACTOR TU EF
TRANSLATION INITIATION FACTOR IF 2
ELONGATION FACTOR 1 ALPHA
SULFATE ADENYLYLTRANSFERASE SUBUNIT 1
EC 2.7.7.4 ADENYLATE TRANSFERASE SAT ATP
SULFURYLASE LARGE
SELENOCYSTEINE SPECIFIC ELONGATION
FACTOR SELB TRANSLATION
57
De esta forma es fácil ver con qué subfamilias están emparentados estos factores de resistencia a
tetraciclina y cuáles son más próximas evolutivamente. La cercanía con la subfamilia de los
factores de elongación de tipo EF-G también revela aspectos de la función de la proteína
problema. Estas anotaciones automáticas no son de buena calidad por dos razones: 1) el método
para construir la anotación no tiene en cuenta los signos de puntuación (guiones, puntos,
paréntesis, etc.) y 2) si una palabra aparece dos veces en una misma descripción sólo se tiene en
cuenta la primera ocurrencia. Es por esto que la descripción SELENOCYSTEINE SPECIFIC
ELONGATION FACTOR SELB TRANSLATION debería ser SELENOCYSTEINE-SPECIFIC ELONGATION
FACTOR (SELB TRANSLATION FACTOR).
Figura 19. Árbol filogenético de la subfamilia de swiss:TETM_NEIME y de algunos EF-G. (construido con belvu
mediante neighbor joining -unión al vecino- a partir de un alineamiento múltiple realizado con ClustalW).
Por último, como anticipo del tipo de errores que pueden aparecer usando esta estrategia de
anotación automática, mencionamos el caso del grupo número 20, el cual contiene una sola
secuencia correspondiente a un factor de elongación específico de selenocisteína que,
erróneamente, es separada de su grupo natural, el número 18. Si ésta hubiera sido la proteína
que quisiéramos anotar no habríamos podido hacerlo con éxito.
3.1.2.- PDXK_SHEEP: quinasa de piridoxina de oveja (anotación original: 'pyridoxine kinase')
Para esta proteína se realizaron tres rondas de búsquedas BSI con un umbral de e-value de 1e03 y utilizando como base de datos nrdb100. Las búsquedas permitieron encontrar 160
58
secuencias: una en la primera ronda (la semilla), 70 en la segunda y 89 en la tercera. El
agrupamiento de estas 160 secuencias resultó en 29 grupos, 7 de los cuales contenían más de
tres secuencias y se representan en la figura 20. Estos grupos incluían subfamilias cercanas
como la de las riboquinasas o la de unas proteínas del metabolismo de la tiamina. El resto de
grupos, aquéllos de pequeño tamaño, correspondían a secuencias que, por ser fragmentos de las
proteínas originales o por tener características peculiares, o por error del algoritmo, quedaban
separados de los grupos más grandes.
m
lis
a
th
e
m
e
in
m
o
9
#
4
ia
th
e
tiv
ta
u
P
s.
in
te
3
s
ta
s
e
o
ri
u
e
e
d
o
p
ru
ca
d
s
a
ri
o
p
ru
g
e
ct
0
1
4
1
4
2
3
1
1
1
l-
xa
id
yr
-p
e
n
o
se
a
n
ki
e
in
5
.3
.1
m
xi
o
xa
.7
2
o
id
yr
id
.
.C
yr
P
p
E
5
.1
.1
.7
2
.C
9
4
se
a
n
ki
o
ib
R
.
E
#
#
2
2
#
5
#
0
grupo de eucariotas
2
#
P
E
E
H
S
_
K
X
D
P
a
b
g
2
6
#
ro
p
#3
62
Putative thiamine methabolism
proteins.
b
se
a
in
k
e
in
id
im
yr
p
yl
th
e
m
h
sp
o
o
.7
h
#9
4
.4
.7
2
.
.C
E
P
Phosphomethylpyrimidine kinase
E.C. 2.7.4.7
grupos de
bacterias
PDXK_SHEEP
#10
20
#24
22
Ribokinase
E.C. 2.7.1.15
#11
4
#14
5
#13
9
Pyridoxine-pyridoxalpyridoxamine kinase
E.C. 2.7.1.35
Figura 20. Resultados de las búsquedas BSI y el agrupamiento alrededor de
swiss:PDXK_SHEEP. Nota: algunas subfamilias puede que estén incompletas proque las búsquedas
se detuvieron antes de la convergencia. Cada círculo se corresponde con un grupo y su radio con su
tamaño. Los números dentro de estos círculos indican cuál es su identificador y el número de
secuencias que contienen. El grosor de las líneas que conectan los grupos representa la fuerza de
sus conexiones. Las distintas intensidades de gris se corresponden con las distintas familias.
El grupo de PDXK_SHEEP contenía 19 parientes (u ortólogos) procedentes de eucariotas. Las
proteínas
de
origen
bacteriano
de
esta
subfamilia
están
anotadas
como
'Pyridoxal/pyridoxine/pyridoxamine kinase' e incluyen tanto a los tipos pdxk como a los pdxy, y
quedan divididas en tres grupos vecinos. La proteína problema fue anotada con el máximo nivel
de fiabilidad como PYRIDOXINE KINASE (PYRIDOXAL KINASE), con código de actividad enzimática
2.7.1.35 y con las palabras clave 'Kinase' y 'Transferase'. En la entrada original correspondiente a
PDXK_SHEEP en Swiss-Prot aparece otra palabra clave: 'Acetylation', pero ésta no fue
seleccionada porque las otras proteínas del grupo no presentaban esa anotación.
59
a) Proteínas del grupo de PDXK_SHEEP ordenadas según la puntuación de idoneidad (T), que es la
puntuación ponderada de las puntuaciones de representatividad (D) y de parecido de secuencia (S). %P
indica la categoría del alineamiento; %Q el porcentaje que ha alineado de la semilla; %S el
porcentaje que ha alineado de la proteína molde.
*O00764T:214;
Q9BS02T:201;
O46560T:180;
O35331T:178;
O01824T:157;
D:117; S:97
D:117; S:85
D:82; S:98
D:82; S:95
D:117; S:40
%P:3;
%P:3;
%P:3;
%P:3;
%P:3;
%Q:99;
%Q:99;
%Q:99;
%Q:99;
%Q:99;
%S:
%S:
%S:
%S:
%S:
99
99
96
99
94
O14242T:150; D:117; S:33
%P:3; %Q:97; %S: 96
Q9XSD8T:140; D:49; S:92
Q9TTP5T:131; D:82; S:49
Q9FKE1T:111; D:62; S:49
%P:3; %Q:84; %S: 88
%P:0; %Q:46; %S: 99
%P:3; %Q:97; %S: 93
Q9GV94T:88; D:49; S:39
Q94EN4T:77; D:28; S:49
O15927T:64; D:32; S:32
O74860T:59; D:32; S:27
Q95R04T:51; D:9; S:42
AAL57364 T:49; D:0; S:49
Q9VSW3T:47; D:4; S:44
P39988T:38; D:7; S:31
%P:3;
%P:3;
%P:3;
%P:3;
%P:3;
%P:3;
%P:1;
%P:3;
O94003T:32; D:9; S:23
P53727T:32; D:7; S:25
%P:0; %Q:75; %S: 74
%P:0; %Q:75; %S: 72
%Q:96;
%Q:97;
%Q:97;
%Q:98;
%Q:99;
%Q:97;
%Q:95;
%Q:95;
%S:
%S:
%S:
%S:
%S:
%S:
%S:
%S:
sp|PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE).
tr|PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE).
tr|PYRIDOXAL KINASE (EC 2.7.1.35).
tr|PYRIDOXAL KINASE (EC 2.7.1.35).
sp|PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL
KINASE).
tr|PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL
KINASE).
tr|PYRIDOXAL KINASE.
tr|PYRIDOXAL KINASE (EC 2.7.1.35) (FRAGMENT).
tr|PYRIDOXAL KINASE-LIKE PROTEIN (PYRIDOXAL KINASE-LIKE
PROTEIN SOS4).
tr|PYRIDOXAL KINASE.
tr|PYRIDOXAL KINASE-LIKE PROTEIN SOS4.
tr|PYRIDOXINE/PYRIDOXAL/PYRIDOXAMINE KINASE.
tr|PYRIDOXINE-PYRIDOXAL-PYRIDOXAMINE KINASE.
tr|HYPOTHETICAL 38.0 KDA PROTEIN.
tn|
tr|CG4446 PROTEIN.
sp|HYPOTHETICAL 35.6 KDA PROTEIN IN SPF1-VMA3
INTERGENIC REGION.
tr|HYPOTHETICAL 33.2 KDA PROTEIN.
sp|HYPOTHETICAL 35.4 KDA PROTEIN IN SEC12-SSK2
INTERGENIC REGION.
97
83
97
93
86
93
57
95
b) Resultado de BLAST
Score
Sequences producing significant alignments:
(bits)
sp|:PDXK_SHEEP (P82197) Pyridoxine kinase (EC 2.7.1.35) (Pyridox...
tr|:O46560 (O46560) Pyridoxal kinase (EC 2.7.1.35).
sp|:PDXK_HUMAN (O00764) Pyridoxine kinase (EC 2.7.1.35) (Pyridox...
tr|:O35331 (O35331) Pyridoxal kinase (EC 2.7.1.35).
tr|:Q9XSD8 (Q9XSD8) Pyridoxal kinase.
tr|:Q9BS02 (Q9BS02) Similar to pyridoxal (pyridoxine, vitamin B6...
tr|:Q94EN4 (Q94EN4) Pyridoxal kinase-like protein SOS4.
tr|:Q9FKE1 (Q9FKE1) Pyridoxal kinase-like protein (Pyridoxal kin...
tr|:Q9TTP5 (Q9TTP5) Pyridoxal kinase (EC 2.7.1.35) (Fragment).
tn|:AAL57364 (AAL57364) Pyridoxal kinase.
tr|:Q9VSW3 (Q9VSW3) CG4446 PROTEIN.
tr|:Q95R04 (Q95R04) Hypothetical 38.0 kDa protein.
sp|:PDXK_CAEEL (O01824) Putative pyridoxine kinase (EC 2.7.1.35)...
tr|:Q9GV94 (Q9GV94) Pyridoxal kinase.
tr|:O14242 (O14242) PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PY...
tr|:O15927 (O15927) Pyridoxine/pyridoxal/pyridoxamine kinase.
sp|:YEC9_YEAST (P39988) Hypothetical 35.6 kDa protein in SPF1-VM...
tr|:O74860 (O74860) Pyridoxine-pyridoxal-pyridoxamine kinase.
tr|:Q9RYX0 (Q9RYX0) PYRIDOXAMINE KINASE.
sp|:YN8F_YEAST (P53727) Hypothetical 35.4 kDa protein in SEC12-S...
tr|:Q9HT57 (Q9HT57) Pyridoxamine kinase.
tr|:O94003 (O94003) Hypothetical 33.2 kDa protein.
sp|:PDXY_HAEIN (P44690) Pyridoxamine kinase (EC 2.7.1.35) (PM ki...
tr|:Q9CNY1 (Q9CNY1) PdxY.
sp|:PDXY_PROMI (Q51892) Pyridoxamine kinase (EC 2.7.1.35) (PM ki...
tn|:CAC91173 (CAC91173) Pyridoxamine kinase (EC 2.7.1.35).
tr|:Q98EQ5 (Q98EQ5) Pyridoxamine kinase.
tn|:AAL20372 (AAL20372) Pyridoxal kinase 2/pyridoxine kinase (EC
tn|:AAG56625 (AAG56625) Pyridoxal kinase 2 / pyridoxine kinase.#...
sp|:PDXY_ECOLI (P77150) Pyridoxamine kinase (EC 2.7.1.35) (PM ki...
tn|:AAK88220 (AAK88220) AGR_C_4518p.#tn|:AAL43474 (AAL43474) Pyr...
tn|:CAD01917 (CAD01917) Pyridoxamine kinase (EC 2.7.1.35).
tn|:AAL51403 (AAL51403) PYRIDOXINE KINASE (EC 2.7.1.35).
tr|:Q92KX9 (Q92KX9) PUTATIVE PYRIDOXAL KINASE PROTEIN (EC 2.7.1....
sp|:PDXK_ECOLI (P40191) Pyridoxine kinase (EC 2.7.1.35) (Pyridox...
tn|:BAB36713 (BAB36713) Pyridoxal/pyridoxine/pyridoxamine kinase
sp|:PDXK_SALTY (P40192) Pyridoxine kinase (EC 2.7.1.35) (Pyridox...
tn|:AAG57537 (AAG57537) Pyridoxal/pyridoxine/pyridoxamine kinase
tr|:Q9APF1 (Q9APF1) Pyridoxine kinase (Fragment).
tn|:CAD07667 (CAD07667) Pyridoxine kinase (EC 2.7.1.35).
[...]
623
562
556
547
526
487
285
285
283
282
253
242
234
228
193
186
182
160
155
149
143
136
136
135
132
129
127
119
119
119
118
118
117
115
93
92
91
90
90
87
E
Value
e-178
e-159
e-158
e-155
e-149
e-137
3e-76
3e-76
1e-75
2e-75
2e-66
3e-63
7e-61
5e-59
1e-48
2e-46
3e-45
1e-38
4e-37
3e-35
2e-33
3e-31
3e-31
4e-31
3e-30
3e-29
2e-28
2e-26
2e-26
2e-26
5e-26
5e-26
2e-25
5e-25
2e-18
5e-18
2e-17
2e-17
2e-17
2e-16
Figura 21. El grupo de PDXK_SHEEP y el resultado de BLAST. En a se indica las puntuaciones que obtuvieron
cada una de las proteínas que quedaron en el grupo de PDXK_SHEEP. En b se muestra el resultado de BLAST para
esta proteína: las secuencias marcadas en negrita son aquéllas que fueron agrupadas junto a la proteína semilla.
En la figura 21 (b) se muestran los resultados de BLAST para esta proteína y cuáles de los
homólogos quedaron en el mismo grupo que ella. Asimismo, se puede apreciar que el estudio de
la representatividad de las descripciones permite ordenarlas según su idoneidad de forma
adecuada, ya que las descripciones no informativas quedan al final de la lista con bajas
puntuaciones de idoneidad (figura 21 (a)).
60
Los grupos vecinos fueron anotados como:
ID:13; SIZE:9; PROXIMITY:19.35 PYRIDOXAMINE KINASE EC 2.7.1.35 PM
ID:11; SIZE:4; PROXIMITY:16.63 KINASE
ID:14; SIZE:5; PROXIMITY:13.78 PYRIDOXINE KINASE EC 2.7.1.35 PYRIDOXAL
VITAMIN B6 PYRIDOXAMINE PN PL PM
ID:3; SIZE:62; PROXIMITY:1.13 PHOSPHOMETHYLPYRIMIDINE KINASE
ID:24; SIZE:22; PROXIMITY:0.69 RIBOKINASE
Por último, indicar que con parámetros más permisivos (mayor número de rondas o con un umbral
de e-value menos restrictivo), las búsquedas BSI permiten encontrar subfamilias de homólogos
remotos como la de las quinasas de tagatosa-6-fosfato, la de las 2-dehidro-3-deoxiglucoquinasas
o la de las quinasas de guanosina o de adenosina. El análisis de tales resultados no se siguió
aquí para simplificar el escenario.
3.2.- Anotación del proteoma de Buchnera aphidicola (Baizongia pistaciae)
A continuación se exponen cuáles fueron los resultados de la anotación de la función de las
proteínas de esta bacteria (van Ham et al., 2003). En el siguiente apartado (punto 4) se
presentará una visión general del análisis que se realizó de este genoma.
Para identificar a qué familias pertenecían los genes de buchnera no se realizaron búsquedas BSI
sino simples BLAST (Altschul et al., 1997) con un umbral de e-value de 0.1 y utilizando como
base de datos nrdb100. El alineamiento de las proteínas encontradas, todas contra todas,
permitió obtener una representación del mapa del espacio de secuencias próximo a cada gen. En
principio, el método de agrupamiento funciona mejor cuanto mejor representadas están las
distintas familias o subfamilias, pero este modo de proceder, sin explorar recursivamente en el
espacio de secuencias, es más rápido.
Características del proteoma de buchnera
Tamaño del proteoma
Anotaciones funcionales correctas
Errores
singleton 'errors' (*)
descripciones demasiado específicas (**)
función incorrecta (***)
507
475 (94%)
32 (6%)
21
9
2
Tabla 5. Anotación automática de la función de las proteínas de Buchnera aphidicola. (*)Los
singleton 'errors' se refiere a casos en que la proteína de buchnera quedó separada de sus parientes en
un grupo de tamaño 1. (**) las descripciones demasiado específicas son casos en que la descripción
transferida hace referencia a alguna característica de la proteína que no es transferible por homología.
(***) Y por "función incorrecta" se entiende aquellos casos en que se detectó que la función asignada no
era la apropiada.
Primeramente nos referiremos a los resultados de la anotación automática de descripciones
generales de la función de las proteínas. La inspección de las anotaciones resultantes para los
507 genes codificantes de buchnera, así como la comparación con las anotaciones supervisadas
en Swiss-Prot de las proteínas de otra buchnera, y también la comparación con otra anotación
automática que usa un método diferente, permitió evaluar la precisión del método (ver tabla 5).
Estimamos que un 94% de las anotaciones eran correctas, mientras que el 6% restante
presentaban tres tipos de errores o particularidades.
a) Errores por separación extrema (o singleton errors; 21 casos): la mayoría de los errores
observados (21 de 32) se debían a que el algoritmo de agrupamiento separaba los genes de
buchnera de sus ortólogos en otras bacterias, de forma que quedaban aislados en grupos de
tamaño 1 y no se podía realizar ninguna anotación, excepto indicar cuál es la anotación de los
grupos vecinos. Curiosamente, esta situación se produjo para muchas de las proteínas flagelares
(genes fliH, fliJ, fliM, flgB y flgM). La inspección de los grupos y sus distancias reveló que en
buchnera estas proteínas han divergido mucho. En (Tamas et al., 2002) esta divergencia ya fue
observada para el genoma de otra buchnera, la que es endosimbionte del pulgón Schizaphis
61
graminum (BSg), y quizás sea el reflejo de que estos genes han adquirido nuevas funciones, ya
que no se han observado flagelos en buchnera y de su vida endosimbiótica se deriva la pérdida
de muchos genes, pues no son esenciales para su supervivencia. Es natural que la aplicación de
este método de anotación, basado en la identificación de grupos diferenciados, a esta bacteria
que ha divergido tanto (comparada con sus parientes más cercanos) de lugar a tantos errores de
este tipo.
b) Descripciones demasiado específicas (9 casos): en algunas ocasiones, la descripción
seleccionada como más representativa contiene algunas palabras específicas de la especie de la
cual proviene y por tanto no es susceptible de ser transferida a otra proteína. Por ejemplo, en el
caso del gen ycfC, la anotación automática fue 'Hypothetical protein ycfC (ORF-23)' y se corrigió
eliminando la palabra 'ORF-23' que se refiere a la posición de este gen en el genoma de
Escherichia coli con respecto al origen de replicación, y que en el genoma de buchnera ocupa la
posición 243. Los filtros para identificar descripciones no informativas o no heredables fueron
satisfactorios en otros casos.
c) Asignaciones de función incorrectas (2 casos): la inspección de los resultados reveló dos
casos en los que la función anotada no se correspondía con la real. Ambos casos fueron debidos
a que el algoritmo de agrupamiento clasificaba juntas dos subfamilias de proteínas. En el caso del
gen hscA que codifica para 'chaperone protein hscA homologue' (anotación original en SwissProt) fue anotado como 'chaperone protein dnaK' porque las dos familias, hscA y dnaK, son muy
parecidas y el algoritmo no las separó. Dado que en el grupo resultante eran mucho más
abundantes las proteínas del tipo dnaK, el método tomó esa descripción como la más
representativa. La ponderación de las puntuaciones de representatividad y similitud de secuencia,
que tiene como objetivo evitar estas situaciones, no evitó que produjera este error. El caso de
corC es similar: se anotó como 'Hemolysin (tlyC)' cuando debió haber sido anotada como
'Magnesium and cobalt efflux protein corC'.
Sequences producing significant alignments:
tn|:CAC88884 (CAC88884) DNA polymerase I (EC 2.7.7.7).
tn|:AAL22838 (AAL22838) DNA polymerase I, 3'--> 5' polymerase, 5
sp|:DPO1_SALTY (Q9F173) DNA polymerase I (EC 2.7.7.7) (POL I).
tn|:CAD03100 (CAD03100) DNA polymerase I.
tn|:AAG59052 (AAG59052) DNA polymerase I, 3'--> 5' polymerase, ...
sp|:DPO1_ECOLI (P00582) DNA polymerase I (EC 2.7.7.7) (POL I).
tr|:Q9CLY4 (Q9CLY4) PolA.
sp|:DPO1_HAEIN (P43741) DNA polymerase I (EC 2.7.7.7) (POL I).
sp|:EX53_BUCAI (P57506) Probable 5'-3' exonuclease (EC 3.1.11.-).
tr|:Q9HT80 (Q9HT80) DNA polymerase I.
tr|:Q9F193 (Q9F193) DNA polymerase I.
tr|:Q9KVN3 (Q9KVN3) DNA polymerase I.
tn|:CAD15937 (CAD15937) PROBABLE DNA POLYMERASE I PROTEIN (EC 2.
sp|:DPO1_RICPR (O05949) DNA polymerase I (EC 2.7.7.7) (POL I).
tr|:Q9JWB1 (Q9JWB1) DNA polymerase I (EC 2.7.7.7).
tr|:Q9RLA9 (Q9RLA9) DNA polymerase I.
tr|:Q9JXL7 (Q9JXL7) DNA polymerase I.
tr|:Q9RLA6 (Q9RLA6) DNA polymerase I.
tr|:Q92GB7 (Q92GB7) DNA polymerase I (POL I).
tr|:Q9RLA3 (Q9RLA3) DNA polymerase I.
tr|:Q9F194 (Q9F194) DNA polymerase I.
tr|:Q9RAA4 (Q9RAA4) DNA polymerase I.
sp|:DPO1_RICFE (Q9RAA9) DNA polymerase I (EC 2.7.7.7) (POL I).
sp|:DPO1_BACST (P52026) DNA polymerase I (EC 2.7.7.7) (POL I).
tr|:Q9K854 (Q9K854) DNA polymerase I (EC 2.7.7.7).
sp|:EX53_AQUAE (O67550) Probable 5'-3' exonuclease (EC 3.1.11.-).
sp|:DPO1_RICHE (Q9RLB6) DNA polymerase I (EC 2.7.7.7) (POL I).
tr|:Q45458 (Q45458) DNA polymerase I.
Figura 22. Resultado de BLAST para el gen polA de Buchnera aphidicola.
62
Score
(bits)
258
250
250
249
249
249
232
227
226
213
212
206
181
173
172
172
171
171
169
169
167
167
166
166
166
166
165
165
E
Value
8e-68
2e-65
2e-65
3e-65
4e-65
4e-65
4e-60
2e-58
4e-58
3e-54
5e-54
2e-52
1e-44
3e-42
5e-42
5e-42
8e-42
1e-41
5e-41
5e-41
2e-40
2e-40
4e-40
4e-40
5e-40
5e-40
6e-40
8e-40
El caso del gen polA es ilustrativo de la importancia de analizar si la homología entre dos
proteínas se confina a dominios concretos de éstas o a la proteína completa. En la figura 22 se
muestra parte del resultado de la búsqueda BLAST con esta proteína. Las proteínas más
parecidas están anotadas como polimerasas de ADN de tipo I, pero la homología con éstas está
restringida a una región pequeña: el alineamiento cubre un 30% de estas polimerasas y un 90%
del gen de buchnera (categoría de alineamiento 3, ver sección de Métodos). Sin embargo, en la
lista de parecidos existen proteínas menos similares pero para las que el alineamiento se
corresponde con las secuencias completas (el alineamiento con EX53_BUCAI comprende el 97% de
la secuencia de ésta y el 91% de la otra). Estas proteínas están anotadas como exonucleasas
5'->3', y es así como finalmente fue anotado el gen polA de buchnera, que ha perdido tanto la
actividad polimerasa como la actividad exonucleasa 3'->5' típicas de las polimerasas de tipo I.
3.2.1.- Palabras clave y códigos de actividad enzimática
La aplicación del método descrito en la sección de Métodos permitió asignar 1.463 palabras clave
para 470 proteínas del total de 507 de Buchnera aphidicola (Baizongia pistaciae) (en adelante
BBp). En este caso, en el que se conoce el proteoma completo del organismo, la palabra clave
'Complete proteome' es adecuada, pero consideramos que su transferencia en otros escenarios
no lo es, por lo que decidimos descontar las 398 asignaciones de dicha palabra. Después de esto
la cuenta queda del siguiente modo: se asignaron 1.071 palabras clave a 391 proteínas.
Por otra parte, pudieron ser anotados 286 códigos de actividad enzimática, correspondientes a
275 proteínas (algunas proteínas realizan más de una actividad enzimática).
Para evaluar la fiabilidad de la anotación de estas características funcionales se compararon
éstas con las de otra buchnera: Buchnera aphidicola (Acyrthosiphon pisum) (BAp) (Shigenobu et
al., 2000), la cual está anotada de forma cuidadosa en Swiss-Prot. Para ello, primeramente se
estableció, de forma básica, una correspondencia de relaciones de ortología entre los genes de
las dos buchneras: se identificó para cada proteína de BBp cuál era la más parecida en BAp y
ésta fue tomada como su ortóloga, siempre y cuando el e-value del alineamiento fuera menor de
1e-15. Este procedimiento permitió identificar 468 pares de proteínas para la comparación.
3.2.1.1.- Palabras clave
En la gráfica b de la figura 23 se puede apreciar que hay 950 coincidencias entre las asignaciones
de palabras clave realizadas en Swiss-Prot para BAp y las realizadas automáticamente para BBp.
Por una parte, BAp presenta 112 palabras clave que no fueron asignadas a BBp; por otra, la
anotación automática asignó 52 palabras adicionales a BBp. De estas 52 palabras, observamos
que algunas de ellas hacían referencia a mitocondrias y cloroplastos o eubacterias fotosintéticas
('Mitochondrion', 'Chloroplast' y 'Plastoquinone', por ejemplo) y por tanto no era apropiado
transferirlas a las proteínas de buchnera.
3.2.1.1.1.- Palabras clave que no tienen una relación directa con la función de las proteínas.
En el caso del gen nuoL, correspondiente a la proteína 'cadena L de la deshidrogenasa de
NADH', éste quedó agrupado conjuntamente con los otros 250 homólogos encontrados con
BLAST. Los ortólogos de E.coli y de B. aphidicola (Acyrthosiphon pisum) (BAp) estaban anotados
con las siguientes palabras: 'Oxidoreductase; NAD; Ubiquinone; Transmembrane; Complete
proteome.' Sin embargo, las anotaciones más frecuentes en el grupo eran: 'NAD; Oxidoreductase;
Plastoquinone; Chloroplast.' y por eso el gen nuoL de buchnera fue anotado, erróneamente, como
'NAD; Oxidoreductase; Plastoquinone; Chloroplast.', lo que constituye un error del método
automático.
Por otra parte, los genes leuA, leuB, leuC y leuD de BAp se localizan en un plásmido y por esa
razón tienen entre sus palabras clave la de 'Plasmid'; sin embargo, esto no ocurre en BBp, ya que
en ella se encuentran en el cromosoma principal. La anotación automática en este caso sí evitó la
transferencia de palabras clave no heredables.
Estos casos ilustran la dificultad de determinar qué parte de las anotaciones se refiere
directamente a la función de las proteínas y puede ser heredada por proteínas ortólogas, y que
parte se refiere a otras características como la localización subcelular.
63
BBp
a
BAp
Códigos de actividad enzimática
17
261
4
(13)
(265)
(1)
Palabras clave
b
52
987
112
Figura 23. Coincidencias y discrepancias en
las anotaciones automática y supervisada de
BBp y BPs, respectivamente. En a se
comparan las anotaciones de códigos de
actvidad enzimática; entre paréntesis se
muestran los mismos números tras la corrección
de algunos artefactos. En b se comparan las
asignaciones de palabras clave.
3.2.1.1.2.- Otros ejemplos
La sintetasa de metionín-ARNt (metG) de BBp fue anotada con los siguientes palabras clave:
'Zinc; Protein biosynthesis; Ligase; Aminoacyl-tRNA synthetase; RNA-binding; Metal-binding;
ATP-binding; tRNA-binding'. En la anotación de Swiss-Prot para el ortólogo de BAp
(swiss:SYM_BUCAI) faltaban las palabras: 'RNA-binding' y 'tRNA-binding'. Ambas palabras estaban
presentes en una gran mayoría de los ortólogos y su transferencia automática es correcta,
aunque quizás sean redundantes.
La proteína correspondiente al gen yoaE queda en un grupo de proteínas hipotéticas de
membrana. La mayoría tienen la palabra clave 'Hypothetical protein', pero algunas pocas, como
por ejemplo el ortólogo de BAp (swiss:P57408) además tienen asignadas las palabras
'Transmembrane', 'CBS domain' y 'Repeat'. A pesar de que estas palabras serían adecuadas para
describir esta proteína, el método automático debe buscar características consensuadas por una
mayoría suficiente para reducir el riesgo de propagar errores. En este caso, se podrían haber
utilizado métodos no basados en homología para asignar estas palabras, como por ejemplo un
método de predicción de hélices transmembrana o un método de búsqueda de dominios, por
ejemplo comparando con la base de datos Pfam.
3.2.1.2.- Códigos de actividad enzimática
La comparación de las asignaciones de códigos de actividad enzimática se ilustra en la gráfica a
de la figura 23. Se aprecia una gran coincidencia. La mayoría de las diferencias observadas en
BBp y BAp se deben al modo en que hemos comparado las anotaciones y a ligeras diferencias en
la forma en que están anotados sus códigos de actividad enzimática. Por ejemplo, en el caso del
gen cyoE y su ortólogo en BAp (swiss:P57540), ambos presentan la misma anotación: 2.5.1.("Transferring alkyl or aryl groups, other than methyl groups"), pero en una de ellas está escrita
64
como "2.5.1." y en la otra como "2.5.1.-". Otro caso es el del gen ribD que en BBp aparece como
fusión de dos genes de BAp: ribD1 y ribD2; el modo en que se identificaron las 'ortologías' para la
comparación fue de 1 a 1, cuando debería compararse con ambas proteínas. También se
apreciaron casos en que la función especificada en el código enzimático era la misma pero la
nomenclatura había sido actualizada. Revisando los resultados manualmente, se llegó a la
conclusión de que la comparación debería haber ofrecido estos números: 265 coincidencias, 1
anotación extra en BAp (anotada en Swiss-Prot) y 13 anotaciones suplementarias en BBp
(nuestra anotación automática). En cuanto a la asignación que se perdió en la anotación
automática de BBp, se trata de un error nuestro: los ortólogos de la proteína en cuestión
presentaban dos actividades: la 3.2.2.16 nucleosidasa de metiladenosina) y la 3.2.2.9
(nucleosidasa de adenosilhomocisteína), pero sólo se asignó la actividad 3.2.2.9, porque la
proteína que se seleccionó como fuente de información sólo tenía anotado ese código; por tanto,
se trata de un caso de propagación de errores ya existentes en las bases de datos. De las 13
nuevas asignaciones que hicimos y que no estaban presentes en BAp en Swiss-Prot, cuatro eran
poco fiables o erróneas, mientras que el resto (9) parecían correctas. Los cuatro errores o
predicciones poco fiables tienen su origen en que alguna de las proteínas de la subfamilia está
anotada incorrectamente, y el error se propaga; o bien las consideramos como poco fiables por
estar poco consensuadas, porque sólo una de las proteínas del grupo tiene asignado un código
de actividad enzimática.
4.- Análisis del genoma de Buchnera aphidicola (Baizongia pistaciae)
La secuenciación del genoma de esta bacteria, que es simbionte intracelular del pulgón Baizongia
pistaciae, fue llevada a cabo en España por varios laboratorios, en un proyecto dirigido por el Dr.
Andrés Moya, del Institut Cavanilles de Biodiversitat i Biologia Evolutiva, y que ha sido trabajo
fundamental del Dr. Roeland Van Ham, del Centro de Astrobiología asociado al INTA (van Ham et
al., 2003). Nuestro grupo tuvo la oportunidad de participar en el análisis bioinformático del
genoma de este organismo, realizando la anotación de la función de sus proteínas, así como
otros aspectos más técnicos como el almacenamiento, bajo un esquema adecuado, de toda la
información y el desarrollo de una interfaz web para su consulta, empleando el sistema ORFandDB
(http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/).
4.1.- La vida de buchnera: ¿qué tiene de interesante?
La endosimbiosis de esta bacteria con el pulgón, y el modo en que esta bacteria es heredada por
la descendencia de éste, se refleja en la evolución de su genoma (Baumann et al., 1995). Existe
un cuello de botella en el ciclo de vida de esta bacteria, de modo que no existe mucho margen
para la selección natural de aquellas bacterias mejor adaptadas, sino que, entre las pocas que
pasan a la descendencia del pulgón, mientras haya alguna bacteria viable, posiblemente la
bacteria sobrevivirá. La degeneración de su genoma es fruto del modo de vida (Moran & Mira,
2001), como en el caso de otras bacterias endosimbióticas (Ochman & Moran, 2001), y se
manifiesta en una gran reducción del número de genes (553) y en una gran divergencia en la
secuencia de sus genes, que son bastante diferentes en distintas estirpes de buchneras, a pesar
de compartir un ancestro común relativamente reciente, de hace aproximadamente 80-150
millones de años, lo que se interpreta más como una degeneración que como adaptación
Otro aspecto que hace interesante el estudio de su genoma es que se conoce el de otras dos
estirpes de buchnera: Buchnera aphidicola (Acyrthosiphon pisum) (BAp) (Shigenobu et al., 2000)
y Buchnera aphidicola (Schizaphis graminum) (BSg) (Tamas et al., 2002), lo que permite estudiar
los sucesos que se han producido sobre su genoma a partir del momento en que el ancestro
común de estas bacterias adoptó el modo de vida simbiótico con los pulgones.
4.2.- Cómo se anotó el genoma. Métodos empleados.
A continuación se exponen los métodos que el grupo de laboratorios implicados en el proyecto
emplearon para anotar el genoma de buchnera. En la figura 24 se muestra una representación
lineal de su genoma.
65
genom
a.eps
GIMP
PostScri
pt file
Figura 24. Representación lineal del genoma de Buchnera aphidicola (Baizongia pistaciae). Se muestran las
regiones codificantes y los genes de ARNs.
66
a) Anotación de genes codificantes y pseudogenes: Primeramente se identificaron las pautas de
lectura abierta (ORFs) que había en el genoma, utilizando el programa orfind
(http://www.ncbi.nlm.nih.gov/gorf/gorf.html). Estas predicciones se depuraron utilizando
programas más sofisticados para la identificación de genes en bacterias, programas tales como
genmark (Lukashin & Borodovsky M, 1998) y glimmer (Suzek et al., 2001). Adicionalmente se
revisaron algunos casos para seleccionar el codón de iniciación más apropiado. Algunos
pseudogenes pudieron ser identificados a partir de estos resultados, mientras que otros, más
degenerados, se detectaron realizando búsquedas con BLAST con respecto a proteínas de otras
bacterias.
b) Anotación de los ARN transferentes (ARNt): Para su identificación se empleó el programa
tRNAscan-SE (Lowe & Eddy, 1997).
c) Identificación de los ARN ribosómicos (ARNr) y de otros ARN: se detectaron realizando
búsquedas BLAST (Altschul et al., 1997) con respecto a secuencias de ADN procedentes de
GenBank (Benson et al., 2003). Los límites de estos genes fueron anotados a mano.
d) Clasificación funcional de las proteínas: para asignar una función general a cada proteína
(clase funcional) se siguió el esquema propuesto por Riley (Riley, 1993). Esta forma de proceder
hizo posible comparar la clasificación resultante con la anotación ya existente para la buchnera
endosimbiótica de Acyrthosiphon pisum.
e) Anotación de las descripciones de función, los códigos de actividad enzimática y las palabras
clave: se llevó a cabo como se ha explicado en esta tesis (Abascal & Valencia, 2003), utilizando
los métodos descritos: primeramente, realizando una búsqueda de proteínas homólogas, para
luego hacer un agrupamiento con el objetivo de clasificar en subfamilias (o grupos de ortólogos);
una vez identificado el grupo al que pertenece la proteína problema se analizan las anotaciones
existentes para sus ortólogos y se intenta transferir aquéllas que son más representativas.
f) Asignación a COGs: también se llevó a cabo una asignación de las proteínas de esta bacteria a
los COGs (Tatusov et al., 1997) ya establecidos en el NCBI. Para ello se identificaron las
relaciones de ortología claras entre BBp y BAp, y las proteínas de BBp se asignaron a los COGs
correspondientes de BAp. En los casos en que no fue sencillo identificar los ortólogos, y en
aquellos casos en que no había ortólogos en BAp, se utilizó el programa COGNITOR
(http://www.ncbi.nlm.nih.gov/COG/xognitor.html) para hacer esta anotación manualmente.
Tamaño
615980 (+2399 pdb en el plásmido)
contenido G+C
25.3%
Genes
550 (+3 en el plásmido, +9 pseudogenes)
genes codificantes
504 (+3 en el plásmido)
ARNt
32
ARNr
3
orros ARNs
2
Tabla 6. Algunas características del genoma de Buchnera aphidicola (Baizongia pistaciae) .
4.3.- Algunas observaciones acerca de los resultados
En la tabla 6 se muestra una estadística acerca de las características generales del genoma de
buchnera, tales como el número de genes. En conjunto, los genomas de BBp, BAp y BSg
contienen 638 genes, que supuestamente estaban presentes en su último ancestro común, a
partir del cual, cada buchnera ha ido perdiendo diferentes genes, aunque han conservado casi
totalmente el orden de los mismos (sintenia). Esta conservación del orden, así como la casi
segura ausencia de transferencias horizontales de genes, sitúa a buchnera como un fósil de lo
que fue la organización del genoma de las enterobacterias de hace unos 200 millones de años,
cuando se estableció la simbiosis con el pulgón. El 78% de los genes de este ancestro están
presentes aún en las tres buchneras. La conservación del orden posiblemente tiene que ver con
la pérdida que sufrió su ancestro común de muchos genes implicados en replicación, reparación y
recombinación. En este trabajo además se observó que, como consecuencia de la rápida deriva
génica, la cual tiene su origen tanto en el modo de vida de la bacteria como en el hecho de que ha
67
Gene neighborhood view
Gene view
Protein similarities view
Taxonomic view
Protein view
Search page
Figura 25. Algunas instantáneas de la interfaz web de ORFandDB para el análisis del genoma de Buchnera
aphidicola.
68
perdido muchos genes de reparación de ADN, sus proteínas parecen tener una estabilidad
termodinámica baja. Naturalmente, esto resulta desfavorable para el correcto plegamiento de las
proteínas. Quizás por esa razón la chaperona DnaK de buchnera está más conservada que otras
proteínas y, quizás también por eso, otra chaperona, GroELS, se sobreexpresa en esta bacteria
(Fares et al., 2002).
4.4.- Nuestra aportación al proyecto
Además de la anotación automática de la función de las proteínas de buchnera, cuya evaluación
se mostró expuso más arriba, utilizamos el sistema ORFandDB, que ya describimos en la sección
de Métodos, para organizar y almacenar los resultados del análisis del genoma. Esto incluía
guardar los resultados de programas como BLAST o PSI-BLAST, las anotaciones automáticas, o
información de bases de datos externas como Swiss-Prot, TrEMBL, Pfam o COGs. El esquema
entidad relación (figura 3, en la sección de Métodos) permitió almacenar información tan variada
como qué proteínas y genes hay en el genoma, qué funciones tienen, a qué otras secuencias se
parecen, a qué familias de proteínas pertenecen o en qué lugar del genoma se encuentra cada
gen.
Además se construyó un servidor web para acceder de forma sencilla a la información generada
en el proyecto. Su dirección es:
http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/,
y en la figura 25 se pueden ver algunas instantáneas de estas páginas web.
69
Discusión
Los jeroglíficos egipcios no fueron descifrados hasta que se encontró la piedra rosetta, en la que
aparecía escrito un mensaje utilizando distintos códigos de escritura, entre ellos el de los propios
jeroglíficos. La comparación de las distintas formas de expresar un mismo mensaje resultó
decisiva para resolver un problema al que se habían aplicado no pocos esfuerzos. En biología
encontramos muchos paralelismos con esta anécdota histórica, aunque quizás la situación sea
todavía más complicada, al menos en el caso del código de las proteínas. Aún no hemos resuelto,
de hecho estamos lejos, el problema de determinar la estructura de una proteína a partir de su
secuencia, sin información adicional. Tampoco somos capaces de imaginar qué función puede
que lleve a cabo. Incluso si conocemos la secuencia y la estructura de una proteína seguimos
teniendo serios problemas para predecir su función. El truco, otra vez, es comparar, aunque el
paralelismo con el caso de los jeroglíficos ya no es tan claro. Por ejemplo, si comparamos las
secuencias de dos proteínas y resulta que éstas son parecidas y que tienen un origen común,
podemos pensar que su función es similar. Como se discute más adelante, estas asunciones
entrañan ciertos riesgos, pero es lo mejor que tenemos hasta ahora, si exceptuamos el lento y
costoso trabajo experimental. En los últimos años hemos dado un salto desde los genes hasta los
genomas, y una avalancha de datos procedentes de proyectos de secuenciación nos abruma.
Esta avalancha supone varios retos: primero queremos describir los genomas, encontrar qué
genes contiene y qué funciones tienen, básicamente. Pero no sólo queremos saber qué hay en
los genomas, sino que queremos relacionar esa información con el modo de vida de los
organismos, con su evolución o con las enfermedades. ¿Cómo vamos a conseguir resolver tantas
cuestiones? Seguramente comparando (Tatusov et al., 1997; Koonin, 2001; Salzberg, 2003). Por
ejemplo, si queremos saber por qué una cepa de bacterias es más patógena que otra, lo más
sencillo es comparar sus genomas y determinar qué características particulares tiene cada uno.
El trabajo presentado en esta tesis se enmarca en el área de la genómica computacional. El
proyecto del que forma parte tiene como objetivo desarrollar un sistema para analizar genomas, y
comprende aspectos como la búsqueda de genes, la anotación de la función de las proteínas
codificadas por éstos, y la organización de la información resultante bajo un esquema apropiado.
En las siguientes secciones discutiremos algunos aspectos del sistema para el análisis de
genomas ORFandDB, así como de los métodos que hemos presentado para la búsqueda de
homólogos, la identificación de familias de proteínas y la anotación de la función de las proteínas.
1.- Análisis de genomas: ORFandDB
Cada vez disponemos de más información, de muy variados orígenes, y que se refiere a distintos
ámbitos de la biología. En cientos de bases de datos diferentes encontramos información
referente a estructuras tridimensionales de proteínas, a secuencias, tanto de nucleótidos como de
aminoácidos, o a resultados de técnicas experimentales como los geles bidimensionales o las
matrices de ADN, entre otros tipos. Por otra parte, se han desarrollado, y continúan
desarrollándose, muchos métodos computacionales para procesar esta ingente cantidad
información y extraer nuevo conocimiento. Muchas veces el problema radica en que es difícil
saber dónde buscar, qué podemos buscar y qué métodos bionformáticos pueden ayudarnos.
Actualmente, gran parte de los esfuerzos en el área de la Bionformática se están aplicando a
poner orden e interrelacionar la información, de forma que sea más accesible a la comunidad
científica (Valencia, 2002).
El sistema ORFandDB para el análisis de genomas, descrito en esta tesis, afronta estos
problemas. El núcleo del sistema es un esquema entidad-relación (un concepto similar al de
ontología) en el que los distintos conceptos o entidades biológicas se interrelacionan entre sí.
Sobre este esquema de la realidad biológica se puede anotar la información procedente de las
70
distintas bases de datos, así como la información resultante de ejecutar métodos bionformáticos
(figura 4). Un buen esquema entidad-relación resultará adecuado en distintos ámbitos. En este
sentido, el de ORFandDB, ha sido aplicado a proyectos de muy diversa índole (aunque siempre
con algunas modificaciones) tales como un proyecto para el estudio de los factores de
transcripción de Arabidopsis thaliana (REGIA, Alonso-Allende et al., 2002), otro para un estudio
de las proteínas de unión a ARN (llevado a cabo por Luis Delaye, del grupo del Dr. Antonio
Lazcano de la UNAM, México), y también para el análisis del genoma de Buchnera aphidicola. En
la figura 3, se muestra parte de este esquema entidad-relación. Del mismo modo, de la calidad de
dichos esquemas depende que la información resultante de los diversos métodos bionformáticos
pueda encontrar cabida en la base de datos. En el momento actual existen filtros para insertar los
resultados de BLAST, PSI-BLAST, hmmpfam y del programa de anotación automática de función
en la base de datos de ORFandDB. En principio el esquema es adecuado para incluir otro tipo de
información, ya sea que provenga de nuevas bases de datos o de otros métodos, aunque
requeriría el desarrollo de nuevos filtros.
La organización de la información en este esquema permite hacer de forma sencilla consultas que
de otro modo requerirían una labor de espeleólogo de bases de datos. Por ejemplo, podemos
preguntar al sistema qué homólogos de una determinada proteína han sido encontrados usando
BLAST con un e-value menor que 1e-10, tienen como palabra clave 'ATP-binding', pero no
'Hypothetical protein', y provienen de arqueas. O podemos pedirle que, referido a un genoma
concreto, nos indique qué genes están a menos de 5.000 pares de bases de un gen determinado.
O que nos indique los códigos enzimáticos de todas las proteínas de Homo sapiens. Para realizar
estas consultas, sin embargo, hay que conocer el lenguaje SQL. Como no son muchas las
personas que están familiarizadas con él, es necesario construir una interfaz más sencilla, por
ejemplo una página web, a través de la cual se puedan realizar las consultas más frecuentes.
Esta fue la opción que adoptamos para el proyecto del análisis del genoma de buchnera, y
creamos una página en la dirección:
http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/.
A la interfaz SQL se puede acceder desde:
https://www.pdg.cnb.uam.es/jmfernandez/ORFandDB/frame.html.
2.- Búsqueda de homólogos: las búsquedas con secuencias intermedias (BSI) permiten
explorar un espacio evolutivo amplio
La observación de que las proteínas con un origen común tienen, hasta cierto punto, funciones
similares ha motivado que investigásemos las propiedades de algunos métodos de búsqueda de
homólogos. En concreto hemos estudiado cómo se comportan dos métodos de búsquedas
recursivas, BSI y PSI-BLAST, comparándolos entre sí y con respecto a BLAST, que hace simples
comparaciones entre pares de secuencias.
Si dos proteínas A y B tienen un origen común, y lo mismo sucede con B y C, entonces A y C
también han de tener el mismo origen. Esta propiedad transitiva, que explotan las BSI, ha de
aplicarse cautelosamente porque la unidad evolutiva básica no son las proteínas sino los
dominios, y podría darse el caso de que A y B compartieran un dominio distinto del dominio
homólogo presente en B y C (en ese caso A y C no serían homólogas). Por esta razón estas
búsquedas han de realizarse sólo con los fragmentos de las proteínas que son homólogos, y no
con las proteínas completas.
Nuestra principal aportación en el tema de las búsquedas con secuencias intermedias ha
consistido en extender la propiedad transitiva de forma indefinida (a proteínas D, E, F...), lo cual,
hasta donde sabemos, aún no había sido realizado cuando desarrollamos el método. La
aplicación sucesiva de la propiedad transitiva permite identificar homologías remotas siempre y
cuando existan secuencias intermedias suficientemente cercanas entre sí, es decir,
suficientemente parecidas como para ser identificadas por un método sencillo como BLAST.
La aplicación recursiva de las BSI introduce algunas complicaciones relacionadas con el problema
de los dominios, como se discuten más adelante.
71
2.1.- La efectividad del método BSI es comparable a la de PSI-BLAST y superior a la de BLAST
La comparación del método BSI con los métodos de BLAST y PSI-BLAST permitió conocer la
efectividad del método. Por una parte observamos que, a un mismo nivel de especificidad, tanto
BSI como PSI-BLAST permiten detectar más del doble de homologías remotas que BLAST. Es
decir, son mucho más sensibles. El método BSI puede alcanzar una sensibilidad superior a PSIBLAST, pero con un alto coste en pérdida de especificidad. A un nivel de especificidad similar,
BSI fue menos sensible que PSI-BLAST. Un aspecto interesante es que, aunque BSI sea menos
sensible, el conjunto de homologías remotas que identifica es independiente (en un 22%) del de
PSI-BLAST, es decir, BSI encontró 454 relaciones que PSI-BLAST no fue capaz de detectar.
2.2.- Particularidades de BSI y PSI-BLAST
En su modo de funcionamiento básico PSI-BLAST realiza una primera búsqueda de tipo BLAST
con la proteína problema. Con los homólogos encontrados construye un perfil a partir del
alineamiento múltiple de éstos, de modo que en el perfil queda reflejado qué posiciones son más
importantes y qué aminoácidos esperamos encontrar en cada posición. Con este perfil realiza una
nueva búsqueda, pero ya no comparando las secuencias de la base de datos con la proteína
problema, sino con el propio perfil. La identificación de homologías lejanas depende de la calidad
del perfil, de cuánta información contenga. En el caso de que en la primera búsqueda de BLAST
se encontrasen muchas proteínas pero todas ellas muy parecidas, la información que éstas
aportarían sería muy redundante, por lo que el perfil sería pobre y posiblemente no resultase
efectivo para encontrar más homólogos. En cuanto a las BSI, para que éstas tengan éxito es
necesario que existan homólogos a distancias evolutivas intermedias (detectables mediante
BLAST), pero no son sensibles al problema antes mencionado de PSI-BLAST. En el ejemplo
descrito en la sección de Resultados:1.4 vimos que, en el contexto de una misma superfamilia,
PSI-BLAST obtuvo resultados distintos dependiendo de qué familia se utilizase como semilla de
las búsquedas. En ese mismo ejemplo pudimos observar que en algunos casos las búsquedas
BSI resultaron más efectivas, y que esto se debía a que el perfil construido por PSI-BLAST era
pobre por estar construido a partir de secuencias redundantes. Esta limitación de PSI-BLAST se
ha intentado superar con el método de FlowerPower desarrollado por el grupo de la Dra. Kimmen
Sjolander y que se aplicó para la anotación del genoma humano (Venter et al., 2001); es un
método que construye perfiles individuales para cada una de las subfamilias que van apareciendo
en una búsqueda de PSI-BLAST, en lugar de construir uno general. Cuando hacemos un
alineamiento múltiple se revela cierta información como qué posiciones son más importantes, lo
cual es utilizado por PSI-BLAST pero no por BSI, de ahí la menor sensibilidad de este último.
La baja especificidad del método de BSI cuando se usan umbrales de e-value permisivos se
explica porque cuando se incluye un falso positivo en la lista de secuencias intermedias, éste, en
las siguientes rondas, arrastra a todos sus homólogos (también falsos positivos); en el caso de
PSI-BLAST puede que la incorporación de un solo falso positivo no tenga suficiente peso en el
perfil como para provocar la inclusión de sus homólogos. Sin embargo, a veces sucede que el
perfil de PSI-BLAST se contamina y aparecen en los resultados numerosos falsos positivos. En
un caso real, por ejemplo con proteínas que no tienen una clasificación estructural en SCOP, no
es sencillo saber si esto ha sucedido o no. Como los parecidos se miden entre las secuencias de
la base de datos y el perfil, es difícil determinar por qué aparece una proteína en la lista de
supuestos homólogos. El caso de BSI es distinto ya que siempre podemos trazar el camino (o los
caminos, ya que puede haber muchos posibles) que ha llevado a la identificación de cada
proteína. Como se discute más adelante, si aplicamos un método para identificar grupos de
secuencias fuertemente conectados en los resultados de BSI, la discriminación de falsas
homologías puede ser aún más sencilla.
2.3.- El problema de los dominios y nuestra solución
Como ya se ha mencionado, para aplicar la propiedad transitiva hay que ser cautelosos, ya que
las proteínas frecuentemente están formadas por varios dominios y los dominios frecuentemente
se combinan entre sí de diversas maneras para dar distintas proteínas. Por esta razón las
búsquedas han de realizarse únicamente con los fragmentos de las secuencias que son
72
parecidos. Tras realizar la primera búsqueda con la proteína problema es sencillo seleccionar
estos fragmentos, pero en las siguientes rondas ya no, pues una misma proteína puede resultar
parecida a varias de las que han sido utilizadas para realizar las búsquedas, y estos parecidos
pueden corresponderse con distintas regiones de su secuencia. La aproximación que adoptamos
(descrita en la sección de Métodos), resuelve este problema intentando construir un fragmento lo
más grande posible a partir de los fragmentos que han alineado.
A pesar de realizar esta selección de subsecuencias, observamos que a veces, a lo largo de las
iteraciones, se producía una extensión no deseada en los extremos de los alineamientos, de
modo que un fragmento de un dominio vecino al dominio utilizado como semilla era incluido en
nuevas subsecuencias, lo que provocaba que aumentase el número de falsos positivos. Para
solventar este problema aplicamos una poda de los extremos tal y como se describe en la sección
de Métodos. Esta poda reduce los efectos de esta extensión no deseada, pero no los elimina
completamente. En los resultados de las BSI, la mayoría de los falsos homólogos aparecen
conectados débilmente (con e-values restrictivos no aparecerían), pero algunos son muy
recalcitrantes: son casos en los que el grupo que contiene el falso positivo está conectado
mediante muchos arcos y con e-values relativamente buenos a otro grupo no homólogo. La
inspección de estos casos reveló que estos dominios no homólogos (el dominio con el que
habíamos iniciado la búsqueda y el dominio que aparecía como falso positivo) aparecían
conjuntamente en la misma proteína. Este problema también afecta al método de PSI-BLAST, y
posiblemente el origen esté en las características del conjunto de prueba que utilizamos, en el
cual no había proteínas completas sino dominios de proteínas, lo que representa una situación un
tanto artificial. Además es posible que la definición de los dominios no siempre se haya hecho
correctamente en la base de datos de SCOP. En un escenario más realista, iniciando las
búsquedas con proteínas completas, estos artefactos se producirían con menor frecuencia.
2.4.- Ventajas y desventajas de las BSI
Quizás la principal desventaja del método de BSI es el elevado coste computacional que tiene,
especialmente si lo comparamos con los rápidos métodos de BLAST y PSI-BLAST. Este coste
depende del tamaño de la familia de proteínas que estemos estudiando, ya que por cada nuevo
homólogo encontrado se realiza una búsqueda BLAST.
A pesar de que, a diferencia de PSI-BLAST, no incluye información específica de cada familia de
proteínas y por tanto su sensibilidad es menor, el método de BSI permite cartografiar el espacio
de secuencias, ya que en los resultados se especifican las distancias evolutivas (en forma de evalues) entre los positivos encontrados. Esta particularidad del método nos permite trazar los
caminos que han conducido a que se encuentre cada proteína, por lo que esa información puede
ayudarnos a discriminar los verdaderos positivos de los falsos. Además, disponer de un mapa del
espacio de secuencias hace posible que podamos tratar de identificar grupos de proteínas
diferenciados del resto, que posiblemente se correspondan con familias o subfamilias de
proteínas con funciones particulares. También podemos indagar en las relaciones evolutivas que
hay entre las distintas familias, lo que nos puede dar una visión más profunda de la función de las
proteínas así como de los procesos evolutivos en sí mismos. En diversos trabajos se han utilizado
este tipo de mapas para identificar familias de proteínas (Tatusov et al., 1997; Yona et al., 1999;
Krause et al., 2000; Enright et al., 2002), aunque generalmente construyen el mapa comparando
proteínas enteras. Este tipo de enfoques permiten analizar el espacio completo de todas las
proteínas, pero son sensibles al problema de los dominios. Nuestra aproximación genera un mapa
del espacio circundante a una proteína concreta y por tanto supone una visión más reducida, pero
supera el obstáculo de los dominios. El modo en que analizamos el mapa del espacio de
secuencias resultante de una búsqueda tipo BSI se discute más adelante.
2.5.- Los homólogos lejanos y la predicción de función
A lo largo de la evolución, a partir de un mismo gen ancestral, se han derivado proteínas con
funciones distintas por medio de fenómenos de cambio y selección. Aunque frecuentemente la
función de proteínas homólogas de subfamilias distintas conserva algún parecido con la función
ancestral, para predecir la función de una proteína fiablemente debemos identificar a qué grupo
de ortólogos o subfamilia pertenece (Smith & Zhang, 1997; Tatusov et al., 1997; Bork & Koonin,
73
1998; Doerks et al., 1998; Andrade et al., 1999). Los ortólogos suelen conservar un parecido tal
que en la mayoría de los casos se pueden encontrar con una simple búsqueda BLAST, sin aplicar
métodos como PSI-BLAST o BSI. Sin embargo, el método de BSI puede ayudar en varios
sentidos para predecir la función. Como ya se mencionó, observar un panorama evolutivo más
amplio, estudiando la función de otras subfamilias homólogas, ha de arrojar luz sobre la función
de la subfamilia que nos interesa, especialmente cuando no exista información sobre ella en las
bases de datos. Además, si disponemos de un mapa del espacio de secuencias más completo
podremos identificar más sencillamente con qué grupo de ortólogos está emparentada la proteína
que queremos anotar.
3.- Interpretación de las homologías: análisis del mapa del espacio de secuencias obtenido
mediante BSI. Algoritmos de agrupamiento
El problema de determinar qué grupos de datos hay en un conjunto, ya sea en un espacio
euclideo o en un grafo, es muy antiguo y existen gran diversidad de métodos. En general
podemos decir que no hay un método único perfecto para resolver el problema en todas las
situaciones sino que cada método es apropiado para un problema concreto. En este trabajo
hemos buscado un método que fuese capaz de identificar estos grupos de datos (proteínas) en el
grafo que obtenemos a partir de los resultados de las BSI. Otro aspecto que afecta al éxito del
método es el nivel de definición que queramos obtener, el cual, en el caso del espacio de
secuencias puede ir desde el nivel de superfamilias de proteínas hasta el de grupos de ortólogos
o subfamilias. Por ejemplo, en la aproximación de GeneRage (Enright & Ouzounis, 2000) se
aplicó un método de enlazado simple (single linkage algorithm) para identificar en el conjunto de
todas las proteínas conocidas qué grupos de homólogos había, lo que supone un nivel de
definición bajo. En el caso de PROTOMAP (Yona et al., 1999), se ofrece una clasificación
jerárquica que trata de cubrir los distintos niveles. Para resolver nuestro problema, probamos
diversos métodos, como se discute a continuación.
3.1.- Algunos métodos que probamos para analizar el espacio de secuencias
Primeramente, aplicamos un método sencillo de enlazado simple, en el cual lo que hacíamos era
eliminar todos aquellos arcos del grafo que tenían una distancia (o e-value) mayor que cierto
umbral. Cuando analizamos los resultados observamos que en el grafo había grupos de proteínas
diferenciados del resto, grupos en los que los e-values de los arcos eran significativamente
inferiores a los de los arcos que conectaban los distintos grupos. Aunque este método nos
permitió obtener una idea de las características del espacio de secuencias, su aplicación
presentaba dos problemas: por una parte, este algoritmo es muy sensible al ruido, basta con que
BLAST sobreestime una sola distancia evolutiva para que el resultado sea erróneo: si entre dos
grupos hay un arco con un e-value menor del umbral mientras que los demás arcos son todos
superiores, ambos grupos permanecerán unidos. Por otra parte, el grado de divergencia de cada
subfamilia de proteínas es variable y depende de cuán antigua sea ésta o de en que momento de
la evolución se ha separado de otra subfamilia vecina, por lo que emplear un umbral fijo para
delimitar estos grupos no es apropiado.
El siguiente método que probamos se basaba en el algoritmo de corte mínimo (Wu & Leahy,
1993), pero éste mostró una tendencia a separar secuencias de forma aislada de su grupo más
cercano antes quizás que separar dos grandes grupos (Shi & Malik, 1997). El algoritmo que
resultó más satisfactorio fue el de corte normalizado (Shi & Malik, 1997), que es similar al de corte
mínimo pero hace una ponderación para evitar la preferencia de éste por separar pequeños
grupos. Este método es resistente frente al ruido y además nos brindó la posibilidad de aplicar
medidas relativas, y no umbrales fijos, para la separación de grupos. El algoritmo funciona de
modo recursivo, en cada iteración el grafo es dividido en dos grupos. Para estudiar si la
separación de ambos grupos es pertinente medimos la cantidad de arcos y la magnitud de sus evalues en cada uno de los dos grupos hijos así como en el grupo padre. Si por ejemplo las
distancias entre las secuencias de uno de los grupos hijos es mucho menor que las distancias
entre las secuencias de ese grupo y del otro, se continúa el agrupamiento. De este modo
74
esperamos que la medida sea apropiada para los distintos grados de divergencia que muestran
las familias de proteínas. Un ejemplo ilustrativo de la pertinencia de este modo de delimitar los
límites entre subfamilias es el descrito en la sección de Resultados:2.2.1.b, en el que vimos cómo
dos grupos de proteínas muy cercanos (conectados por arcos con e-values en torno a 1e-23)
presentaban funciones diferentes (quinasas de fosfoenolpiruvato y sintentasas de
fosfoenolpiruvato), mientras que en otro caso había dos grupos, uno con genes de bacterias y el
otro con genes de arqueas, que, aún teniendo la misma función (isomerasas de triosas-fosfato) la
distancia que los separaba era mayor (e-values en torno a 1e-06).
3.1.1.- ¿Por qué no usar un árbol filogenético para la clasificación de proteínas?
La manera más habitual de estudiar la evolución de un grupo de proteínas homólogas, ya sea
para identificar distintos grupos de ortólogos o para encontrar posiciones de las secuencias con
especial relevancia, es construir un árbol filogenético utilizando alguno de los muchos métodos
existentes (ver Introducción). Sin embargo, consideramos que la aplicación de este enfoque al
problema que intentamos resolver no es la más adecuada. Generalmente, para obtener un árbol
hay que realizar primero un alineamiento múltiple de los homólogos y después utilizar algún
método de reconstrucción filogenética. Estos pasos son muy lentos y difíciles de automatizar
(Remm et al., 2001), aunque existen algunas aproximaciones que tratan de seguir este enfoque
(Yuan et al., 1998; Whelan et al., 2003). Cuando los homólogos son lejanos los alineamientos
múltiples pueden contener un número considerable de errores. Un número de homólogos muy
alto hace que la construcción de un alineamiento consuma mucho tiempo. Además, los árboles
filogenéticos no proporcionan una clasificación en familias y subfamilias de proteínas por sí
mismos, sino que tratan de indicar la relación evolutiva entra cada una de las secuencias. Para
aplicar estos métodos al problema de la clasificación proteínas sería necesario desarrollar
algoritmos para interpretar de forma automática los árboles.
Una aproximación intermedia es la que se utiliza en la base de datos de COGs (Tatusov et al.,
1997), donde, para determinar los grupos de ortólogos aplican el método de 'mayores parecidos
en las dos direcciones' (se describe en la Introducción), y sólo construyen árboles filogenéticos
para, manualmente, resolver algunos casos problemáticos.
3.2.- Los grupos que observamos en el espacio de secuencias se corresponden con grupos de
proteínas con una clara relación funcional: subfamilias y grupos de ortólogos
Cuando observamos las anotaciones funcionales que tenían las proteínas de cada uno de los
grupos resultantes, observamos que éstas eran muy similares entre sí. Los grupos que
obteníamos se correspondían de forma satisfactoria con subfamilias o grupos de ortólogos con
una función común. Los distintos grupos solían presentar funciones diferentes entre sí. Esta
observación, que hemos ilustrado con el caso de la proteína ras humana, fue evaluada de forma
sistemática mediante la comparación con los grupos de ortólogos de COGs.
3.2.1.- Comparación con COGs: coincidencias, sesgo filogenético, reconstrucción de grupos de
ortólogos
De entre los muchos esquemas de clasificación de proteínas que existen decidimos comparar con
COGs porque es el esquema que trata de obtener un nivel de definición del espacio de
secuencias más similar al nuestro. Otras bases de datos como PROTOMAP ofrecen diversos
niveles de definición, desde el nivel de superfamilia hasta el de subfamilia, pero resulta más
complicado seleccionar el nivel de la jerarquía apropiado para la comparación, como se mostró en
el caso de la proteína ras humana (figura 10). Sin embargo, como se discute más adelante el
método que presentamos da mejores resultados en un contexto como el de PROTOMAP, con un
gran número de proteínas con el que cartografiar el espacio de secuencias, que en el de COGs,
donde sólo están las proteínas de 21 microorganismos.
En general los grupos que obtuvimos aplicando el algoritmo de agrupamiento eran más pequeños
que los grupos de ortólogos definidos en COGs. Inspeccionando esos grupos pequeños y los
grupos vecinos a éstos, observamos que frecuentemente estaban constituidos por proteínas de
organismos muy cercanos evolutivamente. De forma usual un gen de Mycoplasma genitalium
quedaba agrupado en solitario junto al ortólogo de Mycoplasma pneumoniae; o también sucedía
75
que los ortólogos bacterianos quedaban en un grupo diferente al de los ortólogos
correspondientes en arqueas. La causa de este resultado era que en este ensayo las condiciones
de parada del agrupamiento no resultaban ser las más adecuadas, debido a la presencia de un
gran sesgo filogenético: pocas secuencias con las que obtener el mapa del espacio de
secuencias, y de éstas, algunas eran demasiado parecidas por provenir de organismos muy
cercanos, por lo que eran identificadas como un grupo diferenciado.
Sin embargo, la información para obtener los grupos de ortólogos estaba presente en los propios
resultados del agrupamiento: la unión de los grupos más cercanos permitió obtener unos
resultados muy similares a los de COGs. Para detener el proceso de fusión de grupos vecinos
investigamos algunas medidas, de las cuales la más satisfactoria resultó ser aquélla en que se
estudiaba la representación filogenética que se obtenía con la unión de los grupos: la idea original
era que si hay dos grupos vecinos y uno tiene genes de bacterias y el otro de arqueas, ambos
grupos seguramente conforman un grupo de ortólogos; sin embargo, si en dos grupos vecinos
había genes de los mismos organismos, posiblemente eran dos grupos de ortólogos
independientes.
Como ha quedado expuesto en la sección de Resultados, este estudio permitió detectar algunos
grupos de COGs que no eran consistentes. También reveló la existencia de fenómenos de
transferencia horizontal, así como algunas características interesantes de los genomas, como en
el caso de levadura, donde se observó que los genes esenciales que tienen un ortólogo en
Mycoplasma genitalium, solían estar duplicados o triplicados, posiblemente reflejando una
duplicación del genoma ancestral (Wolfe & Shields, 1997).
Algunas conclusiones de este estudio han de ser tomadas con precaución ya que se han
estudiado las características de los grupos de ortólogos en los que hay genes de Mycoplasma
genitalium, un patógeno que tiene un genoma mínimo (Fraser et al., 1995) y que ha perdido
muchos genes no esenciales, los cuales quizás tengan un comportamiento evolutivo distinto.
3.3.- Ventajas y limitaciones de nuestro método
Respecto a otras aproximaciones de clasificación de proteínas, ésta tiene la particularidad de que
no es una clasificación global de todas las proteínas conocidas, o de las proteínas de un conjunto
de genomas. El método presentado clasifica las proteínas que son encontradas en la vecindad de
una proteína determinada. Esto supone una visión más limitada del universo de las proteínas ya
que no podemos estudiar, por ejemplo, qué familias de proteínas hay en un conjunto de genomas;
pero por otra parte esta aproximación es más robusta frente a ciertos tipos de errores como el ya
mencionado problema de los dominios. En cuanto a la identificación de ortólogos, métodos como
el empleado en COGs (que es semi-automático) necesitan conocer los proteomas completos para
determinar las relaciones de ortología. El hecho de que el método que hemos presentado no
tenga este requisito demuestra que la medida de las distancias entre las proteínas es suficiente
(al menos en un gran número de casos) para diferenciar grupos que se correspondan con
subfamilias o conjuntos de ortólogos.
3.3.1.- Aplicación del método de agrupamiento en otros escenarios
El método de agrupamiento que hemos empleado no tiene por qué utilizar el mapa obtenido con
las BSI, sino que podría operar con cualquier otro grafo, si bien las condiciones de parada han
sido ajustadas para el caso de las BSI. Para que pudiese ser aplicado al espacio global de las
proteínas sería necesaria otra implementación del algoritmo, ya que la actual, cuando trata con
grafos de más de 1.500 nodos, resulta muy lenta.
3.4.- Interés de la identificación de grupos de ortólogos y subfamilias
Uno de los objetivos más perseguidos en la Biología Molecular es conocer qué papel desempeña
una proteína, cuál es su función. Si conocemos su secuencia, averiguar cuáles son sus
homólogos nos puede dar algunas pistas, ya que al tener un mismo origen sus funciones han de
reflejar de algún modo la función ancestral. La función de un homólogo puede ser transferida a
una proteína problema con mayor confianza si ambos son ortólogos, ya que éstos suelen
conservar la función a lo largo de la evolución. El método que hemos presentado puede
ayudarnos a determinar estas relaciones y por tanto puede ser utilizado como punto de partida
76
para la anotación de función. La identificación de subfamilias tiene más aplicaciones: si
estudiamos las secuencias de distintos grupos de ortólogos podemos encontrar posiciones
específicas de cada grupo, posiciones que posiblemente se relacionan con características propias
de la función de cada subfamilia (Casari et al., 1995).
Si queremos adoptar una perspectiva más amplia y comparar genomas para encontrar
características propias de las distintas especies, también es importante la identificación de
ortólogos ya que es la única manera de determinar qué funciones están presentes o ausentes en
los organismos vivos (Tatusov et al., 1997; Natale et al., 2000). Si queremos analizar la estructura
de los genomas, el orden en que se organizan los genes, quizás buscando relaciones funcionales
entre éstos (Overbeek et al., 1999; Tamames, 2001), conocer las relaciones de ortología también
es imprescindible.
Estos estudios también pueden ser útiles en el ámbito de la genómica estructural (Rost et al.
2002). Recientemente se han comenzado diversas iniciativas para conocer todas las estructuras
de proteínas posibles. La idea no es determinar experimentalmente la estructura de todas ellas, lo
cual sería enormemente costoso en tiempo y recursos, sino resolver la estructura de un conjunto
seleccionado, por ejemplo resolviendo una proteína por cada familia, de forma que la estructura
de las otras proteínas se pueda inferir computacionalmente (la estructura general de las proteínas
homólogas se conserva a lo largo de la evolución). Los métodos de clasificación como el que
hemos expuesto pueden ser relevantes a la hora de seleccionar qué proteínas serán estudiadas
para conocer su estructura tridimensional (Elofsson & Sonnhammer, 1999; Linial & Yona, 2000;
Brenner, 2000; Vitkup et al., 2001; May, 2001; Heger & Holm, 2000; Abascal & Valencia, 2002;
Portugaly et al., 2002).
4.- La anotación de la función de las proteínas: particularidades de este problema y
algunos aspectos del método que hemos presentado
Existen muchas formas de aproximarnos al estudio de la función de las proteínas, pero dado que
el ritmo al que conocemos nuevas secuencias es muy rápido, la mayoría resultan impracticables,
por lo que no podemos realizar un estudio detallado de la función de todas las proteínas. Una
anotación automática inicial de estas nuevas proteínas es necesaria para avanzar en el
conocimiento biológico, para afrontar los nuevos retos que se nos plantean, para comparar y
comprender los genomas que estamos conociendo. Nuestra aproximación para la anotación
automática se basa en la transferencia de información a una proteína problema a partir de sus
homólogos. Esta forma de avanzar entraña numerosos riesgos, pudiendo conducir a una
degradación de la información depositada en las bases de datos, lo que afectará a la calidad de
nuestro conocimiento futuro. A continuación discutiremos algunos de estos riesgos y la soluciones
que hemos vislumbrado, así como la relación de este trabajo con otros similares. Finalmente,
discutiremos el futuro de la predicción de la función de las proteínas.
4.1.- Anotación automática y los homólogos: ortólogos y parálogos
Se ha repetido muchas veces que para anotar la función de las proteínas fiablemente hay que
identificar, dentro del conjunto de homólogos, cuáles son ortólogos (Smith & Zhang, 1997;
Tatusov et al., 1997; Bork & Koonin, 1998; Doerks et al., 1998; Andrade et al., 1999). En algunos
sistemas automáticos como GeneQuiz (Andrade et al., 1999) la anotación se hace básicamente a
partir del homólogo más parecido, y a cada anotación se le asigna un valor de confianza
proveniente de la magnitud del e-value. Esta aproximación no es la ideal porque la proteína más
parecida a otra puede que pertenezca a una subfamilia distinta y para establecer cuándo dos
proteínas pertenecen a un mismo grupo no existen valores absolutos sino que depende de cada
caso (Devos & Valencia, 2000), como ya hemos visto. Además, como discutimos más adelante,
tener en cuenta únicamente la información de una proteína reduce la fiabilidad de la anotación.
Nuestro enfoque se basa en la identificación de ortólogos. Para una proteína problema buscamos
un conjunto de proteínas que supuestamente llevan a cabo una misma función y el análisis de las
anotaciones de todas ellas de forma conjunta nos permite hacer una transferencia más fiable.
Hay que recordar que los ortólogos no siempre realizan una misma función, aunque no son
77
muchos los ejemplos que conocemos (quizás no son muchos porque solemos suponer que la
hipótesis contraria es válida). Los ortólogos de los genes flagelares en buchnera pueden ser uno
de esos casos, ya que en esta bacteria no se han observado flagelos. O quizás dichos genes
estén anotados como flagelares porque se ha observado alguna relación con el desarrollo de
dichas estructuras, pero puede que su función principal sea otra. Otro ejemplo llamativo es el de
las enzimas glicolíticas que en el cristalino del ojo actúan con una función estructural y no
enzimática (Piatigorsky & Wistow, 1991). Es difícil saber si estamos ante raras excepciones o si
por el contrario es un fenómeno frecuente. Lo que sí es seguro es que en distintos organismos la
función de los ortólogos puede adquirir matices particulares, pero éstos no solemos conocerlos o
no aparecen en las descripciones presentes en las bases de datos. Incluso en un mismo
organismo, un mismo gen puede dar lugar a varias proteínas con características particulares
mediante splicing alternativo, un fenómeno que ha pasado de considerarse una rareza a una regla
general. Se estima que en el genoma humano, a partir de unos 30.000 genes se producen unas
100.000 proteínas distintas (Modrek & Lee, 2002; Roberts & Smith, 2002). En cualquier caso, la
herencia de anotaciones entre ortólogos es lo mejor que tenemos hasta ahora (al final de esta
sección se discute el futuro de la predicción de la función de las proteínas).
4.2.- La naturaleza multidominio de las proteínas
Otra posible fuente de errores que se ha apuntado en la bibliografía es la relacionada con la
naturaleza multidominio de las proteínas (Smith & Zhang, 1997; Bork & Koonin, 1998; Bork et al.,
1998; Doerks et al., 1998; Andrade, 1999). A lo largo de la evolución la Naturaleza ha jugado al
lego combinando elementos ya existentes como los dominios de proteínas, para crear nuevas
proteínas (Henikoff et al., 1997; Aravind et al., 1999). La función global de estas proteínas es el
resultado de la combinar las funciones de sus dominios. Así, por ejemplo, el dominio quinasa de
proteínas, tan abundante, suele aparecer asociado a otros dominios, que determinan dónde,
cómo, cuándo y con quién se deberá llevar a cabo la fosforilación. Aunque la variación de
dominios entre ortólogos no es de esperar que sea tan alta como entre parálogos (Remm et al.,
2001), una vez identificado el grupo al que pertenece la proteína problema, llevamos a cabo un
estudio de los alineamientos, clasificándolos en distintas categorías según si se corresponden con
las secuencias completas de las proteínas problema y molde. Este modo de afrontar el problema
es simplista, pero ha demostrado su utilidad en algunos casos como el del gen polA de buchnera,
en el cual se evitó la anotación de éste como polimerasa de ADN de tipo I, siendo que sólo
presentaba el dominio exonucleasa 5'->3'. Un análisis más detallado de la organización de
dominios posiblemente revelaría más información. Sin embargo, la automatización de dicho
análisis sería sumamente compleja: si bien podemos explicar la función de una proteína
observando qué elementos la componen, el camino inverso no es sencillo: no sabemos deducir su
función a partir de sus dominios (Attwood, 2000).
4.3.- El modo en que se describe la función de una proteína: riqueza del lenguaje, vocabularios
controlados y ontologías
Frente a los problemas reales descritos en los dos puntos previos, relacionados con el modo
como evolucionan las proteínas, encontramos otros más técnicos cuando analizamos las
anotaciones que hay en las bases de datos. El lenguaje humano es muy rico en sinonimias y el
modo en que cada persona refiere un acontecimiento o concepto depende del trasfondo de cada
uno, de su subjetividad. Aunque en el ámbito científico se procura mantener unos estándares, las
descripciones de la función de las proteínas también se ven afectadas por estas cuestiones.
Podemos encontrar ortólogos cuya función se define utilizando sinónimos diferentes, o con
distinto nivel de detalle (Smith & Zhang, 1997). También sucede que dependiendo del área de la
biología en la que se ha investigado un gen determinado, la función se haya observado desde una
perspectiva particular. Por ejemplo, si se trata de un gen de Drosophila melanogaster es probable
que se haya prestado más atención al papel de una proteína en el desarrollo ontogénico;
pudiendo ser que en otro organismo, quizás en humanos, el ortólogo se haya estudiado desde el
punto de vista de la patología, quedando esto reflejado en las anotaciones. Por otra parte, en las
bases de datos hay anotaciones erróneas (la implicación de esto se discute más adelante), así
78
como descripciones que incluyen información no relacionada con la función de las proteínas,
aspectos que no debemos suponer que se conservan en ortólogos, como puede ser la posición
de un gen en un genoma determinado. En el trabajo que hemos presentado se minimiza el efecto
negativo de estas características de las anotaciones de varias maneras. Por una parte, en SwissProt y TrEMBL, las dos bases de datos que utilizamos como fuente de información, se aplica un
gran esfuerzo para mantener una consistencia en las descripciones, proporcionando listas de
sinónimos, por lo que las anotaciones de un mismo grupo de ortólogos suelen ser muy similares.
Por otra, para seleccionar la anotación más adecuada para la transferencia, el método que hemos
presentado calcula qué descripción, de aquéllas de un mismo grupo o cluster, es más homogénea
con respecto a las otras, de modo que aquéllas que contengan sinónimos infrecuentes, o palabras
no relacionadas con la función, palabras que aparecen quizás en sólo una de ellas, o aquéllas
descripciones que sean demasiado específicas, obtendrán una baja puntuación y generalmente
no serán seleccionadas. Como la homogeneidad no siempre garantiza el éxito, el método aplica
una serie de reglas, muchas de ellas inspiradas en el análisis léxico de GeneQuiz (Andrade et al.,
1999), para identificar descripciones que, por ser muy específicas o por no contener información
funcional, no son heredables. Estos filtros no siempre han resultado suficientes, tal y como
observamos en el análisis del genoma de buchnera, donde 9 anotaciones contenían palabras no
transferibles, desde números de acceso específicos hasta códigos que identificaban la posición
de un gen en un genoma.
En la anotación de códigos enzimáticos no calculamos cuál es más homogéneo con respecto a
los demás porque esta anotación viene dada en un vocabulario restringido y específico. Lo que
hemos hecho ha sido escoger el código de la proteína más parecida, aunque respetando el orden
de preferencias de las categorías de alineamiento. Este modo de proceder no resulta adecuado
siempre, ya que si la proteína más parecida está mal anotada, el método propaga el error, como
observamos que sucedió con la anotación de algún gen de buchnera.
Para la transferencia de palabras clave hemos considerado sólo los homólogos que alinean
completamente con la proteína problema, por considerar que existe una mayor relación entre
palabras clave y distintas regiones o dominios de las secuencias. El modo de seleccionar el
conjunto de palabras buscaba transferir el conjunto mayor de éstas en el que no se mezclasen
palabras que pudiesen ser auto-excluyentes, es decir, palabras que no deben aparecen
conjuntamente. Es necesario aplicar un filtro para seleccionar qué palabras clave pueden ser
transferidas ya que algunas no tienen una relación con la función de la proteína (por ejemplo:
'complete proteome' o '3D-structure') o se refieren a características de las proteínas que no
podemos suponer que se conserven entre ortólogos ('mitochondrion', 'chloroplast').
4.3.1.- Acuerdos para describir la función de las proteínas y ontologías
En el apartado previo discutimos cuáles han sido las maneras en que hemos tratado de solventar
los problemas relacionados con las anotaciones de las bases de datos. Como ya se avanzó en la
introducción de esta tesis, de un tiempo a esta parte se están tratando de aliviar estos problemas
por medio de la construcción de vocabularios controlados y ontologías. Estas iniciativas son
prometedoras ya que en ontologías como la de GeneOntology (Ashburner et al., 2000) se cubren
los distintos niveles posibles de detalle de la función, desde aspectos generales, tales como si
una proteína está implicada en la traducción, hasta los más específicos como si forma parte del
ribosoma. Además, en el marco de GeneOntology se describe la función de las proteínas desde
tres perspectivas generales distintas, como son las de componente celular, función molecular y
proceso biológico”, de modo que una proteína como la actina puede ser descrita al mismo tiempo
como constituyente del citoesqueleto y como ATPasa. Un aspecto negativo de GeneOntology es
que está pensado sólo para describir la función de genes de organismos eucariotas. Además, la
anotación es laboriosa y ha de hacerse a mano por lo que aún no son muchas las proteínas así
descritas. Existen algunas iniciativas que tratan de automatizar esta tarea, pero sus resultados
son dudosos. Para que las aproximaciones computacionales tuvieran éxito debería construirse
una verdadera ontología y no un simple esqueleto de conceptos relacionados; una ontología en la
que se definiera cada uno de los conceptos y cada una de las relaciones existentes entre ellos,
especificando cuándo y cómo puede suponerse determinada relación. Una solución intermedia
para anotar proteínas según GeneOngology es la de GOA (GO Annotation@EBI) del European
79
Bioinformatics Institute (Camon et al., 2003), donde tratan de combinar métodos computacionales
y manuales para conectar proteínas a la jerarquía de conceptos de GeneOntology. En un principio
han aplicado estos métodos al proteoma humano.
Hay que recordar que aunque este tipo de representación del conocimiento biológico va a resultar
muy útil, especialmente para los métodos computacionales, una ontología nunca estará a la altura
del nivel de complejidad con que un ser humano puede llegar a definir la función de una proteína.
Y también que nuestro conocimiento está en continua evolución. Viejos dogmas como el de "un
gen, una proteína" cayeron hace tiempo.
4.4.- Métodos relacionados con este trabajo. Anotación automática de TrEMBL
Posiblemente el trabajo más cercano al nuestro sea el de (Fleischmann et al., 1999), en el
contexto de la anotación automática de TrEMBL a partir de las anotaciones de Swiss-Prot
(descrito en la Introducción). Básicamente lo que hacen es agrupar las proteínas de Swiss-Prot de
acuerdo a la presencia en sus secuencias de patrones de Prosite (actualmente el agrupamiento
se hace a partir de motivos de InterPro), como por ejemplo el patrón ATP-binding. Seguidamente
buscan anotaciones comunes a todas las proteínas que han quedado agrupadas y si encuentran
alguna derivan una regla del tipo: cuando una proteína tiene el patrón ATP-binding en su
secuencia, podemos anotar la palabra clave 'ATP-binding'. Estas reglas las aplican a las
secuencias de TrEMBL. Nuestra idea, agrupar proteínas y buscar elementos comunes, es similar.
Sin embargo hay algunas diferencias: por una parte el agrupamiento de acuerdo a Prosite (o
InterPro) no permite agrupar todas las familias de proteínas ya que no todos los motivos
existentes en la naturaleza están descritos. El hecho de que los patrones de Prosite sean
diagnósticos en algunos casos de superfamilias y en otros de familias o subfamilias, hace que el
agrupamiento de proteínas de acuerdo a ellos no permita suponer que las proteínas realizan una
misma función, por lo que hay que buscar elementos de las anotaciones comunes a todas ellas.
Sin embargo, el método de agrupamiento que hemos presentado tiene como objetivo identificar
grupos de proteínas con una misma función (grupos de ortólogos), por lo que suponemos que, de
las proteínas del grupo, la anotación más homogénea respecto al resto es válida para la proteína
problema. Sin embargo, el método de agrupamiento no siempre resulta adecuado tal y como
reveló el análisis de la anotación de buchnera, donde vimos algunos casos en los que no separó
dos subfamilias distintas y esto condujo a una anotación errónea. Podemos decir que nuestra
aproximación tiene una cobertura mayor, aunque seguramente la fiabilidad de las anotaciones
sea menor. Por otra parte, en la aproximación de Fleischmann y sus colaboradores se trata de
transferir un mayor número de campos de información: además de las líneas DE, KW y los
códigos enzimáticos que analizamos, en ese trabajo se incluyen otros campos, los
correspondientes a las líneas CC y FT, de alto contenido informativo. En un futuro podríamos
pensar en compartir este trabajo y colaborar con el equipo encargado del mantenimiento de
TrEMBL.
4.5.- El impacto de las anotaciones automáticas en la calidad de la información contenida en las
bases de datos
La mayoría de las anotaciones se realizan, ya sea automática o supervisadamente, a partir de un
homólogo de función conocida. De hecho podemos encontrarnos con una cadena de anotaciones
basadas en este principio, lo que, evidentemente, entraña serios riesgos y puede conducir a una
degradación de la información contenida en las bases de datos, las cuales a su vez son fuente de
nuevas anotaciones. Es difícil saber cuántos errores cometemos. Algunos autores han tratado de
estimarlo. Steven Brenner (Brenner, 1999) comparó las anotaciones que tres grupos
independientes publicaron para los 468 genes de Mycoplasma genitalium (Fraser et al., 1995;
Ouzounis et al., 1996; Koonin et al., 1996). De los 340 genes para los que al menos dos grupos
propusieron una función (en suma 702 asignaciones), las anotaciones presentaban desacuerdos
en al menos 55 casos (8%). Esta estimación no incluye los casos en que los tres grupos se hayan
podido equivocar simultáneamente, lo cual es bastante posible dado que utilizaron bases de datos
y métodos similares. Devos y Valencia (Devos & Valencia, 2001) lo plantearon de otro modo: por
una parte estimaron cuánto varía la función de las proteínas en relación al porcentaje de identidad
de secuencias homólogas (Devos & Valencia, 2000); y por otra determinaron el porcentaje de
80
identidad de los homólogos a partir de los cuales se había transferido la anotación a los genes de
diversos genomas. El número de errores para distintas características funcionales fue variable,
yendo desde el 4% para la anotación de descripciones generales de la función hasta el 37% para
la anotación del último número del código enzimático, el que determina la especificidad de
sustrato. Los autores recuerdan que esta estimación sólo es válida cuando las anotaciones se
han realizado basándose en similitud de secuencias y que un análisis de familias de proteínas
reduciría la tasa de error. La inspección de las anotaciones del proteoma de Buchnera aphidicola
nos permitió estimar, comparando con las anotaciones de otras estirpes de buchnera así como
con otra anotación automática, el número de errores que cometimos. Este modo de evaluación no
es del todo consistente ya que las anotaciones con que comparamos puede que también sean
erróneas. Para determinar la precisión del método tratamos de ser críticos y consideramos como
errónea o conflictiva la anotación de 32 de los 507 genes, lo que se corresponde con una
precisión del 94%. De estos 32 casos, en 21 de ellos se trataba de proteínas que tras el
agrupamiento habían quedado aisladas de sus ortólogas y por tanto no pudieron ser anotadas.
Los genes de esta bacteria han divergido muy rápidamente debido a su modo de vida
endosimbiótico, por lo que no es de extrañar que el método de agrupamiento sitúe en algunos
casos sus proteínas en grupos separados. En algunos casos, como en el que hemos mencionado
de las proteínas flagelares, esta alta divergencia quizás refleje la adquisición de nuevas
funciones. Otros errores se debían a la transferencia de elementos de las descripciones
demasiado específicos o a un incorrecto resultado del método de agrupamiento.
Es muy difícil saber qué tal lo estamos haciendo y cuántos errores cometemos. El futuro de las
bases de datos dependerá de lo bien que lo hagamos y de que indiquemos siempre las
evidencias que apoyan cada una de las inferencias que llevan a anotar una proteína, de modo
que podamos deshacer cadenas de anotaciones incorrectas y así mantener una información de
calidad. En este sentido esfuerzos como el de mantener Swiss-Prot son de gran ayuda.
4.6.- El futuro de la predicción de la función de las proteínas
Actualmente nos encontramos ante un cambio de perspectiva respecto al estudio de la función de
las proteínas. El enfoque clásico de la Biología Molecular, que básicamente consistía en purificar
proteínas y estudiar su función de forma aislada, está cambiando. El trabajo que hemos
presentado también adopta una visión reduccionista: para una proteína particular se buscan los
ortólogos y se analizan sus anotaciones, las cuales generalmente han sido determinadas por
métodos clásicos.
En este momento, sin embargo, la secuenciación de numerosos genomas, así como el desarrollo
de nuevas técnicas experimentales, nos brindan la oportunidad de abstraernos desde lo individual
hasta lo más general, la oportunidad de observar el sistema en su conjunto, de estudiar la función
de las proteínas en su contexto natural.
Se están concentrando grandes esfuerzos para tratar de describir qué proteínas interaccionan
entre sí. De hecho ya se han descrito las redes de interacción en algunos organismos modelo
(Uetz et al., 2000; Gavin et al., 2002). Los resultados para levadura estiman en unas 30.000 las
interacciones que se producen entre sus 6.000 proteínas. Estas redes dibujan un panorama muy
amplio. Podemos estudiar sus características generales, es decir, qué topología tienen y cómo
han ido estableciéndose nuevas conexiones a lo largo de la evolución (Jain & Krishna, 2001;
Wagner, 2001; Fraser et al., 2002; Pawson & Nash, 2003). También podemos analizar cómo se
coordinan y relacionan los distintos procesos celulares (Ogata et al., 1999). Además, la función de
muchas proteínas hipotéticas puede ser predicha analizando su situación en la red, estudiando
con qué otras proteínas colaboran (Letovsky & Kasif, 2003; Vazquez et al., 2003; Huynen et al.,
2003).
Las matrices de ADN también son responsables de tantos cambios. Esta tecnología permite
conocer simultáneamente el estado de expresión de miles de genes, como si sacáramos una foto
al interior de una célula (Lockhart et al., 1996; Butte et al., 2000; Getz et al., 2000). También
podemos obtener una película si realizamos fotos consecutivas. Los resultados nos ofrecen la
posibilidad de encontrar proteínas con patrones de expresión similares, proteínas que, por
regularse de un modo similar, posiblemente participan en un mismo proceso celular (Oliveros et
al., 2000; Bilu & Linial, 2002; Pavlidis et al., 2002). Además, los datos que resultan de estos
81
estudios pueden servirnos para reconstruir las redes de regulación génica (Wyrick & Young, 2002;
Segal et al., 2003).
¿Qué decir de los genomas ? Actualmente conocemos la secuencia de los genomas de más de
150 organismos, y pronto la de muchos más. Su comparación está revelando muchas relaciones
entre las proteínas, como en el caso de genes que en bacterias lejanas han conservado el orden,
que posiblemente pertenezcan a un mismo operón, y que son candidatos a colaborar en una
misma función biológica (Overbeek et al., 1999; Tamames, 2001; Marcotte et al., 1999). O el de
genes que tienen un mismo patrón filogenético, es decir, que están o no están en los distintos
organismos, por lo que podemos pensar que sus funciones son complementarias y no tiene
sentido poseer sólo una de ellas (Pellegrini et al., 1999). La información que tantas secuencias
ocultan está saliendo a la luz gracias a muchos otros enfoques como son el de encontrar
proteínas de fusión (Enright et al., 1999), el de las mutaciones correlacionadas entre distintas
proteínas (Olmea & Valencia, 1997; Pazos et al., 1997; Pazos & Valencia, 2002), o el de los
mirror-trees o árboles especulares (Pazos & Valencia, 2001).
Toda esta información está ayudando tanto a predecir la función de muchas proteínas huérfanas
como a obtener una perspectiva más amplia del sistema. Sin embargo, con una perspectiva más
amplia vemos menos detalles. Los métodos más clásicos seguirán siendo imprescindibles para
caracterizar de forma precisa la función de las proteínas y cómo éstas interactúan entre sí. En
cuanto a la anotación automática, el tipo de información que ofrecen estas nuevas
aproximaciones tiene un nivel de detalle y precisión muy bajos, nos dicen algo así como: la
función de esta proteína debe de ser similar o complementaria a la de esta otra; este tipo de
información es muy difícil de anotar automáticamente, además de ser poco precisa. Por tanto,
actualmente, la anotación basada en homología continúa resultando de gran ayuda, y constituye
una visión complementaria para estudiar la función de las proteínas, aunque a veces los árboles
no nos dejen ver el bosque.
82
Conclusiones
1.- La propiedad transitiva de la homología puede extenderse indefinidamente, y esto permite
encontrar homólogos remotos con una alta sensibilidad, aunque con baja especificidad. A un
mismo nivel de especificidad, se obtiene una sensibilidad ligeramente inferior a la de PSI-BLAST
pero muy superior a la de BLAST.
2.- La medida del e-value entre pares de secuencias constituye una medida de distancia entre
proteínas suficiente para identificar grupos de proteínas. No existen medidas de distancia
estándar que permitan delimitar las diferentes familias de proteínas: cada familia tiene distintas
características.
3.- En el grafo de distancias existen grupos de proteínas diferenciados del resto. Éstos suelen
corresponderse con grupos de ortólogos o subfamilias con una función común.
4.- El algoritmo de corte normalizado, aplicado sobre el grafo construido a partir de las secuencias
y los e-values que reflejan su parecido, ofrece resultados satisfactorios, aunque para una correcta
identificación de estos grupos es deseable que el espacio de secuencias esté suficientemente
poblado, para evitar sesgos filogenéticos.
5.- Para predecir la función de una proteína a partir de las anotaciones ya existentes para sus
homólogos:
5.1.- hay que tener en cuenta si pertenecen a una misma subfamilia o grupo de ortólogos.
5.2.- es conveniente utilizar la información de múltiples homólogos para reducir el riesgo
de propagar anotaciones inapropiadas, bien porque sean erróneas, poco informativas o
demasiado específicas.
El método que hemos presentado ofrece una solución a estos problemas.
6.- El sistema ORFandDB para el análisis de genomas ha mostrado su utilidad en estudios de
diversa índole. El esquema entidad-relación para representar la información biológica ha resultado
apto en todos ellos, lo que avala su calidad.
83
Glosario
•
•
•
•
•
•
•
•
•
•
•
•
Alineamiento: el alineamiento de secuencias consiste en encontrar la superposición de varias
secuencias (dos o más, según si es alineamiento entre pares o alineamiento múltiple) en la que
hay más coincidencias entre las posiciones de unas y otras. En un alineamiento local se
encuentra el fragmento de las secuencias que proporciona un alineamiento con una
coincidencia máxima. En un alineamiento global se alinean las secuencias enteras. La
combinación de la información de los alineamientos y de modelos estadísticos permite
identificar relaciones de homología entre las proteínas.
Análogo: cuando la función (o la estructura) de dos proteínas se parece pero éstas tienen
orígenes distintos decimos que son análogas.
BLAST: es una herramienta que, mediante el alineamiento de secuencias y la aplicación de un
modelo estadístico, permite encontrar rápidamente homólogos en las bases de datos de
secuencias.
Búsquedas con secuencias intermedias (BSI): es un método para buscar homólogos.
Extiende las búsquedas sencillas del tipo de BLAST mediante la aplicación de la propiedad
transitiva de la homología. Con las secuencias que encuentra BLAST, realiza nuevas
búsquedas de tipo BLAST, saltando por el espacio de secuencias de una proteína a otra,
permitiendo encontrar homólogos lejanos siempre y cuando existan secuencias a distancias
intermedias.
Clustering o agrupamiento: si a partir de un conjunto de elementos o datos determinamos si
hay grupos de éstos diferenciables del resto y los reunimos, estamos realizando un clustering o
agrupamiento. La clasificación de los animales en mamíferos, peces, anfibios... es un ejemplo
agrupamiento. Existen muchos métodos computacionales para identificar grupos de datos
dentro de un conjunto. Estos datos pueden estar en un espacio euclídeo o en un grafo, por
ejemplo.
COGs: es una base de datos donde los genes de microorganismos de los que conocemos la
secuencia completa de sus genomas se clasifican en grupos de ortólogos.
Dominio: un dominio de una proteína es un fragmento de su secuencia con independencia
estructural del resto, es decir, capaz de conformar una estructura tridimensional determinada
por sí mismo. Las proteínas pueden estar constituidas por uno o más dominios.
E-value: en el ámbito de la búsqueda de homólogos, es una medida que se emplea para
estimar cuándo un parecido entre dos secuencias puede reflejar un origen común de éstas.
Estructura: cuando hablamos de la estructura de una proteína nos referimos a la disposición
en el espacio 3D de su secuencia de aminoácidos. La estructura de una proteína está
determinada por su secuencia (Anfinsen, 1973). Las proteínas homólogas tienen estructuras
similares (Chothia & Lesk, 1986).
Familias y subfamilias: Las superfamilias pueden subclasificarse en familias y subfamilias
cuando contienen varios grupos de ortólogos. En este trabajo frecuentemente hemos utilizado
el término de subfamilia como sinónimo de grupo de ortólogos, es decir, de grupo de proteínas
con una función común.
Función: cuando hablamos de la función de una proteína nos referimos al papel que ésta
desempeña en la célula (o fuera de ésta), ya consista en formar parte del esqueleto celular o
en llevar a cabo un paso determinado de una ruta metabólica.
Grafo: es una estructura de datos en la que hay nodos que pueden estar conectados mediante
arcos. Estos arcos pueden tener una direccionalidad y un peso. Asimismo, los nodos pueden
tener etiquetas. Los grafos son adecuados para representar redes de comunicaciones,
ontologías o rutas metabólicas. El espacio de secuencias también puede ser descrito mediante
un grafo en el que los nodos se correspondan con proteínas y los arcos reflejen las distancias
84
•
•
•
•
•
•
•
•
•
•
•
o relaciones entre ellas (Tatusov et al., 1997; Yona et al., 1999; Abascal & Valencia, 2002).
Homólogo: aplicado a proteínas y genes se utiliza para indicar un origen evolutivo común. Por
ejemplo, sabemos que la actina y las hexoquinasas son homólogas porque sus secuencias y
estructuras tridimensionales se parecen.
Mapa del espacio de secuencias: por espacio de secuencias entendemos el universo de las
secuencias, en el que unas están más cercanas a otras dependiendo de su distancia evolutiva,
de restricciones para conservar la función de la proteína, o dependiendo del modo de vida de
los organismos (por ejemplo, en bacterias endosimbiontes de insectos el ritmo de divergencia
es muy alto). Cuando hacemos una estimación de las distancias entre las proteínas estamos
cartografiando el espacio de secuencias. Estos mapas podemos representarlos mediante
árboles filogenéticos binarios (Saitou & Nei, 1987; Eck & Dayhoff, 1966), grafos (Yona et al.,
1999, Abascal & Valencia, 2002) o espacios euclideos N-dimensionales (Casari et al., 1995).
Ontología: Originalmente, se ha utilizado en filosofía para referirse al intento de determinar
qué tipo de entidades o “cosas” existen en el universo. Si, referido a un área de conocimiento,
como por ejemplo la biología, discernimos qué conceptos más pequeños constituyen los
ladrillos con los que se construyen otros más elevados, y si definimos estos conceptos y el
modo en que estos conceptos se interrelacionan entre sí, habremos definido una ontología.
Ortólogo: se refiere a aquellas proteínas (o genes) homólogas que tienen la misma identidad
en distintos organismos, es decir, proteínas en distintos organismos que provienen de un
mismo gen en el último ancestro común. Las proteínas ortólogas suelen llevar a cabo una
misma función.
Parálogo: hablamos de parálogos cuando nos referimos a genes de la misma especie o de
especies distintas que han surgido por duplicación. Remm y colaboradores (2002) proponen
una distinción entre parálogos que se han originado antes de la especiación (out-paralogs) de
los parálogos que lo han hecho después (in-paralogs). Los in-paralogs, como los ortólogos,
suelen conservar la función original.
Perfil: los alineamientos múltiples revelan información de qué posiciones de las secuencias
son más importantes (están más conservadas). Esta información puede plasmarse en un perfil,
que es una matriz de dimensiones 20xL, donde para cada posición del alineamiento (de
longitud L) se indica la frecuencia con que se observa cada uno de los veinte aminoácidos.
PSI-BLAST utiliza perfiles para encontrar homólogos lejanos (aquéllos cuyas secuencias ya
casi no se parecen).
Propiedad transitiva de la homología: si sabemos que dos proteínas A y B tienen un origen
común, y sabemos que B y C también comparten origen, podemos aplicar esta propiedad y
deducir la homología entre A y C. Como las proteínas frecuentemente constan de varios
dominios, y como a lo largo de la evolución unos dominios se han combinado con otros
(barajado de dominios o domain shuffling), esta propiedad sólo es válida cuando los dominios
implicados en la relación A-B y B-C son los mismos.
PROTOMAP: en esta base de datos se clasifican las proteínas de forma jerárquica. A partir de
un grafo en el que se representa el espacio de secuencias, se agrupan las proteínas en grupos
cada vez más amplios.
PSI-BLAST: es un programa para buscar homólogos en las bases de datos. Gracias a que
realiza las búsquedas con perfiles, es capaz de encontrar homólogos lejanos de forma más
eficiente que un método como BLAST.
Secuencia: las proteínas y los ácidos nucleícos son biopolímeros constituidos por el
ensamblaje consecutivo (secuencial) de aminoácidos y nucleótidos, respectivamente. Gracias
a que las proteínas y los genes se ordenan de este modo podemos representarlos como
cadenas de caracteres. Las proteínas con secuencias suficientemente parecidas son
homólogas (Zuckerkandl & Pauling, 1965).
Superfamilia: las proteínas que son homólogas se dice que pertenecen a una misma
superfamilia.
85
•
SCOP: es una base de datos donde se clasifican las proteínas cuya estructura conocemos. La
clasificación es jerárquica. Se clasifican, de forma jerárquica, según la clase, el tipo de
plegamiento, la superfamilia, etcétera. Frecuentemente se utiliza como estándar de homología:
las proteínas que en SCOP están en una misma superfamilia son homólogas, las que están en
la misma categoría de tipo de plegamiento pero en distinta superfamilia no lo sabemos, y las
que tienen plegamientos distintos no son homólogas.
86
Referencias
•
•
•
•
•
Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the identification of protein families.
Bioinformatics. 18:908-921.
Abascal F, Valencia A. (2003) Automatic annotation of protein function based on family identification. Proteins. In
press.
Aguirre C. (2002) Estudio de Propiedades estaticas y dinamicas para modelos aplicados a redes de
comunicaciones. (Tesis doctoral). Universidad Autónoma de Madrid.
Alonso-Allende R, Fernandez-Gonzalez JM, Valencia A. (2002) The REGIA database (RegiaDB): status, limitations
and future developments. Comp. Func. Genom., in press.
Altman R, Bada M, Chai XJ, Whirl Carillo M, Chen RO, Abernethy NF. (1999) RiboWeb: An Ontology-Based
System for Collaborative Molecular Biology. IEEE Intelligent Systems, 14:68-76.
•
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990) Basic local alignment search tool. J Mol Biol. 215:403410.
•
Altschul SF, Gish W. (1996) Local alignment statistics. Methods in Enzymology 266:460-480.
•
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. (1997) Gapped BLAST and PSIBLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402.
Andrade MA, Brown NP, Leroy C, Hoersch S, de Daruvar A, Reich C, Franchini A, Tamames J, Valencia A,
Ouzounis C, Sander C. (1999) Automated genome sequence analysis and annotation. Bioinformatics. 15:391-412.
Andrade MA. (1999) Position-specific annotation of protein function based on multiple homologs. Proc Int Conf Intell
Syst Mol Biol. 28-33.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Anfinsen CB. (1973) Principles that govern the folding of protein chains. Science. 96:223-230.
Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD,
Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A,
Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM; InterPro
Consortium. (2000) InterPro--an integrated documentation resource for protein families, domains and functional
sites. Bioinformatics.29:1145-1150.
Apweiler R. (2001) Functional information in SWISS-PROT: the basis for large-scale characterisation of protein
sequences. Brief Bioinform. 2:9-18.
Aravind L, Dixit VM, Koonin EV. (1999) The domains of death: evolution of the apoptosis machinery. Trends
Biochem Sci. 24:47-53.
Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris
MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G.
(2000) Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 25:25-29.
Attwood TK, Beck ME, Flower DR, Scordis P, Selley JN. (1998) The PRINTS protein fingerprint database in its fifth
year. Nucleic Acids Res. 26:304-308.
Attwood TK. (2000) Genomics. The Babel of bioinformatics. Science. 290:471-473.
Bailey LC Jr, Fischer S, Schug J, Crabtree J, Gibson M, Overton GC. (1998) GAIA: framework annotation of
genomic sequence. Genome Res. 8:234-250.
Bairoch A, Apweiler R. (2000) The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000.
Nucleic Acids Res. 28:45-48.
Bairoch A. (2000) The ENZYME database in 2000. Nucleic Acids Res. 28:304-305.
Baldi P, Chauvin Y, Hunkapiller T, McClure MA. (1994) Hidden Markov models of biological primary sequence
information. Proc. Natl. Acad. Sci. USA, 91, 1059-1063.
Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M,
Sonnhammer EL. (2002) The Pfam protein families database. Nucleic Acids Res. 30:276-80.
Baumann P, Baumann L, Lai CY, Rouhbakhsh D, Moran NA, Clark MA. (1995) Genetics, physiology, and
evolutionary relationships of the genus Buchnera: intracellular symbionts of aphids. Annu Rev Microbiol. 49:55-94.
Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL. (2003) GenBank. Nucleic Acids Res. 31:23-27.
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. (2000) The Protein
Data Bank. Nucleic Acids Res. 28:235-242.
Bernal, A., Ear, U., Kyrpides, N. (2001) Genomes OnLine Database (GOLD): a monitor of genome projects worldwide. Nucleic Acids Res. 29:126-127.
Bilu Y, Linial M. (2002) The advantage of functional prediction based on clustering of yeast genes and its correlation
with non-sequence based classifications. J Comput Biol. 9:193-210.
Blake C. (1983) Exons and the evolution of proteins. Trends Biochem. Sci. 8:11-13.
Blaschke C, Valencia A. (2003) Automatic classification of protein functions from the literature. Compar. Funct.
87
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Genom. 4:75-79.
Bork P, Dandekar T, Diaz-Lazcoz Y, Eisenhaber F, Huynen M, Yuan Y. (1998) Predicting function: from genes to
genomes and back. J Mol Biol. 283:707-725.
Bork P, Koonin EV. (1998) Predicting functions from protein sequences--where are the bottlenecks? Nat Genet.
18:313-318.
Brenner S. (2002) Life sentences: Ontology recapitulates philology. Genome Biol. 3:COMMENT1006COMMENT1006.
Brenner SE, Koehl P, Levitt M. (2000) The ASTRAL compendium for sequence and structure analysis. Nucleic
Acids Res. 28:254-256.
Brenner SE. (1999) Errors in genome annotation. Trends Genet. 15:132-133.
Brenner SE. (2000) Target selection for structural genomics. Nat Struct Biol. 7:967-969.
Brown NP, Leroy C, Sander C. (1998) MView: a web-compatible database search or multiple alignment viewer.
Bioinformatics. 14:380-381.
Butte AJ, Tamayo P, Slonim D, Golub TR, Kohane IS. (2000) Discovering functional relationships between RNA
expression and chemotherapeutic susceptibility using relevance networks. Proc Natl Acad Sci U S A. 97:1218212186.
Camon E, Magrane M, Barrell D, Binns D, Fleischmann W, Kersey P, Mulder N, Oinn T, Maslen J, Cox A, Apweiler
R. (2003) The Gene Ontology Annotation (GOA) project: implementation of GO in SWISS-PROT, TrEMBL, and
InterPro. Genome Res. 13:662-672.
Casari G, Sander C, Valencia A. (1995) A method to predict functional residues in proteins. Nat Struct Biol. 2:171178.
Cavalli-Sforza LL, Edwards AW. (1967) Phylogenetic analysis. Models and estimation procedures. Am J Hum
Genet. 19:Suppl 19:233+.
Chothia C, Lesk AM. (1986) The relation between the divergence of sequence and structure in proteins. EMBO J.
5:823-826.
Clamp M, Andrews D, Barker D, Bevan P, Cameron G, Chen Y, Clark L, Cox T, Cuff J, Curwen V, Down T, Durbin
R, Eyras E, Gilbert J, Hammond M, Hubbard T, Kasprzyk A, Keefe D, Lehvaslaiho H, Iyer V, Melsopp C, Mongin E,
Pettett R, Potter S, Rust A, Schmidt E, Searle S, Slater G, Smith J, Spooner W, Stabenau A, Stalker J, Stupka E,
Ureta-Vidal A, Vastrik I, Birney E. (2003) Ensembl 2002: accommodating comparative genomics. Nucleic Acids
Res. 31:38-42.
Corpet F, Gouzy J, Kahn D. (1998) The ProDom database of protein domain families. Nucleic Acids Res. 26:323326.
Das R, Gerstein M. (2000) The stability of thermophilic proteins: a study based on comprehensive genome
comparison. Funct Integr Genomics. 1:76-88.
•
Devos D, Valencia A. (2000) Practical limits of function prediction. Proteins. 41:98-107.
•
Devos D, Valencia A. (2001) Intrinsic errors in genome annotation. Trends Genet. 17:429-431.
•
Doerks T, Bairoch A, Bork P. (1998) Protein annotation: detective work for function prediction. Trends Genet.
14:248-250.
Eck RV, Dayhoff MO. (1966) Atlas of Protein Sequence and Structure 1966. National Biomedical Research
Foundation, Silver Spring, Maryland.
Eddy SR. (1996) Hidden Markov models. Curr. Opin. Struct. Biol. 6:361-365.
•
•
•
•
•
•
•
•
•
•
•
•
Elofsson A, Sonnhammer EL. (1999) A comparison of sequence and structure protein domain families as a basis
for structural genomics. Bioinformatics. 15:480-500.
Emanuelsson O, Nielsen H, Brunak S, von Heijne G. (2000) Predicting subcellular localization of proteins based on
their N-terminal amino acid sequence. J. Mol. Biol. 300:1005-1016.
Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA. (1999) Protein interaction maps for complete genomes based
on gene fusion events. Nature. 402:86-90.
Enright AJ, Kunin V, Ouzounis CA. (2003) Protein families and TRIBES in genome sequence space. Nucleic Acids
Res. 31:4632-4638.
Enright AJ, Ouzounis CA. (2000) GeneRAGE: a robust algorithm for sequence clustering and domain detection.
Bioinformatics. 16:451-457.
Enright AJ, Van Dongen S, Ouzounis CA. (2002) An efficient algorithm for large-scale detection of protein families.
Nucleic Acids Res. 30:1575-1584.
Fares MA, Barrio E, Sabater-Munoz B, Moya A. (2002) The evolution of the heat-shock protein GroEL from
Buchnera, the primary endosymbiont of aphids, is governed by positive selection. Mol Biol Evol. 19:1162-1170.
Felsenstein J. (1981) Evolutionary trees from DNA sequences: a maximum likelihood approach. J Mol Evol. 17:368376.
Fitch WM. (1970) Distinguishing homologous from analogous proteins. Syst Zool. 19:99-113.
Fleischmann W, Moller S, Gateau A, Apweiler R. (1999) A novel method for automatic functional annotation of
proteins. Bioinformatics. 15:228-233.
88
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Fraser CM, Gocayne JD, White O, Adams MD, Clayton RA, Fleischmann RD, Bult CJ, Kerlavage AR, Sutton G,
Kelley JM, et al. (1995) The minimal gene complement of Mycoplasma genitalium. Science. 270:397-403.
Fraser HB, Hirsh AE, Steinmetz LM, Scharfe C, Feldman MW. (2002) Evolutionary rate in the protein interaction
network. Science. 296:750-752.
Frishman D, Albermann K, Hani J, Heumann K, Metanomski A, Zollner A, Mewes HW. (2001) Functional and
structural genomics using PEDANT. Bioinformatics. 17:44-57.
Fuchs R. (2002) From sequence to biology: the impact on bioinformatics. Bioinformatics. 18:505-506.
Gaasterland T, Sensen CW. (1996) Fully automated genome analysis that reflects user needs and preferences. A
detailed introduction to the MAGPIE system architecture. Biochimie. 78:302-310.
Garcia-Ranea JA, Valencia A. (1998) Distribution and functional diversification of the ras superfamily in
Saccharomyces cerevisiae. FEBS Lett. 434:219-225.
Gavin AC, Bosche M, Krause R, Grandi P, Marzioch M, Bauer A, Schultz J, Rick JM, Michon AM, Cruciat CM,
Remor M, Hofert C, Schelder M, Brajenovic M, Ruffner H, Merino A, Klein K, Hudak M, Dickson D, Rudi T, Gnau V,
Bauch A, Bastuck S, Huhse B, Leutwein C, Heurtier MA, Copley RR, Edelmann A, Querfurth E, Rybin V, Drewes G,
Raida M, Bouwmeester T, Bork P, Seraphin B, Kuster B, Neubauer G, Superti-Furga G. (2002) Functional
organization of the yeast proteome by systematic analysis of protein complexes. Nature. 415:141-147.
Gerstein M. (1998) Measurement of the effectiveness of transitive sequence comparison, through a third
'intermediate' sequence. Bioinformatics 14:707-714.
Getz G, Levine E, Domany E. (2000) Coupled two-way clustering analysis of gene microarray data. Proc Natl Acad
Sci U S A. 97:12079-12084.
Gilbert W. (1985) Genes-in-pieces revisited. Science 228:823-824.
Gomez MJ, Guijarro FJ, Otero RP, Jensen LJ, Brunak S, Valencia A. (2003) Protein function prediction: Application
of a propositional rules learning system to a set of human protein sequences. European Conference on
Computational Biology, to be presented.
Gribskov M, McLachlan AD, Eisenberg D. (1987) Profile analysis: detection of distantly related proteins. Proc. Ntal
Acad. Sci. USA. 84:4355-4358.
Gromiha MM. 2001 Important inter-residue contacts for enhancing the thermal stability of thermophilic proteins.
Biophys Chem. 91:71-77.
Haft DH, Loftus BJ, Richardson DL, Yang F, Eisen JA, Paulsen IT, White O. (2001) TIGRFAMs: a protein family
resource for the functional identification of proteins. Nucleic Acids Res. 29:41-43.
Hartley BS, Hanlon N, Jackson RJ, Rangarajan M. (2000) Glucose isomerase: insights into protein engineering for
increased thermostability. Biochim Biophys Acta. 1543:294-335.
Heger A, Holm L. (2000) Towards a covering set of protein family profiles. Prog Biophys Mol Biol. 73:321-337.
Henikoff S, Greene EA, Pietrokovski S, Bork P, Attwood TK, Hood L. (1997) Gene families: the taxonomy of protein
paralogs and chimeras. Science. 278:609-614.
Henikoff S, Henikoff JG. (1992) Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A.
89:10915-10919
Hennig S, Groth D, Lehrach H. (2003) Automated Gene Ontology annotation for anonymous sequence data.
Nucleic Acids Res. 31:3712-3715.
Henrissat B, Romeu A. (1995) Families, superfamilies and subfamilies of glycosyl hydrolases. Biochem J. 311:350351.
Hofmann K, Bucher P, Tschopp J. (1997) The CARD domain: a new apoptotic signalling motif. Trends Biochem Sci.
22:155-156.
Horton P, Nakai K. (1997) Better prediction of protein cellular localization sites with the k nearest neighbors
classifier. Proc Int Conf Intell Syst Mol Biol. 5:147-152.
Hunter L. (2002) Ontologies for programs, not people. Genome Biol. 3:INTERACTIONS1002-INTERACTIONS1002.
Huynen MA, Snel B, Mering C, Bork P. (2003) Function prediction and protein networks. Curr Opin Cell Biol.
15:191-198.
Jain S, Krishna S. (2001) A model for the emergence of cooperation, interdependence, and structure in evolving
networks. Proc Natl Acad Sci U S A. 98:543-547.
Jensen LJ, Gupta R, Blom N, Devos D, Tamames J, Kesmir C, Nielsen H, Staerfeldt HH, Rapacki K, Workman C,
Andersen CA, Knudsen S, Krogh A, Valencia A, Brunak S. (2002) Prediction of human protein function from posttranslational modifications and localization features. J Mol Biol. 319:1257-1265.
Jensen LJ, Gupta R, Staerfeldt HH, Brunak S. (2003) Prediction of human protein function according to Gene
Ontology categories. Bioinformatics 19:635-642.
Karlin S, Altschul SF. (1993) Applications and statistics for multiple high-scoring segments in molecular sequences.
Proc. Natl. Acad. Sci. USA. 90:5873-5877.
Karp PD, Riley M, Paley SM, Pellegrini-Toole A, Krummenacker M. (1997) EcoCyc: Enyclopedia of Escherichia coli
Genes and Metabolism. Nucleic Acids Res. 25:43-51.
Kellis M, Patterson N, Endrizzi M, Birren B, Lander ES. (2003) Sequencing and comparison of yeast species to
identify genes and regulatory elements. Nature. 423:241-254
Koonin EV, Mushegian AR, Bork P. (1996) Non-orthologous gene displacement. Trends Genet. 12:334-336.
89
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Koonin EV, Mushegian AR, Rudd KE. (1996) Sequencing and analysis of bacterial genomes. Curr Biol. 6:404-416.
Koonin EV. (1993) A superfamily of ATPases with diverse functions containing either classical or deviant ATPbinding motif. J Mol Biol. 229:1165-1174.
Koonin EV. (2001) Computational genomics. Curr Biol. 11:R155-158.
Krause A, Haas SA, Coward E, Vingron M. (2002) SYSTERS, GeneNest, SpliceNest: exploring sequence space
from genome to protein. Nucleic Acids Res. 30:299-300.
Krause A, Stoye J, Vingron M. (2000) The SYSTERS protein sequence cluster set. Nucleic Acids Res. 28:270-272.
Kretschmann E, Fleischmann W, Apweiler R. (2001) Automatic rule generation for protein annotation with the C4.5
data mining algorithm applied on SWISS-PROT. Bioinformatics. 17:920-926.
Kriventseva EV, Fleischmann W, Zdobnov EM, Apweiler R. (2001) CluSTr: a database of clusters of SWISSPROT+TrEMBL proteins. Nucleic Acids Res. 1:33-36.
Krogh A, Brown M, Mian IS, Sjolander K, Haussler D. (1994) Hidden Markov models in computational biology:
applications to protein modeling. J. Mol. Biol., 235:1501-1531.
Krogh A, Larsson B, von Heijne G, Sonnhammer EL. (2001) Predicting transmembrane protein topology with a
hidden Markov model: application to complete genomes. J Mol Biol. 305:567-580.
Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W, Funke
R, Gage D, Harris K, Heaford A, Howland J, Kann L, Lehoczky J, LeVine R, McEwan P, McKernan K, Meldrim J,
Mesirov JP, Miranda C, Morris W, Naylor J, Raymond C, Rosetti M, Santos R, Sheridan A, Sougnez C, StangeThomann N, Stojanovic N, Subramanian A, Wyman D, Rogers J, Sulston J, Ainscough R, Beck S, Bentley D,
Burton J, Clee C, Carter N, Coulson A, Deadman R, Deloukas P, Dunham A, Dunham I, Durbin R, French L,
Grafham D, Gregory S, Hubbard T, Humphray S, Hunt A, Jones M, Lloyd C, McMurray A, Matthews L, Mercer S,
Milne S, Mullikin JC, Mungall A, Plumb R, Ross M, Shownkeen R, Sims S, Waterston RH, Wilson RK, Hillier LW,
McPherson JD, Marra MA, Mardis ER, Fulton LA, Chinwalla AT, Pepin KH, Gish WR, Chissoe SL, Wendl MC,
Delehaunty KD, Miner TL, Delehaunty A, Kramer JB, Cook LL, Fulton RS, Johnson DL, Minx PJ, Clifton SW,
Hawkins T, Branscomb E, Predki P, Richardson P, Wenning S, Slezak T, Doggett N, Cheng JF, Olsen A, Lucas S,
Elkin C, Uberbacher E, Frazier M, Gibbs RA, Muzny DM, Scherer SE, Bouck JB, Sodergren EJ, Worley KC, Rives
CM, Gorrell JH, Metzker ML, Naylor SL, Kucherlapati RS, Nelson DL, Weinstock GM, Sakaki Y, Fujiyama A, Hattori
M, Yada T, Toyoda A, Itoh T, Kawagoe C, Watanabe H, Totoki Y, Taylor T, Weissenbach J, Heilig R, Saurin W,
Artiguenave F, Brottier P, Bruls T, Pelletier E, Robert C, Wincker P, Smith DR, Doucette-Stamm L, Rubenfield M,
Weinstock K, Lee HM, Dubois J, Rosenthal A, Platzer M, Nyakatura G, Taudien S, Rump A, Yang H, Yu J, Wang J,
Huang G, Gu J, Hood L, Rowen L, Madan A, Qin S, Davis RW, Federspiel NA, Abola AP, Proctor MJ, Myers RM,
Schmutz J, Dickson M, Grimwood J, Cox DR, Olson MV, Kaul R, Raymond C, Shimizu N, Kawasaki K, Minoshima
S, Evans GA, Athanasiou M, Schultz R, Roe BA, Chen F, Pan H, Ramser J, Lehrach H, Reinhardt R, McCombie
WR, de la Bastide M, Dedhia N, Blocker H, Hornischer K, Nordsiek G, Agarwala R, Aravind L, Bailey JA, Bateman
A, Batzoglou S, Birney E, Bork P, Brown DG, Burge CB, Cerutti L, Chen HC, Church D, Clamp M, Copley RR,
Doerks T, Eddy SR, Eichler EE, Furey TS, Galagan J, Gilbert JG, Harmon C, Hayashizaki Y, Haussler D,
Hermjakob H, Hokamp K, Jang W, Johnson LS, Jones TA, Kasif S, Kaspryzk A, Kennedy S, Kent WJ, Kitts P,
Koonin EV, Korf I, Kulp D, Lancet D, Lowe TM, McLysaght A, Mikkelsen T, Moran JV, Mulder N, Pollara VJ, Ponting
CP, Schuler G, Schultz J, Slater G, Smit AF, Stupka E, Szustakowski J, Thierry-Mieg D, Thierry-Mieg J, Wagner L,
Wallis J, Wheeler R, Williams A, Wolf YI, Wolfe KH, Yang SP, Yeh RF, Collins F, Guyer MS, Peterson J, Felsenfeld
A, Wetterstrand KA, Patrinos A, Morgan MJ, Szustakowki J, de Jong P, Catanese JJ, Osoegawa K, Shizuya H,
Choi S, Chen YJ. (2001) Initial sequencing and analysis of the human genome. Nature. 409:860-921.
Lang D, Thoma R, Henn-Sax M, Sterner R, Wilmanns M. (2000) Structural evidence for evolution of the beta/alpha
barrel scaffold by gene duplication and fusion. Science. 289:1546-1550.
Letovsky S, Kasif S. (2003) Predicting protein function from protein/protein interaction data: a probabilistic
approach. Bioinformatics 19 Suppl 1:I197-I204.
Linial M, Yona G. (2000) Methodologies for target selection in structural genomics. Prog Biophys Mol Biol. 73:297320.
Liu J, Rost B. (2002) Target space for structural genomics revisited. Bioinformatics. 18:922-933.
Li W, Jaroszewski L, Godzik A. (2001) Clustering of highly homologous sequences to reduce the size of large
protein databases. Bioinformatics. 17:282-283.
Li W, Pio F, Pawlowski K, Godzik A. (2000) Saturated BLAST: an automated multiple intermediate sequence search
used to detect distant homology. Bioinformatics.16:1105-1110.
Lockhart DJ, Dong H, Byrne MC, Follettie MT, Gallo MV, Chee MS, Mittmann M, Wang C, Kobayashi M, Horton H,
Brown EL. (1996) Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol.
14:1675-1680.
Lowe TM, Eddy SR. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic
sequence. Nucleic Acids Res. 25:955-964.
Lukashin AV, Borodovsky M. (1998) GeneMark.hmm: new solutions for gene finding. Nucleic Acids Res. 26:11071115.
Luthy R, Xenarios I, Bucher P. (1994) Improving the sensitivity of the sequence profile method. Protein Sci. 3:139146.
90
•
•
•
Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D. (1999) Detecting protein function and
protein-protein interactions from genome sequences. Science. 285:751-753.
May AC. (2001) Optimal classification of protein sequences and selection of representative sets from multiple
alignments: application to homologous families and lessons for structural genomics. Protein Eng. 14:209-217.
McCarthy AD, Hardie DG. (1984) Fatty acid synthase: an example of protein evolution by gene fusion. Trends
Biochem. Sci. 9:60-63.
•
Modrek B, Lee C. (2002) A genomic view of alternative splicing. Nat Genet. 30:13-19.
•
Moller S, Leser U, Fleischmann W, Apweiler R. (1999) EDITtoTrEMBL: a distributed approach to high-quality
automated protein sequence annotation. Bioinformatics. 15:219-227.
Moran NA, Mira A. (2001) The process of genome shrinkage in the obligate symbiont Buchnera aphidicola.
Genome Biol. 2:RESEARCH0054. Epub 2001 Nov 14.
Mulder NJ, Apweiler R, Attwood TK, Bairoch A, Barrell D, Bateman A, Binns D, Biswas M, Bradley P, Bork P,
Bucher P, Copley RR, Courcelle E, Das U, Durbin R, Falquet L, Fleischmann W, Griffiths-Jones S, Haft D, Harte N,
Hulo N, Kahn D, Kanapin A, Krestyaninova M, Lopez R, Letunic I, Lonsdale D, Silventoinen V, Orchard SE, Pagni
M, Peyruc D, Ponting CP, Selengut JD, Servant F, Sigrist CJ, Vaughan R, Zdobnov EM. (2003) The InterPro
Database, 2003 brings increased coverage and new features. Nucleic Acids Res. 31:315-318.
Murzin A. G., Brenner S. E., Hubbard T., Chothia C. (1995). SCOP: a structural classification of proteins database
for the investigation of sequences and structures. J. Mol. Biol. 247:536-540.
Natale DA, Shankavaram UT, Galperin MY, Wolf YI, Aravind L, Koonin EV. (2000) Towards understanding the first
genome sequence of a crenarchaeon by genome annotation using clusters of orthologous groups of proteins
(COGs). Genome Biol. 1:RESEARCH0009. Epub 2000 Nov 06.
Ochman H, Moran NA. (2001) Genes lost and genes found: evolution of bacterial pathogenesis and symbiosis.
Science. 292:1096-1099.
Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M. (1999) KEGG: Kyoto Encyclopedia of Genes and
Genomes. Nucleic Acids Res. 27:29-34.
Ohno S, Wolf U, Atkin NB. (1968) Evolution from fish to mammals by gene duplication. Hereditas. 59:169-187.
Ohta T. (1989) Role of gene duplication in evolution. Genome. 31:304-310.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Oliveros JC, Blaschke C, Herrero J, Dopazo J, Valencia A. (2000) Expression profiles and biological function.
Genome Inform Ser Workshop Genome Inform.11:106-117.
Olmea O, Valencia A. (1997) Improving contact predictions by the combination of correlated mutations and other
sources of sequence information. Fold Des. 2:S25-32.
Ouzounis C, Casari G, Valencia A, Sander C. (1996) Novelties from the complete genome of Mycoplasma
genitalium. Mol Microbiol. 20:898-900.
Ouzounis C. (1999) Orthology: another terminology muddle. Trends Genet. 15:445.
Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N. (1999) The use of gene clusters to infer functional
coupling. Proc Natl Acad Sci U S A. 96:2896-2901.
Park J, Karplus K, Barrett C, Hughey R, Haussler D, Hubbard T, Chothia C. (1998) Sequence comparisons using
multiple sequences detect twice as many remote homologues as pairwise methods. J. Mol. Biol., 284:1201-1210.
Park J, Teichmann S, Hubbard T, Chothia C. (1997) Intermediate sequences increase the detection of homology
between sequences. J. Mol. Biol. 273:349-354.
Pavlidis P, Weston J, Cai J, Noble WS. (2002) Learning gene functional classifications from multiple data types. J
Comput Biol. 9:401-411.
Pawson T, Nash P. (2003) Assembly of cell regulatory systems through protein interaction domains. Science.
300:445-452.
Pazos F, Helmer-Citterich M, Ausiello G, Valencia A. (1997) Correlated mutations contain information about proteinprotein interaction. J Mol Biol. 271:511-523.
Pazos F, Valencia A. (2001) Similarity of phylogenetic trees as indicator of protein-protein interaction. Protein Eng.
14:609-614.
Pearson, W. R. (1996). Effective Protein Sequence Comparison. Methods in Enzymology 266:227-258.
Pearson W, Lipman D. (1988) Improved tools for biological sequence comparison. Proc. Natl Acad. Sci. USA.
85:2444-2448.
Pearson WR. (1998) Empirical statistical estimates for sequence similarity searches. J. Mol. Biol. 276:71-84.
Pellegrini M, Marcotte EM, Thompson MJ, Eisenberg D, Yeates TO. (1999) Assigning protein functions by
comparative genome analysis: protein phylogenetic profiles. Proc Natl Acad Sci U S A. 96:4285-4288.
Piatigorsky J, Wistow G. (1991) The recruitment of crystallins: new functions precede gene duplication. Science.
252:1078-1079.
•
Ponting CP. (2001) Issues in predicting protein function from sequence. Brief Bioinform. 2:19-29.
•
Portugaly E, Kifer I, Linial M. (2002) Selecting targets for structural determination by navigating in a graph of protein
families. Bioinformatics. 18:899-907.
Portugaly E, Linial M. (2000) Estimating the probability for a protein to have a new fold: A statistical computational
•
91
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
model. Proc Natl Acad Sci U S A. 97:5161-5166.
Rabiner LR. (1989) A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE
77:257-286.
Reich J, Mitchell A, Goble C, Attwood T. (2001). Toward More Intelligent Annotation Tools: A Prototype. IEEE
Intelligent Systems in Biology, 16:42-51.
Remm M, Storm CE, Sonnhammer EL. (2001) Automatic clustering of orthologs and in-paralogs from pairwise
species comparisons. J Mol Biol. 314:1041-1052.
Riley M. (1993) Functions of the gene products of Escherichia coli. Microbiol Rev. 57:862-952.
Roberts GC, Smith CW. (2002) Alternative splicing: combinatorial output from the genome. Curr Opin Chem Biol.
6:375-383.
Rossmann MG, Argos P. (1981) Protein folding. Annu. Rev. Biochem. 50:497-532.
Rost B, Honig B, Valencia A. (2002) Bioinformatics in structural genomics. Bioinformatics. 18:897-898.
Rost B, Liu J. (2003) The PredictProtein server. Nucleic Acids Res. 31:3300-3304.
Rouze P, Pavy N, Rombauts S. (1999) Genome annotation: which tools do we have for it? Curr Opin Plant Biol.
2:90-95.
Rust AG, Mongin E, Birney E. (2002) Genome annotation techniques: new approaches and challenges. Drug
Discov Today. 7:S70-76.
Saitou N, Nei M. (1987) The neighbor-joining method: a new method for reconstructing phylogenetic trees.Mol Biol
Evol. 4:406-425.
Sakata K, Nagamura Y, Numa H, Antonio BA, Nagasaki H, Idonuma A, Watanabe W, Shimizu Y, Horiuchi I,
Matsumoto T, Sasaki T, Higo K. (2002) RiceGAAS: an automated annotation system and database for rice genome
sequence. Nucleic Acids Res. 30:98-102.
Salamov AA, Suwa M, Orengo CA, Swindells MB. (1999) Combining sensitive database searches with multiple
intermediates to detect distant homologues. Protein Eng. 12:95-100.
Salzberg SL. (2003) Genomics: Yeast rises again. Nature. 423:233-234.
Schultz J, Milpetz F, Bork P, Ponting CP. (1998) SMART, a simple modular architecture research tool: identification
of signaling domains. Proc Natl Acad Sci U S A. 95:5857-5864.
Schulze-Kremer S. (1998) Ontologies for Molecular Biology. In Proceedings of the Third Pacific Symposium on
Biocomputing, 693-704.
Schulze-Kremer S. (2002) Ontologies for molecular biology and bioinformatics. In Silico Biol. 2:179-193.
Segal E, Shapira M, Regev A, Pe'er D, Botstein D, Koller D, Friedman N. (2003) Module networks: identifying
regulatory modules and their condition-specific regulators from gene expression data. Nat Genet. 34:166-176.
Shigenobu S, Watanabe H, Hattori M, Sakaki Y, Ishikawa H. (2000) Genome sequence of the endocellular bacterial
symbiont of aphids Buchnera sp. APS. Nature. 407:81-86.
Shi J, Malik J. Normalized cuts and image segmentation. (1997) Proc. Of the IEEE Conf. On Comp. Vision and
Pattern Recognition, 731-737.
Sigrist CJ, Cerutti L, Hulo N, Gattiker A, Falquet L, Pagni M, Bairoch A, Bucher P. (2002) PROSITE: a documented
database using patterns and profiles as motif descriptors. Brief Bioinform. 3:265-274.
Smith B, Williams J, Schulze-Kremer S. (2003) The Ontology of the Gene Ontology. Forthcoming in Proceedings of
AMIA Symposium 2003.
Smith TF, Zhang X. (1997) The challenges of genome sequence annotation or "the devil is in the details". Nat
Biotechnol. 15:1222-1223.
Sonnhammer EL, Eddy SR, Durbin R. (1997) Pfam: a comprehensive database of protein domain families based on
seed alignments. Proteins. 28:405-420.
Stein L. (2001) Genome annotation: from sequence to biology. Nat Rev Genet. 2:493-503.
Stevens R, Baker P, Bechhofer S, Ng G, Jacoby A, Paton NW, Goble CA, Brass A. (2000) TAMBIS: transparent
access to multiple bioinformatics information sources. Bioinformatics. 16:184-185.
Stevens R, Goble CA, Bechhofer S. (2000) Ontology-based knowledge representation for bioinformatics. Brief
Bioinform. 1:398-414.
Stoesser G, Tuli MA, Lopez R, Sterk P. (1999) The EMBL Nucleotide Sequence Database. Nucleic Acids Res.
27:18-24.
Suzek BE, Ermolaeva MD, Schreiber M, Salzberg SL. (2001) A probabilistic method for identifying start codons in
bacterial genomes. Bioinformatics. 17:1123-1130.
Tamames J. (2001) Evolution of gene order conservation in prokaryotes. Genome Biol. 2:RESEARCH0020. Epub
2001 Jun 01
Tamas I, Klasson L, Canback B, Naslund AK, Eriksson AS, Wernegreen JJ, Sandstrom JP, Moran NA, Andersson
SG. (2002) 50 million years of genomic stasis in endosymbiotic bacteria. Science. 296:2376-2379.
Tatusov RL, Koonin EV, Lipman DJ. (1997) A Genomic Perspective on Protein Families. Science 278:631-636.
Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY,
Fedorova ND, Koonin EV. (2001) The COG database: new developments in phylogenetic classification of proteins
from complete genomes. Nucleic Acids Res. 29:22-28.
92
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Thompson EA. (1973) The method of minimum evolution. Ann Hum Genet. 36:333-340.
Thompson JD, Higgins DG, Gibson TJ. (1994) Improved sensitivity of profile searches through the use of sequence
weights and gap excision. Comput Appl Biosci. 10:19-29.
Todd AE, Orengo CA, Thornton JM. (2001) Evolution of function in protein superfamilies, from a structural
perspective. J Mol Biol. 307:1113-1143.
Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, Knight JR, Lockshon D, Narayan V, Srinivasan M, Pochart P,
Qureshi-Emili A, Li Y, Godwin B, Conover D, Kalbfleisch T, Vijayadamodar G, Yang M, Johnston M, Fields S,
Rothberg JM. (2000) A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae.
Nature. 403:623-627.
Valencia A. (2002) Search and retrieve. Large-scale data generation is becoming increasingly important in
biological research. But how good are the tools to make sense of the data? EMBO Reports 3:396-400.
van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U, Fernandez JM, Jimenez L, Postigo M,
Silva FJ, Tamames J, Viguera E, Latorre A, Valencia A, Moran F, Moya A. (2003) Reductive genome evolution in
Buchnera aphidicola. Proc Natl Acad Sci U S A. 100:581-586.
Vazquez A, Flammini A, Maritan A, Vespignani A. (2003) Global protein function prediction from protein-protein
interaction networks. Nat Biotechnol. 21:697-700.
Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA,
Gocayne JD, Amanatides P, Ballew RM, Huson DH, Wortman JR, Zhang Q, Kodira CD, Zheng XH, Chen L,
Skupski M, Subramanian G, Thomas PD, Zhang J, Gabor Miklos GL, Nelson C, Broder S, Clark AG, Nadeau J,
McKusick VA, Zinder N, Levine AJ, Roberts RJ, Simon M, Slayman C, Hunkapiller M, Bolanos R, Delcher A, Dew I,
Fasulo D, Flanigan M, Florea L, Halpern A, Hannenhalli S, Kravitz S, Levy S, Mobarry C, Reinert K, Remington K,
Abu-Threideh J, Beasley E, Biddick K, Bonazzi V, Brandon R, Cargill M, Chandramouliswaran I, Charlab R,
Chaturvedi K, Deng Z, Di Francesco V, Dunn P, Eilbeck K, Evangelista C, Gabrielian AE, Gan W, Ge W, Gong F,
Gu Z, Guan P, Heiman TJ, Higgins ME, Ji RR, Ke Z, Ketchum KA, Lai Z, Lei Y, Li Z, Li J, Liang Y, Lin X, Lu F,
Merkulov GV, Milshina N, Moore HM, Naik AK, Narayan VA, Neelam B, Nusskern D, Rusch DB, Salzberg S, Shao
W, Shue B, Sun J, Wang Z, Wang A, Wang X, Wang J, Wei M, Wides R, Xiao C, Yan C, Yao A, Ye J, Zhan M,
Zhang W, Zhang H, Zhao Q, Zheng L, Zhong F, Zhong W, Zhu S, Zhao S, Gilbert D, Baumhueter S, Spier G, Carter
C, Cravchik A, Woodage T, Ali F, An H, Awe A, Baldwin D, Baden H, Barnstead M, Barrow I, Beeson K, Busam D,
Carver A, Center A, Cheng ML, Curry L, Danaher S, Davenport L, Desilets R, Dietz S, Dodson K, Doup L, Ferriera
S, Garg N, Gluecksmann A, Hart B, Haynes J, Haynes C, Heiner C, Hladun S, Hostin D, Houck J, Howland T,
Ibegwam C, Johnson J, Kalush F, Kline L, Koduru S, Love A, Mann F, May D, McCawley S, McIntosh T, McMullen
I, Moy M, Moy L, Murphy B, Nelson K, Pfannkoch C, Pratts E, Puri V, Qureshi H, Reardon M, Rodriguez R, Rogers
YH, Romblad D, Ruhfel B, Scott R, Sitter C, Smallwood M, Stewart E, Strong R, Suh E, Thomas R, Tint NN, Tse S,
Vech C, Wang G, Wetter J, Williams S, Williams M, Windsor S, Winn-Deen E, Wolfe K, Zaveri J, Zaveri K, Abril JF,
Guigo R, Campbell MJ, Sjolander KV, Karlak B, Kejariwal A, Mi H, Lazareva B, Hatton T, Narechania A, Diemer K,
Muruganujan A, Guo N, Sato S, Bafna V, Istrail S, Lippert R, Schwartz R, Walenz B, Yooseph S, Allen D, Basu A,
Baxendale J, Blick L, Caminha M, Carnes-Stine J, Caulk P, Chiang YH, Coyne M, Dahlke C, Mays A, Dombroski M,
Donnelly M, Ely D, Esparham S, Fosler C, Gire H, Glanowski S, Glasser K, Glodek A, Gorokhov M, Graham K,
Gropman B, Harris M, Heil J, Henderson S, Hoover J, Jennings D, Jordan C, Jordan J, Kasha J, Kagan L, Kraft C,
Levitsky A, Lewis M, Liu X, Lopez J, Ma D, Majoros W, McDaniel J, Murphy S, Newman M, Nguyen T, Nguyen N,
Nodell M, Pan S, Peck J, Peterson M, Rowe W, Sanders R, Scott J, Simpson M, Smith T, Sprague A, Stockwell T,
Turner R, Venter E, Wang M, Wen M, Wu D, Wu M, Xia A, Zandieh A, Zhu X. (2001) The sequence of the human
genome. Science. 291:1304-51.
Vitkup D, Melamud E, Moult J, Sander C. (2001) Completeness in structural genomics. Nat Struct Biol. 8:559-566.
Wagner A. (2001) The yeast protein interaction network evolves rapidly and contains few redundant duplicate
genes. Mol Biol Evol. 18:1283-1292.
Watts RL, Watts DC. (1968) Gene duplication and the evolution of enzymes. Nature. 217:1125-1130.
Whelan S, de Bakker PI, Goldman N. (2003) Pandit: a database of protein and associated nucleotide domains with
inferred trees. Bioinformatics. 19:1556-1563.
Wilson CA, Kreychman J, Gerstein M. (2000) Assessing annotation transfer for genomics: quantifying the relations
between protein sequence, structure and function through traditional and probabilistic scores. J Mol Biol. 297:233249.
Winston PH. (1992) Artificial Intelligence. Addison-Wesley.
Wolfe KH, Shields DC. (1997) Molecular evidence for an ancient duplication of the entire yeast genome. Nature.
387:708-713.
Wu CH, Huang H, Arminski L, Castro-Alvear J, Chen Y, Hu ZZ, Ledley RS, Lewis KC, Mewes HW, Orcutt BC,
Suzek BE, Tsugita A, Vinayaka CR, Yeh LS, Zhang J, Barker WC. (2002) The Protein Information Resource: an
integrated public resource of functional annotation of proteins. Nucleic Acids Res. 30:35-37.
Wu Z, Leahy R. (1993) An optimal graph theoretic approach to data clustering: Theory and its application to image
segmentation. PAMI 11, 1101-1113.
Wyrick JJ, Young RA. (2002) Deciphering gene expression regulatory networks. Curr Opin Genet Dev. 12:130-136.
Xie H, Wasserman A, Levine Z, Novik A, Grebinskiy V, Shoshan A, Mintz L. (2002) Large-scale protein annotation
through gene ontology. Genome Res. 12:785-794.
93
•
•
•
Yona G, Linial N, Linial M. (1999) ProtoMap: automatic classification of protein sequences, a hierarchy of protein
families, and local maps of the protein space. Proteins. 37:360-378.
Yuan, Y. P., Eulenstein, O., Vingron, M. & Bork, P. (1998) Towards detection of orthologues in sequence
databases. Bioinformatics. 14:285-289.
Zuckerkandl E, Pauling L. (1965) Molecules as documents of evolutionary history. J Theor Biol. 8:357-366.
94
Anexo - Publicaciones
•
Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the
identification of protein families. Bioinformatics. 18:908-921.
•
van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U,
Fernandez JM, Jimenez L, Postigo M, Silva FJ, Tamames J, Viguera E,
Latorre A, Valencia A, Moran F, Moya A. (2003) Reductive genome evolution
in Buchnera aphidicola. Proc Natl Acad Sci U S A. 100:581-586.
•
Abascal F, Valencia A. (2003) capítulo "Bioinformática" en Gen-Ética. Ed.
Ariel. 139-160 (no incluido en el anexo).
•
Abascal F, Valencia A. (2003) Automatic annotation of protein function based
on family identification. Proteins. In press.
95
Descargar