Universidad Autónoma de Madrid Facultad de Ciencias Departamento de Biología Molecular Análisis de genomas. Métodos para la predicción y anotación de la función de las proteínas TESIS DOCTORAL Federico Abascal Sebastián de Erice Centro Nacional de Biotecnología Madrid 2003 Universidad Autónoma de Madrid Facultad de Ciencias Departamento de Biología Molecular Análisis de genomas. Métodos para la predicción y anotación de la función de las proteínas Memoria presentada para optar al grado de Doctor en Ciencias por: Federico Abascal Sebastián de Erice Director: Dr. Alfonso Valencia Herrera Tutor: Dr. Carlos Martínez Alonso Agradecimientos A mi familia, por estar siempre ahí. A Silvia, por los empujones. A mi amigo Osvaldo, por su cariño y por inspirar gran parte de este trabajo. A mi director, Alfonso, por darme esta oportunidad; por la paciencia y comprensión. A todos mis compañeros del grupo de Diseño de Proteínas: Sito, Damien, Juan Antonio, Juan Carlos S., David, José Manuel, Osvaldo, Ramón R., Paulino, Ramón A., Pedro, Christian, María, Belén, Robert, Armando, Bruno, Juan Carlos O., Javier H., Martin, Luis, Mónica, Amalia, Edulovi, Edu A.L, Ángel, Antonio. Ha sido estupendo conocerlos y convivir con ellos. A todos tengo algo que agradecer. En especial a José María, con quien más he colaborado y que me ha ayudado muchas veces. A Javi, Manolo y Michael por las excursiones cafeteras. A aquéllos que en momentos bajos me han tendido una mano. A los profesores de la Facultad de Biológicas de la UAM. En especial al profesor LópezSáez, por despertar mi interés por la Biología Molecular. Al personal del CNB. A Javi y Javiera por hacer un poco más legible esta tesis. A Michael por el toque británico. A Mada y a Mamen por hacer más fáciles y agradables los trámites. A mi tutor, Carlos Martínez, por la buena disposición. A los miembros del tribunal. A la Comunidad Autónoma de Madrid, por la beca. A Brad, a Betel, a Palmira y Yaíma, a Fernando, a mis tías Mª Rita y Mª del Mar, a Javiera, a Diego, a Javi Llorente, a Mar, a mis sobris (en especial a Marta, que comenzó su andadura por el mundo un día antes que yo con la tesis), a Dios, ... Abreviaturas ADN: ácido desoxirribonucleico. ARN: ácido ribonucleico. ARNt: ARN transferente. ATP: adenosín trifosfato. BAp: Buchnera aphidicola, endosimbionte del pulgón Acyrthosiphon pisum. BBp: Buchnera aphidicola (Baizongia pistaciae). BSg: Buchnera aphidicola (Schizaphis graminum). BSI: búsquedas con secuencias intermedias. COGs: clusters of orthologous groups. EC: Enzyme Commission. Fm: falso positivo, no homólogo (de false match). GTP: guanosín trifosfato. HMM: Hidden Markov models. MinCut: corte mínimo de un grafo. MG: Mycoplasma genitalium. MP: Mycoplasma pneumoniae. Ncut: normalized cut o corte normalizado de un grafo. Tm: positivo verdadero, homólogo (de true match). Um: positivo incierto, homólogo incierto (de unknown match). Índice Abreviaturas Breve resumen en inglés - Brief summary.............................................................................................4 Introducción ................................................................................................................................................... 5 1.- Prólogo - Introducción......................................................................................................................5 2.- Análisis de genomas........................................................................................................................5 2.1. Algunos sistemas para el análisis automático de genomas.............................................6 GeneQuiz.....................................................................................................................6 GAIA: Genome Annotation and Information Analisys.................................................6 PEDANT: Protein Extraction, Description, and ANalysis Tool....................................6 RiceGAAS: Rice Genome Automated Annotation System.........................................7 3.- Una introducción a la evolución de las proteínas............................................................................7 3.1.- Homólogos y análogos.....................................................................................................8 3.2.- Ortólogos y parálogos......................................................................................................8 3.3.- Las proteínas se organizan en superfamilias, familias y subfamilias..............................9 3.4.- Proteínas, dominios y evolución......................................................................................9 3.5.- Las proteínas en su contexto.........................................................................................10 4.- Predicción de la función de las proteínas y anotación automática...............................................10 4.1.- Anotación de proteínas a partir de la información funcional existente para sus homólogos...............................................................................................................................11 5.- Búsqueda de homólogos................................................................................................................11 5.1.- BLAST.............................................................................................................................11 5.2.- PSI-BLAST.....................................................................................................................12 5.3.- HMMs: modelos de Markov ocultos...............................................................................12 5.4.- Búsquedas con secuencias intermedias (BSI)..............................................................14 6.- Dificultades de la anotación automática de función......................................................................14 7.- Interpretación adecuada de las homologías: ¿cuánto se parece la función de dos proteínas con un origen común?................................................................................................................................14 7.1.- Durante la evolución se han generado nuevas funciones mediante el barajado de dominios..................................................................................................................................14 7.2.- Homólogos: ortólogos y parálogos. Familias y subfamilias...........................................15 8.-Clasificación de proteínas...............................................................................................................15 8.1.- Árboles filogenéticos......................................................................................................15 8.2.- PROTOMAP...................................................................................................................16 8.3.- COGs..............................................................................................................................17 8.4.- GeneRAGE.....................................................................................................................17 8.5.- SYSTERS.......................................................................................................................18 8.6.- TRIBES...........................................................................................................................18 8.7.- PFam e InterPro.............................................................................................................18 8.8.- SequenceSpace.............................................................................................................18 9.- Anotaciones funcionales en las bases de datos: tipos, contaminación, nomenclatura................19 9.1.- Swiss-Prot y su suplemento TrEMBL.............................................................................19 9.1.1.- Información presente en Swiss-Prot y TrEMBL.............................................19 9.2.- ¿Qué es la función de las proteínas? ¿Cómo describirla?...........................................20 9.2.1.- Ontologías para definir la función de las proteínas.......................................20 10.- Algunas aproximaciones a la anotación automática de la función de las proteínas..................21 10.1.- GeneQuiz: automatización del análisis y anotación de genomas...............................21 10.2.- Anotación automática de TrEMBL...............................................................................22 10.3.- PRECIS........................................................................................................................23 10.4.- Andrade (1999).............................................................................................................23 Objetivos........................................................................................................................................................ 25 Métodos.......................................................................................................................................................... 26 1.- ORFandDB, un sistema para el análisis de genomas.....................................................................26 2.- Búsqueda de homólogos con secuencias intermedias (BSI)........................................................28 1 2.1.- Iteración del método.......................................................................................................29 2.2.- La homología se confina a dominios concretos - selección de subsecuencias............29 2.3.- Limitación del espacio de búsqueda..............................................................................29 2.4.- Evaluación de la sensibilidad y la precisión del método - Base de datos de SCOP como estándar de homología.................................................................................................30 2.4.1.- Base de datos de SCOP y nuestro conjunto de prueba................................30 2.5.- Descripción del espacio de secuencias mediante un GRAFO......................................31 3.- Identificación de familias de proteínas - Clustering o agrupamiento.............................................31 3.1.- Recursividad y condiciones de parada del clustering....................................................31 3.2.- Algunas definiciones: capacidad media, conectividad y proximidad.............................32 3.3.- Evaluación del clustering - Base de datos COGs como estándar de ortología............32 3.3.1.- Condiciones de parada y métodos de reconstrucción en la comparación con COGs.........................................................................................................................33 4.- Transferencia de anotaciones funcionales....................................................................................33 4.1.- Análisis de la cobertura de los alineamientos................................................................35 4.2.-Transferencia de descripciones generales de la función (línea DE de Swiss-Prot)......35 4.2.1.- Análisis léxico.................................................................................................36 4.3.- Transferencia de palabras clave (keywords del campo KW de Swiss-Prot).................36 4.4.- Transferencia de códigos de actividad enzimática........................................................37 4.5.- Anotación de grupos vecinos.........................................................................................37 Resultados.....................................................................................................................................................39 1.- Identificación de proteínas homólogas mediante búsquedas recursivas con secuencias intermedias (BSI).................................................................................................................................39 1.1.- Comparación de la sensibilidad y especificidad de las búsquedas BSI con respecto a BLAST y PSI-BLAST..............................................................................................................40 1.2.- Evolución de la búsqueda de homólogos a lo largo de las rondas o iteraciones.........41 1.3.- Los distintos métodos de búsqueda encuentran distintas relaciones, aunque hay un grado de coincidencia elevado...............................................................................................41 1.4.- Algunos ejemplos...........................................................................................................42 1.5.- Coste computacional de los métodos de búsqueda y del algoritmo de agrupamiento....44 2.-Evaluación de la capacidad del algoritmo de agrupamiento para identificar familias de proteínas.............................................................................................................................................. 45 2.1.- Agrupamiento alrededor de la proteína humana ras-p21 en un espacio de secuencias altamente poblado..................................................................................................................46 2.2.- Los genes de Mycoplasma genitalium en el espacio de secuencias conformado por los 21 genomas completos de la base de datos COGs..............................................................46 2.2.1.- Distribución de los tamaños de los grupos de los genes de MG..................46 2.2.2.- Comparación con COGs................................................................................51 3.- Anotación automática de la función de las proteínas. Ejemplos ilustrativos y aplicación al análisis del genoma de Buchnera aphidicola...................................................................................................55 3.1.- Ejemplos ilustrativos: TETM_NEIME y PDXK_SHEEP.....................................................55 3.1.1.- TETM_NEIME: la proteína que confiere resistencia a la tetraciclina en Neisseria meningitidis................................................................................................55 3.1.2.- PDXK_SHEEP: quinasa de piridoxina de oveja (anotación original: 'pyridoxine kinase').......................................................................................................................58 3.2.- Anotación del proteoma de Buchnera aphidicola (Baizongia pistaciae).......................61 3.2.1.- Palabras clave y códigos de actividad enzimática.........................................63 3.2.1.1.- Palabras clave................................................................................63 3.2.1.1.1.- Palabras clave que no tienen una relación directa con la función de las proteínas...................................................................63 3.2.1.1.2.- Otros ejemplos................................................................64 3.2.1.2.- Códigos de actividad enzimática....................................................64 4.- Análisis del genoma de Buchnera aphidicola (Baizongia pistaciae).............................................65 4.1.- La vida de buchnera: ¿qué tiene de interesante?.........................................................65 4.2.- Cómo se anotó el genoma. Métodos empleados..........................................................65 4.3.- Algunas observaciones acerca de los resultados..........................................................67 4.4.- Nuestra aportación al proyecto......................................................................................69 2 Discusión....................................................................................................................................................... 70 1.- Análisis de genomas: ORFandDB....................................................................................................70 2.- Búsqueda de homólogos: las búsquedas con secuencias intermedias permiten explorar un espacio evolutivo amplio.....................................................................................................................71 2.1.- La efectividad del método de BSI es comparable a la de PSI-BLAST y superior a la de BLAST.....................................................................................................................................72 2.2.- Particularidades de BSI y PSI-BLAST...........................................................................72 2.3.- El problema de los dominios y nuestra solución............................................................72 2.4.- Ventajas y desventajas de las BSI.................................................................................73 2.5.- Los homólogos lejanos y la predicción de función........................................................73 3.- Interpretación de las homologías: análisis del mapa del espacio de secuencias obtenido mediante BSI. Algoritmos de agrupamiento........................................................................................74 3.1.- Algunos métodos que probamos para analizar el espacio de secuencias...................74 3.1.1.- ¿Por qué no usar un árbol filogenético para la clasificación de proteínas?..75 3.2.- Los grupos que observamos en el espacio de secuencias se corresponden con grupos de proteínas con una clara relación funcional: subfamilias y grupos de ortólogos...............75 3.2.1.- Comparación con COGs: coincidencias, sesgo filogenético, reconstrucción de grupos de ortólogos..............................................................................................75 3.3.- Ventajas y limitaciones de nuestro método...................................................................76 3.3.1.- Aplicación del método de agrupamiento en otros escenarios.......................76 3.4.- Interés de la identificación de grupos de ortólogos y subfamilias.................................76 4.- La anotación de la función de las proteínas: particularidades de este problema y algunos aspectos del método que hemos presentado.....................................................................................77 4.1.- Anotación automática y los homólogos: ortólogos y parálogos....................................77 4.2.- La naturaleza multidominio de las proteínas.................................................................78 4.3.- El modo en que se describe la función de una proteína: riqueza del lenguaje, vocabularios controlados y ontologías...................................................................................78 4.3.1.- Acuerdos para describir la función de las proteínas y ontologías.................79 4.4.- Métodos relacionados con este trabajo. Anotación automática de TrEMBL................80 4.5.- El impacto de las anotaciones automáticas en la calidad de la información contenida en las bases de datos.............................................................................................................80 4.6.- El futuro de la predicción de la función de las proteínas...............................................81 Conclusiones................................................................................................................................................ 80 Glosario.......................................................................................................................................................... 81 Referencias....................................................................................................................................................84 Anexo - Publicaciones...............................................................................................................................91 • Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the identification of protein families. Bioinformatics. 18:908-921. • van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U, Fernandez JM, Jimenez L, Postigo M, Silva FJ, Tamames J, Viguera E, Latorre A, Valencia A, Moran F, Moya A. (2003) Reductive genome evolution in Buchnera aphidicola. Proc Natl Acad Sci U S A. 100:581-586. • Abascal F, Valencia A. (2003) capítulo "Bioinformática" en Gen-Ética. Ed. Ariel. 139-160 (no incluido en el anexo). • Abascal F, Valencia A. (2003) Automatic annotation of protein function based on family identification. Proteins. In press. 3 Genome Analysis. Methods for the prediction and annotation of proteins function. Sequencing of entire genomes represents an important advance, but we are still far from understanding the information contained in this genetic blueprint. The comparison of genomes from different organisms will reveal clues in a similar fashion to the Rosetta Stone in Egyptian hieroglyphics. The analysis and annotation of genomes, mainly finding genes and predicting their function, is the first step towards this comparison. The organisation and interrelation of the huge amount of heterogeneous information related to genome analysis is another important task. The work presented in this thesis is part of a project for the development of a system for genome analysis: ORFandDB. The core of the system is a relational-schema where data from many sources is linked into the database. This data comprises protein annotations from external databases such as Swiss-Prot and TrEMBL, taxonomic information from the NCBI, biochemical activities from Enzyme, and protein classifications from databases such as PFam or COGs. Dynamic data resulting from the execution of computational methods such as gene prediction with GeneID, or BLAST and PSI-BLAST protein similarity searches, is also integrated into the schema. Protein function prediction and annotation provides insights about genomes, and is necessary for genome comparisons, for example when deriving particular properties such as the pathogenicity of a given strain of bacteria. The most powerful current approach for inferring the function of new proteins is studying the annotations of their homologues, since their common origin is assumed to be reflected in their structure and function. Unfortunately, as proteins evolve they acquire new functions, so annotation based on homology must be carried out in the context of orthologues or subfamilies. Evolution adds new complications through domain shuffling: homology (or orthology) frequently corresponds to domains rather than complete proteins. Moreover, the function of a protein may result from combining the functions of its domains. Additionally, automatic annotation has to deal with database annotation problems, such as errors (which are then likely to be propagated), inconsistencies and different degrees of function specification. Our strategy for automatic annotation of protein function is based on searching for homologues with intermediate sequence searches and using these results to build a graph representing the sequence space of proteins. We use a clustering strategy based on the normalized cut algorithm to identify protein families or groups of orthologues that probably share a common function. The domain problem is approached by analysing the local alignments of the homologues. Analysing multiple annotations reduces the technical problems related to database annotations by allowing us to find the annotation most representative of the others. ORFandDB and the method for automatic protein function annotation (FUNCut) have been applied to the analysis of the genome of Buchnera aphidicola (Baizongia pistaciae). 4 Introducción 1.- Prólogo - Introducción De un tiempo a esta parte, y cada vez en mayor medida, nuevos métodos experimentales están generando ingentes cantidades de datos que nos ayudarán a entender mejor los aspectos moleculares de los organismos. Esto se ha traducido en un crecimiento exponencial de las bases de datos de secuencias, que actualmente contienen más de 22 millones secuencias de nucleótidos, correspondientes a aproximadamente 28.000 millones de bases (Benson et al., 2003), y más de un millón de proteínas. Del mismo modo ha sucedido con el número de genomas descritos: ya se han secuenciado más de 150 y hay en torno a 600-800 que pronto lo estarán (Bernal et al., 2001). Y no sólo conocemos más secuencias sino que hay nuevas técnicas como los arrays o matrices ADN que nos permiten conocer de forma muy rápida el grado de expresión de miles de genes simultáneamente (Lockhart et al., 1996; Butte et al., 2000; Getz et al., 2000), como si pudiéramos obtener una fotografía del estado de todos ellos en un momento dado; repitiendo estas fotografías a distintos intervalos de tiempo podemos obtener una película. Además, gracias al desarrollo de nuevas técnicas o al perfeccionamiento de las que ya disponíamos, ha sido posible realizar los primeros intentos de describir el mapa de todas las interacciones entre las proteínas de un organismo (Uetz et al., 2000; Gavin et al., 2002), lo que constituye una nueva visión global frente a la visión más reduccionista de estudiar las proteínas de forma aislada. En cuanto al conocimiento adquirido a lo largo de las últimas décadas, éste se encuentra disperso en doce millones de artículos científicos. El problema que se nos presenta es qué hacer con toda esta información, cómo distinguir el grano de la paja. El caso del genoma humano puede ser ilustrativo del reto al que nos enfrentamos: en palabras del reciente premio Nobel Sydney Brenner: "Enviar un hombre a la Luna es muy fácil. Lo difícil es traerle de vuelta. Con el genoma pasa lo mismo. Describir el genoma humano es trivial. Pero cuando acabemos [recientemente se ha terminado un primer borrador del mapa del genoma humano], habrá que traerlo de vuelta: comprender el significado, resolver los grandes problemas de la biología de nuestra especie. La mayor parte de la gente cree que la secuencia del genoma humano va a ser una especie de mensaje llegado de los cielos. Pero lo cierto es que ese mensaje nos va a decir muy poco. Nos va a decir algo como: 'Mira, esto es lo que tienes que entender ahora'". Los métodos computacionales, que ya han mostrado su utilidad en áreas como la búsqueda de genes o la predicción de la función y la estructura de las proteínas, van a resultar decisivos e imprescindibles para afrontar los nuevos retos de la Biología Molecular (Fuchs, 2002). 2.- Análisis de genomas Cuando obtenemos la secuencia de un genoma vemos poco más que una o varias largas cadenas de letras. Allí está la información que buscamos, pero no la sabemos interpretar. El análisis de genomas se refiere a la tarea de entender qué dice la secuencia de un genoma: básicamente, qué genes contiene, dónde se encuentran, y qué función realizan las proteínas que son codificadas por ellos (Rouze et al., 1999; Stein, 2001; Rust et al., 2002). A lo largo de la evolución, los cambios que sufren los genomas y sus genes, están sometidos a la presión natural, por lo que según las ventajas o inconvenientes que los cambios acarreen, dependerá que lleguen a las siguientes generaciones, o lo que es lo mismo, que los podamos observar en la actualidad. La comparación de genomas, genes y proteínas de distintas especies es la aproximación más intuitiva y directa para interpretar el libro de instrucciones que hay en los genomas (Koonin, 2001; Salzberg, 2003). El proyecto en que se encuadra esta tesis incluye tres aspectos básicos del análisis de genomas. 5 El primero es la predicción de genes, labor ésta que ha sido realizada por el grupo del Dr. Roderic Guigó, del Institut Municipal d'Investigació Mèdica (IMIM). El segundo es el desarrollo de un sistema para almacenar de forma razonable e interrelacionada tanta información, en el cual he colaborado y ha sido el trabajo principal de D. José María Fernández, del grupo del Dr. Alfonso Valencia. Y el tercero es la parte del proyecto que se describe con más detalle en esta tesis, consistente en la predicción y anotación de la función de las proteínas. Es decir, la tarea de obtener automáticamente información acerca del posible papel que desempeña una proteína en la célula. 2.1. Algunos sistemas para el análisis automático de genomas El papel de la Bioinformática en el análisis de genomas es especialmente relevante. Existen numerosos sistemas que han tratado de ayudar en esta área, decidiendo qué métodos computacionales utilizar para caracterizar los genomas, así como el modo en que debe organizarse la información para facilitar la interpretación y la comparación de los resultados. A continuación describimos algunos de estos robots. GeneQuiz (Andrade et al., 1999) Éste es uno de los primeros sistemas que han tratado de integrar en un mismo marco los métodos computacionales que existen para el análisis de secuencias. El sistema lidia con las diversas dificultades (técnicas y biológicas): existe un módulo (GQupdate) para la actualización automática de las bases de datos con la nueva información que vamos conociendo; otro (GQsearch) para la aplicación de diversas herramientas de análisis de secuencias; otro módulo (GQreason; se describe con mayor detalle más adelante) para la interpretación de los resultados del modulo GQsearch y la anotación automática de la función; y otro (GQbrowse) para mostrar los resultados al usuario a través de una interfaz web. Como entrada el sistema puede recibir una secuencia o un conjunto de secuencias que podrían representar el proteoma de un organismo. Con este sistema se han analizado los proteomas de diversas bacterias, pudiéndose consultar las anotaciones en: http://www.sander.ebi.ac.uk/genequiz/. GAIA: Genome Annotation and Information Analisys (Bailey et al., 1998) Este sistema está pensado para facilitar el análisis de genomas a los investigadores. La idea no es anotar cada uno de los genes y sus funciones, sino almacenar de forma ordenada toda la información que se tiene sobre un genoma (repeticiones, regiones que se transcriben, parecidos de secuencias con otras entradas, etcétera) para facilitar la interpretación de la información. GAIA consta de una base de datos para almacenar los datos y un sistema para acceder a éstos. En la base de datos la información se organiza de acuerdo a tres conceptos principales: 1) entradas, correspondientes a secuencias; 2) características, que comprenden la información de interés biológico; 3) y experimentos, los cuales describen qué evidencias están detrás de las características. PEDANT: Protein Extraction, Description, and ANalysis Tool (Frishman et al., 2001) En este sistema se analizan los genomas que están disponibles públicamente. A partir de la secuencia de uno de éstos se puede realizar una búsqueda de genes utilizando distintas herramientas dependiendo de si la especie analizada es eucariota o procariota. Como entrada del sistema, además de genomas, pueden proporcionarse secuencias de ESTs (expressed sequence tags o fragmentos de secuencias expresadas). Una vez identificados los genes, las proteínas se asignan automáticamente a categorías funcionales y estructurales utilizando para este propósito el programa PSI-BLAST, con el que se busca en bases de datos públicas que contienen información funcional y estructural. Finalmente, a través de una interfaz web se puede consultar toda esta información para una proteína determinada o bien se pueden comparar los resultados obtenidos para un conjunto de proteomas. Los resultados se almacenan en una base de datos relacional. 6 RiceGAAS: Rice Genome Automated Annotation System (Sakata et al., 2002) En este caso no se trata de un sistema de propósito general, sino que se desarrolló explícitamente para analizar el genoma del arroz. El sistema consta de las siguientes características funcionales: 1) una colección de secuencias genómicas del arroz; 2) la ejecución concertada de programas de predicción de genes y de búsqueda de homologías; 3) la integración de los resultados procedentes de los distintos métodos y la interpretación automática de los mismos; 4) un modulo de actualización para incluir información de reciente publicación; 5) y una interfaz web para visualizar los resultados. Éstos son algunos de los sistemas que tratan de facilitar el análisis de genomas, aunque existen otros, como por ejemplo MagPIE (Gaasterland & Sensen, 1996) o Ensembl (Clamp et al., 2003). La estructura de todos ellos suele ser similar: un módulo para aplicar diversos métodos computacionales a las secuencias, otro para almacenar los resultados y otro para mostrarlos al usuario. En algunos casos existen además módulos para interpretar automáticamente los resultados y extraer conclusiones biológicas, por ejemplo, en algunos casos se realiza una anotación de la función de las proteínas. En realidad, estos sistemas afrontan el análisis de genomas de un modo simplista: no hacen mucho más que ejecturar un conjunto de herramientas bioinformáticas para anotar los genomas y sus genes, pero la comparación de genomas, de qué genes comparten y cuáles no los distintos organismos, o la reconstrucción y la comparación de las rutas metabólicas, aún está pendiente de ser automatizada. El trabajo de Manolis Kellis y colaboradores (Kellis et al., 2003), que secuenciaron varias especies de levaduras para tratar de comprender mejor el genoma de Saccharomyces cerevisiae, puede ser un adelanto de lo que será el futuro. Gracias a la comparación de estos genomas consiguieron identificar 48 pequeñas proteínas nuevas. Además sugirieron que 503 secuencias que se pensaba que eran genes, en realidad no eran tales. La comparación de las regiones intergénicas permitió encontrar 42 nuevos motivos de secuencia que posiblemente tengan una función reguladora. 3.- Una introducción a la evolución de las proteínas Cuando comparamos la secuencia de aminoácidos de proteínas que realizan una misma función y que proceden de organismos distintos, observamos que son parecidas y que se puede establecer una correspondencia entre las posiciones de las secuencias de unas y otras, existiendo posiciones que son idénticas y otras donde hay diferencias. De acuerdo a nuestros conocimientos sobre evolución molecular, estas proteínas se parecen porque tienen origen común y las diferencias se deben a que a lo largo del tiempo los genes han divergido, mediante la acumulación de cambios o mutaciones en sus secuencias. La comparación de proteínas homólogas (aquéllas que tienen un origen común) nos puede dar mucha información acerca de cómo se ha producido la evolución de los organismos y también acerca de las propias proteínas, ya que el hecho de que unos cambios o mutaciones se mantengan está relacionado con cómo afectan a la estructura o la función de la proteína, y también con la importancia que tenga la función para el organismo, o con el modo de vida de éste. De este modo, los residuos más directamente implicados en la realización de la función suelen presentar menor variación, ya que cambios en éstos pueden provocar una pérdida de función. La importancia de estos estudios comparativos de proteínas homólogas fue destacada por primera vez por (Zuckerkandl & Pauling, 1965) y luego ha sido puesta de manifiesto en numerosos trabajos. Pero no siempre es fácil obtener información a partir de la comparación de secuencias, ya que muchas veces lo que observamos no está ahí por ser óptimo sino porque es un reflejo de la historia evolutiva; como dijo Sydney Brenner: "Si las matemáticas son el arte de lo perfecto y la física es el arte de lo óptimo, la biología no es más que el arte de lo satisfactorio: cualquier cosa sirve, siempre que funcione". Esto se puede expresar de forma más precisa utilizando los términos de selección positiva, negativa y neutra, que se refieren a cómo resulta un cambio para un organismo. Las proteínas con secuencias suficientemente parecidas suelen tener un origen común 7 (Zuckerkandl & Pauling, 1965) (lo contrario se considera altamente improbable) y presentan una arquitectura tridimensional similar (Chothia & Lesk, 1986), pero frecuentemente realizan funciones distintas (Henikoff et al., 1997), aunque estas funciones puedan tener cierto parecido. Por función de una proteína entendemos el papel que ésta desarrolla, como puede ser la participación en una ruta metabólica, la transmisión de señales al interior de la célula o la regulación de la función de otras proteínas. La duplicación génica está considerada como uno de los fenómenos más relevantes en la evolución de las proteínas para adquirir nuevas funciones (Ohno et al., 1968; Watts & Watts, 1968; Ohta, 1989; Lang et al., 2000): al existir dos copias de un gen, la presión selectiva frente a cambios en residuos importantes es menor (si uno de los genes pierde la función, aún queda la del otro) y esto facilita la exploración de nuevos nichos funcionales. Existen familias de proteínas en las que este fenómeno ha resultado especialmente satisfactorio, por lo que en estas superfamilias podemos observar gran variedad de funciones. Por ejemplo, la superfamilia de hidrolasas de nucleótidos trifosfato que contienen un lazo P incluye familias tan variadas como las de las helicasas de ARN, las proteínas G y los transportadores ABC (Koonin, 1993). Todas ellas tienen un origen común y una estructura tridimensional similar. Incluso dentro de la familia de las proteínas G, encontramos gran variedad de subfamilias, como por ejemplo las proteínas ras, implicadas en el control del ciclo celular; rab, relacionada con el tráfico de vesículas; arf, que también forma parte de la maquinaria de tráfico intracelular; o los factores de elongación de la traducción Tu y G. Alguien, un enzimólogo quizás, podría considerar que realizan una misma función ya que todas ellas hidrolizan GTP, pero el caso es que esta actividad está acoplada a muy distintos procesos celulares; lo que pone de manifiesto uno de los principales problemas que encontramos cuando queremos anotar la función de las proteínas de forma automática: la interpretación de la función tiene un componente subjetivo muy importante. Según la formación que tenga el científico que anota la proteína, prestará mayor atención a unos aspectos u otros de la función. 3.1.- Homólogos y análogos. Existen numerosos métodos, como veremos más adelante, para encontrar parecidos entre secuencias de proteínas (Pearson, 1996). Si estos parecidos no son demasiado claros es difícil saber si reflejan un origen común, es decir si ambas proteínas son homólogas, o si los hemos encontrado por azar en las bases de datos. El concepto de análogos se utiliza para referirnos a proteínas que tienen una estructura o una función similar pero un origen distinto, como por ejemplo estas dos superfamilias de proteínas capaces de unir nucleótidos: el dominio ATPasa de tipo actina y las hidrolasas de nucleótidos trifosfato que contienen un lazo P. Ambas tienen una función análoga (unen nucleótidos) pero un origen distinto. Resulta más difícil encontrar ejemplos de análogos estructurales porque para ello necesitamos probar que el parecido estructural se ha alcanzado por convergencia: si un gran parecido de secuencia es prueba de homología, su ausencia en caso de similitud estructural no es prueba de convergencia. Un posible ejemplo de analogía estructural se encuentra en el caso de los beta propellers o hélices de láminas beta: dentro de esta arquitectura general, en que distintas láminas beta se disponen como aspas de una hélice, encontramos casos de hélices de 4, 5, 6, 7 y 8 aspas; a su vez las aspas puede estar constituidas por un número característico de cadenas beta (Murzin et al., 1995). 3.2.- Ortólogos y parálogos Dos términos que frecuentemente se usan para especificar el tipo de homología existente entre dos proteínas son los de ortólogos y parálogos (Fitch, 1970; Tatusov et al., 1997). Hablamos de ortólogos cuando nos referimos a genes o proteínas de especies distintas que provienen de un mismo gen en el último ancestro común. Este tipo de homólogos suelen conservar una función común. Por otra parte, hablamos de parálogos cuando nos referimos a genes de la misma especie o de especies distintas que han surgido de un proceso de duplicación. En (Remm et al., 2001) se propone una nueva nomenclatura para distinguir entre parálogos que se han originado por duplicación después de un evento de especiación (in-paralogs), los cuales suelen conservar la función, y parálogos por duplicación previa a la especiación (out-paralogs), en los que la función suele ser distinta (figura 1). 8 Figura 1. Ortólogos y parálogos. En la figura se ilustran dos tipos de parálogos: los in-paralogs y los out-paralogs. No se trata de un árbol real sino figurado, para ilustrar el concepto. Se muestra la hipotética evolución de dos subfamilias de proteínas en tres especies distintas. 3.3.- Las proteínas se organizan en superfamilias, familias y subfamilias Otra forma de expresar las relaciones evolutivas existentes entre las proteínas homólogas es utilizando una clasificación jerárquica de las mismas en superfamilias, familias y subfamilias (Henrissat & Romeu, 1995; Murzin et al., 1995; Yona et al., 1999). No siempre necesitamos utilizar esta jerarquía ya que hay grupos de proteínas en las que sólo observamos ortólogos (e inparalogs), entonces sencillamente hablamos de una familia de proteínas. Este es el caso de la subunidad sigma de la polimerasa de ARN, que no conocemos homólogos con otras funciones. Cuando hablamos de una superfamilia, como por ejemplo la de las hidrolasas de nucleótidos trifosfato que contienen un lazo P, ésta incluye a proteínas con una estructura tridimensional similar y que tienen un mismo origen evolutivo. Dentro de una superfamilia encontramos familias, y dentro de éstas, subfamilias. Una subfamilia, como podría ser la de las proteínas rab, es un grupo de ortólogos (y también in-paralogs) que realizan una misma función; por otra parte, las proteínas homólogas que pertenecen a distintas subfamilias son out-paralogs. Las subfamilias con características similares y un pasado común más cercano se agrupan en familias de proteínas, así las subfamilias rab, ras, rho... se agruparían en la familia de las proteínas relacionadas con ras. La elección de qué niveles de esta jerarquía (súper-, sub-) debemos usar responde a razones subjetivas basadas en las características de cada grupo de proteínas homólogas; por ejemplo, se utiliza el término superfamilia cuando se trata de un grupo de homólogos en el que hay muy diversas funciones, de forma que se puede establecer una subjerarquía de familias y subfamilias. Las proteínas pertenecientes a una misma subfamilia se parecen más entre sí que con respecto a las proteínas de otras subfamilias homólogas, en parte porque tienen un origen evolutivo más cercano entre ellas y en parte debido a que cada subfamilia realiza funciones particulares y la presión selectiva afecta de forma característica a la divergencia en sus secuencias. 3.4.- Proteínas, dominios y evolución Además de los procesos de duplicación y divergencia, durante la evolución se han generado 9 nuevas proteínas con nuevas funciones mediante la combinación de dominios de proteínas ya existentes (Rossmann & Argos, 1981; Blake, 1983; Gilbert, 1985; McCarthy & Hardie, 1984). Como si del juego del lego se tratara, se pueden combinar distintos módulos, o situar una función en un contexto determinado. Así, por ejemplo, encontramos dominios de tipo CARD (es un dominio reclutador de caspasas e interacciona con otros dominios CARD; Hofmann et al., 1997) asociados a distintos dominios tales como el dominio quinasa de la proteína rick o los dominios proteasa de algunas caspasas, gracias a lo cual, la función reclutadora del dominio CARD se acopla a fosforilación o a proteolisis. Este barajado de dominios (domain shuffling) introduce complicaciones adicionales cuando queremos establecer las relaciones evolutivas que hay entre las proteínas, ya que dos proteínas multidominio puede que sean homólogas respecto a algún dominio y no respecto a otro. 3.5.- Las proteínas en su contexto Los aspectos que hemos discutido acerca de cómo evolucionan las proteínas se refieren a los fenómenos que permiten que cambien y que se adapten mejor o adquieran nuevas funciones. Además de estos aspectos, debemos tener en cuenta la importancia del contexto en el que se encuentran las proteínas, lo cual tiene múltiples implicaciones. Por ejemplo, hay casos en que una misma proteína puede tener funciones distintas en diferentes tejidos, tal y como sucede con la deshidrogenasa de gliceraldehído-3-fosfato, que en el cristalino de los ojos actúa como una proteína estructural mientras que en la mayoría de las células participa como enzima de la glucolisis (Piatigorsky & Wistow, 1991). Las proteínas no están solas, sino que interaccionan específicamente unas con otras y frecuentemente la función de una sólo tiene sentido en relación a la función de otra proteína. De este modo, cuando un organismo pierde casualmente un gen, esto ha de tener un reflejo en los genes relacionados. Asimismo, cuanto más importante sea la función de una proteína para un organismo, mayor será la presión selectiva sobre la conservación de su secuencia. El hábitat en que vive un organismo también queda reflejado en la secuencia de sus proteínas; por ejemplo, en microorganismos termófilos las proteínas han evolucionado para ser más estables y suelen tener más puentes salinos, disulfuro y de hidrogeno (Das & Gerstein, 2000; Gromiha, 2001). Las relaciones evolutivas no son siempre verticales, de padres a hijos, sino que a veces se producen intercambios de material genético entre distintas especies. Puede ser que proteínas con orígenes distintos, no homólogas, lleguen a realizar una misma función. En estos casos, si se produce una transferencia horizontal de material genético puede suceder que a partir de ese momento un organismo tenga dos proteínas no homólogas para una misma función y que acabe perdiendo la que originalmente poseía; a este fenómeno nos referimos como desplazamiento génico no ortólogo (Koonin et al., 1996). Los procesos de transferencia horizontal muchas veces son los responsables de las disparidades que encontramos en diferentes clasificaciones filogenéticas. En resumen, las secuencias que observamos actualmente son testigos de la historia evolutiva de los organismos; una historia en la que muchos factores han influido. 4.- Predicción de la función de las proteínas y anotación automática. Hay muchos enfoques para aproximarse al conocimiento de la función de las proteínas. El más clásico, y también más fiable y eficiente, se basa en la observación de que las proteínas homólogas conservan algún parecido funcional (Devos & Valencia, 2000). Recientemente se han vislumbrado nuevas estrategias que son de especial ayuda cuando no existen proteínas homólogas de función conocida, o cuando queremos estudiar la función de las proteínas desde otro ángulo. Gracias a la tecnología de las matrices de ADN, podemos conocer los patrones de expresión de miles de genes en distintas situaciones: aquellos genes con patrones similares, sean o no homólogos, es posible que estén implicados en los mismos procesos celulares (Oliveros et al., 2000; Bilu & Linial, 2002; Pavlidis et al., 2002). Por otra parte, los esfuerzos que se están aplicando para describir el mapa de interacciones proteína-proteína también pueden arrojar luz sobre este problema, ya que si sabemos con quién interacciona una proteína podemos suponer 10 que realiza una función similar o complementaria a la de sus compañeras (Letovsky & Kasif, 2003; Vazquez et al., 2003; Huynen et al., 2003). Incluso, el hecho de que genes se encuentren cercanos en el genoma, o que pertenezcan a un mismo operón en el caso de bacterias, puede indicar a veces que colaboran en un mismo proceso biológico (Overbeek et al., 1999; Tamames, 2001). En (Jensen et al., 2002) y (Gomez et al., 2003) se ha mostrado que las características de las proteínas tales como el punto isoeléctrico, la predicción de su localización subcelular, o de sitios potenciales de modificaciones post-traduccionales, la cantidad de residuos básicos que tiene o su tamaño pueden ser utilizadas para determinar a grosso modo la función general en que participan, es decir la clase funcional (ejemplos: traducción, replicación, transporte, etc.); por ejemplo, si observamos una proteína con un punto isoeléctrico muy alto, de pequeño tamaño y sin segmentos transmembrana, podría tratarse de una proteína ribosomal y por tanto pertenecería a la clase funcional de la traducción. Aunque la resolución de estas nuevas aproximaciones es baja, representan una alternativa de valor cuando no existen homólogos de función conocida o cuando queremos observar el paisaje desde distintas perspectivas. 4.1.- Anotación de proteínas a partir de la información funcional existente para sus homólogos. En esta aproximación, la de estudiar la función de proteínas homólogas, podemos distinguir algunos pasos como: la búsqueda de proteínas homólogas en las bases de datos, la interpretación de estas homologías para determinar hasta qué punto podemos asumir una conservación funcional entre los homólogos, o la propia transferencia de la información funcional desde el homólogo a la proteína problema. A lo largo de los siguientes puntos se introducirán estos aspectos, las dificultades que podemos encontrar y cómo se han intentado resolver. 5.- Búsqueda de homólogos Existen numerosos métodos para encontrar secuencias parecidas entre la enorme cantidad de secuencias de las bases de datos. Estos métodos se basan en modelos estadísticos para determinar cuándo estos parecidos se deben a que ambas proteínas comparten un mismo origen y cuándo se deben a parecidos al azar. Se pueden distinguir dos tipos de métodos: los que realizan comparaciones entre pares de secuencias y otros más recientes (de nueva generación), que incluyen información de la familia de proteínas para, por un lado, encontrar homólogos lejanos (aquéllos que se parecen poco) y, por otro, para discriminar mejor los parecidos que son fruto del azar de aquéllos que reflejan una homología. ¿Cómo lo hacen? cuando comparamos dos secuencias de forma aislada y observamos unos pocos residuos idénticos (conservados) es más difícil saber si es algo significativo si no sabemos si esos mismos residuos están conservados en la familia de proteínas; dicho de otro modo: si los residuos más importantes para la función de la proteínas son los que aparecen idénticos, la confianza de que las proteínas sean homólogas es mayor. Esta información de qué residuos son más importantes sale a la luz con los alineamientos múltiples de secuencias. Estos métodos de nueva generación son capaces de detectar tres veces más homólogos remotos que los tradicionales (Park et al., 1998). Entre los primeros métodos se encuentran BLAST (Altschul et al., 1990; Altschul et al., 1997) y FASTA (Pearson, 1988); y entre los segundos: los basados en perfiles (Gribskov et al., 1987; Luthy et al., 1994; Thompson et al., 1994), como por ejemplo PSIBLAST (Altschul et al., 1997), y los basados en HMMs o modelos de markov ocultos (Krogh et al., 1994; Baldi et al., 1994; Eddy, 1996). Finalmente, existe un método que se encuentra a caballo entre ambos enfoques: el de las búsquedas con secuencias intermedias o BSI (Park et al., 1997; Gerstein, 1998; Salamov et al., 1999; Li et al., 2000; Abascal & Valencia, 2002), que trabaja con pares de secuencias pero que, de forma indirecta, permite incluir información de la familia de proteínas. 5.1.- BLAST (Altschul et al., 1997) Este método realiza de forma muy rápida una búsqueda de secuencias parecidas en las bases de datos. Para cuantificar los parecidos se determina una puntuación del alineamiento entre las dos secuencias. Esta puntuación se obtiene consultando una matriz de substitución en la que está 11 representado, mediante un valor numérico, la frecuencia con que se observan los posibles cambios entre aminoácidos o la frecuencia con que éstos se conservan. En el caso de BLOSUM (Henikoff & Henikoff, 1992), la matriz se construye analizando alineamientos múltiples y contando la frecuencia con que se observan las posibles sustituciones de aminoácidos, a partir de estas frecuencias y de las frecuencias esperadas se calculan log-odds de los que se derivan las puntuaciones. BLAST aplica un marco estadístico (basado en un modelo aleatorio que describe cómo se distribuyen las puntuaciones de parecidos al azar y qué parámetros afectan a esta distribución) para determinar cuán significativa es una determinada puntuación dadas las características de la secuencia problema, de la base de datos y de la matriz de substitución, y proporciona un e-value (valor esperado) que indica, para cada puntuación, cuántas veces esperaríamos que por azar apareciese esa determinada puntuación o una mejor en la base de datos utilizada (Karlin & Altschul, 1993; Altschul & Gish, 1996; Pearson, 1998). De forma que si una puntuación tiene asignado un e-value de 1, quiere decir que por azar esperamos encontrar un parecido con al menos esa puntuación en la base de datos. Si el e-value es de 1e-03, esperaremos encontrar 1e-03 parecidos al azar, o lo que es lo mismo, en una de cada mil búsquedas encontraríamos un parecido debido al azar que alcanzase una puntuación igual o mejor. Cuando tratamos con e-values menores de 0.01 éstos son prácticamente idénticos a los pvalues, los cuales indican con qué probabilidad un parecido es debido al azar. La relación entre ambos valores es: P = 1 - e-E, siendo P la probabilidad o p-value y E el valor esperado o e-value. El método de BLAST resulta muy útil para conocer de forma rápida cuáles son los homólogos cercanos de una proteína, pero no es capaz de distinguir los homólogos remotos de los falsos homólogos, a diferencia de los siguientes métodos, que frecuentemente lo consiguen. 5.2.- PSI-BLAST (Altschul et al., 1997) Este método trabaja en el contexto de familias de proteínas para cuantificar los parecidos y encontrar homólogos remotos. Su modo de funcionamiento es iterativo: después de realizar una primera búsqueda con BLAST se construye un alineamiento múltiple con los homólogos encontrados. A partir de este alineamiento se elabora un perfil o matriz de dimensiones L x n, siendo L la longitud del alineamiento múltiple y n el número de letras posibles (los 20 tipos de aminoácidos más algunos otros como el tipo hueco o gap o el tipo X o desconocido). Se calcula la frecuencia de cada tipo de aminoácido en cada posición del alineamiento, de forma que, en el perfil resultante, queda incluida información más descriptiva de la familia de proteínas en cuestión que la obtenida con una matriz de sustitución general (de dimensiones n x n), la cual se construye a partir de familias muy diversas y no tiene en cuenta la distinta importancia que pueden tener diferentes posiciones de la secuencia. Al final, las puntuaciones que observamos en el perfil dependen tanto de la frecuencia en que aparecen los residuos como de las propiedades físicoquímicas de éstos. Con este perfil se realiza una nueva búsqueda, esta vez comparando las secuencias de la base de datos con respecto al perfil, y los nuevos parecidos encontrados se utilizan para rehacer el perfil y volver a buscar. Un problema que puede aparecer con esta aproximación es que si se incluyen falsos homólogos en la elaboración del perfil puede suceder que en las siguientes búsquedas proteínas no homólogas presenten una elevada puntuación. 5.3.-HMMs: modelos de Markov ocultos (Eddy, 1996) Una limitación de PSI-BLAST y otros métodos que utilizan perfiles es que la base probabilística para determinar las puntuaciones no es sólida. Los perfiles de tipo HMM alivian en gran medida esta limitación, lo cual se manifiesta en una mayor efectividad para distinguir homólogos lejanos de parecidos al azar. Siguiendo la descripción de Rabiner (Rabiner, 1989), uno se refiere a un HMM como algo que genera una secuencia. El HMM está compuesto por un conjunto de estados (por ejemplo cada una de las posiciones de un alineamiento múltiple). Cada estado 'emite' símbolos (por ejemplo residuos observados en una determinada posición) de acuerdo a unas probabilidades de emisión de símbolos, y los estados están interconectados por probabilidades de transición entre estados, de modo que a partir de un estado se indica con qué probabilidad puede producirse un salto directo al siguiente nodo, a una inserción o a una deleción. Ya en otras palabras, es un modelo que, una vez entrenado con un conjunto de proteína homólogas, indica 12 Figura 2. Esquema general de la búsqueda de homólogos y el algoritmo de agrupamiento para identificar familias de proteínas. En a vemos cómo se obtienen homólogos de las bases de datos y cómo las BSI permiten identificar homologías lejanas a lo largo de cinco iteraciones. b: a partir de los e-values que BLAST ha determinado para todas las proteínas que ha encontrado (como si comparáramos todas contra todas), podemos representar el espacio de secuencias mediante un grafo. c: el algoritmo de agrupamiento identifica automáticamente qué grupos pueden diferenciarse en ese grafo, deteniendo el agrupamiento cuando considera que un corte mínimo normalizado ya no es apropiado (según las condiciones de parada definidas en la sección de métodos). La proteína problema será anotada a partir de la información funcional existente para las proteínas que han quedado en su mismo grupo (d). El método de anotación también asignará una anotación para los grupos vecinos. 13 con qué probabilidad se podría obtener cualquier secuencia de símbolos a partir del mismo. Aplicándolo a la búsqueda de homólogos podemos usarlo para determinar la probabilidad con que cada secuencia de una base de datos podría ser generada a partir del HMM, lo cual guarda relación con la probabilidad de que esas secuencias tengan un origen común con las usadas para construir el modelo. 5.4.- Búsquedas con secuencias intermedias (BSI) (Park et al., 1997; Abascal & Valencia, 2002) Este método se basa en la aplicación de la propiedad transitiva de la homología entre proteínas: si dos proteínas A y B son homólogas, y B es homóloga a una tercera proteína C, entonces A y C también son homólogas; esta propiedad sólo es aplicable cuando las regiones o dominios homólogos se corresponden: en el caso de proteínas multidominio sólo se cumple si el dominio compartido entre A y B es el mismo que el compartido entre B y C. Naturalmente, la propiedad transitiva se puede extender indefinidamente. Una vez encontrados los homólogos cercanos a una proteína mediante un método de búsqueda tal que BLAST, podemos utilizar las secuencias de éstos para, mediante nuevas búsquedas, encontrar sus homólogos cercanos, que pueden ser lejanos con respecto a la proteína inicial. Es como dar un paseo por el espacio de secuencias, saltando de unas proteínas a otras, aunque estos saltos nunca podrán ser muy grandes debido a las limitaciones de los métodos tradicionales de búsqueda. Si recopilamos todas las distancias (puntuaciones o e-values) entre las proteínas encontradas mediante BLAST, dispondremos de una descripción del mapa del espacio de secuencias (figura 2), el cual puede ser utilizado con diversos fines, como veremos más adelante. 6.- Dificultades de la anotación automática de función A continuación describiremos algunas de las dificultades que encontramos a la hora de anotar automáticamente la función de una proteína y cuáles son los errores que más frecuentemente podemos cometer y debemos evitar. Podemos distinguir dificultades técnicas, relacionadas con la calidad de las anotaciones que existen en las bases de datos, con cómo procesar automáticamente las anotaciones o con el problema de cómo está definida la función de las proteínas, que tiene un componente subjetivo importante, esto es, dos personas seguramente anotarían de forma diferente la función de una misma proteína. Por otra parte encontramos dificultades reales, que tienen que ver con las propias secuencias y con el modo en que evolucionan las proteínas. A medida que describamos estos problemas, señalaremos cuáles han sido algunas de las soluciones que se han propuesto. 7.- Interpretación adecuada de las homologías: ¿cuánto se parece la función de dos proteínas con un origen común? 7.1.- Durante la evolución se han generado nuevas funciones mediante el barajado de dominios (Rossmann & Argos, 1981; Blake, 1983; Gilbert, 1985; McCarthy & Hardie, 1984) Como se ha mencionado anteriormente, las proteínas frecuentemente constan de varios dominios estructurales, cada uno de los cuales desempeña una función determinada, existiendo por ejemplo dominios adaptadores que median en interacciones proteína-proteína (ej.: dominio SH3), dominios capaces de llevar a cabo reacciones enzimáticas (ej.: dominio proteína quinasa) o dominios con una función estructural como los dominios transmembrana. A lo largo de la evolución se han generado proteínas con nuevas funciones mediante el barajado de los distintos dominios. En (Tood et al., 2001) se observó que en 27 de 31 superfamilias analizadas la organización de dominios variaba entre los distintos miembros (ver ejemplo en la sección 3.4 de la introducción). Por tanto, cuando queremos saber si dos proteínas homólogas realizan la misma función hay que estudiar qué dominios tienen cada una de ellas, o qué regiones de sus secuencias son las que alinean (Smith & Zhang, 1997; Bork & Koonin, 1998; Bork et al., 1998; Doerks et al., 1998; 14 Andrade, 1999). También hay que tener en cuenta estas consideraciones cuando se aplica la propiedad transitiva de la homología (Yona et al., 1999; Park et al., 1997; Abascal & Valencia, 2002). Sin embargo, la identificación de los dominios tampoco resuelve el problema: así como no es trivial determinar la estructura tridimensional de una proteína a partir de su secuencia aminoacídica, las propiedades de las proteínas pueden ser explicadas, pero no deducidas, a partir de sus dominios (Attwood, 2000). 7.2.- Homólogos: ortólogos y parálogos. Familias y subfamilias. En la aproximación al estudio de cómo ha evolucionado la función de proteínas homólogas de (Devos & Valencia, 2000), se analizó cuánto variaban los códigos de actividad enzimática de la Enzyme Commission (EC; se puede encontrar una descripción en: Bairoch, 2000) entre proteínas homólogas con distintos grados de parecido. Esta clasificación de los enzimas es jerárquica y consta de cuatro dígitos el primero de los cuales identifica la clase: 1, oxidorreductasas; 2, transferasas; 3, hidrolasas; 4, liasas; 5, isomerasas; y 6, sintetasas; los siguientes dígitos se refieren al mecanismo molecular, los cofactores que intervienen en la reacción, el sustrato, etc. Los resultados mostraron que cuanto menor era el porcentaje de identidad de secuencia de las proteínas alineadas tanto menos se conservaban los códigos EC: la tendencia general es que por encima del 80% de identidad se conservan los cuatro dígitos, entre el 50 y el 80%, sólo los tres primeros, y tanto menos cuanto menor es el parecido. Estas tendencias son generales: en el caso de la hidrolasa de pollo (código pdb 3lzt) y la lactoalbúmina alfa de cabra (1hfyA) la identidad de secuencia es del 41%, pero los códigos EC son completamente distintos (3.2.1.17 y 2.4.1.22), mientras que en el caso de la glutation S-transferasa de humanos y su homóloga en Arabidopsis thaliana, la conservación del EC es total aunque el parecido sea de sólo el 16%. Todd y sus colaboradores (Todd et al., 2001) también estudiaron la variación de los códigos EC, observando que éstos variaban en prácticamente la mitad de 167 superfamilias de proteínas analizadas; en 22 de estas superfamilias el código EC variaba completamente. Estos resultados muestran que un mismo dominio o proteína puede dar lugar a distintas funciones a través de procesos de mutación. El hecho de que no exista una correlación perfecta entre cuánto se parecen dos secuencias y cuán similar es su función se debe a que cada subfamilia o familia de proteínas presenta un grado de divergencia distinto, dependiendo de su antigüedad y de las constricciones que sobre la secuencia impongan la conservación de la función y la estructura. Por tanto, para saber cuándo se ha conservado la función debemos analizar las proteínas en el contexto de familias y subfamilias, de grupos de ortólogos, en definitiva (Smith & Zhang, 1997; Tatusov et al., 1997; Bork & Koonin, 1998; Doerks et al., 1998; Andrade et al., 1999; Ponting et al., 2001). 8.-Clasificación de proteínas A continuación presentamos algunos trabajos de clasificación de proteínas que guardan relación con los dos puntos previos. Estas aproximaciones presentan distintas características según el método de clasificación aplicado, el conjunto de proteínas por clasificar y la información que persiguen obtener. 8.1.- Árboles filogenéticos Existen diversas formas de determinar la historia evolutiva de un conjunto de secuencias relacionadas. Algunos métodos utilizan como información de partida conjuntos de características (por ejemplo, el tipo de residuo presente en cada posición de cada secuencia) y otros se basan en simples medidas de distancias entre las secuencias. El objetivo es encontrar el árbol que más sencillamente concuerde con las observaciones de partida. Los métodos basados en distancias son los más usados y entre ellos se encuentran los de UPGMA y de neighbor joining o de unión al vecino (Saitou & Nei, 1987). El funcionamiento básico del método de UPGMA es el siguiente: primeramente, cada secuencia está representada por un nodo y se unen los dos nodos más cercanos en un nuevo nodo (representa el ancestro de ambas 15 secuencias). Entonces se vuelven a calcular las distancias entre los nodos aún no unidos y el nuevo nodo. Y se vuelven a unir los dos nodos más cercanos y a recalcular las distancias. Y así hasta que el árbol está completo. Este método asume que en las distintas ramas del árbol el ritmo al que han divergido es constante, ya que el cálculo de la distancia entre un nuevo nodo AB (el ancestro de los nodos A y B) y los otros se toma como la media de la distancia de los dos nodos A y B y cada uno de los otros. Sin embargo, rara vez el reloj molecular es constante, por lo que este método puede generar árboles incorrectos. Otro método basado en distancias es el de unión al vecino (Saitou & Nei, 1987). Éste método asume que el mejor árbol es aquél en el que la longitud total de las ramas es menor. En cada etapa se unen los dos nodos que minimizan la longitud del árbol. Seguidamente se recalculan las distancias entre el nuevo nodo y el resto. Este proceso se repite hasta que el árbol está completo. Tiene las ventajas de que es rápido y de que no asume un ritmo constante de divergencia, aunque no garantiza que obtengamos el árbol con una longitud de las ramas mínima. El método de minimum evolution o evolución mínima (Thompson, 1973) es similar aunque es menos eficiente. Los métodos basados en caracteres, aplicados a proteínas, tienen en cuenta cada una de las posiciones de un alineamiento múltiple, y procuran obtener aquel árbol que concuerde mejor con las sustituciones observadas. Cuando los homólogos son lejanos una diferencia observada en una posición puede equivaler a varias mutaciones sucesivas por lo que estos métodos pueden producir resultados erróneos. El método de máxima parsimonia (Eck & Dayhoff, 1966) asume que el árbol ideal es aquél en el que el número de cambios para ir desde una secuencia ancestral a cualquier descendiente es mínimo. El de máxima verosimilitud (Cavalli-Sforza & Edwards, 1967; Felsenstein, 1981) utiliza un modelo probabilístico. Para cada posición de cada secuencia, calcula la probabilidad de transición de un tipo de residuo a otro en cada rama del árbol. Dado que el método asume que cada posición de las secuencias es independiente de las otras, el árbol con una verosimilitud máxima se puede calcular a partir del producto de las verosimilitudes de las distintas posiciones. Los árboles filogenéticos, aunque pueden ser usados para eso, no proporcionan una clasificación en familias y subfamilias, sino que van más allá e indican para cada secuencia cuál es, aparentemente, la más cercana. Para identificar las distintas familias habría que observar el árbol o bien desarrollar un método que hiciese esto automáticamente. El análisis de un árbol filogenético puede revelar muchos aspectos funcionales de las proteínas, por ejemplo podemos determinar qué posiciones están conservadas por razones históricas y cuales lo están por motivos funcionales. 8.2.- PROTOMAP (Yona et al., 1999) El objetivo que persigue es obtener una clasificación jerárquica del conjunto de todas las proteínas conocidas. Para ello, calcula el parecido entre todas las secuencias mediante métodos como el de BLAST. Esta información es representada mediante un grafo G(V, E), que es una estructura de datos en la que hay nodos y arcos que unen los nodos entre sí. En el caso de grafos con peso estos arcos tienen asociado un valor. En PROTOMAP cada secuencia es representada por un nodo y las relaciones entre las secuencias (cuando existen) se plasman mediante un arco entre los nodos con un valor asociado equivalente al del e-value. Una vez representado así el conjunto de las secuencias, se aplica el algoritmo para obtener la clasificación jerárquica: 0.- Se unen todos aquellos nodos conectados por arcos con un e-value menor de 1e-100, resultando en un conjunto inicial de grupos de secuencias o clusters. 1.- Se calculan las distancias entre los clusters como la media geométrica de los e-values asociados a los arcos que los interrelacionan. De todos los arcos posibles entre las secuencias de dos clusters, sólo se observan aquéllos con un e-value menor de 1; para calcular la distancia entre dos clusters, a todos los arcos que no existen se les asigna un e-value de 1. De esta forma, las distancias serán menores cuantos más arcos existan entre dos clusters, y cuanto menores sean los e-values asociados a éstos. 2.- Si esta distancia es menor que la raíz cuadrada de un umbral T, se unen los clusters y se vuelven a recalcular las distancias. 3.- El procedimiento de los pasos 1 y 2 se aplica recursivamente utilizando distintos umbrales T, (T=1e-95; T=1e-90; T=1e-85; ... T=1e-00=1). 16 El resultado es una clasificación jerárquica: a medida que se relaja el T observamos grupos o clusters cada vez más poblados que incluyen grupos de secuencias más alejados. La inspección visual de esta jerarquía permite identificar familias y subfamilias. 8.3.- COGs (Tatusov et al., 1997; Tatusov et al., 2001) La base de datos de COGs (clusters of orthologous groups o conjuntos de grupos de ortólogos) tiene como objetivo clasificar en grupos de ortólogos las proteínas de microorganismos de los que conocemos su genoma completo. La idea es buscar los best bidirectional hits (BeTs) o 'mayores parecidos en ambas direcciones': si la proteína A del genoma X tiene uno o más homólogos en el genoma Y, pero el más parecido es A', y si A' (de Y) tiene también uno o más homólogos en X, pero el que más se parece es A, entonces se supone que A y A' son ortólogos, mientras que las otras homologías son entre parálogos. Esta forma de identificar ortólogos puede fallar en determinadas situaciones, como por ejemplo cuando se produce una pérdida de genes diferente en dos especies: si en un genoma de una especie ancestral hubiese dos genes homólogos A y B y en dos especies descendientes de ésta se hubiesen perdido por deleción uno de estos genes, en una especie el A y en la otra el B, resultaría que hay un BeT entre ambos genomas entre las proteínas A y B, que son parálogas y no ortólogas. Este posible problema es resuelto en COGs de dos maneras. El algoritmo usado para construir los COGs es el siguiente: 1.- Hallar los BeTs entre todas las proteínas de los genomas de microorganismos conocidos (actualmente hay 43 genomas en COGs, aunque en la nueva versión que están preparando habrá 66, y además se incluirán genomas de eucariotas superiores). 2.- Fusionar los parálogos presentes dentro de una misma especie que provengan de una duplicación reciente, esto es, los que se parecen más entre ellos que con respecto a cualquier otro gen de otro genoma (in-paralogs). De esta forma eliminamos el ruido que puede introducir su presencia. 3.- Dentro del grafo de genes (nodos) y relaciones tipo BeT (arcos) se buscan triángulos de genes que, procediendo de especies de linajes diferentes, sean BeTs entre ellos, es decir, estén conectados entre sí. El hecho de que existan relaciones BeT cruzadas entre genomas no cercanos evolutivamente aumenta la confianza de que la relación BeT identifique una relación de ortología. 4.-A continuación, se fusionan todos aquellos triángulos que compartan alguno de sus lados. Los grupos resultantes representan COGs, en los que hay ortólogos e in-paralogs. 5.- Finalmente, se realiza un análisis caso por caso para eliminar falsos positivos o separar dos grupos de ortólogos que erróneamente hayan quedado unidos en un sólo COG. En los casos en que en alguno de los organismos se haya producido una fusión génica las relaciones BeT no identifican todas las relaciones de ortología, que en estos casos pueden ser dobles, es decir, un gen fusionado puede tener dos ortólogos en otra especie, uno por cada uno de los genes que se han fusionado. En estos casos de proteínas multidominio problemáticas se dividen éstas en unidades evolutivas menores, es decir, en dominios aislados, y se vuelve a repetir el análisis. Por otra parte, en el caso de COGs que contienen muchos genes se realiza un análisis filogenético y una inspección de los alineamientos para determinar si conviene subdividirlos en COGs menores. Además se realiza una anotación manual de la función o funciones presentes en cada COG. Esta aproximación sólo se puede aplicar a genomas completos de microorganismos ya que para tener confianza en que un BeT entre dos especies representa una ortología debemos conocer todos los genes de ambos genomas. Su aplicación a organismos eucariotas superiores puede resultar más complicada debido a que en éstos, al haber más proteínas multidominio que en microorganismos, el establecimiento de relaciones de ortología mediante BeTs puede fallar más a menudo. Por ejemplo, en eucariotas sucede que en muchas rutas biosintéticas, como las de las rutas de síntesis de purinas y pirimidinas, varias enzimas aparecen juntas en una misma cadena polipeptídica, mientras que en bacterias suelen aparecer separadas (Henikoff et al., 1997). 8.4.- GeneRAGE (Enright & Ouzounis, 2000) En este trabajo se clasifican todas las proteínas en grupos de secuencias relacionadas, mediante un algoritmo de single linkage clustering o agrupamiento por simple enlace: todos aquellos nodos de un grafo que estén conectados por algún arco con una similitud (e-value, z-score...) menor que 17 un umbral determinado se consideran pertenecientes a un mismo grupo. Para aplicar de forma adecuada la propiedad transitiva de la homología GeneRAGE incorpora un método para dividir automáticamente las proteínas en dominios. Su objetivo es clasificar en grupos de homólogos, pero no ofrece información más detallada o precisa. 8.5.- SYSTERS (Krause et al., 2000; Krause et al., 2002) El objetivo es la clasificación automática de todas las proteínas de Swiss-Prot (Bairoch & Apweiler, 2000) y PIR (Wu et al., 2002) en grupos de forma jerárquica, en superfamilias, familias y subfamilias. A partir de los parecidos entre las secuencias, encontrados con BLAST, se realiza un primer agrupamiento utilizando el algoritmo de agrupamiento por simple enlace. Estos grupos luego son divididos en otros más pequeños utilizando un algoritmo de corte mínimo (Wu & Leahy, 1993), lo cual resulta en una jerarquía. 8.6.- TRIBES (Enright et al., 2002; Enright et al., 2003) Aplica un método llamado TRIBE-MCL, el cual está basado en el algoritmo de Markov cluster o grupo de Markov. En un grafo en el que las secuencias parecidas están conectadas entre sí, en un grupo de proteínas correspondiente a una familia encontraremos muchas conexiones. De este modo es fácil imaginar que existen más caminos posibles (definidos por los arcos que conectan los nodos) entre dos secuencias de una misma familia que entre secuencias que, aunque conectadas, sean de familias distintas. Si simulamos random walks o paseos aleatorios por el grafo, aquellos caminos por los que pasemos más frecuentemente definirán las familias de proteínas. Este método es bastante robusto frente al problema de la promiscuidad de los dominios y se ha utilizado para detectar y anotar familias de proteínas del genoma humano en el proyecto de Ensembl (Clamp et al., 2003). 8.7.- PFam (Sonnhammer et al., 1997; Bateman et al., 2002) e InterPro (Apweiler et al., 2000; Mulder et al., 2003) En PFam se clasifican dominios y no proteínas. Se utilizan diversas fuentes de información acerca de los dominios conocidos para generar unos HMMs-semilla tales que sirvan para identificar en otras proteínas (mediante búsquedas con HMMs) esos mismos dominios. Este proceso de generación de un HMM-semilla es manual, y el radio evolutivo que abarca depende de razones subjetivas y de las características del dominio, así, en algunos casos un dominio de Pfam se corresponde con varias familias mientras que en otros con una sola. Actualmente existen 5.193 dominios definidos en PFam-A, presentes en un 73% de las proteínas de Swiss-Prot y TrEMBL (Bairoch & Apweiler, 2000). Paralelamente, aparte de estos dominios conocidos de PFam-A, se derivan otros, esta vez automáticamente, a partir de la base de datos ProDom (Corpet et al., 1998), para intentar cubrir los casos de dominios que aún no han sido identificados. Aproximadamente un 20% de las proteínas de Swiss-Prot y TrEMBL presentan al menos un dominio de éstos, es decir, un dominio de Pfam-B. InterPro es una iniciativa para poner en un mismo marco los datos de PFam y de otras bases de datos de dominios como PRINTS (Attwood et al., 1998), PROSITE (Sigrist et al., 2002), ProDom (Corpet et al., 1998), SMART (Schultz et al., 1998) y TIGRFAMs (Haft et al., 2001). En esta base de datos se introduce una jerarquía definiendo superfamilias, familias y subfamilias e indicando para cada categoría cuál es el correspondiente dominio en cada una de las bases de datos mencionadas. 8.8.- SequenceSpace (Casari et al., 1995) Ésta es una aproximación a la clasificación de las proteínas un poco distinta de las otras y puede aplicarse tanto para identificar residuos funcionales en las proteínas como para determinar qué familias existen. El punto de partida es un alineamiento múltiple. Cada proteína del alineamiento se representa como un vector, de modo que situamos cada proteína en un espacio de secuencias con un número de dimensiones proporcional a la longitud tenga el alineamiento (20xL, de los veinte tipos de aminoácidos por la longitud del alineamiento). Mediante un análisis de componentes principales se pueden proyectar las proteínas sobre un espacio de menos 18 dimensiones y así visualizar qué grupos de proteínas hay en el alineamiento. Paralelamente se puede identificar qué residuo-posiciones del alineamiento múltiple reflejan de un mejor modo la situación de las proteínas, los cuales posiblemente están relacionados con las funciones particulares de cada familia o subfamilia. 9.- Anotaciones funcionales en las bases de datos: tipos, contaminación, nomenclatura. A medida que se secuencian nuevas proteínas, se deposita esta información en bases de datos de acceso público. Paralelamente, se lleva a cabo una anotación de la función de estas proteínas, bien a partir de datos experimentales o bien a partir de los parecidos observados con otras secuencias de función conocida. También existen programas que, al predecir características como la localización subcelular de la proteína (Horton & Nakai, 1997; Emanuelsson et al., 2000) o si ésta presenta hélices transmembrana (Krogh et al., 2001; Rost & Liu, 2003), aportan información funcional valiosa. Algunos de los repositorios de proteínas más conocidos son: SwissProt (Bairoch & Apweiler, 2000), PIR (Wu et al., 2002), TrEMBL (Bairoch & Apweiler, 2000) y PDB (Berman et al., 2000). Debido a que la mayoría de las veces la anotación se hace basándose en la homología entre las proteínas, la posible contaminación de las bases de datos es uno de los mayores problemas, ya que una anotación inicial incorrecta puede ser propagada a nuevas proteínas homólogas. 9.1.- Swiss-Prot y su suplemento TrEMBL (Bairoch & Apweiler, 2000; Apweiler, 2001) Estas bases de datos de proteínas son mantenidas en colaboración por el Swiss Institute for Bioinformatics (SIB) y por el European Bioinformatics Institute (EBI). El problema que supone el hecho e conocer una ingente cantidad de secuencias se afronta en este consorcio del siguiente modo. Por una parte, se obtienen las traducciones automáticas de las secuencias codificantes en la base de datos de nucleótidos de EMBL (Stoesser et al., 1999), el primo europeo de GenBank. El volumen de información así generado periódicamente es tal que no es posible anotar manualmente la función de cada una de esas proteínas, sino que estas secuencias son anotadas utilizando métodos automáticos, y los resultados se almacenan en la base de datos de TrEMBL, como antesala a su entrada en Swiss-Prot. Allí, en Swiss-Prot, se intenta anotar la mayor cantidad posible de información acerca de cada proteína, pero siempre de un modo supervisado por expertos. A pesar de que en Swiss-Prot sólo están un 10% de las proteínas que conocemos, sus anotaciones tienen una elevada calidad. En agosto de 2003, en TrEMBL había depositadas 938.394 secuencias, mientras que en Swiss-Prot había 132.244. La fuente principal para la anotación automática en TrEMBL son las propias anotaciones que hay en Swiss-Prot. Más adelante se describen algunos de los métodos que han desarrollado para construir TrEMBL. 9.1.1.- Información presente en Swiss-Prot y TrEMBL En cada entrada correspondiente a una proteína, encontramos especificado en distintos campos: el identificador único de la proteína, una descripción general de su función y actividad enzimática, el nombre del gen correspondiente, el nombre de la(s) especie(s) de que proviene así como su taxonomía, enlaces a otras bases de datos, los títulos de algunos de los artículos en los que se estudia esa proteína, la propia secuencia aminoacídica, algunas de las características de la misma como estructura secundaria (si se conoce), centro activo, sitios de modificación posttraduccional, y un largo etcétera. En cuanto a las características más funcionales de las proteínas existen cuatro campos destacables: • línea o campo 'DE': en él se describe de forma breve y general de qué proteína se trata o cuál es su función. También se indica el código EC en caso de tratarse de un enzima. Ejemplo: Sacyl fatty acid synthase thioesterase, medium chain (EC 3.1.2.14) (Thioesterase II). • línea o campo 'CC': en este campo se incluyen comentarios más amplios que aportan más información, tales como la estructura cuaternaria de la proteína (si la tiene y se conoce), la química de la reacción enzimática (si es un enzima), si tiene expresión específica de tejido, 19 etcétera. línea o campo 'KW': a partir de un vocabulario limitado y controlado de palabras clave o keywords se describen algunas de las características más relevantes de las proteínas. Este vocabulario consta de unas 880 palabras, tales como Apoptosis, Biological rhythms o Down's syndrome. • línea o campo 'FT': en éste se especifican características de las distintas regiones de la proteína como la localización del centro activo, la estructura secundaria o los sitios de modificación post-traduccional. • 9.2.- ¿Qué es la función de las proteínas? ¿Cómo describirla? Además de la contaminación de las bases de datos, otro problema relevante se deriva de la falta de acuerdo en la definición de la función de una proteína (Smith & Zhang, 1997; Wilson et al., 2000). Así, en el caso de la proteína ras-p21, un enzimólogo posiblemente verá una proteína capaz de unir e hidrolizar GTP; un biólogo molecular, quizás, una proteína implicada en la transducción de señales al interior celular; un biólogo celular, verá, sin embargo, una proteína que puede estar asociada a transformación celular; y alguien que estudie la genética del cáncer, se referirá a esta proteína como a un proto-oncogén. En realidad, cuando se anota una proteína se pueden tener en cuenta muchos de estos aspectos simultáneamente; por ejemplo, LITA_HUMAN está anotada en Swiss-Prot como “Lithostathine 1 alpha precursor (Pancreatic stone protein) (PSP) (Pancreatic thread protein) (PTP) (Islet of langerhans regenerating protein) (REG) (Regenerating protein I alpha) (Islet cells regeneration factor) (ICRF))”, pero las descripciones no siempre son tan prolijas. Por otra parte, ya se ha mencionado que los ortólogos suelen conservar la función, aunque también es verdad que, aún conservándola, pueden existir ligeras diferencias de una especie a otra. Una especificación demasiado precisa de la función de una proteína puede, por tanto, no ser susceptible de ser transferida a un ortólogo. Por ejemplo, las proteínas PS2_HUMAN y PS2_MOUSE están anotadas como "PS2 protein precursor (HP1.A) (Breast cancer estrogen-inducible protein) (PNR-2)" y "PS2 protein precursor", respectivamente. En el primer caso, dada la importancia del dato que relaciona esta proteína con cáncer en humanos se incluye esta información en la descripción, pero no tiene por qué ser válida para el ratón. También es significativo el problema de que existen muchas formas de referirse a una misma función, dado que el lenguaje humano es muy rico en construcciones y sinonimias. Por ejemplo, las sintetasas de ARNt, en hongos aparecen anotadas como ligasas de ARNt. O, por ejemplo, el caso de la dihydroxyacetone-P”, que los japoneses e ingleses suelen citar como “glycerone-P” (ejemplos tomados de Smith & Zhang, 1997). Una solución propuesta para resolver estos problemas es desarrollar vocabulario específico para definir la función de las proteínas. 9.2.1.- Ontologías para definir la función de las proteínas Actualmente existen varias iniciativas que tratan de poner un poco de orden en el mare mágnum de las anotaciones de las proteínas (Stevens et al., 2000; Ashburner et al., 2000). En el caso de las actividades enzimáticas, la Enzyme Commission establece un vocabulario estricto para representar cada una de las posibles reacciones bioquímicas (cada reacción se describe utilizando cuatro dígitos). Evidentemente, aunque útil, esta aproximación resulta insuficiente para definir la función de las proteínas, ya que ésta es mucho más que actividades bioquímicas (de hecho sólo una reducida fracción de las proteínas tienen actividad enzimática); para definir la función debemos referir otros aspectos como cuál es el objetivo biológico de la proteína o si ésta forma parte de alguna estructura subcelular o componente molecular. Para aliviar estos problemas se han desarrollado diversas ontologías. Si, referido a un área de conocimiento, como por ejemplo la biología, discernimos qué conceptos más pequeños constituyen los ladrillos con los que se construyen otros más elevados, y si definimos estos conceptos y el modo en que se interrelacionan entre sí, habremos definido una ontología (se define la semántica y la gramática) (Stevens et al., 2000). En realidad, hay ciertas disparidades en el modo en que se entiende el concepto de ontología en distintas áreas del conocimiento. Originalmente, se ha utilizado en filosofía para referirse al intento de determinar 20 qué tipo de entidades o “cosas” existen en el universo; posiblemente, en su intento por categorizar lo que observamos, Aristóteles se convirtió en uno de los primeros ontologistas. Los ingenieros informáticos, cuando hablan de ontologías, incluyen también la información de cómo se relacionan las distintas entidades, aunque a veces en los esquemas que desarrollan no definen las entidades (Smith et al., 2003). La iniciativa de GeneOntology (Ashburner et al., 2000) trata de desarrollar una ontología para definir la función de los genes en un organismo. Para ello establece entidades como proteína, gen, citoplasma, núcleo, ligando o adenilato ciclasa de una forma jerárquica e interrelacionada: mediante un grafo dirigido acíclico, y a partir de tres conceptos muy generales (componente celular, función molecular y proceso biológico). Una vez definida la ontología, diversos equipos están anotando manualmente proteínas conectándolas con distintos nodos de este grafo acíclico. Esta tarea es lenta y aún no son muchas las proteínas así anotadas (http://www.geneontology.org/doc/GO.current.annotations.html). Algunas iniciativas han tratado de anotar automáticamente las proteínas según esta ontología (Xie et al., 2002; Hennig et al., 2003; Blaschke & Valencia, 2003; Jensen et al., 2003), pero con resultados dudosos. Actualmente se está tratando de integrar con Swiss-Prot, TrEMBL e InterPro utilizando una combinación de métodos automáticos y manuales (Camon et al., 2003). En realidad, a pesar de su nombre, no es una verdadera ontología, ya que más que intentar definir de forma lógica y coherente las distintas entidades y sus relaciones, trata de establecer un esquema lo más sencillo posible para describir la función de las proteínas de acuerdo a nuestros esquemas mentales; se puede decir que sacrifica coherencia en pos de eficiencia (Smith et al., 2003). Además, sólo un 20% de las entidades que establece tienen una definición asociada. Sería mucho más complicado crear una verdadera ontología, pero facilitaría mucho la automatización de las anotaciones, que actualmente se basa principalmente en la supervisión de expertos que relacionan un gen o proteína con una serie de nodos de la jerarquía. Otra iniciativa interesante es la de TaO, la ontología del sistema TAMBIS (Stevens et al., 2000). Este sistema, TAMBIS, tiene como objetivo que el acceso a la información de las bases de datos biológicas sea más sencillo para los usuarios, a la vez que interrelaciona la información de diversas fuentes. Para llevar a cabo este propósito, el sistema se sustenta en una ontología: TaO, la cual tiene algunas características interesantes como que puede crecer de modo automático, sin intervención humana. Su objetivo no es tanto definir la biología molecular sino el modo en que la información biológica está representada en las bases de datos. La ontología se construye utilizando un lenguaje de representación del conocimiento conocido como Description Logics (DLs) o lógica de descripción. Al igual que GeneOntology, tampoco es una ontología en sentido estricto. Podemos encontrar otras iniciativas para la representación del conocimiento biológico en: The RiboWeb Ontology (Altman et al., 1999), The EcoCyc Ontology (Karp et al., 1997) y The Ontology for Molecular Biology (Schulze-Kremer, 1998). Estos intentos de representar el conocimiento biológico han despertado cierta polémica: los detractores sugieren que nuestro conocimiento es una representación simplista y en continua evolución de la naturaleza y por tanto, esfuerzos por normalizar nuestra forma de referirnos a los procesos biológicos hará más difícil que aparezcan nuevas ideas o enfoques (Brenner, 2002). Los defensores recuerdan que la ontología no es estática, también puede evolucionar y que el objetivo perseguido no es sustituir al conocimiento experto sino poner un poco de orden en el conocimiento que está disperso en las bases de datos, lo cual ayudará especialmente a la interpretación mediante métodos computacionales de la información existente (Hunter, 2002). 10.- Algunas aproximaciones a la anotación automática de la función de las proteínas A continuación se exponen algunos de los esfuerzos para automatizar la tarea de anotar las proteínas. 10.1.- GeneQuiz: automatización del análisis y anotación de genomas (Andrade et al., 1999) Este sistema (introducido más arriba), que fue uno de los primeros intentos de automatización del 21 análisis de genomas, integra la información de varios métodos bioinformáticos en un mismo esquema, facilitando el acceso a éstos para los no iniciados. Además realiza una anotación funcional: por un lado asigna una clase funcional general a partir del estudio de las palabras claves de los homólogos; por otro, asigna una descripción más específica de la función (del tipo de las presentas en el campo 'DE' de Swiss-Prot). A partir de los homólogos encontrados con diversos programas de búsqueda como BLAST, iterativamente, empezando por los homólogos más parecidos, realiza un análisis léxico para determinar si la anotación funcional de éstos es informativa y susceptible de ser heredada por otra proteína. Primeramente, gracias a algunas reglas, se descartan aquellas descripciones que claramente no son informativas de la función de las proteínas, como por ejemplo descripciones que contienen "sequencing in progress" o "polyprotein". Seguidamente, si la descripción ha pasado el primer filtro, se eliminan de ella todas aquellas palabras o combinaciones de éstas que son frecuentes en las bases de datos y que no contienen información funcional ("in * intergenic region", "protein", "probable", "hypothetical", etc.) y entonces se aplican algunas reglas para determinar si lo que queda de la descripción contienen información funcional (por ejemplo que contenga códigos enzimáticos), en cuyo caso se acepta. Si no es aceptada por esta vía, aún queda otra posibilidad: se eliminan de lo que queda de la descripción todas aquellas palabras pequeñas (de menos de 5 letras), los números y las palabras compuestas por números y letras; si tras este filtrado aún queda al menos una palabra en la descripción, entonces se acepta. De todas las descripciones aceptadas, se transfiere aquélla correspondiente al homólogo más parecido. Algunas fuentes de error que puede sufrir esta aproximación son, como señalan los propios autores, la incapacidad para distinguir cuándo los homólogos pertenecen o no a una misma subfamilia o cuando la función transferida no se corresponde con la región o dominios homólogos sino con otra distinta. 10.2 Anotación automática de TrEMBL Se han aplicado grandes esfuerzos en la tarea de anotar automáticamente las proteínas de TrEMBL previamente a la anotación manual de Swiss-Prot, con el objetivo de intentar reducir en lo posible el creciente abismo que existe entre el número de proteínas cuya anotación ha sido supervisada por expertos y el número de las que conocemos poco más que su secuencia. Algunos de los métodos que se han desarrollado se exponen a continuación: • EditToTrembl (Moller et al., 1999): en este trabajo se pretende enriquecer de forma automática la información funcional presente en las líneas CC, FT y KW de TrEMBL, esto es, se intenta añadir información como la actividad enzimática, la localización subcelular, la presencia de péptidos señal o regiones transmembrana a cada proteína. La anotación se lleva a cabo por medio de la ejecución intrincada de diversos métodos de análisis de secuencias, tales como TMHMM (predicción de hélices transmembrana) o NNPSL (predicción de localización subcelular), y de la extracción de información de otras bases de datos, tales como Enzyme, Prints, PFam o Prosite. A través de wrappers o envoltorios se definen los parámetros de cada programa y se traducen los distintos formatos al formato propio de TrEMBL. Asimismo, se establecen una pre-condiciones que indican en qué situaciones es apropiado o no ejecutar alguno de estos analizadores. También se definen las interdependencias entre las distintas fuentes de información, así, por ejemplo, antes de predecir la localización subcelular con el método de NNPSL se debe confirmar que la proteína no es transmembrana, bien mediante el método de TMHMM, o mediante la identificación de patrones de PROSITE que sólo aparezcan en proteínas que no son transmembrana. El sistema consta de otros módulos que se encargan de interpretar los resultados de los wrappers y las interdependencias descritas para ejecutar los distintos métodos. Finalmente, sólo se anota aquella información que se considera altamente fiable. • (Fleischmann et al., 1999): este trabajo, en el que se trata de transferir información funcional desde homólogos de función conocida, es un complemento al de EditToTrembl. La información que se intenta transferir es muy variada: la descripción de la función general de la proteína, sus dominios, su actividad catalítica, sus cofactores, la regulación que tiene o si se expresa específicamente en un determinado tejido, entre otras. El objetivo que persigue este método es usar la información funcional de los homólogos evitando los riesgos que conlleva transferir la 22 función desde la proteína más parecida o no tener en cuenta la organización de dominios de las proteínas. Para ello las proteínas de función conocida de una base de datos como SwissProt son agrupadas según características como la presencia de patrones de Prosite, los cuales identifican dominios o motivos. Entonces se determina qué parte de la anotación de estas proteínas es común a todas (o casi todas) las de un mismo agrupamiento, gracias a lo cual se derivan reglas tales como que la presencia del patrón de Prosite PS00157 se corresponde con una descripción general de la función como 'Ribulose bisphosphate carboxylase large chain' (línea DE), con un código EC '4.1.1.39' o con unas palabras clave determinadas. Para reducir el riesgo de contaminación de la base de datos con anotaciones incorrectas se exige además que la taxonomía del organismo del que procede la proteína sea coherente con la representación taxonómica presente en los grupos de proteínas. Gracias a estas reglas, aunque con una baja cobertura (sólo se anotan el 10% de las proteínas de TrEMBL), se puede añadir automáticamente información funcional de una forma muy fiable. Esta limitación de la cobertura podría salvarse utilizando como criterio para el agrupamiento de proteínas otras bases de datos distintas de Prosite, especialmente si éstas tienen una jerarquía, como es el caso de InterPro. De hecho, en las últimas versiones se sigue este nuevo esquema. • (Kretschmann et al., 2001): usando el algoritmo de data mining o minería de datos de C4.5 (Winston, 1992) se derivan automáticamente reglas para la anotación de palabras claves a partir de un diccionario de unos 850 términos. Al igual que en el anterior método, se determinan grupos de proteínas, aunque esta vez a partir de InterPro y no Prosite. El algoritmo de C4.5 es capaz de extraer conocimiento de un conjunto de datos: a partir de una tabla en la que hay columnas con distinta información, y filas con datos concretos (por ejemplo, proteínas) se intenta identificar qué columnas (o combinaciones de éstas) están más íntimamente relacionadas con una característica observada, en este caso 'la presencia de una determinada palabra clave'. El resultado es una lista de reglas que pueden servir para anotar tanto automática como manualmente nuevas proteínas, ya que las reglas pueden ser interpretadas. Cada una de estas reglas tiene asociada una evidencia estadística, lo cual permite elegir unas u otras según qué grados de fiabilidad y cobertura se deseen (como es natural, éstos son inversamente proporcionales). 10.3.- PRECIS (Reich et al., 2001): más que un método de anotación es un destilador de información. A partir de un conjunto de identificadores de proteínas homólogas de Swiss-Prot (procedentes del resultado de una búsqueda con BLAST, por ejemplo), trata de generar un resumen de la información de todas ellas. Si las proteínas del conjunto pertenecen a una misma subfamilia, tendrán mucha información en común; mientras que si en el conjunto hay más de una subfamilia, no, por lo que deberá proporcionarse un destilado diferente según el caso. Para distinguir estas dos posibles situaciones se analizan los identificadores de Swiss-Prot, los cuales tienen la forma de 'algunos caracteres referentes a la función' más un '_' más un identificador del organismo (ejemplo: PRIO_ BOVIN se corresponde con la 'Major prion protein 1 precursor' de vaca). El resumen se destila a partir de los campos más informativos de Swiss-Prot (líneas DE, KW, CC, enlaces a otras bases de datos, etcétera). Según las características de estos campos se aplican distintas reglas: por ejemplo, en cuanto al campo DE, se selecciona aquella descripción más común en el conjunto; para el campo de referencias a otras bases de datos se seleccionan todas y se eliminan las repeticiones; lo mismo ocurre con el caso de enfermedades asociadas a la proteína (campo 'CC -Disease'). En el caso de que haya más de una subfamilia en el conjunto, la solución es generar un máximo de cinco resúmenes, uno por cada una de las subfamilias más representadas. 10.4.- Andrade (1999): en este trabajo se presenta una alternativa que trata de utilizar la información funcional de múltiples homólogos para realizar una anotación específica de las distintas regiones de la proteína. A partir de los homólogos encontrados con BLAST, se construye un alineamiento múltiple con MView (Brown et al., 1998). Las descripciones de todas estas proteínas homólogas son procesadas para eliminar elementos no informativos y detectar palabras o conjuntos de éstas (word-unit) comunes a al menos parte de estas descripciones. Para cada residuo de la proteína problema, y para cada word-unit se calcula una puntuación que, 23 básicamente, es más alta cuanto mayor sea la correlación entre la conservación de esa posición y la presencia de la word-unit. El resultado es una curva para cada word-unit con sus puntuaciones a lo largo de la secuencia de la proteína problema. Esta curva es suavizada con un filtro Gaussiano para facilitar la interpretación. Aquellas word-unit con puntuaciones más altas serán los mejores descriptores de la función de la proteína problema para cada región de ésta: si consta de dos dominios funcionales podremos observar, quizás, que las dos word-unit con mejor puntuación tienen curvas con mesetas o picos en dominios distintos de la proteína. Este método es resistente a inconsistencias en las anotaciones o niveles de especificación de función no heredables (por demasiado precisos) gracias a que usa la información de múltiples homólogos. También tiene en cuenta la organización de dominios de las proteínas. Sin embargo, su automatización no es sencilla y no tiene en cuenta directamente el problema de la presencia de distintas subfamilias de proteínas. 24 Objetivos 1.- El objetivo a mayor escala del proyecto es el desarrollo de un robot, ORFandDB, para el análisis de genomas. • Este sistema cubre gran parte de los aspectos que se requieren para el análisis de genomas y la anotación de la función de las proteínas. Bajo un esquema relacional se almacena la información de numerosas bases de datos así como los resultados de diversos programas de análisis de secuencias: modelado de genes, búsqueda de homologías o anotaciones funcionales. 2.- Estudio de la búsqueda de homólogos basada en la aplicación de la propiedad transitiva de la homología. • El objetivo es desarrollar un método para aplicar esta propiedad y evaluar su capacidad para encontrar homólogos lejanos, comparándolo con BLAST y PSI-BLAST. 3.- Estudio de las características del espacio de secuencias. • Analizaremos la posibilidad de utilizar los resultados del método de búsqueda de homólogos para cartografiar el mapa del espacio de secuencias. 4.- Desarrollo de un método de clustering o agrupamiento para encontrar grupos de proteínas diferenciados del resto en el espacio de secuencias. • Evaluaremos la calidad de los grupos encontrados comparándolos con otras clasificaciones de proteínas. • Queremos determinar si los grupos encontrados se corresponden con grupos de ortólogos o subfamilias con una función común. 5.- Elaboración de un método de anotación automática de la función de las proteínas. • La idea es utilizar la información resultante de la búsqueda de homólogos y del agrupamiento para, a partir de proteínas que supuestamente tienen una función común, analizar sus anotaciones y proporcionar una para una proteína problema. • Analizaremos los alineamientos entre los homólogos para determinar si cubren la mayor parte de sus secuencias, para tratar de anotar la función a partir de proteínas con una misma organización de dominios. • Analizaremos las anotaciones presentes en las bases de datos para determinar cuándo éstas son informativas y transferibles a proteínas homólogas (análisis léxico). • Las características funcionales que queremos anotar son: descripciones generales de la función, palabras clave y códigos de actividad enzimática. 6.- Aplicación de los citados desarrollos al análisis del genoma de Buchnera aphidicola (Baizongia pistaciae) (van Ham et al., 2003). 25 Métodos A continuación se exponen los métodos que hemos desarrollado para crear el sistema de análisis de genomas de ORFandDB. Primeramente, se describen las características básicas del sistema en su conjunto, para, seguidamente, explicar cuáles han sido los métodos investigado para anotar automáticamente la función de las proteínas, para lo cual se expondrán primero las características del método de búsqueda con secuencias intermedias, después se explicará el algoritmo de agrupamiento y, finalmente, la transferencia de anotaciones funcionales propiamente dicha. 1.- ORFandDB, un sistema para el análisis de genomas El esquema general de este sistema es el siguiente: • Un diagrama de base de datos de tipo entidad-relación, mediante el cual el conocimiento biológico es desgranado en algunos de sus componentes (ejemplos: proteína, gen, palabra clave, familia, función, genoma, cromosoma, artículo científico) y son establecidas las relaciones entre estos conceptos (ejemplos: codificado por, pertenece a, se localiza en, se parece a). El almacenamiento ordenado de esta información facilita su análisis y comprensión. En la figura 3 se muestran algunas de las entidades más significativas (y sus relaciones). • Un conjunto de métodos bioinformáticos para predecir genes en los genomas, encontrar relaciones de homología o para predecir la función de las proteínas. • Un módulo para consultar la información contenida en la base de datos, ya sea utilizando el lenguaje de consulta SQL (structured query language o lenguaje de consulta estructurado) o a través de una interfaz web. El conocimiento biológico se introduce en la base de datos de dos formas distintas. Por un lado, encontramos un conocimiento más estático en las bases de datos públicas como Swiss-Prot, GenBank, NCBI-Taxonomy o Pfam, en las que para cada secuencia, organismo o familia se facilita cierta cantidad de información. Por otro lado, podemos incluir información más dinámica a partir de la interrelación de las distintas entradas a través de métodos computacionales. Por ejemplo, dos proteínas de Swiss-Prot pueden quedar relacionadas a través de BLAST si este método encuentra que éstas se parecen. Además hay métodos, como el de anotación automática de función, que pueden añadir información adicional a entradas de proteínas ya existentes. En las bases de datos públicas el conocimiento biológico está especificado de formas más o menos distintas. Por ejemplo, podemos encontrar que para indicar la actividad enzimática de una proteína en Swiss-Prot esta información se encuentra en la línea 'DE', entre paréntesis, mientras que a lo mejor en otra base de datos se encuentra en otro campo, o utilizando un lenguaje sinónimo. Uno de los objetivos de ORFandDB es traducir toda esa información a un mismo lenguaje, de forma que sea más sencillo relacionar la información que encontramos en unas y otras bases de datos. Esta situación se repite en el caso de los resultados de los métodos bioinformáticos: por ejemplo, para indicar que se ha encontrado un parecido de secuencia significativo entre dos proteínas, se hace de forma distinta según el método empleado (ejemplos: BLAST y FASTA). En la figura 4 se muestra un esquema del funcionamiento básico del sistema. Para consultar la información almacenada en la base de datos ORFandDB se puede utilizar el lenguaje SQL. Existe un servidor web, con dirección https://www.pdg.cnb.uam.es/jmfernandez/ORFandDB/index.html, en el que se facilita esta labor, ya que allí se muestra, mediante diagramas, cuál es la estructura general de la base de datos. Además se puede ver qué tablas existen y qué campos hay en cada tabla. Dado que la mayor parte de las veces las consultas van a ser las mismas, y dado también que son pocas las 26 Figura 3. Diagrama simplificado de parte del esquema de la base de datos ORFandDB. Se muestran algunas de las entidades que utilizamos para almacenar la información relativa al genoma de buchnera: qué proteínas tenía, por qué genes estaban codificadas, en qué parte del genoma se encontraban, qué homólogos tenían, etcétera. personas que conocen el lenguaje SQL, conviene desarrollar una interfaz web que enmascare este lenguaje. En el caso del análisis del genoma de Buchnera aphidicola, creamos una que fácilmente puede ser aplicable a otros proyectos. Se encuentra en http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/. Allí se puede buscar por nombre de gen o proteína, categoría funcional o por palabra clave. Una vez encontrados los resultados, éstos se presentan de forma que podemos ver qué relaciones tienen con otros resultados en la base de datos. Por ejemplo, si en la base de datos existe la información de cuál es el gen que codifica una proteína X, entonces en la página de resultados de la proteína X aparecerá un enlace para ver la página correspondiente al gen. En este sistema podemos distinguir tres áreas de trabajo principales: por un lado el desarrollo del 27 Figura 4. ORFandDB: esquema general de este sistema para el análisis de genomas. esqueleto de ORFandDB, es decir, la base de datos y los programas para actualizarla y traducir la información de distintas fuentes de datos a un mismo lenguaje. Este apartado ha sido desarrollado principalmente por José María Fernández. Por otra parte, la predicción de genes, trabajo que ha sido llevado a cabo en el grupo del Dr. Roderic Guigó. Y por último, un método para anotar automáticamente la función de las proteínas, que es la parte en la que se pone el acento en esta tesis. 2.- Búsqueda de homólogos con secuencias intermedias (BSI) El principio de este método de búsqueda de secuencias parecidas en las bases de datos es la aplicación de la propiedad transitiva de la homología entre proteínas: a partir de una proteína problema (o semilla) se identifican aquéllas con un parecido significativo, y éstas a su vez son usadas como nuevas proteínas problema para encontrar nuevos parecidos. Los métodos que como BLAST realizan comparaciones sencillas entre pares de secuencias no son efectivos cuando los homólogos son lejanos y el porcentaje de identidad entre sus secuencias está por debajo del 30-35%. Sin embargo, esta homología remota se puede identificar utilizando información de familia, como en el caso de PSI-BLAST o las búsquedas con HMM, o también cuando existen secuencias evolutivamente intermedias entre los homólogos remotos, que mantienen un alto parecido con éstos, así es como trabajan las búsquedas con secuencias intermedias (figura 2.a) (Park et al., 1997; Gerstein, 1998; Salamov et al., 1999; Li et al., 2000; Abascal & Valencia, 2002). 28 2.1.- Iteración del método La efectividad de la aplicación de la propiedad transitiva para identificar homologías remotas ha sido evaluada realizando un único salto o ronda de búsquedas en (Park et al., 1997, Gerstein, 1998). En este trabajo hemos extendido el principio a múltiples saltos o rondas, esto es, no sólo los homólogos encontrados en la primera proteína son utilizados para nuevas búsquedas, sino que los resultantes de estas nuevas búsquedas serán utilizados para otras, y así indefinidamente, intentando abarcar un radio evolutivo mayor. Esta aproximación con múltiples rondas añade algunas dificultades, como veremos más adelante. 2.2.- La homología se confina a dominios concretos - selección de subsecuencias Para aplicar la propiedad transitiva de la homología de forma correcta debe tenerse en cuenta la naturaleza multidominio de las proteínas, la cual puede provocar que proteínas no relacionadas evolutivamente queden conectadas a través de proteínas intermedias con varios dominios. Para evitarlo las búsquedas han de realizarse con las regiones de las secuencias que presuntamente tienen un origen evolutivo común, y no con las proteínas completas. En el caso de búsquedas BSI con una sola iteración esto es sencillo: basta con extraer el fragmento de la secuencia que ha alineado significativamente y utilizarlo para lanzar la nueva búsqueda. Cuando realizamos múltiples rondas sucede que, a partir de la segunda iteración, en que buscamos con todos los homólogos encontrados en la primera iteración, un nuevo homólogo podrá ser encontrado gracias a varias de las secuencias usadas para las búsquedas, alineando regiones más o menos diferentes en los distintos casos. Para seleccionar la subsecuencia que deberá ser utilizada en la siguiente ronda se extraen los fragmentos de secuencia del nuevo homólogo que han alineado en cada caso, y se unen todos aquellos fragmentos que se superpongan al menos un 50%. En el caso de que existan dos (o más) conjuntos de fragmentos no superponibles (esta situación puede darse en proteínas multidominio), se selecciona el conjunto con una mayor puntuación de alineamiento acumulada, esto es, la suma de las puntuaciones de los alineamientos de los fragmentos pertenecientes a ese conjunto. Esto se hace porque para la siguiente ronda queremos seleccionar una subsecuencia y para construirla no podemos juntar cosas que naturalmente estén separadas en la proteína, en regiones distintas; podríamos seleccionar varias subsecuencias para una misma proteína, pero esto complicaría bastante el análisis posterior así como el mapa del espacio de secuencias que queremos obtener. A veces ocurre que un alineamiento local del tipo de BLAST se extiende de forma incorrecta a regiones no homólogas en los extremos, de modo que puede incluirse un fragmento de un dominio no homólogo vecino, el cual en nuevas búsquedas podría provocar que identificáramos falsas homologías. Para evitarlo, se realiza una poda de los extremos: una vez seleccionado el conjunto de fragmentos que tiene mayor puntuación acumulada, en lugar de seleccionar las coordenadas mínimas y máximas observadas en el conjunto para construir la nueva subsecuencia, se selecciona únicamente el mínimo y el máximo que estén soportados por al menos el 20% de los fragmentos. 2.3.- Limitación del espacio de búsqueda Una de las limitaciones prácticas de este método es el enorme número de búsquedas de tipo BLAST que tiene que realizar, especialmente en familias de proteínas muy numerosas. Además, cuando una proteína no homóloga se incluye erróneamente en el proceso, arrastra a todas las de su familia en las siguientes iteraciones. Para minimizar algunos de estos aspectos, se fija un límite máximo variable del número de secuencias obtenidas. Por ejemplo, si el límite máximo se fija en 1500 búsquedas y en la N iteración ya se han realizado 1200 búsquedas, y éstas han permitido encontrar 500 nuevas proteínas parecidas, se seleccionan las 300 con una mayor puntuación acumulada, de forma análoga a cómo se seleccionan los conjuntos de fragmentos, descartando las otras 200. 29 2.4.- Evaluación de la sensibilidad y la precisión del método - Base de datos de SCOP como estándar de homología Para evaluar la efectividad del método de BSI, comparamos sus resultados con los de BLAST y PSI-BLAST, midiendo la sensibilidad y especificidad con que puede encontrar homologías lejanas. 2.4.1.- Base de datos de SCOP (Murzin et al., 1995) y nuestro conjunto de prueba En la base de datos de SCOP se clasifican de forma jerárquica y supervisada los dominios de proteínas de estructura tridimensional conocida. Los niveles de esta jerarquía son: 1) clase o arquitectura general (ejemplo: proteínas todo beta); 2) tipo de plegamiento (ejemplo: sandwich beta del tipo inmunoglobulina); 3) superfamilia (ejemplo: inmunoglobulinas); 4) familia; y 5) proteínas y especies. Las superfamilias incluyen proteínas con una estructura similar para las que existe alguna evidencia que sugiera un origen evolutivo común. Cuando la estructura es similar pero no existe esta evidencia, se agrupan en una misma categoría de tipo de plegamiento pero en distintas superfamilias. A partir de esta base de datos, que se utiliza frecuentemente como referencia para distinguir homologías verdaderas, creamos un conjunto de prueba para evaluar los distintos métodos de búsqueda de homólogos. Para ello seleccionamos las proteínas de las cuatro arquitecturas básicas (todo alfa, todo beta, alfa/beta y alfa+beta; clases en SCOP: http://scop.mrclmb.cam.ac.uk/scop/data/scop.b.html). En algunas ocasiones, un dominio de una proteína está constituido por regiones separadas (no consecutivas) de la cadena polipeptídica. En estos casos, en SCOP se cortan y pegan estas secuencias, creando secuencias 'artificiales', las cuales también son descartadas del conjunto de prueba. Asimismo, como nuestro objetivo es determinar la capacidad de encontrar homólogos lejanos (aquéllos no se parecen demasiado), seleccionamos (con el programa ASTRAL, Brenner et al., 2000) un subconjunto tal que no haya en él proteínas con una identidad de secuencia mayor del 40%. Este conjunto contiene 556 superfamilias y 1531 familias, en total 3.624 proteínas, y será el conjunto donde busquemos homologías. Este conjunto se une a una base de datos construida a partir de Swiss-Prot, TrEMBL y TrEMBL_new, a la que llamamos nrdb, que contiene 794.315 secuencias, de la cual a su vez es seleccionada una base de datos no redundante al 90% (nrdb90, 475.909), de forma que se reduce sensiblemente el espacio de búsqueda (un 40%) sin perder demasiada sensibilidad (ver tabla 1) (Li et al., 2001). Para efectuar las búsquedas seleccionamos 1.531 proteínas, una por cada familia del conjunto de SCOP creado, de forma que podamos evaluar si son capaces de encontrar a las otras proteínas de sus familias y superfamilias. base de datos número de letras set_3624 set_3624+nr90 número de secuencias 673.709 3.624 166.026.790 475.909 factor ~ 246 factor ~131 Relaciones posibles entre las secuencias de SCOP del conjunto de búsqueda (SET_1531) y de la base de datos (SET_3624) Número posible de relaciones verdaderas (tm): Número posible de relaciones inciertas (um): Número posible de relaciones incorrectas (fm): Número posible de relaciones Tabla 1. Algunas características del conjunto de secuencias empleado en el estudio. 14.388 26.279 5.506.146 5.546.813 Para comparar la eficiencia de los distintos métodos de búsqueda: BLAST, PSI-BLAST y BSI, medimos su sensibilidad y precisión. La sensibilidad se refiere a la proporción de homólogos verdaderos que son capaces de encontrar. La precisión se refiere a la proporción de falsos 30 positivos con respecto al total de positivos. 2.5.- Descripción del espacio de secuencias mediante un GRAFO Asociado a cada búsqueda con BLAST obtenemos una lista de proteínas parecidas y una estimación estadística (p.e. el e-value) de cuán significativos son estos parecidos. Si ponemos en conjunto la información de todas las búsquedas intermedias, obtenemos un conjunto de proteínas y una medida del parecido o distancia entre ellas (esta medida de parecidos no existirá para todos los pares posibles de proteínas, sólo para aquellos para los que BLAST haya encontrado un parecido significativo). Este material constituye una representación (o mapa) del espacio de secuencias (figura 2.b), que puede ser representado mediante un grafo G(V,E), que es una estructura de datos en la que hay nodos (V) conectados por arcos (E) que pueden tener asociado un peso (w). En este caso, como en otras aproximaciones, las secuencias son representadas mediante nodos, los arcos reflejan la existencia de un parecido encontrado con BLAST, y su peso se corresponde con una medida de estos parecidos: el -log10(E-value). 3.- Identificación de familias de proteínas - Clustering o agrupamiento. Una vez obtenido el mapa del espacio de secuencias, la cuestión es cómo estudiarlo, cómo detectar qué proteínas están significativamente más cercanas entre sí que con respecto al resto, en otras palabras, qué grupos son distinguibles en el grafo. Existen muchos tipos de grafos y cada tipo requiere unos métodos distintos para su interpretación (Aguirre, 2002). Para interpretar el mapa generado mediante búsquedas de tipo BSI, utilizamos un algoritmo basado en teoría de flujo en grafos. Este método, conocido como algoritmo de corte normalizado (Ncut), es una modificación del algoritmo clásico de corte mínimo de un grafo (minCut; Wu & Leahy, 1993), y fue desarrollado por (Shi & Malik, 1997) con el objetivo de identificar automáticamente las distintos elementos presentes en imágenes. El grafo de partida tiene arcos con un peso tal que reflejan el flujo entre los nodos: cuanto mayor es el peso, mayor el flujo, o análogamente, más cercanos. Puede interpretarse como una medida inversa a la distancia. La capacidad de un corte en un grafo es: Cut(A, B) = Sum w(i, j); i pertenece a A, j a B. El corte mínimo de un grafo es aquél con una capacidad mínima, y representa qué arcos hay que eliminar para, con un menor coste, dividir el grafo en dos subgrafos. El proceso puede aplicarse recursivamente a los subgrafos hijos. Este método de agrupamiento tiende a separar pequeños conjuntos de nodos cuando los grupos que se desearían separar están muy conectados entre sí. Por esta razón Shi y Malik, modificaron el concepto de corte mínimo por el de corte normalizado, que se define como: Ncut(A, B) = cut(A,B)/asso(A,V) + cut(A,B)/asso(B,V) donde asso(A,V) es la suma de todos los arcos que conectan los nodos de A con los de V (V incluye a A). De esta forma, se pondera la capacidad del corte según el grado de desconexión que el corte induce en el grafo, evitando la preferencia por pequeños grupos. 3.1.- Recursividad y condiciones de parada del clustering El algoritmo opera de forma recursiva: una vez encontrado el mejor corte normalizado, su conveniencia es evaluada y, si es apropiado, se aplica y nuevamente se busca el mejor corte normalizado en cada uno de los subgrafos resultantes. El agrupamiento se detiene cuando ninguna de estas dos condiciones se cumple; o dicho de otra forma: si alguna de éstas se cumple, el agrupamiento continua: • la media aritmética de los pesos o capacidades de los arcos existentes dentro de alguno de los sub-grafos hijos excede (de acuerdo a una medida relativa) el valor de esta media para los arcos que conectan los dos sub-grafos hijos. Esta medida relativa puede ser el doble, el triple o el cuádruple. Normalmente usamos el doble. • el número de arcos que existen dentro de alguno de los hijos dividido entre el número posible 31 de arcos, es mayor que esta misma medida en el padre. Estas son las condiciones que hemos considerado más apropiadas para adaptar el algoritmo al problema de la clasificación de proteínas a partir de mapas provenientes de búsquedas BSI. Una de ellas tiene que ver con la fuerza de los arcos y la otra con la cantidad de éstos; en ambos casos las condiciones son relativas a las características de los grupos que se van a separar: un traje a la medida de cada familia de proteínas. 3.2.- Algunas definiciones: capacidad media, conectividad y proximidad • Capacidad media: es la media aritmética de los pesos de los arcos (los -log10(E-value)). Una capacidad media de 10 entre dos clusters se corresponde con e-values alrededor de 1e-10. • Conectividad: es el número de arcos observados dividido entre el número de arcos posibles (los arcos que habría si todos los nodos estuviesen conectados). Nota: aquí el término conectividad tiene un significado diferente al que comúnmente se otorga en teoría de grafos. • Proximidad: sirve para medir la distancia entre dos grupos y es el producto de la conectividad por la capacidad media (de los arcos que van de un grupo a otro). 3.3.- Evaluación del clustering - Base de datos COGs como estándar de ortología Para evaluar la validez de la representación del espacio de secuencias propuesta así como el método de identificación de grupos en ese espacio, hicimos una comparación con la base de datos de COGs (Tatusov et al., 1997), en la cual se clasifican los genes de genomas completos de microorganismos en grupos de ortólogos. Para esta comparación utilizamos la versión de COGs de junio de 2001, que incluye genes provenientes de 21 genomas, de los cuales: • 16 corresponden a bacterias: Aquifex aeolicus (abreviatura: Q, número de proteínas: 1526); Thermotoga maritima (V, 1852); Synechocystis (C, 3168); Escherichia coli (E, 4292); Bacillus subtilis (B, 4122); Mycobacterium tuberculosis (R, 3924); Haemophilus influenzae (H, 1694); Helicobacter pylori (U, 1577); Helicobacter pylori J99 (J, 1492); Mycoplasma genitalium (MG, 468); Mycoplasma pneumoniae (MP, 678); Borrelia burgdorferi (O, 1256); Treponema pallidum (L, 1033); Chlamydia trachomatis (I, 895); Chlamydia pneumoniae (N, 1053); y Rickettsia prowazekii (X, 834). • Cuatro a genomas de arqueas: Archaeoglobus fulgidus (A, 2411); Methanococcus jannaschii (M, 1747); Methanobacterium thermoautotrophicum (T, 1871); y Pyrococcus horikoshii (K, 2072). • Y uno a un eucariota: Saccharomyces cerevisiae (Y, 5932). La base de datos resultante contiene 57.546 secuencias de proteínas de estos 21 genomas, y conforma el espacio de secuencias a explorar. Escogimos los 468 genes de MG (Mycoplasma genitalium) para realizar 468 experimentos de búsquedas BSI y agrupamiento de sus resultados. En cada caso, se comparan el tamaño y contenido génico del grupo resultante y el COG correspondiente. En la comparación del contenido génico de nuestros grupos y los de COGs se utilizan dos términos: coherencia y coincidencia. El primero, coherencia, se refiere a que uno de los grupos es un subconjunto del otro. La coincidencia se refiere a los casos en que hay coherencia y además el contenido es el mismo (+/-1 gen). El espacio de secuencias conformado por las proteínas de estos 21 genomas no está muy poblado, por lo que la identificación de grupos es sensible a irregularidades (p.e. cuando existen dos o tres genomas muy cercanos entre sí, sus proteínas pueden quedar separadas del resto). Por esta razón, investigamos dos condiciones de parada y dos métodos de reconstrucción (unión de grupos vecinos) para una mejor comparación. También se realizó una comparación con la base de datos de PROTOMAP (Yona et al., 1999), en lo que representa un contexto más favorable dado el mayor número de secuencias a partir de las cuales construir un mapa apropiado. Para esta comparación se realizaron búsquedas BSI y agrupamiento para la proteína ras/p21 humana, utilizando como base de datos Swiss-Prot (versión 39.20 de junio de 2001). 32 3.3.1.- Condiciones de parada y métodos de reconstrucción en la comparación con COGs. Para estudiar la sensibilidad del método de agrupamiento a las irregularidades del espacio de secuencias, estudiamos cómo respondía éste a la condición de parada basada en el peso relativo de los arcos. En un caso, se requirió que la capacidad media dentro de los subgrafos debía ser doble (X2) comparada con la capacidad media entre éstos. En el otro caso, se requirió que fuera cuádruple (X4). A estas dos aproximaciones nos referiremos como "X2 simple" y "X4 simple". Por otra parte, se aplicaron diversos métodos de reconstrucción para, a partir de estos resultados, dar marcha atrás en el proceso de agrupamiento y unir los grupos entre sí para obtener grupos de mayor tamaño. Reconstrucción: A partir del conjunto de grupos resultantes y las distancias entre éstos, obtenidos mediante una búsqueda BSI y un agrupamiento, se estudiaron distintos modos de unir el grupo que contenía la proteína semilla con los grupos vecinos. • estrategia join6 o estrategia simple: en este caso se unen el grupo que contiene la proteína usada como semilla para las BSI con el grupo vecino más cercano según la capacidad media entre los grupos, siempre y cuando ésta sea mayor de 6. • estrategias basadas en medidas de entropía relativa (S_one y S_var): En este caso para una reconstrucción más apropiada se emplea información filogenética. La entropía relativa mide el parecido entre dos distribuciones y se define como: Srel = H(P || Q) = Sum i(P(xi)log(P(xi)/Q(xi))); donde P(xi) es la frecuencia de i en una determinada distribución P, y Q(xi) lo mismo pero en otra distribución Q. Cuanto más parecidas sean ambas distribuciones, menor será su entropía relativa. En nuestro caso, definimos P(xi) como la frecuencia con que observamos el genoma i en el conjunto de grupos aceptados (ver más adelante), y Q(xi) es la frecuencia con que esperaríamos observarlo en una distribución determinada (un grupo completo de ortólogos, en este caso). En el caso de S_one, definimos la distribución Q como aquella en que todos los genomas presentes en el análisis (21) tienen la misma frecuencia (1/21). En el caso de S_var, definimos Q(xi) como ni/nt, siendo ni el número de genes en el genoma i, y nt el número total de genes en los 21 genomas. El algoritmo de reconstrucción es recursivo, y estos son sus pasos: 0) inicializar el conjunto de grupos aceptados con el grupo que contiene el gen semilla. 1) calcular la entropía relativa dentro del conjunto de grupos aceptados. 2) encontrar el grupo con una mayor conectividad con alguno de los grupos aceptados. Si dos clusters tienen igual conectividad, se selecciona aquél con una mayor capacidad media. 3) calcular la entropía relativa que se obtendría si el grupo seleccionado se aceptase. 4) si la entropía relativa descendiese con la adición de este cluster, entonces se aceptaría y se volvería al paso 1. En caso contrario la unión de vecinos terminaría. La idea detrás de los modelos S_one y S_var es que en un grupo completo de ortólogos esperaríamos, en un caso, tener un representante por cada organismo, y en el otro, tener un número de representantes proporcional al tamaño del proteoma de cada organismo. Este modo de reconstrucción añade grupos según su distancia y utiliza la información filogenética para decidir cuándo detener la adición de grupos. 4.- Transferencia de anotaciones funcionales El método desarrollado utiliza la información de múltiples homólogos para realizar una anotación funcional lo más completa y fiable posible (Abascal & Valencia, 2003). El material básico con el que trabaja es un grupo de homólogos que supuestamente realicen una misma función, esto es, una subfamilia o un grupo de ortólogos, como puede ser los resultados del algoritmo de agrupamiento. Disponer de un conjunto de proteínas con una función común permite estudiar qué anotaciones comparten, o qué diferencias presentan, pudiendo seleccionar aquellos elementos que con más fiabilidad puedan ser heredados por la proteína que se quiere anotar 33 Figura 5. Esquema general del método de anotación de la función de una proteína problema. A partir de los resultados del método de agrupamiento, se analizan las anotaciones funcionales y los alineamientos de las proteínas que han quedado en el mismo grupo que la proteína problema. Las categorías de alineamientos establecen un orden de preferencia para la transferencia de anotaciones. 34 automáticamente. La fuente de información que utiliza este método es el conjunto de grupos determinados por el algoritmo de agrupamiento y las distancias entre ellos. Entre estos grupos se encuentra aquél que contiene a la proteína semilla, y las proteínas que han quedado agrupadas con ésta idealmente desempeñan una misma función biológica. El esquema básico del método se representa en la figura 5. 4.1.- Análisis de la cobertura de los alineamientos Para tener en consideración el posible problema de transferir funciones que puedan localizarse en regiones no homólogas de las proteínas, se analiza si los distintos alineamientos comprenden o no la longitud completa de las secuencias problema y molde. Se clasifican estas relaciones en cuatro categorías, que serán tenidas en cuentas a la hora de transferir la anotación. Por orden de idoneidad como fuentes de información: • categoría 1: es la ideal, en la que ambas proteínas alinean completamente (>80% de la longitud de sus secuencias). • categoría 2: en este caso, la proteína molde alinea completamente pero no así la problema. Simplificadamente, la transferencia de la anotación desde el molde podría ser incompleta, ya que parte de la proteína problema podría aportar una función adicional y no puede ser anotada. • categoría 3: la proteína problema alinea completamente, pero no la molde. En este caso, la transferencia podría ser incorrecta, ya que la función del molde podría asociarse (o estar influenciada) por la zona no homóloga de su secuencia. • categoría 4: la peor, en este caso el alineamiento es parcial en las dos proteínas, reflejando un posible caso de transferencia funcional incompleta e incorrecta. Nota: si la proteína molde está anotada como 'fragmento', se entiende que el alineamiento no es completo, aunque éste cubra toda la longitud de su secuencia. 4.2.-Transferencia de descripciones generales de la función (línea DE de Swiss-Prot) El objetivo básico es seleccionar aquella descripción más representativa de entre las descripciones de las proteínas que han quedado agrupadas en torno a la proteína problema, es decir, aquella descripción más parecida al resto. Para alcanzar esta meta, se realizan los siguientes pasos: 1) primeramente se eliminan de las descripciones todas aquellas palabras que aparecen frecuentemente en las descripciones y que no contienen información funcional (ejemplos: FRAGMENT, HYPOTHETICAL, COSMID, PROTEIN). 2) se extraen de cada descripción las palabras que la conforman y se calcula la frecuencia de cada palabra, entendida ésta como el número de descripciones con esa palabra dividido entre el número total de descripciones. 3) se deriva una puntuación de representatividad de cada descripción sumando las frecuencias de las palabras que la componen y dividiendo por el número de palabras. Para evitar penalizar a las anotaciones de Swiss-Prot que contienen muchos sinónimos (en un formato determinado: entre paréntesis), se divide el número de palabras por el número de sinónimos. Aquella descripción con una puntuación más alta será la más representativa. Dado que el agrupamiento no siempre es capaz de separar dos subfamilias que a lo mejor son muy cercanas, se ponderan las puntuaciones de representatividad con las puntuaciones de los alineamientos, de forma que ponemos una presión en la dirección de preferir proteínas más parecidas, aunque no sean aquéllas con las descripciones más representativas. Para ello, se calcula la fracción (tanto por uno) que cada puntuación de representatividad representa con respecto a la suma de todas estas puntuaciones; se hace lo mismo con las puntuaciones de similitud del alineamiento. Ambas fracciones se suman, resultando en una puntuación nueva de idoneidad para la transferencia funcional. El algoritmo para seleccionar la anotación a transferir es el siguiente (siguiendo el orden de idoneidad de las categorías de alineamiento): 0) tomar como categoría actual la categoría de alineamiento 1. 1) seleccionar aquellas descripciones que correspondan a proteínas que alinean según la categoría actual. 35 2) de éstas, seleccionar aquella descripción con una mejor puntuación de idoneidad para la transferencia. Si no hay ninguna descripción en esta categoría, descender a una categoría inferior y volver al paso 1. 3) realizar un análisis léxico para determinar si la descripción seleccionada es transferible ( ver más adelante). Si no es transferible, descender a una categoría inferior y volver al paso 1. 4) aplicar un filtro para limpiar un poco la descripción, eliminando elementos no transferibles como el peso molecular de la proteína o la palabra 'fragment'. Finalmente, si ha podido realizarse la transferencia funcional, se indica, como ilustración de la fiabilidad del proceso, la categoría de alineamiento empleada. 4.2.1.- Análisis léxico • En la mayoría de los casos el procedimiento aplicado para medir la representatividad de las descripciones conducirá a seleccionar aquéllas que son susceptibles de ser transferidas, dando menor puntuación a las que contengan elementos extraños. Sin embargo, no garantiza estos resultados, por lo que es necesario determinar, mediante algunas reglas si la descripción contiene información funcional y en ella no hay elementos específicos no transferibles. El análisis léxico que realizamos está inspirado en el seguido en GeneQuiz (Andrade et al., 1999). Gracias a las siguientes reglas se detectan gran parte de las descripciones no informativas: • La presencia de palabras como 'intergenic', 'cosmid' o 'genomic sequence' es suficiente para rechazar una descripción. • Una construcción no informativa frecuente es: "[Hypothetical|Putative] [Mol.Weight] [Lipo|Glyco]Protein [word]", donde los elementos entre corchetes indican palabras que pueden o no aparecer y la barra '|' indica las posibles alternativas. Estas descripciones son descartadas, excepto cuando el elemento opcional "word" aparezca en al menos otra de las descripciones del grupo (lo que indica que posiblemente contenga información útil como puede ser el nombre del gen, pero no un número de acceso o identificador proveniente de un proyecto genómico). El elemento '[Mol.Weight]' representa la siguiente expresión regular en el lenguaje de programación de perl: \d+(\.) *(\d)*(\s)*K(D)*(A)*(\s)*. • Otro filtro que se aplica consiste en eliminar todas aquellas palabras que son no informativas ('hypothetical', 'protein', 'fragment', etcétera) y determinar si después de esta operación queda alguna palabra y si ésta está presente o no en algunas de las otras descripciones del grupo. 4.3.- Transferencia de palabras clave (keywords del campo KW de Swiss-Prot) Las palabras clave se refieren a diversas características de las proteínas, y algunas como por ejemplo 'Myristate' (para indicar que la proteína se miristila), 'Calcium-binding' (la proteína une Calcio) o 'ATP-binding' (une ATP) tienen una relación aún más directa con regiones concretas de la secuencia de las proteínas que las descripciones generales de la línea 'DE'. Por esta razón, la transferencia de palabras clave sólo se realiza a partir de proteínas de las categorías 1 y 2, en las que la proteína homóloga a la problema alinea completamente. El método que empleamos trata de seleccionar un conjunto lo más grande posible de palabras clave, pero en el que no se mezclen palabras que no co-ocurren, que por ejemplo pueden ser autoexcluyentes (ver figura 6). 36 Proteínas: palabras clave Palabras clave: frecuencia Prot 1: A B C Prot 2: A B C Prot 3: A B C Prot 4: A B D Prot 5: A B D Prot 6: A E F Prot 7: A E F Prot 8: A E F A: 8 B: 5 C: 3 E: 3 F: 3 D: 2 Figura 6. Asignación de palabras clave. Las palabras clave aceptadas son: A, B y C. A pesar de que C, E y F aparecen con la misma frecuencia, sólo C es transferida, para evitar mezclar palabras no co-ocurrentes. El proceso: primeramente A es seleccionada como semilla. Después, dado que B aparece asociada a A cinco veces (esto es: más de cuatro (8/2) veces), B es aceptada. Seguidamente, C también es aceptada porque está asociada a B más de 2,5 (5/2) veces. Y aquí se detiene el proceso porque ninguna otra palabra cumple la condición de estar asociada a alguna de las palabras aceptadas más de la mitad de las veces en que la palabra aceptada aparece. En el conjunto de proteínas presentes en el grupo (subfamilia, idealmente) de la proteína problema observamos una serie de palabras clave con una frecuencia determinada. Se calcula en cuántas proteínas aparece cada palabra clave (Fkwi) y el número de veces en que cada par de palabras clave aparecen asociadas a una misma proteína (Fkwij). Con esta información se construye un grafo en el que las palabras clave están conectadas por arcos con un peso equivalente a Fkwij. Se inicializa el conjunto de palabras clave aceptadas con una semilla. El modo de seleccionar la semilla es el siguiente: se calcula una puntuación de idoneidad de palabras clave para cada proteína ponderando la puntuación de alineamiento con la puntuación de representatividad (de modo análogo a como se calcula la puntuación de idoneidad para las descripciones funcionales); se selecciona como semilla la palabra clave más frecuente de aquéllas que pertenecen a la proteína con una mejor puntuación. Seguidamente, se recorre el grafo recursivamente buscando palabras clave que estén conectadas a alguna de las palabras aceptadas, y si Fkwij es mayor que Fkwi/2 (siendo i la que ya está aceptada), entonces se añade al conjunto de aceptadas. Esta forma de proceder permite obtener un conjunto lo más numeroso posible de palabras clave sin mezclar palabras que no aparecen simultáneamente, que podrían ser auto-excluyentes, como en el caso de que proviniesen de dos subfamilias distintas que han quedado agrupadas conjuntamente. 4.4.- Transferencia de códigos de actividad enzimática El código enzimático que se transfiere es aquél asociado a la proteína con una mejor categoría y puntuación de alineamiento de secuencia con la proteína problema. La categoría de alineamiento correspondiente a esta proteína se emplea para indicar el nivel de fiabilidad de la transferencia. 4.5.- Anotación de grupos vecinos Los otros grupos de proteínas resultantes del algoritmo de agrupamiento, idealmente corresponderán a otras subfamilias relacionadas, que pueden presentar funciones más o menos parecidas, más o menos distintas, con respecto a la función de la subfamilia a la que pertenece la proteína problema. Asignar una función a cada uno de estos grupos vecinos puede ser informativo, especialmente en aquellos casos en que la proteína haya sido agrupada de forma solitaria (en un singleton o grupo de tamaño 1). Para cada grupo suficientemente grande (más de tres proteínas) se construye una anotación general a partir de las descripciones de las proteínas contenidas en ellos. Finalmente se indica la proximidad de cada uno de estos grupos al grupo de la proteína problema. El algoritmo diseñado para esta anotación es similar al usado en el caso de las palabras clave, realizándose estos pasos para cada uno de los grupos vecinos: 1) las descripciones funcionales de las proteínas presentes en el mismo grupo son divididas en palabras. Se eliminan las palabras que aparecen frecuentemente pero que no aportan información funcional (ejemplos: protein, hypothetical, fragment, etc). 2) se calcula la frecuencia (Fwi) de cada palabra, entendida como la fracción de descripciones que presentan la palabra. Se selecciona la más frecuente como semilla. 37 3) se construye un grafo en el que los nodos son las distintas palabras (incluyendo las no informativas) y los arcos conectan palabras que aparecen en una misma descripción, siendo el peso de éstos el número de veces que esto ocurre (Fwij). 4) se aceptan aquellas palabras que aparezcan conectadas a la semilla con una Fwij > Fwsemilla (aquí está la diferencia con el procedimiento aplicado para las palabras clave; la razón de usar este criterio es que no queremos extender lo más posible la descripción, sino obtener una descripción lo más representativa posible del resto de descripciones). A continuación se presenta una particularidad que no encontramos en el caso de las palabras clave: tenemos una lista de palabras pero éstas han de ser ordenadas para obtener una descripción legible. Para intentar resolverlo, se calcula, para cada palabra aceptada, la posición relativa más frecuente (..., -3, -2, -1, +1, +2...) con respecto a la semilla, y a partir de estas posiciones se ordena la lista de palabras. La descripción resultante no es todo lo buena que se desearía porque el procedimiento no tiene en cuenta signos de puntuación o paréntesis, y cuando una misma palabra aparece más de una vez en una descripción, sólo se tiene en cuenta la primera ocurrencia. 38 Resultados 1.- Identificación de proteínas homólogas mediante búsquedas recursivas con secuencias intermedias (BSI). Uno de nuestros objetivos iniciales fue el de estudiar el comportamiento de los métodos de búsqueda de homólogos como BLAST y su aplicación iterativa en forma de búsquedas con secuencias intermedias (BSI). Quisimos determinar la capacidad de estos métodos para encontrar homólogos lejanos, aquéllos cuya secuencia se parece muy poco. También estudiamos la posibilidad de utilizar la información que generaban para obtener mapas del espacio de secuencias apropiados. Para analizar estos aspectos realizamos 1.531 experimentos de BSI con las secuencias del conjunto de prueba SET_1531. Cada uno de estos experimentos se llevó a cabo con la base de datos SET_3624+nr90, es decir, buscando en ella, y aplicando cuatro iteraciones con un umbral de e-value de 0.1. De cada experimento de búsqueda BSI resultó un grafo en el que las proteínas encontradas en la base de datos aparecen conectadas entre sí cuando BLAST ha hallado parecidos de secuencia con un e-value por debajo del umbral. El número máximo de secuencias aceptadas se estableció en 1.500, para evitar que se generaran grafos demasiado grandes y para reducir el tiempo de cálculo. Sensibilidad y especificidad de algunos métodos de búsqueda de homólogos 5500 5000 4500 4000 3500 3000 fm um tm 2500 2000 1500 1000 500 blast-0.01* blast-0.05* blast-0.1* psi-0.005 psi-0.1 bsi-1e-10 bsi-1e-05 bsi-0.0001 bsi-0.001 bsi-0.1 0 Figura 7. Sensibilidad y especificidad de los métodos de búsqueda de homólogos BLAST, BSI y PSIBLAST utilizando distintos parámetros. En el eje Y se muestra el número de ocurrencias de las clases relaciones correctas (tm), inciertas (um) e incorrectas (fm); en el X se muestran los distintos métodos con distintos umbrales de e-value: las cinco primeras columnas se correscponden con los resultados de las búsquedas BSI con umbrales de 0.1, 0.001, 0.0001, 1e-05 y 1e-10, las dos siguientes con los de PSI-BLAST y las tres últimas con los de BLAST. (*)Los e-values empleados para BLAST no son comparables ya que el valor de esta medida estadística depende del tamaño de la base de datos (cuanto mayor sea ésta mayor también será la probabilidad de encontrar parecidos por azar), y en el caso de BLAST las búsquedas se realizaron directamente sobre la base de datos SET_3624, sin incluir la nrdb90 (la relación aproximada entre los e-values de los métodos de PSI-BLAST y BSI con respecto a BLAST es de 246, es decir un e-value de 0.1 correspondería a uno de 24.6 si el espacio de búsqueda fuera el conformado por la base de datos SET_3624+nrdb90). 39 Quisimos estudiar qué efecto tiene usar distintos umbrales de parecido para encontrar homólogos lejanos utilizando el método de BSI. Para realizar este análisis obtuvimos subgrafos a partir de los grafos originales (aquéllos con umbral de 0.1) del siguiente modo: seleccionamos todas aquellas secuencias (nodos) que fuese posible alcanzar a través de arcos con un e-value menor que un cierto umbral, a partir de la proteína semilla. Esta aproximación es equivalente, aunque no igual, a realizar el experimento de BSI desde el principio con un umbral distinto. Del uso de distintos umbrales resultaron distintos niveles de sensibilidad y especificidad (o precisión). En la figura 7 y en la tabla 2 se muestran estos resultados. Por ejemplo, aplicando el umbral inicial de e-value de 0.1 (bsi-0.1), resultaron 788.114 positivos, de los cuales más de 5.297 se correspondían con secuencias provenientes de SCOP. Estas 5.297 secuencias nos permiten estimar la efectividad del método. En los 1.531 experimentos aparecieron 3.107 positivos verdaderos u homólogos conocidos, aquéllos que pertenecían a la misma superfamilia de SCOP que la proteína semilla del experimento en cuestión. También se encontraron 163 positivos que pertenecían a una superfamilia distinta pero que por tener una estructura similar (mismo fold o plegamiento en SCOP) se consideran como positivos inciertos. Finalmente, en los resultados se incluyeron 2.027 falsos positivos, proteínas que sabemos que tienen un origen distinto al de la proteína semilla. Con umbrales más restrictivos el número de falsos positivos decrece sensiblemente, en mayor proporción que el número de positivos verdaderos. RESULTADOS GLOBALES total tm um fm bsi-0.1 788.114 3.107 163 2.027 bsi-0.001 355.565 2.558 85 138 bsi-0.0001 295.224 2.115 51 84 bsi-1e-05 244.909 1.763 32 51 bsi-1e-10 128.738 861 6 17 bsi-1e-15 85.945 562 0 0 psi-0.1 312.029 2.366 82 79 psi-0.005 297.849 2.265 71 68 blast-1* 3.266 1.399 33 1.834 blast-0.1* 1.370 1.154 9 207 blast-0.05* 1.214 1.097 7 110 blast-0.01* 1.019 983 5 31 Tabla 2. Sensibilidad y especificidad de los métodos de búsqueda de homólogos BLAST, BSI y PSI-BLAST utilizando distintos parámetros. En la columna total se indica el número total de proteínas encontradas tras las 1.531 búsquedas. En las siguientes columnas se indica el número de relaciones correctas (tm), inciertas (um) e incorrectas (fm). (*)El número total de parecidos encontrados utilizando BLAST no es comparable al de los otros métodos ya que en SET_3624+nrdb90 (la base de datos usada para BSI y PSI-BLAST) hay 475.909 secuencias, mientras que en SET_3624 tan sólo hay 3.624. 1.1.- Comparación de la sensibilidad y especificidad de las búsquedas BSI con respecto a BLAST y PSI-BLAST A continuación, y para dar un sentido a los valores de especificidad y sensibilidad obtenidos con BSI, comparamos éstos con los que se pueden obtener con BLAST y PSI-BLAST. En la figura 7 y la tabla 2 también se muestra esta comparación. Se puede apreciar que los niveles de sensibilidad (capacidad de encontrar homologías remotas) tanto de BSI como de PSI-BLAST son claramente superiores a los que se pueden alcanzar con BLAST, permitiendo detectar, a un mismo nivel de especificidad (capacidad de discriminar entre parecidos debidos al azar y homologías verdaderas), más del doble de homologías lejanas. En cuanto a las búsquedas de tipo BSI, observamos que éstas pueden llegar a ser más sensibles que PSI-BLAST, pero con el 40 coste de una pérdida notable de especificidad, es decir, pueden hallar una mayor cantidad de homólogos remotos pero incluyendo numerosos falsos positivos. La comparación a un mismo nivel de especificidad revela que PSI-BLAST posee una sensibilidad ligeramente superior a BSI (la comparación más oportuna es aquélla entre BSI-0.0001 y PSI-0.1). 1.2.- Evolución de la búsqueda de homólogos a lo largo de las rondas o iteraciones También quisimos estudiar el comportamiento de BSI y PSI-BLAST a lo largo de las distintas iteraciones. Observamos que, en general, el método de BSI permite detectar las homologías lejanas más rápidamente que PSI-BLAST, es decir, en las primeras rondas. El patrón de aparición de falsos positivos con BSI es inverso ya que la proporción de éstos crecen en las rondas posteriores (tabla 3). PSI-BLAST muestra un comportamiento más constante, ya que la proporción de relaciones correctas e incorrectas en sus resultados se mantiene más o menos constante a lo largo de las rondas. El distinto comportamiento de ambos métodos en cuanto a la aparición de falsos positivos se explica por el modo como les afecta la aparición, en una ronda determinada, de una falsa homología: en el caso de BSI, éstos homólogos falsos provocan un efecto de arrastre que conduce a que en la siguientes rondas sean incluidos también las otras proteínas de su familia. Sin embargo, la presencia de algún homólogo falso en el perfil que genera PSI-BLAST puede que no tenga suficiente peso para que se produzca este arrastre, especialmente si en el perfil existe una amplia representación de homólogos verdaderos. RESULTADOS POR RONDAS tm - um - fm - total Método / ronda 1 2 3 4 (ó >4*) bsi-0.1 758-0-7-101.069 922-29-106-137.721 1.013-91-966-329.884 414-43-948-219.440 bsi-0.0001 751-0-7-100.304 770-20-22-105.762 517-30-47-76.072 77-1-8-13.086 psi-0.1 695-0-4-91.973 556-5-11-68.110 363-13-6-45.514 752-64-58-106.432 psi-0.005 610-0-3-82.340 529-2-7-63.237 358-13-4-44.816 768-56-54-107.456 Tabla 3. Evolución de la aparición de homólogos y parecidos al azar a lo largo de las distintas iteraciones. En cada celda se muestra, separado por '-', el número de homologías remotas detectadas (tm), de relaciones inciertas (um), de falsas homologías (fm) y el número total de parecidos detectados. (*)Dado que para PSI-BLAST se llevaron a cabo 20 rondas, en la última celda se muestran los resultados acumulados desde la 4ª ronda hasta la última. 1.3.- Los distintos métodos de búsqueda encuentran distintas relaciones, aunque hay un grado de coincidencia elevado. El siguiente aspecto que decidimos estudiar fue si las relaciones que detectaban ambos métodos, BSI y PSI-BLAST, eran o no coincidentes. En la figura 8 se muestra el grado de solapamiento en cuanto a las relaciones de homólogos verdaderos, inciertos y falsos homólogos. En el caso de las homologías verdaderas la coincidencia de ambos métodos es mayor (70-79% de las relaciones encontradas mediante BSI y PSI-BLAST, respectivamente) que en el caso de las relaciones inciertas e incorrectas. Es interesante que ambos métodos son capaces de detectar conjuntos de relaciones de homología independientes, es decir, tanto uno como otro aportan información adicional con respecto al otro: aunque PSI-BLAST es capaz de detectar, en total, 251 homologías lejanas más que BSI (2336 frente a 2115), BSI encuentra 454 relaciones que no logró identificar PSI-BLAST. En cuanto a las relaciones incorrectas (falsos homólogos), el grado de coincidencia de los dos métodos es menor (en torno al 33-31%). El hecho de que el solapamiento sea mayor para las homologías verdaderas constituye una señal que nos puede servir para aumentar la confianza en los resultados: es decir, si una relación es identificada por los dos métodos, entonces la confianza que tendremos de que refleje un origen evolutivo común será mayor. Además, hemos observado que, al menos en muchos de los casos en que ambos métodos encuentran una misma falsa homología, ésta tiene su origen en las características especiales del conjunto de prueba empleado, como discutiremos más adelante. Posiblemente, en una situación más natural, el solapamiento en el conjunto de relaciones incorrectas sería menor. 41 Figura 8. Grado de coincidencia en las relaciones detectadas mediante BSI y PSIBLAST. Del total de relaciones encontradas en cada categoría (correctas, inciertas e incorrectas) se representa cuánto solapan los conjuntos correspondientes a BSI y PSIBLAST. 1.4.- Algunos ejemplos Un ejemplo que sirve para ilustrar cómo se comportan PSI-BLAST y BSI es el de la superfamilia c.1.15 (según la nomenclatura de SCOP). Esta superfamilia es la correspondiente a la de las isomerasas de xilosa y otras proteínas relacionadas. En nuestro conjunto (SET_3624) hay 4 secuencias de estas superfamilia, las cuales están agrupadas en 3 familias distintas: 2 xilosa isomerasas (c.1.15.3), 1 ramnosa isomerasa (c.1.15.2) y una endonucleasa de tipo IV (c.1.15.1). Realizamos tres experimentos con cada método de búsqueda: uno por cada representante de cada familia. La comparación que se muestra a continuación se basó en los resultados de PSIBLAST con un umbral de 0.1 y de BSI con un umbral de 0.0001. Usando como semilla la secuencia d1d8wa_:c.1.15.2 (ramnosa isomerasa), las búsquedas de tipo BSI permitieron encontrar 43 proteínas, 3 de las cuales pertenecían a SCOP y eran homologías verdaderas. El agrupamiento de estas 43 proteínas reveló que se organizaban en varios grupos o subfamilias: la subfamilia de las isomerasas de ramnosa, dos subfamilias de isomerasas de xilosa y dos grupos de isomerasas poco caracterizadas, como se muestra en la figura 9 (b). Por su parte, en la primera ronda PSI-BLAST encontró los cuatro miembros de la familia de las ramnosa isomerasas, 42 a) b) ----------------------------------------------------------------Resultados por rondas ronda nº 1 2 3 4 5 nº de secuencias 1 4 3 14 21 ----------------------------------------------------------------43 secuencias => mapa del espacio de secuencias => agrupamiento ----------------------------------------------------------------Grupos resultantes: #1 (tamaño 3): probable isomerasa de azúcar #2 (tamaño 2): idem #3 (tamaño 27): isomerasa de xilosa (scop:d1a0ca_:c.1.15.3) #4 (tamaño 4): isomerasa de xilosa (scop:d1xis__:c.1.15.3) #5 (tamaño 5): isomerasa de L-ramnosa (scop:d1d8wa_:c.1.15.2)** [**: grupo que contiene la proteína semilla) ----------------------------------------------------------------Aparición de los grupos a lo largo de las rondas ronda nº 1 2 3 4 5 grupo 1 1 2,3 2,3,4,5 4,5 (las búsquedas no convergieron) ----------------------------------------------------------------Capacidad media entre grupos 1 2 3 4 5 1 118.000 51.393 0.000 2.460 2.334 2 51.393 68.100 2.680 4.215 2.850 3 0.000 2.680 68.914 13.531 0.000 4 2.460 4.215 13.531 68.898 0.000 5 2.334 2.850 0.000 0.000 143.900 ----------------------------------------------------------------Número de conexiones entre grupos 1 2 3 4 5 1 0 6 0 2 5 2 6 0 12 8 1 3 0 12 0 162 0 (scop: d1a0ca_:c.1.15.3) 4 2 8 162 d1xis__:c.1.15.3) 0 0 (scop: 5 5 1 0 0 0 isomerasas de xilosa ----------------------------------------------------------------- 3 4 5 isomerasas de L-ramnosa (scop: d1d8wa_:c.15.2) 1 2 probables isomerasas Figura 9. Ejemplo de superfamilia c.1.15. Tras las búsquedas BSI con d1d8wa_:c.1.15.2 (isomerasa de ramnosa) se aplicó el algoritmo de agrupamiento, que dio lugar a los resultados que se muestran. En la parte superior (a) se muestran algunos datos acerca de la evolución de la búsqueda a lo largo de las rondas o acerca de los grupos que resultaron y de cómo fueron apareciendo según las ronda. También se muestra en dos matrices el grado de conexión entre los distintos grupos. En la parte inferior de la figura (b) se representan esquemáticamente los resultados del agrupamiento. Cada círculo se corresponde con un círculo cuyo tamaño es proporcional al número de proteínas que alberga. En el interior de los círculos se muestra el identificador del grupo, para poder relacionarlos con la información que aparece en a. Las líneas que conectan los grupos tienen un grosor proporcional a la fuerza de sus conexiones. Se observa que existe una correcta separación de las distintas familias. Los dos grupos de isomerasas de xilosa son claramente distintos por lo que son separados: la capacidad media dentro de ambos grupos es de aproximadamente 68 (se corresponde con e-values alrededor de 1e-68), mientras que la capacidad media entre los dos grupos es sólo de 13.5. A pesar de tener una misma anotación funcional y de pertenecer a la misma familia de SCOP, esta separación concuerda con la conocida existencia de dos clases de isomerasas de xilosa (Hartley et al., 2000). Por su parte, PSI-BLAST converge enseguida porque en la primera ronda tan sólo son encontradas las cinco isomerasas de ramnosa, y el perfil generado con ellas resulta pobre porque contiene proteínas demasiado parecidas y que no son suficientemente cercanas a otra subfamilia. En el caso de las búsquedas de tipo BSI, se encuentran algunos parecidos entre estas proteínas y las del grupo 1, lo que permite, en posteriores rondas, alcanzar a las otras subfamilias. pero el perfil que construyó a partir de estos alineamientos no permitió detectar otras homologías. Estos resultados están ilustrados y ampliados en la figura 9 (a). Sin embargo, cuando ambos tipos de búsquedas se iniciaron usando como semilla un representante de otra familia, como el de las isomerasas de xilosa, el resultado fue bien distinto: PSI-BLAST logró encontrar las cuatro familias homólogas de SCOP, mientras que las BSI sólo identificaron la propia familia. El caso de 43 la familia de las endonucleasas es similar, ya que PSI-BLAST también resultó más efectivo. Las diferencias observadas usando distintas proteínas semilla se explican de distinta manera para los dos métodos. En el caso de PSI-BLAST, la capacidad de entontrar nuevas homologías depende de qué secuencias se usen para construir el perfil. Si este perfil no contiene suficiente información (léase información variada), es posible que no resulte efectivo. Por su parte, las búsquedas BSI ofrecen resultados diferentes cuando se usan distintas semillas porque dependen de alineamientos locales y de búsquedas con subsecuencias. Supongamos el siguiente escenario en el que tres proteínas (A, B y C) son homólogas: para que el alineamiento de A y B tenga una puntuación buena (con un e-value por debajo del umbral) éste ha de ser largo y cubrir las secuencias completas de A y B, pero el mejor alineamiento local entre B y C se confina a una zona pequeña de sus secuencias. En esta situación, iniciando la búsqueda con A, se encontrará B y buscando con la secuencia de B que ha alineado con A se podrá encontrar C. Sin embargo, si empezamos la búsqueda con C, se encontrará B, pero la búsqueda siguiente con la corta subsecuencia de B no permitirá encontrar a A. Otro ejemplo interesante es el de la proteína d1j9qa1:b.6.1.3, que es una nitrito reductasa, representante, en nuestro conjunto, de una familia de 17 miembros de proteínas reductasas que contienen cobre y que son multidominio. Esta familia y otras tres se agrupan en una superfamilia, la de las cupredoxinas, de 32 proteínas (32 en el conjunto SET_3624). Los métodos de PSIBLAST y BSI, utilizados con los mismos parámetros que en el ejemplo anterior, encontraron 14 y 9 homologías (del total de 32 posibles), respectivamente. Estos dos conjuntos solapan en seis elementos, es decir, PSI-BLAST encontró ocho que no detectó BSI; y BSI tres que no encontró PSI-BLAST. En total, incluyendo las otras proteínas que no pertenecen a SCOP, PSI-BLAST encontró 320 parecidos, y BSI 300. Las búsquedas BSI con umbrales más permisivos (e-value de 0.1) permitieron detectar hasta 21 homólogos de SCOP, pero la confianza de este método con tales umbrales es baja y requiere una inspección cuidadosa de los resultados. En cuanto a las falsas homologías, algunas se deben a parecidos que por azar existen entre proteínas sin un pasado común y que erróneamente son considerados como positivos por los métodos de búsqueda, aunque usualmente tienen e-values poco significativos. Sin embargo, otras falsas relaciones, como se ilustra a continuación, nacen de las particularidades del conjunto de prueba, en el cual, en lugar de utilizar proteínas completas se emplean sus dominios (tal y como están definidos en SCOP). En el caso de d1kapp2:d.92.1.6, tanto BSI (bsi-0.0001) como PSI-BLAST identifican erróneamente una relación con d1ck7a6:a.20.1.2. Aplicando el algoritmo de agrupamiento a los resultados de bsi-0.0001 apreciamos que este falso homólogo de la superfamilia a.20.1 queda en un grupo de tamaño 1 (queda aislado) y que este grupo esta muy fuertemente conectado a otro de la superfamilia d.92.1. La razón por la que estas superfamilias no homólogas aparecen tan fuertemente conectadas es que los dominios de ambas superfamilias aparecen juntos en proteínas de tipo metaloproteinasas de la matriz, y tras las búsquedas BSI (y también en el caso de PSI-BLAST) se produce una extensión de los alineamientos que provoca la inclusión de parte de la secuencia del dominio vecino, de forma que queda incluido en los resultados. Un examen superficial de los casos en que hay falsas homologías pero con conexiones fuertes sugiere que éstas tienen su origen en este tipo de artefactos, que en escenarios más reales, con proteínas completas, no se producirían. La poda de los extremos (ver la sección de Métodos) limita los efectos de este fenómeno pero no los elimina completamente. 1.5.- Coste computacional de los métodos de búsqueda y del algoritmo de agrupamiento. Las búsquedas BSI se realizaron utilizando una máquina BlastMachine de Paracel de 16 procesadores. Estas búsquedas tardaron 19 días en concluir. El algoritmo de agrupamiento suele tardar menos que las búsquedas BSI, pero como el tiempo de cálculo crece exponencialmente, con grafos de más de 1.400-1.500 nodos, tarda más que las propias búsquedas. Debido a esto, y a que el agrupamiento se realizó utilizando un solo procesador, el agrupamiento de los resultados de las BSI tardó casi un mes. Este algoritmo puede resolver un grafo de 1000 nodos en uno o unos pocos minutos (el tiempo es variable) mientras que puede tardar una o varias horas con un grafo que contenga 1.500 nodos. 44 2.- Evaluación de la capacidad del algoritmo de agrupamiento para identificar familias de proteínas. Los resultados de las búsquedas recursivas BSI, o los de otros métodos de comparación entre pares de secuencias, pueden representarse como un grafo. Las características del espacio de secuencias, de este modo, quedan reflejadas en dicha estructura de datos. Para interpretar estos grafos decidimos investigar algunos métodos de agrupamiento o clustering. En este apartado se examina la efectividad del mejor algoritmo que encontramos, el basado en el corte normalizado (Ncut). Los resultados de este trabajo inspiraron el método de anotación de función. Primeramente se muestra una comparación del análisis del espacio de secuencias circundante a la proteína ras-p21 humana con respecto a la base de datos PROTOMAP. Seguidamente, a partir de la aplicación de este algoritmo a cada uno de los genes de Mycoplasma genitalium, se expone una comparación sistemática con la base de datos COGs. Figura 10. Comparación de los resultados del agrupamiento de las búsquedas BSI usando la proteína rasH humana con PROTOMAP. En la parte izquierda de la figura se muestran los resultados del algoritmo de Ncut. Sólo se representan los grupos con más de tres secuencias, por lo que son obviados 18 grupos pequeños que en total contenían 21 proteínas. Los resultados originales pueden consultarse en: http://www.pdg.cnb.uam.es/fabascal/RAS/P01112.faa.Cft.ncut.html. En la parte derecha se comparan estos resultados con la representación en forma de árbol de los grupos según la base de datos PROTOMAP. El agrupamiento que realiza PROTOMAP es jerárquico y en él se van aglomerando pequeños grupos para dar lugar a otros mayores a medida que se relaja el umbral. En el nivel correspondiente al umbral más permisivo (umbral de 1), la proteína rash_human forma un grupo conjuntamente con los otros miembros de la familia ras (ran, rab, rho...); en este mismo nivel, las proteínas ARF, SAR y Galpha se encuentran juntas en un grupo vecino que contiene 177 proteínas. En la figura se muestra el árbol de cómo se ha ido formando el grupo de ras. (Las diferencias en los tamaños de los grupos son el reflejo de que se han usado distintas versiones de Swiss-Prot (la versión que usamos nosotros contenía 97.586 secuencias, mientras que la de PROTOMAP, la versión 35, sólo 72.623). 45 2.1.- Agrupamiento alrededor de la proteína humana ras-p21 en un espacio de secuencias altamente poblado Este experimento se realizó usando la proteína swiss:RASH_HUMAN como semilla de una búsqueda BSI de cuatro rondas, con un umbral de e-value de 1e-07 y en la base de datos SwissProt. Seguidamente se efectuó el agrupamiento. Los grupos resultantes fueron comparados con los de PROTOMAP (Yona et al., 1999), el cual, a distintos niveles jerárquicos, ofrece una descripción automática de la organización de las proteínas en familias y subfamilias. En la figura 10 se ilustra esta comparación. El algoritmo identificó satisfactoriamente las subfamilias ras/ral, ran, gem/rad, rab, rab7, rac/rho, ran, arf, sar y G-alfa. La relación de la subfamilia ras con rab, rab7 y ran es fuerte, mientras que con rho es más débil. Estos resultados coinciden con lo que sabemos acerca de esta familia (Ranea & Valencia, 1998). También se observa bastante concordancia con la clasificación de PROTOMAP: al nivel 1e-00, en esta base de datos se observan dos grupos, uno con ras y las subfamilias cercanas y otro con arf, sar y las G-alfa. A medida que el nivel se hace más restrictivo en PROTOMAP, se observa que el grupo de las proteínas Ras y parientes cercanos se divide: primero se separan las rho/rac (aunque no todas); posteriormente, se separan las rab (aunque tampoco todas). Algunos resultados del algoritmo de agrupamiento basado en el corte normalizado son destacables, como el hecho de que no sólo separa correctamente todas las subfamilias sino que es capaz de identificar satisfactoriamente la diferencia existente entre las proteínas rab7 y las otras rab, clasificándolas en dos grupos diferentes. 2.2.- Los genes de Mycoplasma genitalium en el espacio de secuencias conformado por los 21 genomas completos de la base de datos COGs En la base de datos de COGs (Tatusov et al., 1997), al igual que en nuestro caso, se trata de identificar grupos de ortólogos o subfamilias. El método que emplean es semi-automático, es decir, los resultados son supervisados por expertos. Estos dos aspectos de COGs son los que nos impulsaron a utilizar esta clasificación como marco de comparación y evaluación del método de agrupamiento. A diferencia de COGs, donde se clasifican todos los genes de varios genomas, nosotros aplicamos el método al espacio de secuencias próximo a cada uno de los genes de Mycoplasma genitalium. Por tanto, para la comparación, sólo se tuvieron en cuenta aquellos grupos de COGs que contenían algún gen de este organismo. Para obtener los mapas del espacio de secuencias colindante con cada uno de los 468 genes de Mycoplasma genitalium (MG) utilizamos los resultados de BLAST que están disponibles en la propia base de datos de COGs. A partir de estos BLAST se simuló, para cada gen, una BSI de tres rondas, con un umbral de e-value de 1e-05. Posteriormente aplicamos el algoritmo de agrupamiento a cada uno de estos 468 mapas, en un caso con el umbral X2 y en otro con el X4. Es decir, requiriendo que, para que continuase el agrupamiento, la capacidad media dentro de los subgrafos fuese doble (X2) o cuádruple (X4) con respecto a la capacidad media entre éstos. Para comprender mejor los resultados del agrupamiento, que produjo grupos de pequeño tamaño, intentamos reconstruir los grupos de ortólogos mediante diversas estrategias que generaron las series de resultados: X2 join6, X4 join6, X2 S_one, X4 S_one, y X2 S_var y X4 S_var. Para evaluar la efectividad del método, analizamos diversas características de los resultados, como por ejemplo cuáles eran los tamaños de los grupos que contenían los genes de MG tras el agrupamiento. Esta distribución de tamaños se comparó en las distintas series de resultados y con respecto a COGs. Asimismo, determinamos si el contenido de los grupos era coherente y coincidente comparado con el de los grupos de COGs. 2.2.1.- Distribución de los tamaños de los grupos de los genes de MG La observación de los tamaños de los 468 grupos que contienen cada uno de los genes de MG ofrece los primeros indicios de la eficiencia del método. Por ejemplo, si esperamos que en cada grupo de ortólogos haya un representante de cada genoma, entonces, el tamaño de 21 debería ser el que observemos más frecuentemente. 46 Figura 11. Distribución de los tamaños de los grupos obtenidos para cada uno de los genes de Mycoplasma genitalium. El eje Y indica el número de ocurrencias; el X los tamaños de los grupos. Se muestran las distribuciones de tamaños para las series X2/X4 simple (a y b), X2/X4 join6 (c y d), X2/X4 S_var (e y f) y la distribución de COGs (g; en este caso sólo se representan los grupos que contienen más de tres linajes). a) Series X2 y X4 simple: en las gráficas a y b de la figura 11 se puede apreciar que el algoritmo de agrupamiento aplicado a este conjunto generó grupos de pequeño tamaño. Observamos dos tamaños especialmente frecuentes: aquéllos con dos o tres genes y aquéllos con 16 ó 17. El análisis de los grupos con dos o tres genes reveló que la mayoría se correspondían con grupos en los que quedaban aislados los genes de MG y MP (Mycoplasma pneumoniae). Los grupos vecinos de éstos solían contener los ortólogos de las otras bacterias, pero el algoritmo los separaba. Por ejemplo, el grupo MG092 contenía dos proteínas ribosomales S18 provenientes de MG y MP. Había dos grupos vecinos a éste: uno de ellos contenía el ortólogo de R. prowazekii, mientras que el otro contenía los ortólogos de las otras trece bacterias, más un in-paralog (o duplicación reciente) de M. tuberculosis. El ortólogo de S. cerevisiae no aparecía en los resultados porque ha divergido notablemente (e-value de 0.0004, el cual estaba por encima de nuestro umbral). Este caso ilustra el hecho de que gran parte de los grupos de este tamaño aparecieron porque MG y MP son muy parecidas entre sí, y, al no haber una amplia representación filogenética, el algoritmo interpreta que constituyen un grupo diferenciado del 47 resto. Por otra parte, algunos de los grupos con dos o tres genes eran reflejo de la existencia de genes específicos del género mycoplasma. Por ejemplo, el gen MG241 quedaba agrupado con el ortólogo de MP y sólo había un grupo vecino a éste, también específico de mycoplasma. El caso de los tamaños 16-17 es análogo. La mayoría de estos grupos contenían los ortólogos de las 16 bacterias presentes en el estudio, bien porque se tratara de genes específicos de ellas o bien porque los ortólogos de arqueas y de eucariotas quedaban separados en grupos vecinos. Por ejemplo, el grupo MG073, en la serie X4 simple, contenía 18 genes correspondientes a la subunidad B de las excinucleasas ABC, no existiendo ortólogos ni en arqueas ni en eucariotas, a excepción de un gen de M. thermoautotrophicum, el cual, posiblemente haya sido adquirido por transferencia horizontal de genes. En la serie X2 simple se obtuvieron 40 grupos con 16-17 genes; de éstos, 29 (72.5%) no contenían ninguna duplicación, es decir, en el grupo había un representante por cada genoma; si contabilizamos los grupos que contenían un máximo de tres duplicaciones, entonces observamos 37 grupos (92.5%). La situación en la serie X4 simple era similar: 56 grupos con 16-17 genes, de los cuales 44 (78.6%) no contenían ni una duplicación, mientras que 51 (91.1%) contenían tres o menos. Esto indica que estos grupos se componían básicamente de una secuencia por cada uno de los genomas bacterianos, y por tanto, el tamaño de los grupos puede indicar, a grosso modo, si se ha reconstruido un grupo de ortólogos o no. En los resultados observamos un número pequeño de grupos con más de 21 genes. La mayoría de éstos se correspondían con mezclas incorrectas de grupos de ortólogos. Por ejemplo, el grupo MG345 contenía 43 secuencias de sintetasas de isoleucil- y valil-ARNt, que son dos grupos de ortólogos muy cercanos evolutivamente y por tanto difíciles de separar. También se observaron 11 grandes grupos de 458 genes: se trataba de los transportadores de tipo ABC, que constituyen un caso especialmente difícil. (Nota aclarativa: se observaron 11 ocurrencias, una por cada gen de MG, pero en realidad era el mismo conjunto de genes) Para explorar las posibles implicaciones que, sobre los tamaños de los grupos, podía tener un 'sesgo filogenético', realizamos diversas reconstrucciones a partir de la información de las distancias existentes entre los grupos tras aplicar el algoritmo de corte normalizado. b) Series X2 y X4 join6: en las gráficas c y d de la figura 11 se muestra el resultado que sobre la distribución de tamaños tuvo la unión del grupo más cercano, siempre y cuando la capacidad media fuese superior a 6, a cada grupo MG. Pudimos observar que, así como se producía un lógico aumento en los tamaños, la calidad de éstos también cambiaba. En el caso del grupo MG431, con isomerasas de triosas-fosfato, la aplicación de join6 resultó en la unión del grupo original (que contenía 15 genes de bacterias y un gen de S. cerevisiae) con un grupo con los cuatro ortólogos de arqueas. La capacidad media entre ambos grupos era de 6.3, justo por encima del umbral. En el caso del grupo MG429, éste contenía 11 kinasas de fosfoenolpiruvato y fue unido a un grupo que contenía 13 sintetasas de fosfoenolpiruvato. La capacidad media de las conexiones entre estos dos grupos era muy alta (23.2), pero en este caso ambos grupos constituían conjuntos de ortólogos independientes, es decir, eran grupos parálogos y su unión no resultaba pertinente. Estos dos casos ilustran el hecho de que no existe un umbral fijo que pueda definir los límites de las distintas familias, sino que cada una tiene unas características particulares. c) Series S_var y S_one (X2 y X4): el procedimiento S_var implica una agregación incremental de grupos vecinos según el algoritmo descrito en la sección de Métodos, atendiendo a la representación filogenética resultante para detener el proceso. El ejemplo de MG283 puede aclarar su funcionamiento (figura 12). Inicialmente el gen MG283 formaba un grupo con la otra sintetasa de prolín-ARNt de MP. El grupo más cercano, curiosamente, contenía estos seis genes: los cuatro ortólogos de arqueas, el del eucariota S. cerevisiae y el de la bacteria B. burgdorferi. La unión de ambos grupos fue aceptada porque conllevaba una disminución de la entropía relativa. El siguiente grupo más cercano contenía los 13 ortólogos bacterianos restantes más otra versión del gen de S. cerevisiae; este grupo también fue unido. El proceso se detuvo, satisfactoriamente, cuando se intentó unir el siguiente grupo vecino, que contenía 19 sintetasas de treonín-ARNt. El 48 método de agrupamiento puso de manifiesto algunas características intrigantes de esta familia: 1) hay dos versiones del gen eucariota, la primera más cercana a arqueas, la segunda más cercana a bacterias; y 2) tanto los ortólogos del género bacteriano de micoplasma como el ortólogo de B. burgdorferi están más cercanos evolutivamente a los ortólogos de las arqueas que a los de las otras bacterias. Otro ejemplo interesante es el de la reconstrucción alrededor de la proteína ribosomal S2 (MG070). Inicialmente, el gen de MG quedó aislado junto al de MP. Durante la reconstrucción primero fue unido a un grupo vecino que contenía los otros 14 ortólogos bacterianos. Seguidamente se unió un grupo que contenía el ortólogo de levadura. Posteriormente se agregó el grupo con los 4 representantes de arqueas. Y, finalmente, se añadió otro grupo que contenía dos copias extra (in-paralogs) del ortólogo de S. cerevisiae (según el modelo de S_one, esta última unión habría sido rechazada). Estas dos copias han divergido bastante del ortólogo original, por lo que a lo mejor desempeñan funciones distintas. El COG correspondiente a este gen de MG contenía las mismas 23 secuencias. Figura 12. Representación libre de los resultados del algoritmo de agrupamiento para el gen MG283 y la reconstrucción basada en el procedimiento S_var. La representación de grupos y sus conexiones es similar a la descrita en la figura 9. La elipse negra punteada indica el conjunto de grupos que se unieron, mientras que la elipse de color gris indica cuál fue la última agregación rechazada. En la parte inferior se indica cómo se produjo la reconstrucción y cómo afectó ésta al número de genes y genomas, así como a la entropía relativa. La distribución de tamaños mejoró sensiblemente en estas series de resultados (gráficas g y h de la figura 11), ya que la frecuencia de los tamaños 16-17 y 20-21 (y 22-23) aumentó de forma notable. Estos tamaños se corresponden con conjuntos de ortólogos provenientes del filo de las bacterias o de todas las especies, respectivamente. El estudio de la representación filogenética en los grupos permitió que los dos casos descritos para la serie join6 fuesen resueltos con éxito: en el caso de MG431 se completó satisfactoriamente el conjunto de ortólogos mientras que en el caso de MG429 se evitó la inclusión de secuencias parálogas. De los 53 grupos con 16 ó 17 secuencias obtenidos en X2 S_var, 33 grupos (62.3%) no contenían ninguna duplicación, y 49 (92.5%) contenían tres o menos. En el rango de tamaños de 20 a 23, había 72 grupos, 57 de los cuales (79.2%) contenían tres o menos duplicaciones. Por tanto, los grupos estaban formados principalmente por un ortólogo por cada una de las especies, 49 Figura 13. Comparación de los dos modelos de distribución esperada de ortólogos (modelos S_var y S_one). El modelo S_var asume que la contribución de ortólogos (e inparalogs) por cada genoma será proporcional al tamaño del genoma. El modelo S_one asume que cada genoma contribuirá igualmente, independientemente de su tamaño. La representación es equivalente a la de la figura 11. En gris claro se muestran los resultados de S_one; en oscuro los de S_var. incluyendo pocas duplicaciones, lo cual indica que estas duplicaciones se correspondían con inparalogs en lugar de out-paralogs (parálogos que pertenecen a distintas familias de proteínas). Observamos que, curiosamente, los tamaños 22-23 eran más frecuentes que los tamaños 20-21, por lo que decidimos estudiar su origen. De los 42 grupos de tamaño 22-23 que contenían pocas duplicaciones (había 53 grupos con este tamaño), la mayoría de ellos contenían duplicaciones o in-paralogs de levadura (36 de 42; 86%), siendo mucho menor este porcentaje para el inmediato perseguidor, B. subtilis, con el 19%. Es interesante comprobar que el número de duplicaciones no tiene una relación clara con el número de genes del organismo, ya que ambos organismos, levadura y B. subtilis, tienen proteomas de tamaño no muy distinto: 5.932 y 4.122 secuencias, respectivamente. Parece que esta característica está más relacionada con la historia evolutiva de los organismos ya que existen evidencias acerca de una duplicación ancestral del genoma de levadura (Wolfe & Shields, 1997). El nivel de redundancia (cantidad de in-paralogs) que mostraban estos grupos de ortólogos 50 parecía más próximo al esperado en el modelo S_one que al de S_var, ya que el primero supone que en un grupo de ortólogos habrá un representante por cada genoma, mientras que el segundo espera que la cantidad de representantes sea proporcional al tamaño del genoma. Sin embargo, como muestra la comparación de tamaños de la figura 13, los mejores resultados se obtienen con el modelo S_var. La razón es que S_one incorpora in-paralogs de forma menos eficiente, quedando atrapado más fácilmente en mínimos locales de entropía relativa. Es por esto que, comparado con S_var, con S_one fueron más frecuentes los tamaños 16-17 que los del rango 2023. 2.2.2.- Comparación con COGs El estudio de la distribución de tamaños de los grupos tan sólo constituye una perspectiva parcial acerca del éxito del método, por lo que decidimos complementar esta visión realizando una comparación con la base de datos COGs. Primero comparamos las distribuciones de tamaños en COGs y en nuestros resultados. Seguidamente analizamos si los grupos que obtuvimos contenían los mismos genes que los de COGs. a) comparación de los tamaños de los grupos: Para este análisis sólo se tuvieron en cuenta los COGs que contenían algún gen de MG. Como se puede apreciar en la gráfica g de la figura 11 COGs presentó dos poblaciones de tamaños de grupos que eran claramente más frecuentes, y se trataba de las correspondientes con los tamaños 16-17 y 22-23. En el primero de estos rangos encontramos 62 grupos, 40 de los cuales no contenían ninguna duplicación (65%), mientras que 50 (81%) contenían tres o menos. Observamos 87 grupos con un número de secuencias entre 20 y 23, de los cuales 10 no tenían ninguna duplicación (11%) y 67 (77%) tenían tres o menos. Tanto la distribución de tamaños como la redundancia interna observada en los grupos resultaban muy similares a las obtenidas con el procedimiento S_var (ver figura 14). Figura 14. Comparación de la distribución de tamaños para X4 S_var y COGs. La representación es similar a la de la figura 11. En gris claro: S_var; en oscuro: COGs. b) comparación del contenido de los grupos: Quizás la perspectiva más relevante para conocer la eficiencia del método es la de comparar el contenido de los grupos. Para esta comparación se tuvieron en cuenta las series simple y S_var con respecto a los grupos de COGs. Los grupos que generó el algoritmo Ncut a partir del espacio de secuencias, es decir, los grupos de la serie simple, fueron más pequeños que los COGs correspondientes, debido a la ya mencionada sensibilidad del algoritmo frente a las irregularidades del espacio de secuencias, provocadas 51 éstas por una desigual representación filogenética. A pesar de esta tendencia, también existieron coincidencias con respecto a COGs. Esta información queda reflejada en la figura 15 como una acumulación de puntos en la diagonal, o bajo ella. En la gráfica también se puede apreciar que los grupos con 16 ó 17 genes, que eran los más frecuentes en X4 simple, se correspondían principalmente con grupos de 23 genes en COGs; esto era así porque el algoritmo Ncut tendía a separar el conjunto de ortólogos de bacterias del resto. Por otra parte, los resultados de X4 S_var eran muy similares a los de COGs, como se puede apreciar por la concentración de puntos en la diagonal de la gráfica, siendo especialmente notable la coincidencia en los tamaños 16 y 17 y 2223. En cuanto al contenido de los grupos en X4 S_var y en COGs, había 350 grupos comparables (aquéllos que contenían genes procedentes de al menos tres linajes distintos), de los cuales 298 (85%) eran coherentes (definido en la sección de Métodos) y 159 (53%) coincidentes. La acumulación de puntos bajo las diagonales indica que los grupos de COGs suelen ser mayores que los de X4 simple y X4 S_var. Ya se ha discutido el origen de estos hechos para el caso de X4 simple. En el de X4 S_var las explicaciones posibles son que el proceso de reconstrucción quede atrapado en un mínimo local de entropía relativa, o que la distribución esperada no coincida con la real. En algunos casos los grupos que obtuvimos contenían más secuencias que los COGs correspondientes. En el caso de X4 simple esto sucedió en 8 ocasiones, mientras que en X4 S_var en 48. En la mayor parte de estos grupos, la diferencia de tamaño era de más de 15 secuencias, como se puede apreciar en la gráfica b de la figura 15. La mayoría de estas diferencias estaban relacionadas con transportadores de tipo ABC y con casos en que dos o más grupos de ortólogos habían quedado unidos, especialmente en el caso de X4 S_var. La comparación de los resultados de X2 simple y COGs reveló que, de 150 grupos comparables, había 11 casos (7.3%) en los que la composición de los grupos era diferente, es decir, no era coherente (o solapante). Este porcentaje de desacuerdo con COGs crecía hasta el 7.5% para X2 join6 (25 de 332 casos) y hasta el 12.5% (43 de 344 casos) para X2 S_var. En cuanto a las discrepancias (por incoherencia) entre X2 simple y COGs, 9 de ellas se correspondían con transportadores ABC y las otras dos con los casos de MG258 y MG457 que se discuten a continuación. El grupo de MG258 se originó a partir de la proteína “factor A de liberación de la cadena” de M. genitalium, y contenía 32 secuencias, tanto de factores A como de factores B, es decir contenía dos subfamilias de proteínas que no habían sido separadas. Por su parte, COGs distinguía entre estas subfamilias agrupándolas en el COG0216 (20 factores A, de los cuales 18 están presentes en el grupo de Ncut) y en el COG118 (14 factores B). La incoherencia surgía porque Ncut separó dos factores A del resto de factores A, antes que separar los factores B de los A. Curiosamente, los dos factores A que estaban ausentes en el grupo MG258 corresponden a segundas copias de los ortólogos de levadura y de E. coli (los genes YLR281c y yaeJ). Estas secuencias no fueron incorporadas en el grupo porque eran bastante divergentes, como se puede apreciar en el árbol filogenético de la figura 16. Por tanto, el algoritmo Ncut identificó satisfactoriamente esta divergencia, que indica que quizás esas dos secuencias no sean factores A, y por tanto no deberían estar en el COG0216, a pesar de que no supo separar dos subfamilias distintas. a) 23,23 17,17 16,16 23,17 23,16 52 X4 S_var X4 simple 13,13 17,17 16,16 11,11 22,22 a) 23,23 17,17 16,16 17,17 16,16 23,17 X4 S_var X4 simple 13,13 23,16 22,22 11,11 Figura 15. Comparación del contenido de los grupos de Ncut y de S_var en relación al de los correspondientes COGs. En a se muestra la relación entre los tamaños del los grupos de COGs y de (Ncut) simple/S_var para los grupos coherentes. El tamaño de los puntos es proporcional al número de ocurrencias: por ejemplo, un punto gordo en las coordenadas (23,23) refleja que para muchos genes de MG han resultado grupos de tamaño 23 con ambos métodos. En b se muestra otra visión de lo mismo, a partir de la proyección de las diagonales de a. El eje X representa la diferencia de tamaño entre los grupos coherentes, y el eje Y el número de ocurrencias. En el recuadro se indica el número de grupos coherentes (Coh) y coincidentes (Idt) (recordemos que coherentes son aquéllos en los que un grupo es subconjunto del otro y coincidentes son aquéllos que siendo coherentes contienen las mismas secuencias (+/-1 secuencia). También se indica el número de grupos no coherentes (noC) y el número de grupos comparables (Tot, que equivale a Coh + noC). C!N es el número de casos en que COGs, pero no Ncut, consigue agrupar al gen de MG en un grupo que contiene al menos tres linajes. N!C es lo mismo, salvo que indica el número de veces que Ncut asignó un gen a un grupo y no lo hizo COGs. La otra incoherencia, la observada al comparar el grupo MG457 con COGs ilustra el caso en que la supervisión por parte de expertos permite resolver algunas situaciones problemáticas. El gen MG457 de M. genitalium, anotado como proteína ftsH, se correspondía con el COG0465, el cual contiene 27 secuencias anotadas como Zinc-proteasas dependientes de ATP. El grupo MG457 contenía 61 secuencias: 26 correspondientes al COG0465 y el resto a diversos COGs (COG0464, COG1222 y COG1223). Aparte del error que implica agrupar juntos distintos grupos de ortólogos, el error de incoherencia surge por la falta del gen HI1465 de H. influenzae, aquél que está en el COG0465 pero no en nuestro grupo. Este gen pertenece al grupo de ortólogos pero no fue incluido porque carece de un fragmento largo del extremo N-terminal, lo que provoca que la 53 similitud de secuencia con respecto a sus ortólogos decrezca sensiblemente. Esta particularidad está correctamente contemplada en COGs. Figura 16. Árbol filogenético de las secuencias de los grupos COG1186 y COG0216: el caso de MG258. Se muestra el árbol filogenético de estos dos COGs. La barra azul representa aquellos genes que pertenecen al COG1186. La roja a aquéllos del COG0216. Dentro del recuadro rojo se encuentran los genes que no fueron incluidos en el grupo de Ncut, mientras que en el azul están los genes que si lo fueron. El árbol fue creado con ClustalW aplicando 1000 ciclos de bootstrap y teniendo en cuenta las posiciones con huecos (gaps). El grupo MG120 sirve de ejemplo de discrepancia, aunque existe coherencia, entre los resultados de COGs y los del método de reconstrucción de S_var (ver figura 17). MG120 y MG121 están anotados como 'componentes permeasa no caracterizados de transportadores de tipo ABC' y pertenecen al COG1079, el cual contiene 21 genes. En los resultados de X2 simple para el gen MG120, los genes de MG y MP formaban un grupo aislado de los otros ortólogos dado que la distancia relativa con respecto a éstos era grande. En la reconstrucción de S_var, este grupo fue unido a un grupo con 6 genes que contenía los ortólogos de K, V, B, O, L y A. El siguiente grupo candidato a la unión contenía un solo gen y no fue unido porque esto habría conducido a un aumento de la entropía relativa. El COG correspondiente es más grande e incluso contiene 54 secuencias que no aparecían en las búsquedas BSI; posiblemente en dicho COG hay dos grupos de ortólogos que deberían ser separados. Figura 17. Comparación de los resultados obtenidos para el gen MG120 y los del grupo de COGs correspondiente. Los resultados del agrupamiento X2 simple se muestran mediante círculos que representan los distintos grupos, letras que indican los genomas representados en cada grupo y líneas que ilustran las conexiones entre los distintos grupos (el grosor de las líneas representa la fuerza de las conexiones). La línea de puntos indica la separación entre grupos de ortólogos más probable. 3.- Anotación automática de la función de las proteínas. Ejemplos ilustrativos y aplicación al análisis del genoma de Buchnera aphidicola En este apartado mostramos algunos ejemplos que ilustran cómo es el proceso de anotación automática de función a partir de los resultados de las búsquedas BSI y del algoritmo de agrupamiento (Abascal & Valencia, 2003). Para cada uno de los ejemplos se utilizaron distintos parámetros (número de rondas y umbral de e-value) para obtener representaciones más sencillas (más fáciles de exponer) acerca de las familias de proteínas implicadas, ya que cada familia tiene distintos tamaños y está compuesta por distintos números de subfamilias, con diferentes grados de divergencia. Posteriormente exponemos la aplicación de este método a la anotación del genoma de Buchnera aphidicola (Baizongia pistaciae) (van Ham et al., 2003) y analizamos los errores revelados tras la inspección de los resultados. 3.1.- Ejemplos ilustrativos: TETM_NEIME y PDXK_SHEEP 3.1.1.- TETM_NEIME: la proteína que confiere resistencia a la tetraciclina en Neisseria meningitidis (anotación original: 'tetracycline resistance protein tetM (Tet(M))') La búsqueda BSI se realizó utilizando la base de datos nrdb90, iterando 3 veces y con un umbral de e-value de 1e-07. Los resultados del BLAST de la primera ronda se muestran en la figura 18. En la figura se puede apreciar que las proteínas de la propia subfamilia de TETM_NEIME son las que obtienen una mejor puntuación, quedando al principio de la lista. Sin embargo, el límite de la subfamilia no sería claro si atendiésemos a las puntuaciones, ya que las de las proteínas de la siguiente subfamilia, la de los factores de elongación de tipo G, no son muy distintas. El agrupamiento de los resultados de las búsquedas BSI permitió separar ambos grupos y también otras subfamilias cercanas (tabla 4). 55 Score (bits) Sequences producing significant alignments: TET1_ENTFA (Q47810) Tetracycline resistance protein tetM from tr... TETS_LACLA (Q48712) Tetracycline resistance protein tetS (Tet(S)). TETO_CAMCO (P23835) Tetracycline resistance protein tetO (Tet(O)). TETW_BUTFI (O52836) Tetracycline resistance protein tetW (Tet(W)). Q93K56 (Q93K56) Tetracycline resistance protein. Q9RLW0 (Q9RLW0) TetT. P70882 (P70882) TETA(Q)3 PROTEIN. TETP_CLOPE (Q46306) Tetracycline resistance protein tetP (Tetb(P)). Q97J38 (Q97J38) Tetracycline resistance protein, tetQ family, GT... TETM_STRLI (Q02652) Tetracycline resistance protein tetM. AAK87139 (AAK87139) AGR_C_2489p. OTRA_STRRM (Q55002) Oxytetracycline resistance protein. Q97KR3 (Q97KR3) Tetracycline resistance protein tetP, contain GT... Q8XLR6 (Q8XLR6) Probable tetracycline resistant protein. EFG_THETH (P13551) Elongation factor G (EF-G). Q9AIG7 (Q9AIG7) Elongation factor G. EFG_AQUAE (O66428) Elongation factor G (EF-G). EFG_THEMA (P38525) Elongation factor G (EF-G). Q8YP62 (Q8YP62) Translation elongation factor EF-G. Q9PI16 (Q9PI16) Elongation factor G. EFG_CHLMU (Q9PJV6) Elongation factor G (EF-G). BAB56709 (BAB56709) Translational elongation factor G. Q9F4B2 (Q9F4B2) Translation elongation factor G, EF-G (Fragment). EFG_SYNP6 (P18667) Elongation factor G (EF-G). Q9RXK5 (Q9RXK5) ELONGATION FACTOR G. 1225 981 979 885 858 558 501 437 426 326 317 308 263 257 256 251 251 247 243 242 241 240 239 239 238 E Value 0.0 0.0 0.0 0.0 0.0 e-158 e-141 e-122 e-118 3e-88 2e-85 7e-83 2e-69 1e-67 2e-67 1e-65 1e-65 2e-64 3e-63 6e-63 1e-62 2e-62 3e-62 3e-62 8e-62 Figura 18. Resultado de BLAST para la proteína swiss:TETM_NEIME. Se puede apreciar que los e-value de BLAST ordenan de forma apropiada las secuencias de las subfamilias de los EF-G y de tet. Aunque atendiendo a la magnitud de los e-value no existe una clara separación entre estas subfamilias, el algoritmo de agrupamiento es capaz de distinguirlas, pero separando también dos tet bastante divergentes de su subfamilia. Las tres intensidades de gris se corresponden con los tres grupos obtenidos tras el agrupamiento. La asunción de que las proteínas que han sido agrupadas junto a la original realizan una misma función, permite analizar sus anotaciones en conjunto y seleccionar aquélla que es más representativa de las demás. La anotación resultante fue 'TETRACYCLINE RESISTANCE PROTEIN TETS (TET(S))' en lugar de TETM. Este es un caso especialmente problemático porque, aunque todas estas proteínas pertenecen a la misma subfamilia y tienen la misma función básica, en su descripción se especifica el tipo de determinante de resistencia a la tetraciclina. Las anotaciones encontradas en la base de datos, o bien la propia nomenclatura de los distintos determinantes, parece que son inconsistentes, o en todo caso que la especificidad no tiene un reflejo en la historia evolutiva. Por ejemplo, el porcentaje de identidad de secuencia entre algunos Tet(M) y Tet (lo-que-sea) es mucho mayor que entre dos Tet(M): en el caso del alineamiento de TETM_NEIME y TETS_LACLA el porcentaje es del 77%, mientras que en el de TETM_NEIME y TETM_STRLI es sólo del 35%. En la figura 19 se muestra un árbol filogenético de esta subfamilia, incluyendo algunas proteínas de la subfamilia más próxima, la de los EF-G. 56 Id. del grupo Tamaño #2 59 Translation initiation factor IF-2 #3 50 GTP-binding protein lepA #4 35 GTP-binding protein TypA/BipA #5 74 Elongation factor 2 (EF-2) #10 80 Elongation factor G (EF-G) #13 13 Tetracycline resistance protein tet[W M S R ...] #14 24 Peptide chain release factor 3 (RF-3) (bacteria) 248 Elongation factor 1-alpha plus 18 Eukaryotic peptide chain release factor 3 25 NodQ bifunctional enzyme and CysN/cysC bifunctional enzyme #18 11 Selenocysteine-specific elongation factor #21 117 Elongation factor Tu (EF-Tu) #15 #17 Subfamilia Tabla 4. Las subfamilias encontradas tras las BSI de la proteína swiss:TETM_NEIME y el subsiguiente agrupamiento de los resultados, el cual generó 21 grupos, de los cuales se representan en la tabla aquéllos que contenían más de dos secuencias. Nota: algunas subfamilias pueden estar incompletas porque las búsquedas fueron limitadas a un máximo de 750 secuencias. Además, el tamaño de las subfamilias es menor del real porque se empleo una base de datos no-redundante al 90%. Las palabras clave ('keywords') que las proteínas de esta subfamilia tenían asignadas eran: Q02652 Protein biosynthesis; Antibiotic resistance; GTP-binding. Q93K56 GTP-binding. Q46306 Protein biosynthesis; Antibiotic resistance; GTP-binding. Q51238 Protein biosynthesis; Antibiotic resistance; GTP-binding; Plasmid. Q47810 Protein biosynthesis; Antibiotic resistance; GTP-binding; Transposable element. P23835 Protein biosynthesis; Antibiotic resistance; GTP-binding. Q97J38 Complete proteome. O52836 Protein biosynthesis; Antibiotic resistance; GTP-binding. Q48712 Protein biosynthesis; Antibiotic resistance; GTP-binding; Plasmid. P70882 GTP-binding. Q55002 Protein biosynthesis; Antibiotic resistance; GTP-binding. Q9RLW0 GTP-binding. De las cuales se seleccionaron para la anotación automática: GTP-binding, Protein biosynthesis y Antibiotic resistance, descartándose: Plasmid, Transposable element y Complete proteome, por no estar suficientemente conectadas a las anteriores. Los grupos vecinos a éste fueron anotados así: ID:10; ID:14; ID:4; ID:3; ID:5; ID:21; ID:2; ID:15; ID:17; SIZE:80; PROXIMITY:46.95 SIZE:24; PROXIMITY:26.95 SIZE:35; PROXIMITY:20.42 SIZE:50; PROXIMITY:16.25 SIZE:74; PROXIMITY:13.45 SIZE:117; PROXIMITY:10.51 SIZE:59; PROXIMITY:6.13 SIZE:248; PROXIMITY:3.07 SIZE:25; PROXIMITY:1.96 ID:18; SIZE:11; PROXIMITY:1.87 ELONGATION FACTOR G EF PEPTIDE CHAIN RELEASE FACTOR 3 GTP BINDING PROTEIN TYPA GTP BINDING PROTEIN LEPA ELONGATION FACTOR 2 ELONGATION FACTOR TU EF TRANSLATION INITIATION FACTOR IF 2 ELONGATION FACTOR 1 ALPHA SULFATE ADENYLYLTRANSFERASE SUBUNIT 1 EC 2.7.7.4 ADENYLATE TRANSFERASE SAT ATP SULFURYLASE LARGE SELENOCYSTEINE SPECIFIC ELONGATION FACTOR SELB TRANSLATION 57 De esta forma es fácil ver con qué subfamilias están emparentados estos factores de resistencia a tetraciclina y cuáles son más próximas evolutivamente. La cercanía con la subfamilia de los factores de elongación de tipo EF-G también revela aspectos de la función de la proteína problema. Estas anotaciones automáticas no son de buena calidad por dos razones: 1) el método para construir la anotación no tiene en cuenta los signos de puntuación (guiones, puntos, paréntesis, etc.) y 2) si una palabra aparece dos veces en una misma descripción sólo se tiene en cuenta la primera ocurrencia. Es por esto que la descripción SELENOCYSTEINE SPECIFIC ELONGATION FACTOR SELB TRANSLATION debería ser SELENOCYSTEINE-SPECIFIC ELONGATION FACTOR (SELB TRANSLATION FACTOR). Figura 19. Árbol filogenético de la subfamilia de swiss:TETM_NEIME y de algunos EF-G. (construido con belvu mediante neighbor joining -unión al vecino- a partir de un alineamiento múltiple realizado con ClustalW). Por último, como anticipo del tipo de errores que pueden aparecer usando esta estrategia de anotación automática, mencionamos el caso del grupo número 20, el cual contiene una sola secuencia correspondiente a un factor de elongación específico de selenocisteína que, erróneamente, es separada de su grupo natural, el número 18. Si ésta hubiera sido la proteína que quisiéramos anotar no habríamos podido hacerlo con éxito. 3.1.2.- PDXK_SHEEP: quinasa de piridoxina de oveja (anotación original: 'pyridoxine kinase') Para esta proteína se realizaron tres rondas de búsquedas BSI con un umbral de e-value de 1e03 y utilizando como base de datos nrdb100. Las búsquedas permitieron encontrar 160 58 secuencias: una en la primera ronda (la semilla), 70 en la segunda y 89 en la tercera. El agrupamiento de estas 160 secuencias resultó en 29 grupos, 7 de los cuales contenían más de tres secuencias y se representan en la figura 20. Estos grupos incluían subfamilias cercanas como la de las riboquinasas o la de unas proteínas del metabolismo de la tiamina. El resto de grupos, aquéllos de pequeño tamaño, correspondían a secuencias que, por ser fragmentos de las proteínas originales o por tener características peculiares, o por error del algoritmo, quedaban separados de los grupos más grandes. m lis a th e m e in m o 9 # 4 ia th e tiv ta u P s. in te 3 s ta s e o ri u e e d o p ru ca d s a ri o p ru g e ct 0 1 4 1 4 2 3 1 1 1 l- xa id yr -p e n o se a n ki e in 5 .3 .1 m xi o xa .7 2 o id yr id . .C yr P p E 5 .1 .1 .7 2 .C 9 4 se a n ki o ib R . E # # 2 2 # 5 # 0 grupo de eucariotas 2 # P E E H S _ K X D P a b g 2 6 # ro p #3 62 Putative thiamine methabolism proteins. b se a in k e in id im yr p yl th e m h sp o o .7 h #9 4 .4 .7 2 . .C E P Phosphomethylpyrimidine kinase E.C. 2.7.4.7 grupos de bacterias PDXK_SHEEP #10 20 #24 22 Ribokinase E.C. 2.7.1.15 #11 4 #14 5 #13 9 Pyridoxine-pyridoxalpyridoxamine kinase E.C. 2.7.1.35 Figura 20. Resultados de las búsquedas BSI y el agrupamiento alrededor de swiss:PDXK_SHEEP. Nota: algunas subfamilias puede que estén incompletas proque las búsquedas se detuvieron antes de la convergencia. Cada círculo se corresponde con un grupo y su radio con su tamaño. Los números dentro de estos círculos indican cuál es su identificador y el número de secuencias que contienen. El grosor de las líneas que conectan los grupos representa la fuerza de sus conexiones. Las distintas intensidades de gris se corresponden con las distintas familias. El grupo de PDXK_SHEEP contenía 19 parientes (u ortólogos) procedentes de eucariotas. Las proteínas de origen bacteriano de esta subfamilia están anotadas como 'Pyridoxal/pyridoxine/pyridoxamine kinase' e incluyen tanto a los tipos pdxk como a los pdxy, y quedan divididas en tres grupos vecinos. La proteína problema fue anotada con el máximo nivel de fiabilidad como PYRIDOXINE KINASE (PYRIDOXAL KINASE), con código de actividad enzimática 2.7.1.35 y con las palabras clave 'Kinase' y 'Transferase'. En la entrada original correspondiente a PDXK_SHEEP en Swiss-Prot aparece otra palabra clave: 'Acetylation', pero ésta no fue seleccionada porque las otras proteínas del grupo no presentaban esa anotación. 59 a) Proteínas del grupo de PDXK_SHEEP ordenadas según la puntuación de idoneidad (T), que es la puntuación ponderada de las puntuaciones de representatividad (D) y de parecido de secuencia (S). %P indica la categoría del alineamiento; %Q el porcentaje que ha alineado de la semilla; %S el porcentaje que ha alineado de la proteína molde. *O00764T:214; Q9BS02T:201; O46560T:180; O35331T:178; O01824T:157; D:117; S:97 D:117; S:85 D:82; S:98 D:82; S:95 D:117; S:40 %P:3; %P:3; %P:3; %P:3; %P:3; %Q:99; %Q:99; %Q:99; %Q:99; %Q:99; %S: %S: %S: %S: %S: 99 99 96 99 94 O14242T:150; D:117; S:33 %P:3; %Q:97; %S: 96 Q9XSD8T:140; D:49; S:92 Q9TTP5T:131; D:82; S:49 Q9FKE1T:111; D:62; S:49 %P:3; %Q:84; %S: 88 %P:0; %Q:46; %S: 99 %P:3; %Q:97; %S: 93 Q9GV94T:88; D:49; S:39 Q94EN4T:77; D:28; S:49 O15927T:64; D:32; S:32 O74860T:59; D:32; S:27 Q95R04T:51; D:9; S:42 AAL57364 T:49; D:0; S:49 Q9VSW3T:47; D:4; S:44 P39988T:38; D:7; S:31 %P:3; %P:3; %P:3; %P:3; %P:3; %P:3; %P:1; %P:3; O94003T:32; D:9; S:23 P53727T:32; D:7; S:25 %P:0; %Q:75; %S: 74 %P:0; %Q:75; %S: 72 %Q:96; %Q:97; %Q:97; %Q:98; %Q:99; %Q:97; %Q:95; %Q:95; %S: %S: %S: %S: %S: %S: %S: %S: sp|PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE). tr|PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE). tr|PYRIDOXAL KINASE (EC 2.7.1.35). tr|PYRIDOXAL KINASE (EC 2.7.1.35). sp|PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE). tr|PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PYRIDOXAL KINASE). tr|PYRIDOXAL KINASE. tr|PYRIDOXAL KINASE (EC 2.7.1.35) (FRAGMENT). tr|PYRIDOXAL KINASE-LIKE PROTEIN (PYRIDOXAL KINASE-LIKE PROTEIN SOS4). tr|PYRIDOXAL KINASE. tr|PYRIDOXAL KINASE-LIKE PROTEIN SOS4. tr|PYRIDOXINE/PYRIDOXAL/PYRIDOXAMINE KINASE. tr|PYRIDOXINE-PYRIDOXAL-PYRIDOXAMINE KINASE. tr|HYPOTHETICAL 38.0 KDA PROTEIN. tn| tr|CG4446 PROTEIN. sp|HYPOTHETICAL 35.6 KDA PROTEIN IN SPF1-VMA3 INTERGENIC REGION. tr|HYPOTHETICAL 33.2 KDA PROTEIN. sp|HYPOTHETICAL 35.4 KDA PROTEIN IN SEC12-SSK2 INTERGENIC REGION. 97 83 97 93 86 93 57 95 b) Resultado de BLAST Score Sequences producing significant alignments: (bits) sp|:PDXK_SHEEP (P82197) Pyridoxine kinase (EC 2.7.1.35) (Pyridox... tr|:O46560 (O46560) Pyridoxal kinase (EC 2.7.1.35). sp|:PDXK_HUMAN (O00764) Pyridoxine kinase (EC 2.7.1.35) (Pyridox... tr|:O35331 (O35331) Pyridoxal kinase (EC 2.7.1.35). tr|:Q9XSD8 (Q9XSD8) Pyridoxal kinase. tr|:Q9BS02 (Q9BS02) Similar to pyridoxal (pyridoxine, vitamin B6... tr|:Q94EN4 (Q94EN4) Pyridoxal kinase-like protein SOS4. tr|:Q9FKE1 (Q9FKE1) Pyridoxal kinase-like protein (Pyridoxal kin... tr|:Q9TTP5 (Q9TTP5) Pyridoxal kinase (EC 2.7.1.35) (Fragment). tn|:AAL57364 (AAL57364) Pyridoxal kinase. tr|:Q9VSW3 (Q9VSW3) CG4446 PROTEIN. tr|:Q95R04 (Q95R04) Hypothetical 38.0 kDa protein. sp|:PDXK_CAEEL (O01824) Putative pyridoxine kinase (EC 2.7.1.35)... tr|:Q9GV94 (Q9GV94) Pyridoxal kinase. tr|:O14242 (O14242) PUTATIVE PYRIDOXINE KINASE (EC 2.7.1.35) (PY... tr|:O15927 (O15927) Pyridoxine/pyridoxal/pyridoxamine kinase. sp|:YEC9_YEAST (P39988) Hypothetical 35.6 kDa protein in SPF1-VM... tr|:O74860 (O74860) Pyridoxine-pyridoxal-pyridoxamine kinase. tr|:Q9RYX0 (Q9RYX0) PYRIDOXAMINE KINASE. sp|:YN8F_YEAST (P53727) Hypothetical 35.4 kDa protein in SEC12-S... tr|:Q9HT57 (Q9HT57) Pyridoxamine kinase. tr|:O94003 (O94003) Hypothetical 33.2 kDa protein. sp|:PDXY_HAEIN (P44690) Pyridoxamine kinase (EC 2.7.1.35) (PM ki... tr|:Q9CNY1 (Q9CNY1) PdxY. sp|:PDXY_PROMI (Q51892) Pyridoxamine kinase (EC 2.7.1.35) (PM ki... tn|:CAC91173 (CAC91173) Pyridoxamine kinase (EC 2.7.1.35). tr|:Q98EQ5 (Q98EQ5) Pyridoxamine kinase. tn|:AAL20372 (AAL20372) Pyridoxal kinase 2/pyridoxine kinase (EC tn|:AAG56625 (AAG56625) Pyridoxal kinase 2 / pyridoxine kinase.#... sp|:PDXY_ECOLI (P77150) Pyridoxamine kinase (EC 2.7.1.35) (PM ki... tn|:AAK88220 (AAK88220) AGR_C_4518p.#tn|:AAL43474 (AAL43474) Pyr... tn|:CAD01917 (CAD01917) Pyridoxamine kinase (EC 2.7.1.35). tn|:AAL51403 (AAL51403) PYRIDOXINE KINASE (EC 2.7.1.35). tr|:Q92KX9 (Q92KX9) PUTATIVE PYRIDOXAL KINASE PROTEIN (EC 2.7.1.... sp|:PDXK_ECOLI (P40191) Pyridoxine kinase (EC 2.7.1.35) (Pyridox... tn|:BAB36713 (BAB36713) Pyridoxal/pyridoxine/pyridoxamine kinase sp|:PDXK_SALTY (P40192) Pyridoxine kinase (EC 2.7.1.35) (Pyridox... tn|:AAG57537 (AAG57537) Pyridoxal/pyridoxine/pyridoxamine kinase tr|:Q9APF1 (Q9APF1) Pyridoxine kinase (Fragment). tn|:CAD07667 (CAD07667) Pyridoxine kinase (EC 2.7.1.35). [...] 623 562 556 547 526 487 285 285 283 282 253 242 234 228 193 186 182 160 155 149 143 136 136 135 132 129 127 119 119 119 118 118 117 115 93 92 91 90 90 87 E Value e-178 e-159 e-158 e-155 e-149 e-137 3e-76 3e-76 1e-75 2e-75 2e-66 3e-63 7e-61 5e-59 1e-48 2e-46 3e-45 1e-38 4e-37 3e-35 2e-33 3e-31 3e-31 4e-31 3e-30 3e-29 2e-28 2e-26 2e-26 2e-26 5e-26 5e-26 2e-25 5e-25 2e-18 5e-18 2e-17 2e-17 2e-17 2e-16 Figura 21. El grupo de PDXK_SHEEP y el resultado de BLAST. En a se indica las puntuaciones que obtuvieron cada una de las proteínas que quedaron en el grupo de PDXK_SHEEP. En b se muestra el resultado de BLAST para esta proteína: las secuencias marcadas en negrita son aquéllas que fueron agrupadas junto a la proteína semilla. En la figura 21 (b) se muestran los resultados de BLAST para esta proteína y cuáles de los homólogos quedaron en el mismo grupo que ella. Asimismo, se puede apreciar que el estudio de la representatividad de las descripciones permite ordenarlas según su idoneidad de forma adecuada, ya que las descripciones no informativas quedan al final de la lista con bajas puntuaciones de idoneidad (figura 21 (a)). 60 Los grupos vecinos fueron anotados como: ID:13; SIZE:9; PROXIMITY:19.35 PYRIDOXAMINE KINASE EC 2.7.1.35 PM ID:11; SIZE:4; PROXIMITY:16.63 KINASE ID:14; SIZE:5; PROXIMITY:13.78 PYRIDOXINE KINASE EC 2.7.1.35 PYRIDOXAL VITAMIN B6 PYRIDOXAMINE PN PL PM ID:3; SIZE:62; PROXIMITY:1.13 PHOSPHOMETHYLPYRIMIDINE KINASE ID:24; SIZE:22; PROXIMITY:0.69 RIBOKINASE Por último, indicar que con parámetros más permisivos (mayor número de rondas o con un umbral de e-value menos restrictivo), las búsquedas BSI permiten encontrar subfamilias de homólogos remotos como la de las quinasas de tagatosa-6-fosfato, la de las 2-dehidro-3-deoxiglucoquinasas o la de las quinasas de guanosina o de adenosina. El análisis de tales resultados no se siguió aquí para simplificar el escenario. 3.2.- Anotación del proteoma de Buchnera aphidicola (Baizongia pistaciae) A continuación se exponen cuáles fueron los resultados de la anotación de la función de las proteínas de esta bacteria (van Ham et al., 2003). En el siguiente apartado (punto 4) se presentará una visión general del análisis que se realizó de este genoma. Para identificar a qué familias pertenecían los genes de buchnera no se realizaron búsquedas BSI sino simples BLAST (Altschul et al., 1997) con un umbral de e-value de 0.1 y utilizando como base de datos nrdb100. El alineamiento de las proteínas encontradas, todas contra todas, permitió obtener una representación del mapa del espacio de secuencias próximo a cada gen. En principio, el método de agrupamiento funciona mejor cuanto mejor representadas están las distintas familias o subfamilias, pero este modo de proceder, sin explorar recursivamente en el espacio de secuencias, es más rápido. Características del proteoma de buchnera Tamaño del proteoma Anotaciones funcionales correctas Errores singleton 'errors' (*) descripciones demasiado específicas (**) función incorrecta (***) 507 475 (94%) 32 (6%) 21 9 2 Tabla 5. Anotación automática de la función de las proteínas de Buchnera aphidicola. (*)Los singleton 'errors' se refiere a casos en que la proteína de buchnera quedó separada de sus parientes en un grupo de tamaño 1. (**) las descripciones demasiado específicas son casos en que la descripción transferida hace referencia a alguna característica de la proteína que no es transferible por homología. (***) Y por "función incorrecta" se entiende aquellos casos en que se detectó que la función asignada no era la apropiada. Primeramente nos referiremos a los resultados de la anotación automática de descripciones generales de la función de las proteínas. La inspección de las anotaciones resultantes para los 507 genes codificantes de buchnera, así como la comparación con las anotaciones supervisadas en Swiss-Prot de las proteínas de otra buchnera, y también la comparación con otra anotación automática que usa un método diferente, permitió evaluar la precisión del método (ver tabla 5). Estimamos que un 94% de las anotaciones eran correctas, mientras que el 6% restante presentaban tres tipos de errores o particularidades. a) Errores por separación extrema (o singleton errors; 21 casos): la mayoría de los errores observados (21 de 32) se debían a que el algoritmo de agrupamiento separaba los genes de buchnera de sus ortólogos en otras bacterias, de forma que quedaban aislados en grupos de tamaño 1 y no se podía realizar ninguna anotación, excepto indicar cuál es la anotación de los grupos vecinos. Curiosamente, esta situación se produjo para muchas de las proteínas flagelares (genes fliH, fliJ, fliM, flgB y flgM). La inspección de los grupos y sus distancias reveló que en buchnera estas proteínas han divergido mucho. En (Tamas et al., 2002) esta divergencia ya fue observada para el genoma de otra buchnera, la que es endosimbionte del pulgón Schizaphis 61 graminum (BSg), y quizás sea el reflejo de que estos genes han adquirido nuevas funciones, ya que no se han observado flagelos en buchnera y de su vida endosimbiótica se deriva la pérdida de muchos genes, pues no son esenciales para su supervivencia. Es natural que la aplicación de este método de anotación, basado en la identificación de grupos diferenciados, a esta bacteria que ha divergido tanto (comparada con sus parientes más cercanos) de lugar a tantos errores de este tipo. b) Descripciones demasiado específicas (9 casos): en algunas ocasiones, la descripción seleccionada como más representativa contiene algunas palabras específicas de la especie de la cual proviene y por tanto no es susceptible de ser transferida a otra proteína. Por ejemplo, en el caso del gen ycfC, la anotación automática fue 'Hypothetical protein ycfC (ORF-23)' y se corrigió eliminando la palabra 'ORF-23' que se refiere a la posición de este gen en el genoma de Escherichia coli con respecto al origen de replicación, y que en el genoma de buchnera ocupa la posición 243. Los filtros para identificar descripciones no informativas o no heredables fueron satisfactorios en otros casos. c) Asignaciones de función incorrectas (2 casos): la inspección de los resultados reveló dos casos en los que la función anotada no se correspondía con la real. Ambos casos fueron debidos a que el algoritmo de agrupamiento clasificaba juntas dos subfamilias de proteínas. En el caso del gen hscA que codifica para 'chaperone protein hscA homologue' (anotación original en SwissProt) fue anotado como 'chaperone protein dnaK' porque las dos familias, hscA y dnaK, son muy parecidas y el algoritmo no las separó. Dado que en el grupo resultante eran mucho más abundantes las proteínas del tipo dnaK, el método tomó esa descripción como la más representativa. La ponderación de las puntuaciones de representatividad y similitud de secuencia, que tiene como objetivo evitar estas situaciones, no evitó que produjera este error. El caso de corC es similar: se anotó como 'Hemolysin (tlyC)' cuando debió haber sido anotada como 'Magnesium and cobalt efflux protein corC'. Sequences producing significant alignments: tn|:CAC88884 (CAC88884) DNA polymerase I (EC 2.7.7.7). tn|:AAL22838 (AAL22838) DNA polymerase I, 3'--> 5' polymerase, 5 sp|:DPO1_SALTY (Q9F173) DNA polymerase I (EC 2.7.7.7) (POL I). tn|:CAD03100 (CAD03100) DNA polymerase I. tn|:AAG59052 (AAG59052) DNA polymerase I, 3'--> 5' polymerase, ... sp|:DPO1_ECOLI (P00582) DNA polymerase I (EC 2.7.7.7) (POL I). tr|:Q9CLY4 (Q9CLY4) PolA. sp|:DPO1_HAEIN (P43741) DNA polymerase I (EC 2.7.7.7) (POL I). sp|:EX53_BUCAI (P57506) Probable 5'-3' exonuclease (EC 3.1.11.-). tr|:Q9HT80 (Q9HT80) DNA polymerase I. tr|:Q9F193 (Q9F193) DNA polymerase I. tr|:Q9KVN3 (Q9KVN3) DNA polymerase I. tn|:CAD15937 (CAD15937) PROBABLE DNA POLYMERASE I PROTEIN (EC 2. sp|:DPO1_RICPR (O05949) DNA polymerase I (EC 2.7.7.7) (POL I). tr|:Q9JWB1 (Q9JWB1) DNA polymerase I (EC 2.7.7.7). tr|:Q9RLA9 (Q9RLA9) DNA polymerase I. tr|:Q9JXL7 (Q9JXL7) DNA polymerase I. tr|:Q9RLA6 (Q9RLA6) DNA polymerase I. tr|:Q92GB7 (Q92GB7) DNA polymerase I (POL I). tr|:Q9RLA3 (Q9RLA3) DNA polymerase I. tr|:Q9F194 (Q9F194) DNA polymerase I. tr|:Q9RAA4 (Q9RAA4) DNA polymerase I. sp|:DPO1_RICFE (Q9RAA9) DNA polymerase I (EC 2.7.7.7) (POL I). sp|:DPO1_BACST (P52026) DNA polymerase I (EC 2.7.7.7) (POL I). tr|:Q9K854 (Q9K854) DNA polymerase I (EC 2.7.7.7). sp|:EX53_AQUAE (O67550) Probable 5'-3' exonuclease (EC 3.1.11.-). sp|:DPO1_RICHE (Q9RLB6) DNA polymerase I (EC 2.7.7.7) (POL I). tr|:Q45458 (Q45458) DNA polymerase I. Figura 22. Resultado de BLAST para el gen polA de Buchnera aphidicola. 62 Score (bits) 258 250 250 249 249 249 232 227 226 213 212 206 181 173 172 172 171 171 169 169 167 167 166 166 166 166 165 165 E Value 8e-68 2e-65 2e-65 3e-65 4e-65 4e-65 4e-60 2e-58 4e-58 3e-54 5e-54 2e-52 1e-44 3e-42 5e-42 5e-42 8e-42 1e-41 5e-41 5e-41 2e-40 2e-40 4e-40 4e-40 5e-40 5e-40 6e-40 8e-40 El caso del gen polA es ilustrativo de la importancia de analizar si la homología entre dos proteínas se confina a dominios concretos de éstas o a la proteína completa. En la figura 22 se muestra parte del resultado de la búsqueda BLAST con esta proteína. Las proteínas más parecidas están anotadas como polimerasas de ADN de tipo I, pero la homología con éstas está restringida a una región pequeña: el alineamiento cubre un 30% de estas polimerasas y un 90% del gen de buchnera (categoría de alineamiento 3, ver sección de Métodos). Sin embargo, en la lista de parecidos existen proteínas menos similares pero para las que el alineamiento se corresponde con las secuencias completas (el alineamiento con EX53_BUCAI comprende el 97% de la secuencia de ésta y el 91% de la otra). Estas proteínas están anotadas como exonucleasas 5'->3', y es así como finalmente fue anotado el gen polA de buchnera, que ha perdido tanto la actividad polimerasa como la actividad exonucleasa 3'->5' típicas de las polimerasas de tipo I. 3.2.1.- Palabras clave y códigos de actividad enzimática La aplicación del método descrito en la sección de Métodos permitió asignar 1.463 palabras clave para 470 proteínas del total de 507 de Buchnera aphidicola (Baizongia pistaciae) (en adelante BBp). En este caso, en el que se conoce el proteoma completo del organismo, la palabra clave 'Complete proteome' es adecuada, pero consideramos que su transferencia en otros escenarios no lo es, por lo que decidimos descontar las 398 asignaciones de dicha palabra. Después de esto la cuenta queda del siguiente modo: se asignaron 1.071 palabras clave a 391 proteínas. Por otra parte, pudieron ser anotados 286 códigos de actividad enzimática, correspondientes a 275 proteínas (algunas proteínas realizan más de una actividad enzimática). Para evaluar la fiabilidad de la anotación de estas características funcionales se compararon éstas con las de otra buchnera: Buchnera aphidicola (Acyrthosiphon pisum) (BAp) (Shigenobu et al., 2000), la cual está anotada de forma cuidadosa en Swiss-Prot. Para ello, primeramente se estableció, de forma básica, una correspondencia de relaciones de ortología entre los genes de las dos buchneras: se identificó para cada proteína de BBp cuál era la más parecida en BAp y ésta fue tomada como su ortóloga, siempre y cuando el e-value del alineamiento fuera menor de 1e-15. Este procedimiento permitió identificar 468 pares de proteínas para la comparación. 3.2.1.1.- Palabras clave En la gráfica b de la figura 23 se puede apreciar que hay 950 coincidencias entre las asignaciones de palabras clave realizadas en Swiss-Prot para BAp y las realizadas automáticamente para BBp. Por una parte, BAp presenta 112 palabras clave que no fueron asignadas a BBp; por otra, la anotación automática asignó 52 palabras adicionales a BBp. De estas 52 palabras, observamos que algunas de ellas hacían referencia a mitocondrias y cloroplastos o eubacterias fotosintéticas ('Mitochondrion', 'Chloroplast' y 'Plastoquinone', por ejemplo) y por tanto no era apropiado transferirlas a las proteínas de buchnera. 3.2.1.1.1.- Palabras clave que no tienen una relación directa con la función de las proteínas. En el caso del gen nuoL, correspondiente a la proteína 'cadena L de la deshidrogenasa de NADH', éste quedó agrupado conjuntamente con los otros 250 homólogos encontrados con BLAST. Los ortólogos de E.coli y de B. aphidicola (Acyrthosiphon pisum) (BAp) estaban anotados con las siguientes palabras: 'Oxidoreductase; NAD; Ubiquinone; Transmembrane; Complete proteome.' Sin embargo, las anotaciones más frecuentes en el grupo eran: 'NAD; Oxidoreductase; Plastoquinone; Chloroplast.' y por eso el gen nuoL de buchnera fue anotado, erróneamente, como 'NAD; Oxidoreductase; Plastoquinone; Chloroplast.', lo que constituye un error del método automático. Por otra parte, los genes leuA, leuB, leuC y leuD de BAp se localizan en un plásmido y por esa razón tienen entre sus palabras clave la de 'Plasmid'; sin embargo, esto no ocurre en BBp, ya que en ella se encuentran en el cromosoma principal. La anotación automática en este caso sí evitó la transferencia de palabras clave no heredables. Estos casos ilustran la dificultad de determinar qué parte de las anotaciones se refiere directamente a la función de las proteínas y puede ser heredada por proteínas ortólogas, y que parte se refiere a otras características como la localización subcelular. 63 BBp a BAp Códigos de actividad enzimática 17 261 4 (13) (265) (1) Palabras clave b 52 987 112 Figura 23. Coincidencias y discrepancias en las anotaciones automática y supervisada de BBp y BPs, respectivamente. En a se comparan las anotaciones de códigos de actvidad enzimática; entre paréntesis se muestran los mismos números tras la corrección de algunos artefactos. En b se comparan las asignaciones de palabras clave. 3.2.1.1.2.- Otros ejemplos La sintetasa de metionín-ARNt (metG) de BBp fue anotada con los siguientes palabras clave: 'Zinc; Protein biosynthesis; Ligase; Aminoacyl-tRNA synthetase; RNA-binding; Metal-binding; ATP-binding; tRNA-binding'. En la anotación de Swiss-Prot para el ortólogo de BAp (swiss:SYM_BUCAI) faltaban las palabras: 'RNA-binding' y 'tRNA-binding'. Ambas palabras estaban presentes en una gran mayoría de los ortólogos y su transferencia automática es correcta, aunque quizás sean redundantes. La proteína correspondiente al gen yoaE queda en un grupo de proteínas hipotéticas de membrana. La mayoría tienen la palabra clave 'Hypothetical protein', pero algunas pocas, como por ejemplo el ortólogo de BAp (swiss:P57408) además tienen asignadas las palabras 'Transmembrane', 'CBS domain' y 'Repeat'. A pesar de que estas palabras serían adecuadas para describir esta proteína, el método automático debe buscar características consensuadas por una mayoría suficiente para reducir el riesgo de propagar errores. En este caso, se podrían haber utilizado métodos no basados en homología para asignar estas palabras, como por ejemplo un método de predicción de hélices transmembrana o un método de búsqueda de dominios, por ejemplo comparando con la base de datos Pfam. 3.2.1.2.- Códigos de actividad enzimática La comparación de las asignaciones de códigos de actividad enzimática se ilustra en la gráfica a de la figura 23. Se aprecia una gran coincidencia. La mayoría de las diferencias observadas en BBp y BAp se deben al modo en que hemos comparado las anotaciones y a ligeras diferencias en la forma en que están anotados sus códigos de actividad enzimática. Por ejemplo, en el caso del gen cyoE y su ortólogo en BAp (swiss:P57540), ambos presentan la misma anotación: 2.5.1.("Transferring alkyl or aryl groups, other than methyl groups"), pero en una de ellas está escrita 64 como "2.5.1." y en la otra como "2.5.1.-". Otro caso es el del gen ribD que en BBp aparece como fusión de dos genes de BAp: ribD1 y ribD2; el modo en que se identificaron las 'ortologías' para la comparación fue de 1 a 1, cuando debería compararse con ambas proteínas. También se apreciaron casos en que la función especificada en el código enzimático era la misma pero la nomenclatura había sido actualizada. Revisando los resultados manualmente, se llegó a la conclusión de que la comparación debería haber ofrecido estos números: 265 coincidencias, 1 anotación extra en BAp (anotada en Swiss-Prot) y 13 anotaciones suplementarias en BBp (nuestra anotación automática). En cuanto a la asignación que se perdió en la anotación automática de BBp, se trata de un error nuestro: los ortólogos de la proteína en cuestión presentaban dos actividades: la 3.2.2.16 nucleosidasa de metiladenosina) y la 3.2.2.9 (nucleosidasa de adenosilhomocisteína), pero sólo se asignó la actividad 3.2.2.9, porque la proteína que se seleccionó como fuente de información sólo tenía anotado ese código; por tanto, se trata de un caso de propagación de errores ya existentes en las bases de datos. De las 13 nuevas asignaciones que hicimos y que no estaban presentes en BAp en Swiss-Prot, cuatro eran poco fiables o erróneas, mientras que el resto (9) parecían correctas. Los cuatro errores o predicciones poco fiables tienen su origen en que alguna de las proteínas de la subfamilia está anotada incorrectamente, y el error se propaga; o bien las consideramos como poco fiables por estar poco consensuadas, porque sólo una de las proteínas del grupo tiene asignado un código de actividad enzimática. 4.- Análisis del genoma de Buchnera aphidicola (Baizongia pistaciae) La secuenciación del genoma de esta bacteria, que es simbionte intracelular del pulgón Baizongia pistaciae, fue llevada a cabo en España por varios laboratorios, en un proyecto dirigido por el Dr. Andrés Moya, del Institut Cavanilles de Biodiversitat i Biologia Evolutiva, y que ha sido trabajo fundamental del Dr. Roeland Van Ham, del Centro de Astrobiología asociado al INTA (van Ham et al., 2003). Nuestro grupo tuvo la oportunidad de participar en el análisis bioinformático del genoma de este organismo, realizando la anotación de la función de sus proteínas, así como otros aspectos más técnicos como el almacenamiento, bajo un esquema adecuado, de toda la información y el desarrollo de una interfaz web para su consulta, empleando el sistema ORFandDB (http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/). 4.1.- La vida de buchnera: ¿qué tiene de interesante? La endosimbiosis de esta bacteria con el pulgón, y el modo en que esta bacteria es heredada por la descendencia de éste, se refleja en la evolución de su genoma (Baumann et al., 1995). Existe un cuello de botella en el ciclo de vida de esta bacteria, de modo que no existe mucho margen para la selección natural de aquellas bacterias mejor adaptadas, sino que, entre las pocas que pasan a la descendencia del pulgón, mientras haya alguna bacteria viable, posiblemente la bacteria sobrevivirá. La degeneración de su genoma es fruto del modo de vida (Moran & Mira, 2001), como en el caso de otras bacterias endosimbióticas (Ochman & Moran, 2001), y se manifiesta en una gran reducción del número de genes (553) y en una gran divergencia en la secuencia de sus genes, que son bastante diferentes en distintas estirpes de buchneras, a pesar de compartir un ancestro común relativamente reciente, de hace aproximadamente 80-150 millones de años, lo que se interpreta más como una degeneración que como adaptación Otro aspecto que hace interesante el estudio de su genoma es que se conoce el de otras dos estirpes de buchnera: Buchnera aphidicola (Acyrthosiphon pisum) (BAp) (Shigenobu et al., 2000) y Buchnera aphidicola (Schizaphis graminum) (BSg) (Tamas et al., 2002), lo que permite estudiar los sucesos que se han producido sobre su genoma a partir del momento en que el ancestro común de estas bacterias adoptó el modo de vida simbiótico con los pulgones. 4.2.- Cómo se anotó el genoma. Métodos empleados. A continuación se exponen los métodos que el grupo de laboratorios implicados en el proyecto emplearon para anotar el genoma de buchnera. En la figura 24 se muestra una representación lineal de su genoma. 65 genom a.eps GIMP PostScri pt file Figura 24. Representación lineal del genoma de Buchnera aphidicola (Baizongia pistaciae). Se muestran las regiones codificantes y los genes de ARNs. 66 a) Anotación de genes codificantes y pseudogenes: Primeramente se identificaron las pautas de lectura abierta (ORFs) que había en el genoma, utilizando el programa orfind (http://www.ncbi.nlm.nih.gov/gorf/gorf.html). Estas predicciones se depuraron utilizando programas más sofisticados para la identificación de genes en bacterias, programas tales como genmark (Lukashin & Borodovsky M, 1998) y glimmer (Suzek et al., 2001). Adicionalmente se revisaron algunos casos para seleccionar el codón de iniciación más apropiado. Algunos pseudogenes pudieron ser identificados a partir de estos resultados, mientras que otros, más degenerados, se detectaron realizando búsquedas con BLAST con respecto a proteínas de otras bacterias. b) Anotación de los ARN transferentes (ARNt): Para su identificación se empleó el programa tRNAscan-SE (Lowe & Eddy, 1997). c) Identificación de los ARN ribosómicos (ARNr) y de otros ARN: se detectaron realizando búsquedas BLAST (Altschul et al., 1997) con respecto a secuencias de ADN procedentes de GenBank (Benson et al., 2003). Los límites de estos genes fueron anotados a mano. d) Clasificación funcional de las proteínas: para asignar una función general a cada proteína (clase funcional) se siguió el esquema propuesto por Riley (Riley, 1993). Esta forma de proceder hizo posible comparar la clasificación resultante con la anotación ya existente para la buchnera endosimbiótica de Acyrthosiphon pisum. e) Anotación de las descripciones de función, los códigos de actividad enzimática y las palabras clave: se llevó a cabo como se ha explicado en esta tesis (Abascal & Valencia, 2003), utilizando los métodos descritos: primeramente, realizando una búsqueda de proteínas homólogas, para luego hacer un agrupamiento con el objetivo de clasificar en subfamilias (o grupos de ortólogos); una vez identificado el grupo al que pertenece la proteína problema se analizan las anotaciones existentes para sus ortólogos y se intenta transferir aquéllas que son más representativas. f) Asignación a COGs: también se llevó a cabo una asignación de las proteínas de esta bacteria a los COGs (Tatusov et al., 1997) ya establecidos en el NCBI. Para ello se identificaron las relaciones de ortología claras entre BBp y BAp, y las proteínas de BBp se asignaron a los COGs correspondientes de BAp. En los casos en que no fue sencillo identificar los ortólogos, y en aquellos casos en que no había ortólogos en BAp, se utilizó el programa COGNITOR (http://www.ncbi.nlm.nih.gov/COG/xognitor.html) para hacer esta anotación manualmente. Tamaño 615980 (+2399 pdb en el plásmido) contenido G+C 25.3% Genes 550 (+3 en el plásmido, +9 pseudogenes) genes codificantes 504 (+3 en el plásmido) ARNt 32 ARNr 3 orros ARNs 2 Tabla 6. Algunas características del genoma de Buchnera aphidicola (Baizongia pistaciae) . 4.3.- Algunas observaciones acerca de los resultados En la tabla 6 se muestra una estadística acerca de las características generales del genoma de buchnera, tales como el número de genes. En conjunto, los genomas de BBp, BAp y BSg contienen 638 genes, que supuestamente estaban presentes en su último ancestro común, a partir del cual, cada buchnera ha ido perdiendo diferentes genes, aunque han conservado casi totalmente el orden de los mismos (sintenia). Esta conservación del orden, así como la casi segura ausencia de transferencias horizontales de genes, sitúa a buchnera como un fósil de lo que fue la organización del genoma de las enterobacterias de hace unos 200 millones de años, cuando se estableció la simbiosis con el pulgón. El 78% de los genes de este ancestro están presentes aún en las tres buchneras. La conservación del orden posiblemente tiene que ver con la pérdida que sufrió su ancestro común de muchos genes implicados en replicación, reparación y recombinación. En este trabajo además se observó que, como consecuencia de la rápida deriva génica, la cual tiene su origen tanto en el modo de vida de la bacteria como en el hecho de que ha 67 Gene neighborhood view Gene view Protein similarities view Taxonomic view Protein view Search page Figura 25. Algunas instantáneas de la interfaz web de ORFandDB para el análisis del genoma de Buchnera aphidicola. 68 perdido muchos genes de reparación de ADN, sus proteínas parecen tener una estabilidad termodinámica baja. Naturalmente, esto resulta desfavorable para el correcto plegamiento de las proteínas. Quizás por esa razón la chaperona DnaK de buchnera está más conservada que otras proteínas y, quizás también por eso, otra chaperona, GroELS, se sobreexpresa en esta bacteria (Fares et al., 2002). 4.4.- Nuestra aportación al proyecto Además de la anotación automática de la función de las proteínas de buchnera, cuya evaluación se mostró expuso más arriba, utilizamos el sistema ORFandDB, que ya describimos en la sección de Métodos, para organizar y almacenar los resultados del análisis del genoma. Esto incluía guardar los resultados de programas como BLAST o PSI-BLAST, las anotaciones automáticas, o información de bases de datos externas como Swiss-Prot, TrEMBL, Pfam o COGs. El esquema entidad relación (figura 3, en la sección de Métodos) permitió almacenar información tan variada como qué proteínas y genes hay en el genoma, qué funciones tienen, a qué otras secuencias se parecen, a qué familias de proteínas pertenecen o en qué lugar del genoma se encuentra cada gen. Además se construyó un servidor web para acceder de forma sencilla a la información generada en el proyecto. Su dirección es: http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/, y en la figura 25 se pueden ver algunas instantáneas de estas páginas web. 69 Discusión Los jeroglíficos egipcios no fueron descifrados hasta que se encontró la piedra rosetta, en la que aparecía escrito un mensaje utilizando distintos códigos de escritura, entre ellos el de los propios jeroglíficos. La comparación de las distintas formas de expresar un mismo mensaje resultó decisiva para resolver un problema al que se habían aplicado no pocos esfuerzos. En biología encontramos muchos paralelismos con esta anécdota histórica, aunque quizás la situación sea todavía más complicada, al menos en el caso del código de las proteínas. Aún no hemos resuelto, de hecho estamos lejos, el problema de determinar la estructura de una proteína a partir de su secuencia, sin información adicional. Tampoco somos capaces de imaginar qué función puede que lleve a cabo. Incluso si conocemos la secuencia y la estructura de una proteína seguimos teniendo serios problemas para predecir su función. El truco, otra vez, es comparar, aunque el paralelismo con el caso de los jeroglíficos ya no es tan claro. Por ejemplo, si comparamos las secuencias de dos proteínas y resulta que éstas son parecidas y que tienen un origen común, podemos pensar que su función es similar. Como se discute más adelante, estas asunciones entrañan ciertos riesgos, pero es lo mejor que tenemos hasta ahora, si exceptuamos el lento y costoso trabajo experimental. En los últimos años hemos dado un salto desde los genes hasta los genomas, y una avalancha de datos procedentes de proyectos de secuenciación nos abruma. Esta avalancha supone varios retos: primero queremos describir los genomas, encontrar qué genes contiene y qué funciones tienen, básicamente. Pero no sólo queremos saber qué hay en los genomas, sino que queremos relacionar esa información con el modo de vida de los organismos, con su evolución o con las enfermedades. ¿Cómo vamos a conseguir resolver tantas cuestiones? Seguramente comparando (Tatusov et al., 1997; Koonin, 2001; Salzberg, 2003). Por ejemplo, si queremos saber por qué una cepa de bacterias es más patógena que otra, lo más sencillo es comparar sus genomas y determinar qué características particulares tiene cada uno. El trabajo presentado en esta tesis se enmarca en el área de la genómica computacional. El proyecto del que forma parte tiene como objetivo desarrollar un sistema para analizar genomas, y comprende aspectos como la búsqueda de genes, la anotación de la función de las proteínas codificadas por éstos, y la organización de la información resultante bajo un esquema apropiado. En las siguientes secciones discutiremos algunos aspectos del sistema para el análisis de genomas ORFandDB, así como de los métodos que hemos presentado para la búsqueda de homólogos, la identificación de familias de proteínas y la anotación de la función de las proteínas. 1.- Análisis de genomas: ORFandDB Cada vez disponemos de más información, de muy variados orígenes, y que se refiere a distintos ámbitos de la biología. En cientos de bases de datos diferentes encontramos información referente a estructuras tridimensionales de proteínas, a secuencias, tanto de nucleótidos como de aminoácidos, o a resultados de técnicas experimentales como los geles bidimensionales o las matrices de ADN, entre otros tipos. Por otra parte, se han desarrollado, y continúan desarrollándose, muchos métodos computacionales para procesar esta ingente cantidad información y extraer nuevo conocimiento. Muchas veces el problema radica en que es difícil saber dónde buscar, qué podemos buscar y qué métodos bionformáticos pueden ayudarnos. Actualmente, gran parte de los esfuerzos en el área de la Bionformática se están aplicando a poner orden e interrelacionar la información, de forma que sea más accesible a la comunidad científica (Valencia, 2002). El sistema ORFandDB para el análisis de genomas, descrito en esta tesis, afronta estos problemas. El núcleo del sistema es un esquema entidad-relación (un concepto similar al de ontología) en el que los distintos conceptos o entidades biológicas se interrelacionan entre sí. Sobre este esquema de la realidad biológica se puede anotar la información procedente de las 70 distintas bases de datos, así como la información resultante de ejecutar métodos bionformáticos (figura 4). Un buen esquema entidad-relación resultará adecuado en distintos ámbitos. En este sentido, el de ORFandDB, ha sido aplicado a proyectos de muy diversa índole (aunque siempre con algunas modificaciones) tales como un proyecto para el estudio de los factores de transcripción de Arabidopsis thaliana (REGIA, Alonso-Allende et al., 2002), otro para un estudio de las proteínas de unión a ARN (llevado a cabo por Luis Delaye, del grupo del Dr. Antonio Lazcano de la UNAM, México), y también para el análisis del genoma de Buchnera aphidicola. En la figura 3, se muestra parte de este esquema entidad-relación. Del mismo modo, de la calidad de dichos esquemas depende que la información resultante de los diversos métodos bionformáticos pueda encontrar cabida en la base de datos. En el momento actual existen filtros para insertar los resultados de BLAST, PSI-BLAST, hmmpfam y del programa de anotación automática de función en la base de datos de ORFandDB. En principio el esquema es adecuado para incluir otro tipo de información, ya sea que provenga de nuevas bases de datos o de otros métodos, aunque requeriría el desarrollo de nuevos filtros. La organización de la información en este esquema permite hacer de forma sencilla consultas que de otro modo requerirían una labor de espeleólogo de bases de datos. Por ejemplo, podemos preguntar al sistema qué homólogos de una determinada proteína han sido encontrados usando BLAST con un e-value menor que 1e-10, tienen como palabra clave 'ATP-binding', pero no 'Hypothetical protein', y provienen de arqueas. O podemos pedirle que, referido a un genoma concreto, nos indique qué genes están a menos de 5.000 pares de bases de un gen determinado. O que nos indique los códigos enzimáticos de todas las proteínas de Homo sapiens. Para realizar estas consultas, sin embargo, hay que conocer el lenguaje SQL. Como no son muchas las personas que están familiarizadas con él, es necesario construir una interfaz más sencilla, por ejemplo una página web, a través de la cual se puedan realizar las consultas más frecuentes. Esta fue la opción que adoptamos para el proyecto del análisis del genoma de buchnera, y creamos una página en la dirección: http://www.pdg.cnb.uam.es/fabascal/Buch_ORFand_www/. A la interfaz SQL se puede acceder desde: https://www.pdg.cnb.uam.es/jmfernandez/ORFandDB/frame.html. 2.- Búsqueda de homólogos: las búsquedas con secuencias intermedias (BSI) permiten explorar un espacio evolutivo amplio La observación de que las proteínas con un origen común tienen, hasta cierto punto, funciones similares ha motivado que investigásemos las propiedades de algunos métodos de búsqueda de homólogos. En concreto hemos estudiado cómo se comportan dos métodos de búsquedas recursivas, BSI y PSI-BLAST, comparándolos entre sí y con respecto a BLAST, que hace simples comparaciones entre pares de secuencias. Si dos proteínas A y B tienen un origen común, y lo mismo sucede con B y C, entonces A y C también han de tener el mismo origen. Esta propiedad transitiva, que explotan las BSI, ha de aplicarse cautelosamente porque la unidad evolutiva básica no son las proteínas sino los dominios, y podría darse el caso de que A y B compartieran un dominio distinto del dominio homólogo presente en B y C (en ese caso A y C no serían homólogas). Por esta razón estas búsquedas han de realizarse sólo con los fragmentos de las proteínas que son homólogos, y no con las proteínas completas. Nuestra principal aportación en el tema de las búsquedas con secuencias intermedias ha consistido en extender la propiedad transitiva de forma indefinida (a proteínas D, E, F...), lo cual, hasta donde sabemos, aún no había sido realizado cuando desarrollamos el método. La aplicación sucesiva de la propiedad transitiva permite identificar homologías remotas siempre y cuando existan secuencias intermedias suficientemente cercanas entre sí, es decir, suficientemente parecidas como para ser identificadas por un método sencillo como BLAST. La aplicación recursiva de las BSI introduce algunas complicaciones relacionadas con el problema de los dominios, como se discuten más adelante. 71 2.1.- La efectividad del método BSI es comparable a la de PSI-BLAST y superior a la de BLAST La comparación del método BSI con los métodos de BLAST y PSI-BLAST permitió conocer la efectividad del método. Por una parte observamos que, a un mismo nivel de especificidad, tanto BSI como PSI-BLAST permiten detectar más del doble de homologías remotas que BLAST. Es decir, son mucho más sensibles. El método BSI puede alcanzar una sensibilidad superior a PSIBLAST, pero con un alto coste en pérdida de especificidad. A un nivel de especificidad similar, BSI fue menos sensible que PSI-BLAST. Un aspecto interesante es que, aunque BSI sea menos sensible, el conjunto de homologías remotas que identifica es independiente (en un 22%) del de PSI-BLAST, es decir, BSI encontró 454 relaciones que PSI-BLAST no fue capaz de detectar. 2.2.- Particularidades de BSI y PSI-BLAST En su modo de funcionamiento básico PSI-BLAST realiza una primera búsqueda de tipo BLAST con la proteína problema. Con los homólogos encontrados construye un perfil a partir del alineamiento múltiple de éstos, de modo que en el perfil queda reflejado qué posiciones son más importantes y qué aminoácidos esperamos encontrar en cada posición. Con este perfil realiza una nueva búsqueda, pero ya no comparando las secuencias de la base de datos con la proteína problema, sino con el propio perfil. La identificación de homologías lejanas depende de la calidad del perfil, de cuánta información contenga. En el caso de que en la primera búsqueda de BLAST se encontrasen muchas proteínas pero todas ellas muy parecidas, la información que éstas aportarían sería muy redundante, por lo que el perfil sería pobre y posiblemente no resultase efectivo para encontrar más homólogos. En cuanto a las BSI, para que éstas tengan éxito es necesario que existan homólogos a distancias evolutivas intermedias (detectables mediante BLAST), pero no son sensibles al problema antes mencionado de PSI-BLAST. En el ejemplo descrito en la sección de Resultados:1.4 vimos que, en el contexto de una misma superfamilia, PSI-BLAST obtuvo resultados distintos dependiendo de qué familia se utilizase como semilla de las búsquedas. En ese mismo ejemplo pudimos observar que en algunos casos las búsquedas BSI resultaron más efectivas, y que esto se debía a que el perfil construido por PSI-BLAST era pobre por estar construido a partir de secuencias redundantes. Esta limitación de PSI-BLAST se ha intentado superar con el método de FlowerPower desarrollado por el grupo de la Dra. Kimmen Sjolander y que se aplicó para la anotación del genoma humano (Venter et al., 2001); es un método que construye perfiles individuales para cada una de las subfamilias que van apareciendo en una búsqueda de PSI-BLAST, en lugar de construir uno general. Cuando hacemos un alineamiento múltiple se revela cierta información como qué posiciones son más importantes, lo cual es utilizado por PSI-BLAST pero no por BSI, de ahí la menor sensibilidad de este último. La baja especificidad del método de BSI cuando se usan umbrales de e-value permisivos se explica porque cuando se incluye un falso positivo en la lista de secuencias intermedias, éste, en las siguientes rondas, arrastra a todos sus homólogos (también falsos positivos); en el caso de PSI-BLAST puede que la incorporación de un solo falso positivo no tenga suficiente peso en el perfil como para provocar la inclusión de sus homólogos. Sin embargo, a veces sucede que el perfil de PSI-BLAST se contamina y aparecen en los resultados numerosos falsos positivos. En un caso real, por ejemplo con proteínas que no tienen una clasificación estructural en SCOP, no es sencillo saber si esto ha sucedido o no. Como los parecidos se miden entre las secuencias de la base de datos y el perfil, es difícil determinar por qué aparece una proteína en la lista de supuestos homólogos. El caso de BSI es distinto ya que siempre podemos trazar el camino (o los caminos, ya que puede haber muchos posibles) que ha llevado a la identificación de cada proteína. Como se discute más adelante, si aplicamos un método para identificar grupos de secuencias fuertemente conectados en los resultados de BSI, la discriminación de falsas homologías puede ser aún más sencilla. 2.3.- El problema de los dominios y nuestra solución Como ya se ha mencionado, para aplicar la propiedad transitiva hay que ser cautelosos, ya que las proteínas frecuentemente están formadas por varios dominios y los dominios frecuentemente se combinan entre sí de diversas maneras para dar distintas proteínas. Por esta razón las búsquedas han de realizarse únicamente con los fragmentos de las secuencias que son 72 parecidos. Tras realizar la primera búsqueda con la proteína problema es sencillo seleccionar estos fragmentos, pero en las siguientes rondas ya no, pues una misma proteína puede resultar parecida a varias de las que han sido utilizadas para realizar las búsquedas, y estos parecidos pueden corresponderse con distintas regiones de su secuencia. La aproximación que adoptamos (descrita en la sección de Métodos), resuelve este problema intentando construir un fragmento lo más grande posible a partir de los fragmentos que han alineado. A pesar de realizar esta selección de subsecuencias, observamos que a veces, a lo largo de las iteraciones, se producía una extensión no deseada en los extremos de los alineamientos, de modo que un fragmento de un dominio vecino al dominio utilizado como semilla era incluido en nuevas subsecuencias, lo que provocaba que aumentase el número de falsos positivos. Para solventar este problema aplicamos una poda de los extremos tal y como se describe en la sección de Métodos. Esta poda reduce los efectos de esta extensión no deseada, pero no los elimina completamente. En los resultados de las BSI, la mayoría de los falsos homólogos aparecen conectados débilmente (con e-values restrictivos no aparecerían), pero algunos son muy recalcitrantes: son casos en los que el grupo que contiene el falso positivo está conectado mediante muchos arcos y con e-values relativamente buenos a otro grupo no homólogo. La inspección de estos casos reveló que estos dominios no homólogos (el dominio con el que habíamos iniciado la búsqueda y el dominio que aparecía como falso positivo) aparecían conjuntamente en la misma proteína. Este problema también afecta al método de PSI-BLAST, y posiblemente el origen esté en las características del conjunto de prueba que utilizamos, en el cual no había proteínas completas sino dominios de proteínas, lo que representa una situación un tanto artificial. Además es posible que la definición de los dominios no siempre se haya hecho correctamente en la base de datos de SCOP. En un escenario más realista, iniciando las búsquedas con proteínas completas, estos artefactos se producirían con menor frecuencia. 2.4.- Ventajas y desventajas de las BSI Quizás la principal desventaja del método de BSI es el elevado coste computacional que tiene, especialmente si lo comparamos con los rápidos métodos de BLAST y PSI-BLAST. Este coste depende del tamaño de la familia de proteínas que estemos estudiando, ya que por cada nuevo homólogo encontrado se realiza una búsqueda BLAST. A pesar de que, a diferencia de PSI-BLAST, no incluye información específica de cada familia de proteínas y por tanto su sensibilidad es menor, el método de BSI permite cartografiar el espacio de secuencias, ya que en los resultados se especifican las distancias evolutivas (en forma de evalues) entre los positivos encontrados. Esta particularidad del método nos permite trazar los caminos que han conducido a que se encuentre cada proteína, por lo que esa información puede ayudarnos a discriminar los verdaderos positivos de los falsos. Además, disponer de un mapa del espacio de secuencias hace posible que podamos tratar de identificar grupos de proteínas diferenciados del resto, que posiblemente se correspondan con familias o subfamilias de proteínas con funciones particulares. También podemos indagar en las relaciones evolutivas que hay entre las distintas familias, lo que nos puede dar una visión más profunda de la función de las proteínas así como de los procesos evolutivos en sí mismos. En diversos trabajos se han utilizado este tipo de mapas para identificar familias de proteínas (Tatusov et al., 1997; Yona et al., 1999; Krause et al., 2000; Enright et al., 2002), aunque generalmente construyen el mapa comparando proteínas enteras. Este tipo de enfoques permiten analizar el espacio completo de todas las proteínas, pero son sensibles al problema de los dominios. Nuestra aproximación genera un mapa del espacio circundante a una proteína concreta y por tanto supone una visión más reducida, pero supera el obstáculo de los dominios. El modo en que analizamos el mapa del espacio de secuencias resultante de una búsqueda tipo BSI se discute más adelante. 2.5.- Los homólogos lejanos y la predicción de función A lo largo de la evolución, a partir de un mismo gen ancestral, se han derivado proteínas con funciones distintas por medio de fenómenos de cambio y selección. Aunque frecuentemente la función de proteínas homólogas de subfamilias distintas conserva algún parecido con la función ancestral, para predecir la función de una proteína fiablemente debemos identificar a qué grupo de ortólogos o subfamilia pertenece (Smith & Zhang, 1997; Tatusov et al., 1997; Bork & Koonin, 73 1998; Doerks et al., 1998; Andrade et al., 1999). Los ortólogos suelen conservar un parecido tal que en la mayoría de los casos se pueden encontrar con una simple búsqueda BLAST, sin aplicar métodos como PSI-BLAST o BSI. Sin embargo, el método de BSI puede ayudar en varios sentidos para predecir la función. Como ya se mencionó, observar un panorama evolutivo más amplio, estudiando la función de otras subfamilias homólogas, ha de arrojar luz sobre la función de la subfamilia que nos interesa, especialmente cuando no exista información sobre ella en las bases de datos. Además, si disponemos de un mapa del espacio de secuencias más completo podremos identificar más sencillamente con qué grupo de ortólogos está emparentada la proteína que queremos anotar. 3.- Interpretación de las homologías: análisis del mapa del espacio de secuencias obtenido mediante BSI. Algoritmos de agrupamiento El problema de determinar qué grupos de datos hay en un conjunto, ya sea en un espacio euclideo o en un grafo, es muy antiguo y existen gran diversidad de métodos. En general podemos decir que no hay un método único perfecto para resolver el problema en todas las situaciones sino que cada método es apropiado para un problema concreto. En este trabajo hemos buscado un método que fuese capaz de identificar estos grupos de datos (proteínas) en el grafo que obtenemos a partir de los resultados de las BSI. Otro aspecto que afecta al éxito del método es el nivel de definición que queramos obtener, el cual, en el caso del espacio de secuencias puede ir desde el nivel de superfamilias de proteínas hasta el de grupos de ortólogos o subfamilias. Por ejemplo, en la aproximación de GeneRage (Enright & Ouzounis, 2000) se aplicó un método de enlazado simple (single linkage algorithm) para identificar en el conjunto de todas las proteínas conocidas qué grupos de homólogos había, lo que supone un nivel de definición bajo. En el caso de PROTOMAP (Yona et al., 1999), se ofrece una clasificación jerárquica que trata de cubrir los distintos niveles. Para resolver nuestro problema, probamos diversos métodos, como se discute a continuación. 3.1.- Algunos métodos que probamos para analizar el espacio de secuencias Primeramente, aplicamos un método sencillo de enlazado simple, en el cual lo que hacíamos era eliminar todos aquellos arcos del grafo que tenían una distancia (o e-value) mayor que cierto umbral. Cuando analizamos los resultados observamos que en el grafo había grupos de proteínas diferenciados del resto, grupos en los que los e-values de los arcos eran significativamente inferiores a los de los arcos que conectaban los distintos grupos. Aunque este método nos permitió obtener una idea de las características del espacio de secuencias, su aplicación presentaba dos problemas: por una parte, este algoritmo es muy sensible al ruido, basta con que BLAST sobreestime una sola distancia evolutiva para que el resultado sea erróneo: si entre dos grupos hay un arco con un e-value menor del umbral mientras que los demás arcos son todos superiores, ambos grupos permanecerán unidos. Por otra parte, el grado de divergencia de cada subfamilia de proteínas es variable y depende de cuán antigua sea ésta o de en que momento de la evolución se ha separado de otra subfamilia vecina, por lo que emplear un umbral fijo para delimitar estos grupos no es apropiado. El siguiente método que probamos se basaba en el algoritmo de corte mínimo (Wu & Leahy, 1993), pero éste mostró una tendencia a separar secuencias de forma aislada de su grupo más cercano antes quizás que separar dos grandes grupos (Shi & Malik, 1997). El algoritmo que resultó más satisfactorio fue el de corte normalizado (Shi & Malik, 1997), que es similar al de corte mínimo pero hace una ponderación para evitar la preferencia de éste por separar pequeños grupos. Este método es resistente frente al ruido y además nos brindó la posibilidad de aplicar medidas relativas, y no umbrales fijos, para la separación de grupos. El algoritmo funciona de modo recursivo, en cada iteración el grafo es dividido en dos grupos. Para estudiar si la separación de ambos grupos es pertinente medimos la cantidad de arcos y la magnitud de sus evalues en cada uno de los dos grupos hijos así como en el grupo padre. Si por ejemplo las distancias entre las secuencias de uno de los grupos hijos es mucho menor que las distancias entre las secuencias de ese grupo y del otro, se continúa el agrupamiento. De este modo 74 esperamos que la medida sea apropiada para los distintos grados de divergencia que muestran las familias de proteínas. Un ejemplo ilustrativo de la pertinencia de este modo de delimitar los límites entre subfamilias es el descrito en la sección de Resultados:2.2.1.b, en el que vimos cómo dos grupos de proteínas muy cercanos (conectados por arcos con e-values en torno a 1e-23) presentaban funciones diferentes (quinasas de fosfoenolpiruvato y sintentasas de fosfoenolpiruvato), mientras que en otro caso había dos grupos, uno con genes de bacterias y el otro con genes de arqueas, que, aún teniendo la misma función (isomerasas de triosas-fosfato) la distancia que los separaba era mayor (e-values en torno a 1e-06). 3.1.1.- ¿Por qué no usar un árbol filogenético para la clasificación de proteínas? La manera más habitual de estudiar la evolución de un grupo de proteínas homólogas, ya sea para identificar distintos grupos de ortólogos o para encontrar posiciones de las secuencias con especial relevancia, es construir un árbol filogenético utilizando alguno de los muchos métodos existentes (ver Introducción). Sin embargo, consideramos que la aplicación de este enfoque al problema que intentamos resolver no es la más adecuada. Generalmente, para obtener un árbol hay que realizar primero un alineamiento múltiple de los homólogos y después utilizar algún método de reconstrucción filogenética. Estos pasos son muy lentos y difíciles de automatizar (Remm et al., 2001), aunque existen algunas aproximaciones que tratan de seguir este enfoque (Yuan et al., 1998; Whelan et al., 2003). Cuando los homólogos son lejanos los alineamientos múltiples pueden contener un número considerable de errores. Un número de homólogos muy alto hace que la construcción de un alineamiento consuma mucho tiempo. Además, los árboles filogenéticos no proporcionan una clasificación en familias y subfamilias de proteínas por sí mismos, sino que tratan de indicar la relación evolutiva entra cada una de las secuencias. Para aplicar estos métodos al problema de la clasificación proteínas sería necesario desarrollar algoritmos para interpretar de forma automática los árboles. Una aproximación intermedia es la que se utiliza en la base de datos de COGs (Tatusov et al., 1997), donde, para determinar los grupos de ortólogos aplican el método de 'mayores parecidos en las dos direcciones' (se describe en la Introducción), y sólo construyen árboles filogenéticos para, manualmente, resolver algunos casos problemáticos. 3.2.- Los grupos que observamos en el espacio de secuencias se corresponden con grupos de proteínas con una clara relación funcional: subfamilias y grupos de ortólogos Cuando observamos las anotaciones funcionales que tenían las proteínas de cada uno de los grupos resultantes, observamos que éstas eran muy similares entre sí. Los grupos que obteníamos se correspondían de forma satisfactoria con subfamilias o grupos de ortólogos con una función común. Los distintos grupos solían presentar funciones diferentes entre sí. Esta observación, que hemos ilustrado con el caso de la proteína ras humana, fue evaluada de forma sistemática mediante la comparación con los grupos de ortólogos de COGs. 3.2.1.- Comparación con COGs: coincidencias, sesgo filogenético, reconstrucción de grupos de ortólogos De entre los muchos esquemas de clasificación de proteínas que existen decidimos comparar con COGs porque es el esquema que trata de obtener un nivel de definición del espacio de secuencias más similar al nuestro. Otras bases de datos como PROTOMAP ofrecen diversos niveles de definición, desde el nivel de superfamilia hasta el de subfamilia, pero resulta más complicado seleccionar el nivel de la jerarquía apropiado para la comparación, como se mostró en el caso de la proteína ras humana (figura 10). Sin embargo, como se discute más adelante el método que presentamos da mejores resultados en un contexto como el de PROTOMAP, con un gran número de proteínas con el que cartografiar el espacio de secuencias, que en el de COGs, donde sólo están las proteínas de 21 microorganismos. En general los grupos que obtuvimos aplicando el algoritmo de agrupamiento eran más pequeños que los grupos de ortólogos definidos en COGs. Inspeccionando esos grupos pequeños y los grupos vecinos a éstos, observamos que frecuentemente estaban constituidos por proteínas de organismos muy cercanos evolutivamente. De forma usual un gen de Mycoplasma genitalium quedaba agrupado en solitario junto al ortólogo de Mycoplasma pneumoniae; o también sucedía 75 que los ortólogos bacterianos quedaban en un grupo diferente al de los ortólogos correspondientes en arqueas. La causa de este resultado era que en este ensayo las condiciones de parada del agrupamiento no resultaban ser las más adecuadas, debido a la presencia de un gran sesgo filogenético: pocas secuencias con las que obtener el mapa del espacio de secuencias, y de éstas, algunas eran demasiado parecidas por provenir de organismos muy cercanos, por lo que eran identificadas como un grupo diferenciado. Sin embargo, la información para obtener los grupos de ortólogos estaba presente en los propios resultados del agrupamiento: la unión de los grupos más cercanos permitió obtener unos resultados muy similares a los de COGs. Para detener el proceso de fusión de grupos vecinos investigamos algunas medidas, de las cuales la más satisfactoria resultó ser aquélla en que se estudiaba la representación filogenética que se obtenía con la unión de los grupos: la idea original era que si hay dos grupos vecinos y uno tiene genes de bacterias y el otro de arqueas, ambos grupos seguramente conforman un grupo de ortólogos; sin embargo, si en dos grupos vecinos había genes de los mismos organismos, posiblemente eran dos grupos de ortólogos independientes. Como ha quedado expuesto en la sección de Resultados, este estudio permitió detectar algunos grupos de COGs que no eran consistentes. También reveló la existencia de fenómenos de transferencia horizontal, así como algunas características interesantes de los genomas, como en el caso de levadura, donde se observó que los genes esenciales que tienen un ortólogo en Mycoplasma genitalium, solían estar duplicados o triplicados, posiblemente reflejando una duplicación del genoma ancestral (Wolfe & Shields, 1997). Algunas conclusiones de este estudio han de ser tomadas con precaución ya que se han estudiado las características de los grupos de ortólogos en los que hay genes de Mycoplasma genitalium, un patógeno que tiene un genoma mínimo (Fraser et al., 1995) y que ha perdido muchos genes no esenciales, los cuales quizás tengan un comportamiento evolutivo distinto. 3.3.- Ventajas y limitaciones de nuestro método Respecto a otras aproximaciones de clasificación de proteínas, ésta tiene la particularidad de que no es una clasificación global de todas las proteínas conocidas, o de las proteínas de un conjunto de genomas. El método presentado clasifica las proteínas que son encontradas en la vecindad de una proteína determinada. Esto supone una visión más limitada del universo de las proteínas ya que no podemos estudiar, por ejemplo, qué familias de proteínas hay en un conjunto de genomas; pero por otra parte esta aproximación es más robusta frente a ciertos tipos de errores como el ya mencionado problema de los dominios. En cuanto a la identificación de ortólogos, métodos como el empleado en COGs (que es semi-automático) necesitan conocer los proteomas completos para determinar las relaciones de ortología. El hecho de que el método que hemos presentado no tenga este requisito demuestra que la medida de las distancias entre las proteínas es suficiente (al menos en un gran número de casos) para diferenciar grupos que se correspondan con subfamilias o conjuntos de ortólogos. 3.3.1.- Aplicación del método de agrupamiento en otros escenarios El método de agrupamiento que hemos empleado no tiene por qué utilizar el mapa obtenido con las BSI, sino que podría operar con cualquier otro grafo, si bien las condiciones de parada han sido ajustadas para el caso de las BSI. Para que pudiese ser aplicado al espacio global de las proteínas sería necesaria otra implementación del algoritmo, ya que la actual, cuando trata con grafos de más de 1.500 nodos, resulta muy lenta. 3.4.- Interés de la identificación de grupos de ortólogos y subfamilias Uno de los objetivos más perseguidos en la Biología Molecular es conocer qué papel desempeña una proteína, cuál es su función. Si conocemos su secuencia, averiguar cuáles son sus homólogos nos puede dar algunas pistas, ya que al tener un mismo origen sus funciones han de reflejar de algún modo la función ancestral. La función de un homólogo puede ser transferida a una proteína problema con mayor confianza si ambos son ortólogos, ya que éstos suelen conservar la función a lo largo de la evolución. El método que hemos presentado puede ayudarnos a determinar estas relaciones y por tanto puede ser utilizado como punto de partida 76 para la anotación de función. La identificación de subfamilias tiene más aplicaciones: si estudiamos las secuencias de distintos grupos de ortólogos podemos encontrar posiciones específicas de cada grupo, posiciones que posiblemente se relacionan con características propias de la función de cada subfamilia (Casari et al., 1995). Si queremos adoptar una perspectiva más amplia y comparar genomas para encontrar características propias de las distintas especies, también es importante la identificación de ortólogos ya que es la única manera de determinar qué funciones están presentes o ausentes en los organismos vivos (Tatusov et al., 1997; Natale et al., 2000). Si queremos analizar la estructura de los genomas, el orden en que se organizan los genes, quizás buscando relaciones funcionales entre éstos (Overbeek et al., 1999; Tamames, 2001), conocer las relaciones de ortología también es imprescindible. Estos estudios también pueden ser útiles en el ámbito de la genómica estructural (Rost et al. 2002). Recientemente se han comenzado diversas iniciativas para conocer todas las estructuras de proteínas posibles. La idea no es determinar experimentalmente la estructura de todas ellas, lo cual sería enormemente costoso en tiempo y recursos, sino resolver la estructura de un conjunto seleccionado, por ejemplo resolviendo una proteína por cada familia, de forma que la estructura de las otras proteínas se pueda inferir computacionalmente (la estructura general de las proteínas homólogas se conserva a lo largo de la evolución). Los métodos de clasificación como el que hemos expuesto pueden ser relevantes a la hora de seleccionar qué proteínas serán estudiadas para conocer su estructura tridimensional (Elofsson & Sonnhammer, 1999; Linial & Yona, 2000; Brenner, 2000; Vitkup et al., 2001; May, 2001; Heger & Holm, 2000; Abascal & Valencia, 2002; Portugaly et al., 2002). 4.- La anotación de la función de las proteínas: particularidades de este problema y algunos aspectos del método que hemos presentado Existen muchas formas de aproximarnos al estudio de la función de las proteínas, pero dado que el ritmo al que conocemos nuevas secuencias es muy rápido, la mayoría resultan impracticables, por lo que no podemos realizar un estudio detallado de la función de todas las proteínas. Una anotación automática inicial de estas nuevas proteínas es necesaria para avanzar en el conocimiento biológico, para afrontar los nuevos retos que se nos plantean, para comparar y comprender los genomas que estamos conociendo. Nuestra aproximación para la anotación automática se basa en la transferencia de información a una proteína problema a partir de sus homólogos. Esta forma de avanzar entraña numerosos riesgos, pudiendo conducir a una degradación de la información depositada en las bases de datos, lo que afectará a la calidad de nuestro conocimiento futuro. A continuación discutiremos algunos de estos riesgos y la soluciones que hemos vislumbrado, así como la relación de este trabajo con otros similares. Finalmente, discutiremos el futuro de la predicción de la función de las proteínas. 4.1.- Anotación automática y los homólogos: ortólogos y parálogos Se ha repetido muchas veces que para anotar la función de las proteínas fiablemente hay que identificar, dentro del conjunto de homólogos, cuáles son ortólogos (Smith & Zhang, 1997; Tatusov et al., 1997; Bork & Koonin, 1998; Doerks et al., 1998; Andrade et al., 1999). En algunos sistemas automáticos como GeneQuiz (Andrade et al., 1999) la anotación se hace básicamente a partir del homólogo más parecido, y a cada anotación se le asigna un valor de confianza proveniente de la magnitud del e-value. Esta aproximación no es la ideal porque la proteína más parecida a otra puede que pertenezca a una subfamilia distinta y para establecer cuándo dos proteínas pertenecen a un mismo grupo no existen valores absolutos sino que depende de cada caso (Devos & Valencia, 2000), como ya hemos visto. Además, como discutimos más adelante, tener en cuenta únicamente la información de una proteína reduce la fiabilidad de la anotación. Nuestro enfoque se basa en la identificación de ortólogos. Para una proteína problema buscamos un conjunto de proteínas que supuestamente llevan a cabo una misma función y el análisis de las anotaciones de todas ellas de forma conjunta nos permite hacer una transferencia más fiable. Hay que recordar que los ortólogos no siempre realizan una misma función, aunque no son 77 muchos los ejemplos que conocemos (quizás no son muchos porque solemos suponer que la hipótesis contraria es válida). Los ortólogos de los genes flagelares en buchnera pueden ser uno de esos casos, ya que en esta bacteria no se han observado flagelos. O quizás dichos genes estén anotados como flagelares porque se ha observado alguna relación con el desarrollo de dichas estructuras, pero puede que su función principal sea otra. Otro ejemplo llamativo es el de las enzimas glicolíticas que en el cristalino del ojo actúan con una función estructural y no enzimática (Piatigorsky & Wistow, 1991). Es difícil saber si estamos ante raras excepciones o si por el contrario es un fenómeno frecuente. Lo que sí es seguro es que en distintos organismos la función de los ortólogos puede adquirir matices particulares, pero éstos no solemos conocerlos o no aparecen en las descripciones presentes en las bases de datos. Incluso en un mismo organismo, un mismo gen puede dar lugar a varias proteínas con características particulares mediante splicing alternativo, un fenómeno que ha pasado de considerarse una rareza a una regla general. Se estima que en el genoma humano, a partir de unos 30.000 genes se producen unas 100.000 proteínas distintas (Modrek & Lee, 2002; Roberts & Smith, 2002). En cualquier caso, la herencia de anotaciones entre ortólogos es lo mejor que tenemos hasta ahora (al final de esta sección se discute el futuro de la predicción de la función de las proteínas). 4.2.- La naturaleza multidominio de las proteínas Otra posible fuente de errores que se ha apuntado en la bibliografía es la relacionada con la naturaleza multidominio de las proteínas (Smith & Zhang, 1997; Bork & Koonin, 1998; Bork et al., 1998; Doerks et al., 1998; Andrade, 1999). A lo largo de la evolución la Naturaleza ha jugado al lego combinando elementos ya existentes como los dominios de proteínas, para crear nuevas proteínas (Henikoff et al., 1997; Aravind et al., 1999). La función global de estas proteínas es el resultado de la combinar las funciones de sus dominios. Así, por ejemplo, el dominio quinasa de proteínas, tan abundante, suele aparecer asociado a otros dominios, que determinan dónde, cómo, cuándo y con quién se deberá llevar a cabo la fosforilación. Aunque la variación de dominios entre ortólogos no es de esperar que sea tan alta como entre parálogos (Remm et al., 2001), una vez identificado el grupo al que pertenece la proteína problema, llevamos a cabo un estudio de los alineamientos, clasificándolos en distintas categorías según si se corresponden con las secuencias completas de las proteínas problema y molde. Este modo de afrontar el problema es simplista, pero ha demostrado su utilidad en algunos casos como el del gen polA de buchnera, en el cual se evitó la anotación de éste como polimerasa de ADN de tipo I, siendo que sólo presentaba el dominio exonucleasa 5'->3'. Un análisis más detallado de la organización de dominios posiblemente revelaría más información. Sin embargo, la automatización de dicho análisis sería sumamente compleja: si bien podemos explicar la función de una proteína observando qué elementos la componen, el camino inverso no es sencillo: no sabemos deducir su función a partir de sus dominios (Attwood, 2000). 4.3.- El modo en que se describe la función de una proteína: riqueza del lenguaje, vocabularios controlados y ontologías Frente a los problemas reales descritos en los dos puntos previos, relacionados con el modo como evolucionan las proteínas, encontramos otros más técnicos cuando analizamos las anotaciones que hay en las bases de datos. El lenguaje humano es muy rico en sinonimias y el modo en que cada persona refiere un acontecimiento o concepto depende del trasfondo de cada uno, de su subjetividad. Aunque en el ámbito científico se procura mantener unos estándares, las descripciones de la función de las proteínas también se ven afectadas por estas cuestiones. Podemos encontrar ortólogos cuya función se define utilizando sinónimos diferentes, o con distinto nivel de detalle (Smith & Zhang, 1997). También sucede que dependiendo del área de la biología en la que se ha investigado un gen determinado, la función se haya observado desde una perspectiva particular. Por ejemplo, si se trata de un gen de Drosophila melanogaster es probable que se haya prestado más atención al papel de una proteína en el desarrollo ontogénico; pudiendo ser que en otro organismo, quizás en humanos, el ortólogo se haya estudiado desde el punto de vista de la patología, quedando esto reflejado en las anotaciones. Por otra parte, en las bases de datos hay anotaciones erróneas (la implicación de esto se discute más adelante), así 78 como descripciones que incluyen información no relacionada con la función de las proteínas, aspectos que no debemos suponer que se conservan en ortólogos, como puede ser la posición de un gen en un genoma determinado. En el trabajo que hemos presentado se minimiza el efecto negativo de estas características de las anotaciones de varias maneras. Por una parte, en SwissProt y TrEMBL, las dos bases de datos que utilizamos como fuente de información, se aplica un gran esfuerzo para mantener una consistencia en las descripciones, proporcionando listas de sinónimos, por lo que las anotaciones de un mismo grupo de ortólogos suelen ser muy similares. Por otra, para seleccionar la anotación más adecuada para la transferencia, el método que hemos presentado calcula qué descripción, de aquéllas de un mismo grupo o cluster, es más homogénea con respecto a las otras, de modo que aquéllas que contengan sinónimos infrecuentes, o palabras no relacionadas con la función, palabras que aparecen quizás en sólo una de ellas, o aquéllas descripciones que sean demasiado específicas, obtendrán una baja puntuación y generalmente no serán seleccionadas. Como la homogeneidad no siempre garantiza el éxito, el método aplica una serie de reglas, muchas de ellas inspiradas en el análisis léxico de GeneQuiz (Andrade et al., 1999), para identificar descripciones que, por ser muy específicas o por no contener información funcional, no son heredables. Estos filtros no siempre han resultado suficientes, tal y como observamos en el análisis del genoma de buchnera, donde 9 anotaciones contenían palabras no transferibles, desde números de acceso específicos hasta códigos que identificaban la posición de un gen en un genoma. En la anotación de códigos enzimáticos no calculamos cuál es más homogéneo con respecto a los demás porque esta anotación viene dada en un vocabulario restringido y específico. Lo que hemos hecho ha sido escoger el código de la proteína más parecida, aunque respetando el orden de preferencias de las categorías de alineamiento. Este modo de proceder no resulta adecuado siempre, ya que si la proteína más parecida está mal anotada, el método propaga el error, como observamos que sucedió con la anotación de algún gen de buchnera. Para la transferencia de palabras clave hemos considerado sólo los homólogos que alinean completamente con la proteína problema, por considerar que existe una mayor relación entre palabras clave y distintas regiones o dominios de las secuencias. El modo de seleccionar el conjunto de palabras buscaba transferir el conjunto mayor de éstas en el que no se mezclasen palabras que pudiesen ser auto-excluyentes, es decir, palabras que no deben aparecen conjuntamente. Es necesario aplicar un filtro para seleccionar qué palabras clave pueden ser transferidas ya que algunas no tienen una relación con la función de la proteína (por ejemplo: 'complete proteome' o '3D-structure') o se refieren a características de las proteínas que no podemos suponer que se conserven entre ortólogos ('mitochondrion', 'chloroplast'). 4.3.1.- Acuerdos para describir la función de las proteínas y ontologías En el apartado previo discutimos cuáles han sido las maneras en que hemos tratado de solventar los problemas relacionados con las anotaciones de las bases de datos. Como ya se avanzó en la introducción de esta tesis, de un tiempo a esta parte se están tratando de aliviar estos problemas por medio de la construcción de vocabularios controlados y ontologías. Estas iniciativas son prometedoras ya que en ontologías como la de GeneOntology (Ashburner et al., 2000) se cubren los distintos niveles posibles de detalle de la función, desde aspectos generales, tales como si una proteína está implicada en la traducción, hasta los más específicos como si forma parte del ribosoma. Además, en el marco de GeneOntology se describe la función de las proteínas desde tres perspectivas generales distintas, como son las de componente celular, función molecular y proceso biológico”, de modo que una proteína como la actina puede ser descrita al mismo tiempo como constituyente del citoesqueleto y como ATPasa. Un aspecto negativo de GeneOntology es que está pensado sólo para describir la función de genes de organismos eucariotas. Además, la anotación es laboriosa y ha de hacerse a mano por lo que aún no son muchas las proteínas así descritas. Existen algunas iniciativas que tratan de automatizar esta tarea, pero sus resultados son dudosos. Para que las aproximaciones computacionales tuvieran éxito debería construirse una verdadera ontología y no un simple esqueleto de conceptos relacionados; una ontología en la que se definiera cada uno de los conceptos y cada una de las relaciones existentes entre ellos, especificando cuándo y cómo puede suponerse determinada relación. Una solución intermedia para anotar proteínas según GeneOngology es la de GOA (GO Annotation@EBI) del European 79 Bioinformatics Institute (Camon et al., 2003), donde tratan de combinar métodos computacionales y manuales para conectar proteínas a la jerarquía de conceptos de GeneOntology. En un principio han aplicado estos métodos al proteoma humano. Hay que recordar que aunque este tipo de representación del conocimiento biológico va a resultar muy útil, especialmente para los métodos computacionales, una ontología nunca estará a la altura del nivel de complejidad con que un ser humano puede llegar a definir la función de una proteína. Y también que nuestro conocimiento está en continua evolución. Viejos dogmas como el de "un gen, una proteína" cayeron hace tiempo. 4.4.- Métodos relacionados con este trabajo. Anotación automática de TrEMBL Posiblemente el trabajo más cercano al nuestro sea el de (Fleischmann et al., 1999), en el contexto de la anotación automática de TrEMBL a partir de las anotaciones de Swiss-Prot (descrito en la Introducción). Básicamente lo que hacen es agrupar las proteínas de Swiss-Prot de acuerdo a la presencia en sus secuencias de patrones de Prosite (actualmente el agrupamiento se hace a partir de motivos de InterPro), como por ejemplo el patrón ATP-binding. Seguidamente buscan anotaciones comunes a todas las proteínas que han quedado agrupadas y si encuentran alguna derivan una regla del tipo: cuando una proteína tiene el patrón ATP-binding en su secuencia, podemos anotar la palabra clave 'ATP-binding'. Estas reglas las aplican a las secuencias de TrEMBL. Nuestra idea, agrupar proteínas y buscar elementos comunes, es similar. Sin embargo hay algunas diferencias: por una parte el agrupamiento de acuerdo a Prosite (o InterPro) no permite agrupar todas las familias de proteínas ya que no todos los motivos existentes en la naturaleza están descritos. El hecho de que los patrones de Prosite sean diagnósticos en algunos casos de superfamilias y en otros de familias o subfamilias, hace que el agrupamiento de proteínas de acuerdo a ellos no permita suponer que las proteínas realizan una misma función, por lo que hay que buscar elementos de las anotaciones comunes a todas ellas. Sin embargo, el método de agrupamiento que hemos presentado tiene como objetivo identificar grupos de proteínas con una misma función (grupos de ortólogos), por lo que suponemos que, de las proteínas del grupo, la anotación más homogénea respecto al resto es válida para la proteína problema. Sin embargo, el método de agrupamiento no siempre resulta adecuado tal y como reveló el análisis de la anotación de buchnera, donde vimos algunos casos en los que no separó dos subfamilias distintas y esto condujo a una anotación errónea. Podemos decir que nuestra aproximación tiene una cobertura mayor, aunque seguramente la fiabilidad de las anotaciones sea menor. Por otra parte, en la aproximación de Fleischmann y sus colaboradores se trata de transferir un mayor número de campos de información: además de las líneas DE, KW y los códigos enzimáticos que analizamos, en ese trabajo se incluyen otros campos, los correspondientes a las líneas CC y FT, de alto contenido informativo. En un futuro podríamos pensar en compartir este trabajo y colaborar con el equipo encargado del mantenimiento de TrEMBL. 4.5.- El impacto de las anotaciones automáticas en la calidad de la información contenida en las bases de datos La mayoría de las anotaciones se realizan, ya sea automática o supervisadamente, a partir de un homólogo de función conocida. De hecho podemos encontrarnos con una cadena de anotaciones basadas en este principio, lo que, evidentemente, entraña serios riesgos y puede conducir a una degradación de la información contenida en las bases de datos, las cuales a su vez son fuente de nuevas anotaciones. Es difícil saber cuántos errores cometemos. Algunos autores han tratado de estimarlo. Steven Brenner (Brenner, 1999) comparó las anotaciones que tres grupos independientes publicaron para los 468 genes de Mycoplasma genitalium (Fraser et al., 1995; Ouzounis et al., 1996; Koonin et al., 1996). De los 340 genes para los que al menos dos grupos propusieron una función (en suma 702 asignaciones), las anotaciones presentaban desacuerdos en al menos 55 casos (8%). Esta estimación no incluye los casos en que los tres grupos se hayan podido equivocar simultáneamente, lo cual es bastante posible dado que utilizaron bases de datos y métodos similares. Devos y Valencia (Devos & Valencia, 2001) lo plantearon de otro modo: por una parte estimaron cuánto varía la función de las proteínas en relación al porcentaje de identidad de secuencias homólogas (Devos & Valencia, 2000); y por otra determinaron el porcentaje de 80 identidad de los homólogos a partir de los cuales se había transferido la anotación a los genes de diversos genomas. El número de errores para distintas características funcionales fue variable, yendo desde el 4% para la anotación de descripciones generales de la función hasta el 37% para la anotación del último número del código enzimático, el que determina la especificidad de sustrato. Los autores recuerdan que esta estimación sólo es válida cuando las anotaciones se han realizado basándose en similitud de secuencias y que un análisis de familias de proteínas reduciría la tasa de error. La inspección de las anotaciones del proteoma de Buchnera aphidicola nos permitió estimar, comparando con las anotaciones de otras estirpes de buchnera así como con otra anotación automática, el número de errores que cometimos. Este modo de evaluación no es del todo consistente ya que las anotaciones con que comparamos puede que también sean erróneas. Para determinar la precisión del método tratamos de ser críticos y consideramos como errónea o conflictiva la anotación de 32 de los 507 genes, lo que se corresponde con una precisión del 94%. De estos 32 casos, en 21 de ellos se trataba de proteínas que tras el agrupamiento habían quedado aisladas de sus ortólogas y por tanto no pudieron ser anotadas. Los genes de esta bacteria han divergido muy rápidamente debido a su modo de vida endosimbiótico, por lo que no es de extrañar que el método de agrupamiento sitúe en algunos casos sus proteínas en grupos separados. En algunos casos, como en el que hemos mencionado de las proteínas flagelares, esta alta divergencia quizás refleje la adquisición de nuevas funciones. Otros errores se debían a la transferencia de elementos de las descripciones demasiado específicos o a un incorrecto resultado del método de agrupamiento. Es muy difícil saber qué tal lo estamos haciendo y cuántos errores cometemos. El futuro de las bases de datos dependerá de lo bien que lo hagamos y de que indiquemos siempre las evidencias que apoyan cada una de las inferencias que llevan a anotar una proteína, de modo que podamos deshacer cadenas de anotaciones incorrectas y así mantener una información de calidad. En este sentido esfuerzos como el de mantener Swiss-Prot son de gran ayuda. 4.6.- El futuro de la predicción de la función de las proteínas Actualmente nos encontramos ante un cambio de perspectiva respecto al estudio de la función de las proteínas. El enfoque clásico de la Biología Molecular, que básicamente consistía en purificar proteínas y estudiar su función de forma aislada, está cambiando. El trabajo que hemos presentado también adopta una visión reduccionista: para una proteína particular se buscan los ortólogos y se analizan sus anotaciones, las cuales generalmente han sido determinadas por métodos clásicos. En este momento, sin embargo, la secuenciación de numerosos genomas, así como el desarrollo de nuevas técnicas experimentales, nos brindan la oportunidad de abstraernos desde lo individual hasta lo más general, la oportunidad de observar el sistema en su conjunto, de estudiar la función de las proteínas en su contexto natural. Se están concentrando grandes esfuerzos para tratar de describir qué proteínas interaccionan entre sí. De hecho ya se han descrito las redes de interacción en algunos organismos modelo (Uetz et al., 2000; Gavin et al., 2002). Los resultados para levadura estiman en unas 30.000 las interacciones que se producen entre sus 6.000 proteínas. Estas redes dibujan un panorama muy amplio. Podemos estudiar sus características generales, es decir, qué topología tienen y cómo han ido estableciéndose nuevas conexiones a lo largo de la evolución (Jain & Krishna, 2001; Wagner, 2001; Fraser et al., 2002; Pawson & Nash, 2003). También podemos analizar cómo se coordinan y relacionan los distintos procesos celulares (Ogata et al., 1999). Además, la función de muchas proteínas hipotéticas puede ser predicha analizando su situación en la red, estudiando con qué otras proteínas colaboran (Letovsky & Kasif, 2003; Vazquez et al., 2003; Huynen et al., 2003). Las matrices de ADN también son responsables de tantos cambios. Esta tecnología permite conocer simultáneamente el estado de expresión de miles de genes, como si sacáramos una foto al interior de una célula (Lockhart et al., 1996; Butte et al., 2000; Getz et al., 2000). También podemos obtener una película si realizamos fotos consecutivas. Los resultados nos ofrecen la posibilidad de encontrar proteínas con patrones de expresión similares, proteínas que, por regularse de un modo similar, posiblemente participan en un mismo proceso celular (Oliveros et al., 2000; Bilu & Linial, 2002; Pavlidis et al., 2002). Además, los datos que resultan de estos 81 estudios pueden servirnos para reconstruir las redes de regulación génica (Wyrick & Young, 2002; Segal et al., 2003). ¿Qué decir de los genomas ? Actualmente conocemos la secuencia de los genomas de más de 150 organismos, y pronto la de muchos más. Su comparación está revelando muchas relaciones entre las proteínas, como en el caso de genes que en bacterias lejanas han conservado el orden, que posiblemente pertenezcan a un mismo operón, y que son candidatos a colaborar en una misma función biológica (Overbeek et al., 1999; Tamames, 2001; Marcotte et al., 1999). O el de genes que tienen un mismo patrón filogenético, es decir, que están o no están en los distintos organismos, por lo que podemos pensar que sus funciones son complementarias y no tiene sentido poseer sólo una de ellas (Pellegrini et al., 1999). La información que tantas secuencias ocultan está saliendo a la luz gracias a muchos otros enfoques como son el de encontrar proteínas de fusión (Enright et al., 1999), el de las mutaciones correlacionadas entre distintas proteínas (Olmea & Valencia, 1997; Pazos et al., 1997; Pazos & Valencia, 2002), o el de los mirror-trees o árboles especulares (Pazos & Valencia, 2001). Toda esta información está ayudando tanto a predecir la función de muchas proteínas huérfanas como a obtener una perspectiva más amplia del sistema. Sin embargo, con una perspectiva más amplia vemos menos detalles. Los métodos más clásicos seguirán siendo imprescindibles para caracterizar de forma precisa la función de las proteínas y cómo éstas interactúan entre sí. En cuanto a la anotación automática, el tipo de información que ofrecen estas nuevas aproximaciones tiene un nivel de detalle y precisión muy bajos, nos dicen algo así como: la función de esta proteína debe de ser similar o complementaria a la de esta otra; este tipo de información es muy difícil de anotar automáticamente, además de ser poco precisa. Por tanto, actualmente, la anotación basada en homología continúa resultando de gran ayuda, y constituye una visión complementaria para estudiar la función de las proteínas, aunque a veces los árboles no nos dejen ver el bosque. 82 Conclusiones 1.- La propiedad transitiva de la homología puede extenderse indefinidamente, y esto permite encontrar homólogos remotos con una alta sensibilidad, aunque con baja especificidad. A un mismo nivel de especificidad, se obtiene una sensibilidad ligeramente inferior a la de PSI-BLAST pero muy superior a la de BLAST. 2.- La medida del e-value entre pares de secuencias constituye una medida de distancia entre proteínas suficiente para identificar grupos de proteínas. No existen medidas de distancia estándar que permitan delimitar las diferentes familias de proteínas: cada familia tiene distintas características. 3.- En el grafo de distancias existen grupos de proteínas diferenciados del resto. Éstos suelen corresponderse con grupos de ortólogos o subfamilias con una función común. 4.- El algoritmo de corte normalizado, aplicado sobre el grafo construido a partir de las secuencias y los e-values que reflejan su parecido, ofrece resultados satisfactorios, aunque para una correcta identificación de estos grupos es deseable que el espacio de secuencias esté suficientemente poblado, para evitar sesgos filogenéticos. 5.- Para predecir la función de una proteína a partir de las anotaciones ya existentes para sus homólogos: 5.1.- hay que tener en cuenta si pertenecen a una misma subfamilia o grupo de ortólogos. 5.2.- es conveniente utilizar la información de múltiples homólogos para reducir el riesgo de propagar anotaciones inapropiadas, bien porque sean erróneas, poco informativas o demasiado específicas. El método que hemos presentado ofrece una solución a estos problemas. 6.- El sistema ORFandDB para el análisis de genomas ha mostrado su utilidad en estudios de diversa índole. El esquema entidad-relación para representar la información biológica ha resultado apto en todos ellos, lo que avala su calidad. 83 Glosario • • • • • • • • • • • • Alineamiento: el alineamiento de secuencias consiste en encontrar la superposición de varias secuencias (dos o más, según si es alineamiento entre pares o alineamiento múltiple) en la que hay más coincidencias entre las posiciones de unas y otras. En un alineamiento local se encuentra el fragmento de las secuencias que proporciona un alineamiento con una coincidencia máxima. En un alineamiento global se alinean las secuencias enteras. La combinación de la información de los alineamientos y de modelos estadísticos permite identificar relaciones de homología entre las proteínas. Análogo: cuando la función (o la estructura) de dos proteínas se parece pero éstas tienen orígenes distintos decimos que son análogas. BLAST: es una herramienta que, mediante el alineamiento de secuencias y la aplicación de un modelo estadístico, permite encontrar rápidamente homólogos en las bases de datos de secuencias. Búsquedas con secuencias intermedias (BSI): es un método para buscar homólogos. Extiende las búsquedas sencillas del tipo de BLAST mediante la aplicación de la propiedad transitiva de la homología. Con las secuencias que encuentra BLAST, realiza nuevas búsquedas de tipo BLAST, saltando por el espacio de secuencias de una proteína a otra, permitiendo encontrar homólogos lejanos siempre y cuando existan secuencias a distancias intermedias. Clustering o agrupamiento: si a partir de un conjunto de elementos o datos determinamos si hay grupos de éstos diferenciables del resto y los reunimos, estamos realizando un clustering o agrupamiento. La clasificación de los animales en mamíferos, peces, anfibios... es un ejemplo agrupamiento. Existen muchos métodos computacionales para identificar grupos de datos dentro de un conjunto. Estos datos pueden estar en un espacio euclídeo o en un grafo, por ejemplo. COGs: es una base de datos donde los genes de microorganismos de los que conocemos la secuencia completa de sus genomas se clasifican en grupos de ortólogos. Dominio: un dominio de una proteína es un fragmento de su secuencia con independencia estructural del resto, es decir, capaz de conformar una estructura tridimensional determinada por sí mismo. Las proteínas pueden estar constituidas por uno o más dominios. E-value: en el ámbito de la búsqueda de homólogos, es una medida que se emplea para estimar cuándo un parecido entre dos secuencias puede reflejar un origen común de éstas. Estructura: cuando hablamos de la estructura de una proteína nos referimos a la disposición en el espacio 3D de su secuencia de aminoácidos. La estructura de una proteína está determinada por su secuencia (Anfinsen, 1973). Las proteínas homólogas tienen estructuras similares (Chothia & Lesk, 1986). Familias y subfamilias: Las superfamilias pueden subclasificarse en familias y subfamilias cuando contienen varios grupos de ortólogos. En este trabajo frecuentemente hemos utilizado el término de subfamilia como sinónimo de grupo de ortólogos, es decir, de grupo de proteínas con una función común. Función: cuando hablamos de la función de una proteína nos referimos al papel que ésta desempeña en la célula (o fuera de ésta), ya consista en formar parte del esqueleto celular o en llevar a cabo un paso determinado de una ruta metabólica. Grafo: es una estructura de datos en la que hay nodos que pueden estar conectados mediante arcos. Estos arcos pueden tener una direccionalidad y un peso. Asimismo, los nodos pueden tener etiquetas. Los grafos son adecuados para representar redes de comunicaciones, ontologías o rutas metabólicas. El espacio de secuencias también puede ser descrito mediante un grafo en el que los nodos se correspondan con proteínas y los arcos reflejen las distancias 84 • • • • • • • • • • • o relaciones entre ellas (Tatusov et al., 1997; Yona et al., 1999; Abascal & Valencia, 2002). Homólogo: aplicado a proteínas y genes se utiliza para indicar un origen evolutivo común. Por ejemplo, sabemos que la actina y las hexoquinasas son homólogas porque sus secuencias y estructuras tridimensionales se parecen. Mapa del espacio de secuencias: por espacio de secuencias entendemos el universo de las secuencias, en el que unas están más cercanas a otras dependiendo de su distancia evolutiva, de restricciones para conservar la función de la proteína, o dependiendo del modo de vida de los organismos (por ejemplo, en bacterias endosimbiontes de insectos el ritmo de divergencia es muy alto). Cuando hacemos una estimación de las distancias entre las proteínas estamos cartografiando el espacio de secuencias. Estos mapas podemos representarlos mediante árboles filogenéticos binarios (Saitou & Nei, 1987; Eck & Dayhoff, 1966), grafos (Yona et al., 1999, Abascal & Valencia, 2002) o espacios euclideos N-dimensionales (Casari et al., 1995). Ontología: Originalmente, se ha utilizado en filosofía para referirse al intento de determinar qué tipo de entidades o “cosas” existen en el universo. Si, referido a un área de conocimiento, como por ejemplo la biología, discernimos qué conceptos más pequeños constituyen los ladrillos con los que se construyen otros más elevados, y si definimos estos conceptos y el modo en que estos conceptos se interrelacionan entre sí, habremos definido una ontología. Ortólogo: se refiere a aquellas proteínas (o genes) homólogas que tienen la misma identidad en distintos organismos, es decir, proteínas en distintos organismos que provienen de un mismo gen en el último ancestro común. Las proteínas ortólogas suelen llevar a cabo una misma función. Parálogo: hablamos de parálogos cuando nos referimos a genes de la misma especie o de especies distintas que han surgido por duplicación. Remm y colaboradores (2002) proponen una distinción entre parálogos que se han originado antes de la especiación (out-paralogs) de los parálogos que lo han hecho después (in-paralogs). Los in-paralogs, como los ortólogos, suelen conservar la función original. Perfil: los alineamientos múltiples revelan información de qué posiciones de las secuencias son más importantes (están más conservadas). Esta información puede plasmarse en un perfil, que es una matriz de dimensiones 20xL, donde para cada posición del alineamiento (de longitud L) se indica la frecuencia con que se observa cada uno de los veinte aminoácidos. PSI-BLAST utiliza perfiles para encontrar homólogos lejanos (aquéllos cuyas secuencias ya casi no se parecen). Propiedad transitiva de la homología: si sabemos que dos proteínas A y B tienen un origen común, y sabemos que B y C también comparten origen, podemos aplicar esta propiedad y deducir la homología entre A y C. Como las proteínas frecuentemente constan de varios dominios, y como a lo largo de la evolución unos dominios se han combinado con otros (barajado de dominios o domain shuffling), esta propiedad sólo es válida cuando los dominios implicados en la relación A-B y B-C son los mismos. PROTOMAP: en esta base de datos se clasifican las proteínas de forma jerárquica. A partir de un grafo en el que se representa el espacio de secuencias, se agrupan las proteínas en grupos cada vez más amplios. PSI-BLAST: es un programa para buscar homólogos en las bases de datos. Gracias a que realiza las búsquedas con perfiles, es capaz de encontrar homólogos lejanos de forma más eficiente que un método como BLAST. Secuencia: las proteínas y los ácidos nucleícos son biopolímeros constituidos por el ensamblaje consecutivo (secuencial) de aminoácidos y nucleótidos, respectivamente. Gracias a que las proteínas y los genes se ordenan de este modo podemos representarlos como cadenas de caracteres. Las proteínas con secuencias suficientemente parecidas son homólogas (Zuckerkandl & Pauling, 1965). Superfamilia: las proteínas que son homólogas se dice que pertenecen a una misma superfamilia. 85 • SCOP: es una base de datos donde se clasifican las proteínas cuya estructura conocemos. La clasificación es jerárquica. Se clasifican, de forma jerárquica, según la clase, el tipo de plegamiento, la superfamilia, etcétera. Frecuentemente se utiliza como estándar de homología: las proteínas que en SCOP están en una misma superfamilia son homólogas, las que están en la misma categoría de tipo de plegamiento pero en distinta superfamilia no lo sabemos, y las que tienen plegamientos distintos no son homólogas. 86 Referencias • • • • • Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the identification of protein families. Bioinformatics. 18:908-921. Abascal F, Valencia A. (2003) Automatic annotation of protein function based on family identification. Proteins. In press. Aguirre C. (2002) Estudio de Propiedades estaticas y dinamicas para modelos aplicados a redes de comunicaciones. (Tesis doctoral). Universidad Autónoma de Madrid. Alonso-Allende R, Fernandez-Gonzalez JM, Valencia A. (2002) The REGIA database (RegiaDB): status, limitations and future developments. Comp. Func. Genom., in press. Altman R, Bada M, Chai XJ, Whirl Carillo M, Chen RO, Abernethy NF. (1999) RiboWeb: An Ontology-Based System for Collaborative Molecular Biology. IEEE Intelligent Systems, 14:68-76. • Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990) Basic local alignment search tool. J Mol Biol. 215:403410. • Altschul SF, Gish W. (1996) Local alignment statistics. Methods in Enzymology 266:460-480. • Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. (1997) Gapped BLAST and PSIBLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402. Andrade MA, Brown NP, Leroy C, Hoersch S, de Daruvar A, Reich C, Franchini A, Tamames J, Valencia A, Ouzounis C, Sander C. (1999) Automated genome sequence analysis and annotation. Bioinformatics. 15:391-412. Andrade MA. (1999) Position-specific annotation of protein function based on multiple homologs. Proc Int Conf Intell Syst Mol Biol. 28-33. • • • • • • • • • • • • • • • • • • • • • Anfinsen CB. (1973) Principles that govern the folding of protein chains. Science. 96:223-230. Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM; InterPro Consortium. (2000) InterPro--an integrated documentation resource for protein families, domains and functional sites. Bioinformatics.29:1145-1150. Apweiler R. (2001) Functional information in SWISS-PROT: the basis for large-scale characterisation of protein sequences. Brief Bioinform. 2:9-18. Aravind L, Dixit VM, Koonin EV. (1999) The domains of death: evolution of the apoptosis machinery. Trends Biochem Sci. 24:47-53. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G. (2000) Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 25:25-29. Attwood TK, Beck ME, Flower DR, Scordis P, Selley JN. (1998) The PRINTS protein fingerprint database in its fifth year. Nucleic Acids Res. 26:304-308. Attwood TK. (2000) Genomics. The Babel of bioinformatics. Science. 290:471-473. Bailey LC Jr, Fischer S, Schug J, Crabtree J, Gibson M, Overton GC. (1998) GAIA: framework annotation of genomic sequence. Genome Res. 8:234-250. Bairoch A, Apweiler R. (2000) The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res. 28:45-48. Bairoch A. (2000) The ENZYME database in 2000. Nucleic Acids Res. 28:304-305. Baldi P, Chauvin Y, Hunkapiller T, McClure MA. (1994) Hidden Markov models of biological primary sequence information. Proc. Natl. Acad. Sci. USA, 91, 1059-1063. Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL. (2002) The Pfam protein families database. Nucleic Acids Res. 30:276-80. Baumann P, Baumann L, Lai CY, Rouhbakhsh D, Moran NA, Clark MA. (1995) Genetics, physiology, and evolutionary relationships of the genus Buchnera: intracellular symbionts of aphids. Annu Rev Microbiol. 49:55-94. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL. (2003) GenBank. Nucleic Acids Res. 31:23-27. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. (2000) The Protein Data Bank. Nucleic Acids Res. 28:235-242. Bernal, A., Ear, U., Kyrpides, N. (2001) Genomes OnLine Database (GOLD): a monitor of genome projects worldwide. Nucleic Acids Res. 29:126-127. Bilu Y, Linial M. (2002) The advantage of functional prediction based on clustering of yeast genes and its correlation with non-sequence based classifications. J Comput Biol. 9:193-210. Blake C. (1983) Exons and the evolution of proteins. Trends Biochem. Sci. 8:11-13. Blaschke C, Valencia A. (2003) Automatic classification of protein functions from the literature. Compar. Funct. 87 • • • • • • • • • • • • • • • Genom. 4:75-79. Bork P, Dandekar T, Diaz-Lazcoz Y, Eisenhaber F, Huynen M, Yuan Y. (1998) Predicting function: from genes to genomes and back. J Mol Biol. 283:707-725. Bork P, Koonin EV. (1998) Predicting functions from protein sequences--where are the bottlenecks? Nat Genet. 18:313-318. Brenner S. (2002) Life sentences: Ontology recapitulates philology. Genome Biol. 3:COMMENT1006COMMENT1006. Brenner SE, Koehl P, Levitt M. (2000) The ASTRAL compendium for sequence and structure analysis. Nucleic Acids Res. 28:254-256. Brenner SE. (1999) Errors in genome annotation. Trends Genet. 15:132-133. Brenner SE. (2000) Target selection for structural genomics. Nat Struct Biol. 7:967-969. Brown NP, Leroy C, Sander C. (1998) MView: a web-compatible database search or multiple alignment viewer. Bioinformatics. 14:380-381. Butte AJ, Tamayo P, Slonim D, Golub TR, Kohane IS. (2000) Discovering functional relationships between RNA expression and chemotherapeutic susceptibility using relevance networks. Proc Natl Acad Sci U S A. 97:1218212186. Camon E, Magrane M, Barrell D, Binns D, Fleischmann W, Kersey P, Mulder N, Oinn T, Maslen J, Cox A, Apweiler R. (2003) The Gene Ontology Annotation (GOA) project: implementation of GO in SWISS-PROT, TrEMBL, and InterPro. Genome Res. 13:662-672. Casari G, Sander C, Valencia A. (1995) A method to predict functional residues in proteins. Nat Struct Biol. 2:171178. Cavalli-Sforza LL, Edwards AW. (1967) Phylogenetic analysis. Models and estimation procedures. Am J Hum Genet. 19:Suppl 19:233+. Chothia C, Lesk AM. (1986) The relation between the divergence of sequence and structure in proteins. EMBO J. 5:823-826. Clamp M, Andrews D, Barker D, Bevan P, Cameron G, Chen Y, Clark L, Cox T, Cuff J, Curwen V, Down T, Durbin R, Eyras E, Gilbert J, Hammond M, Hubbard T, Kasprzyk A, Keefe D, Lehvaslaiho H, Iyer V, Melsopp C, Mongin E, Pettett R, Potter S, Rust A, Schmidt E, Searle S, Slater G, Smith J, Spooner W, Stabenau A, Stalker J, Stupka E, Ureta-Vidal A, Vastrik I, Birney E. (2003) Ensembl 2002: accommodating comparative genomics. Nucleic Acids Res. 31:38-42. Corpet F, Gouzy J, Kahn D. (1998) The ProDom database of protein domain families. Nucleic Acids Res. 26:323326. Das R, Gerstein M. (2000) The stability of thermophilic proteins: a study based on comprehensive genome comparison. Funct Integr Genomics. 1:76-88. • Devos D, Valencia A. (2000) Practical limits of function prediction. Proteins. 41:98-107. • Devos D, Valencia A. (2001) Intrinsic errors in genome annotation. Trends Genet. 17:429-431. • Doerks T, Bairoch A, Bork P. (1998) Protein annotation: detective work for function prediction. Trends Genet. 14:248-250. Eck RV, Dayhoff MO. (1966) Atlas of Protein Sequence and Structure 1966. National Biomedical Research Foundation, Silver Spring, Maryland. Eddy SR. (1996) Hidden Markov models. Curr. Opin. Struct. Biol. 6:361-365. • • • • • • • • • • • • Elofsson A, Sonnhammer EL. (1999) A comparison of sequence and structure protein domain families as a basis for structural genomics. Bioinformatics. 15:480-500. Emanuelsson O, Nielsen H, Brunak S, von Heijne G. (2000) Predicting subcellular localization of proteins based on their N-terminal amino acid sequence. J. Mol. Biol. 300:1005-1016. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA. (1999) Protein interaction maps for complete genomes based on gene fusion events. Nature. 402:86-90. Enright AJ, Kunin V, Ouzounis CA. (2003) Protein families and TRIBES in genome sequence space. Nucleic Acids Res. 31:4632-4638. Enright AJ, Ouzounis CA. (2000) GeneRAGE: a robust algorithm for sequence clustering and domain detection. Bioinformatics. 16:451-457. Enright AJ, Van Dongen S, Ouzounis CA. (2002) An efficient algorithm for large-scale detection of protein families. Nucleic Acids Res. 30:1575-1584. Fares MA, Barrio E, Sabater-Munoz B, Moya A. (2002) The evolution of the heat-shock protein GroEL from Buchnera, the primary endosymbiont of aphids, is governed by positive selection. Mol Biol Evol. 19:1162-1170. Felsenstein J. (1981) Evolutionary trees from DNA sequences: a maximum likelihood approach. J Mol Evol. 17:368376. Fitch WM. (1970) Distinguishing homologous from analogous proteins. Syst Zool. 19:99-113. Fleischmann W, Moller S, Gateau A, Apweiler R. (1999) A novel method for automatic functional annotation of proteins. Bioinformatics. 15:228-233. 88 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Fraser CM, Gocayne JD, White O, Adams MD, Clayton RA, Fleischmann RD, Bult CJ, Kerlavage AR, Sutton G, Kelley JM, et al. (1995) The minimal gene complement of Mycoplasma genitalium. Science. 270:397-403. Fraser HB, Hirsh AE, Steinmetz LM, Scharfe C, Feldman MW. (2002) Evolutionary rate in the protein interaction network. Science. 296:750-752. Frishman D, Albermann K, Hani J, Heumann K, Metanomski A, Zollner A, Mewes HW. (2001) Functional and structural genomics using PEDANT. Bioinformatics. 17:44-57. Fuchs R. (2002) From sequence to biology: the impact on bioinformatics. Bioinformatics. 18:505-506. Gaasterland T, Sensen CW. (1996) Fully automated genome analysis that reflects user needs and preferences. A detailed introduction to the MAGPIE system architecture. Biochimie. 78:302-310. Garcia-Ranea JA, Valencia A. (1998) Distribution and functional diversification of the ras superfamily in Saccharomyces cerevisiae. FEBS Lett. 434:219-225. Gavin AC, Bosche M, Krause R, Grandi P, Marzioch M, Bauer A, Schultz J, Rick JM, Michon AM, Cruciat CM, Remor M, Hofert C, Schelder M, Brajenovic M, Ruffner H, Merino A, Klein K, Hudak M, Dickson D, Rudi T, Gnau V, Bauch A, Bastuck S, Huhse B, Leutwein C, Heurtier MA, Copley RR, Edelmann A, Querfurth E, Rybin V, Drewes G, Raida M, Bouwmeester T, Bork P, Seraphin B, Kuster B, Neubauer G, Superti-Furga G. (2002) Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature. 415:141-147. Gerstein M. (1998) Measurement of the effectiveness of transitive sequence comparison, through a third 'intermediate' sequence. Bioinformatics 14:707-714. Getz G, Levine E, Domany E. (2000) Coupled two-way clustering analysis of gene microarray data. Proc Natl Acad Sci U S A. 97:12079-12084. Gilbert W. (1985) Genes-in-pieces revisited. Science 228:823-824. Gomez MJ, Guijarro FJ, Otero RP, Jensen LJ, Brunak S, Valencia A. (2003) Protein function prediction: Application of a propositional rules learning system to a set of human protein sequences. European Conference on Computational Biology, to be presented. Gribskov M, McLachlan AD, Eisenberg D. (1987) Profile analysis: detection of distantly related proteins. Proc. Ntal Acad. Sci. USA. 84:4355-4358. Gromiha MM. 2001 Important inter-residue contacts for enhancing the thermal stability of thermophilic proteins. Biophys Chem. 91:71-77. Haft DH, Loftus BJ, Richardson DL, Yang F, Eisen JA, Paulsen IT, White O. (2001) TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic Acids Res. 29:41-43. Hartley BS, Hanlon N, Jackson RJ, Rangarajan M. (2000) Glucose isomerase: insights into protein engineering for increased thermostability. Biochim Biophys Acta. 1543:294-335. Heger A, Holm L. (2000) Towards a covering set of protein family profiles. Prog Biophys Mol Biol. 73:321-337. Henikoff S, Greene EA, Pietrokovski S, Bork P, Attwood TK, Hood L. (1997) Gene families: the taxonomy of protein paralogs and chimeras. Science. 278:609-614. Henikoff S, Henikoff JG. (1992) Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 89:10915-10919 Hennig S, Groth D, Lehrach H. (2003) Automated Gene Ontology annotation for anonymous sequence data. Nucleic Acids Res. 31:3712-3715. Henrissat B, Romeu A. (1995) Families, superfamilies and subfamilies of glycosyl hydrolases. Biochem J. 311:350351. Hofmann K, Bucher P, Tschopp J. (1997) The CARD domain: a new apoptotic signalling motif. Trends Biochem Sci. 22:155-156. Horton P, Nakai K. (1997) Better prediction of protein cellular localization sites with the k nearest neighbors classifier. Proc Int Conf Intell Syst Mol Biol. 5:147-152. Hunter L. (2002) Ontologies for programs, not people. Genome Biol. 3:INTERACTIONS1002-INTERACTIONS1002. Huynen MA, Snel B, Mering C, Bork P. (2003) Function prediction and protein networks. Curr Opin Cell Biol. 15:191-198. Jain S, Krishna S. (2001) A model for the emergence of cooperation, interdependence, and structure in evolving networks. Proc Natl Acad Sci U S A. 98:543-547. Jensen LJ, Gupta R, Blom N, Devos D, Tamames J, Kesmir C, Nielsen H, Staerfeldt HH, Rapacki K, Workman C, Andersen CA, Knudsen S, Krogh A, Valencia A, Brunak S. (2002) Prediction of human protein function from posttranslational modifications and localization features. J Mol Biol. 319:1257-1265. Jensen LJ, Gupta R, Staerfeldt HH, Brunak S. (2003) Prediction of human protein function according to Gene Ontology categories. Bioinformatics 19:635-642. Karlin S, Altschul SF. (1993) Applications and statistics for multiple high-scoring segments in molecular sequences. Proc. Natl. Acad. Sci. USA. 90:5873-5877. Karp PD, Riley M, Paley SM, Pellegrini-Toole A, Krummenacker M. (1997) EcoCyc: Enyclopedia of Escherichia coli Genes and Metabolism. Nucleic Acids Res. 25:43-51. Kellis M, Patterson N, Endrizzi M, Birren B, Lander ES. (2003) Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature. 423:241-254 Koonin EV, Mushegian AR, Bork P. (1996) Non-orthologous gene displacement. Trends Genet. 12:334-336. 89 • • • • • • • • • • • • • • • • • • • • Koonin EV, Mushegian AR, Rudd KE. (1996) Sequencing and analysis of bacterial genomes. Curr Biol. 6:404-416. Koonin EV. (1993) A superfamily of ATPases with diverse functions containing either classical or deviant ATPbinding motif. J Mol Biol. 229:1165-1174. Koonin EV. (2001) Computational genomics. Curr Biol. 11:R155-158. Krause A, Haas SA, Coward E, Vingron M. (2002) SYSTERS, GeneNest, SpliceNest: exploring sequence space from genome to protein. Nucleic Acids Res. 30:299-300. Krause A, Stoye J, Vingron M. (2000) The SYSTERS protein sequence cluster set. Nucleic Acids Res. 28:270-272. Kretschmann E, Fleischmann W, Apweiler R. (2001) Automatic rule generation for protein annotation with the C4.5 data mining algorithm applied on SWISS-PROT. Bioinformatics. 17:920-926. Kriventseva EV, Fleischmann W, Zdobnov EM, Apweiler R. (2001) CluSTr: a database of clusters of SWISSPROT+TrEMBL proteins. Nucleic Acids Res. 1:33-36. Krogh A, Brown M, Mian IS, Sjolander K, Haussler D. (1994) Hidden Markov models in computational biology: applications to protein modeling. J. Mol. Biol., 235:1501-1531. Krogh A, Larsson B, von Heijne G, Sonnhammer EL. (2001) Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol. 305:567-580. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W, Funke R, Gage D, Harris K, Heaford A, Howland J, Kann L, Lehoczky J, LeVine R, McEwan P, McKernan K, Meldrim J, Mesirov JP, Miranda C, Morris W, Naylor J, Raymond C, Rosetti M, Santos R, Sheridan A, Sougnez C, StangeThomann N, Stojanovic N, Subramanian A, Wyman D, Rogers J, Sulston J, Ainscough R, Beck S, Bentley D, Burton J, Clee C, Carter N, Coulson A, Deadman R, Deloukas P, Dunham A, Dunham I, Durbin R, French L, Grafham D, Gregory S, Hubbard T, Humphray S, Hunt A, Jones M, Lloyd C, McMurray A, Matthews L, Mercer S, Milne S, Mullikin JC, Mungall A, Plumb R, Ross M, Shownkeen R, Sims S, Waterston RH, Wilson RK, Hillier LW, McPherson JD, Marra MA, Mardis ER, Fulton LA, Chinwalla AT, Pepin KH, Gish WR, Chissoe SL, Wendl MC, Delehaunty KD, Miner TL, Delehaunty A, Kramer JB, Cook LL, Fulton RS, Johnson DL, Minx PJ, Clifton SW, Hawkins T, Branscomb E, Predki P, Richardson P, Wenning S, Slezak T, Doggett N, Cheng JF, Olsen A, Lucas S, Elkin C, Uberbacher E, Frazier M, Gibbs RA, Muzny DM, Scherer SE, Bouck JB, Sodergren EJ, Worley KC, Rives CM, Gorrell JH, Metzker ML, Naylor SL, Kucherlapati RS, Nelson DL, Weinstock GM, Sakaki Y, Fujiyama A, Hattori M, Yada T, Toyoda A, Itoh T, Kawagoe C, Watanabe H, Totoki Y, Taylor T, Weissenbach J, Heilig R, Saurin W, Artiguenave F, Brottier P, Bruls T, Pelletier E, Robert C, Wincker P, Smith DR, Doucette-Stamm L, Rubenfield M, Weinstock K, Lee HM, Dubois J, Rosenthal A, Platzer M, Nyakatura G, Taudien S, Rump A, Yang H, Yu J, Wang J, Huang G, Gu J, Hood L, Rowen L, Madan A, Qin S, Davis RW, Federspiel NA, Abola AP, Proctor MJ, Myers RM, Schmutz J, Dickson M, Grimwood J, Cox DR, Olson MV, Kaul R, Raymond C, Shimizu N, Kawasaki K, Minoshima S, Evans GA, Athanasiou M, Schultz R, Roe BA, Chen F, Pan H, Ramser J, Lehrach H, Reinhardt R, McCombie WR, de la Bastide M, Dedhia N, Blocker H, Hornischer K, Nordsiek G, Agarwala R, Aravind L, Bailey JA, Bateman A, Batzoglou S, Birney E, Bork P, Brown DG, Burge CB, Cerutti L, Chen HC, Church D, Clamp M, Copley RR, Doerks T, Eddy SR, Eichler EE, Furey TS, Galagan J, Gilbert JG, Harmon C, Hayashizaki Y, Haussler D, Hermjakob H, Hokamp K, Jang W, Johnson LS, Jones TA, Kasif S, Kaspryzk A, Kennedy S, Kent WJ, Kitts P, Koonin EV, Korf I, Kulp D, Lancet D, Lowe TM, McLysaght A, Mikkelsen T, Moran JV, Mulder N, Pollara VJ, Ponting CP, Schuler G, Schultz J, Slater G, Smit AF, Stupka E, Szustakowski J, Thierry-Mieg D, Thierry-Mieg J, Wagner L, Wallis J, Wheeler R, Williams A, Wolf YI, Wolfe KH, Yang SP, Yeh RF, Collins F, Guyer MS, Peterson J, Felsenfeld A, Wetterstrand KA, Patrinos A, Morgan MJ, Szustakowki J, de Jong P, Catanese JJ, Osoegawa K, Shizuya H, Choi S, Chen YJ. (2001) Initial sequencing and analysis of the human genome. Nature. 409:860-921. Lang D, Thoma R, Henn-Sax M, Sterner R, Wilmanns M. (2000) Structural evidence for evolution of the beta/alpha barrel scaffold by gene duplication and fusion. Science. 289:1546-1550. Letovsky S, Kasif S. (2003) Predicting protein function from protein/protein interaction data: a probabilistic approach. Bioinformatics 19 Suppl 1:I197-I204. Linial M, Yona G. (2000) Methodologies for target selection in structural genomics. Prog Biophys Mol Biol. 73:297320. Liu J, Rost B. (2002) Target space for structural genomics revisited. Bioinformatics. 18:922-933. Li W, Jaroszewski L, Godzik A. (2001) Clustering of highly homologous sequences to reduce the size of large protein databases. Bioinformatics. 17:282-283. Li W, Pio F, Pawlowski K, Godzik A. (2000) Saturated BLAST: an automated multiple intermediate sequence search used to detect distant homology. Bioinformatics.16:1105-1110. Lockhart DJ, Dong H, Byrne MC, Follettie MT, Gallo MV, Chee MS, Mittmann M, Wang C, Kobayashi M, Horton H, Brown EL. (1996) Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol. 14:1675-1680. Lowe TM, Eddy SR. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25:955-964. Lukashin AV, Borodovsky M. (1998) GeneMark.hmm: new solutions for gene finding. Nucleic Acids Res. 26:11071115. Luthy R, Xenarios I, Bucher P. (1994) Improving the sensitivity of the sequence profile method. Protein Sci. 3:139146. 90 • • • Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D. (1999) Detecting protein function and protein-protein interactions from genome sequences. Science. 285:751-753. May AC. (2001) Optimal classification of protein sequences and selection of representative sets from multiple alignments: application to homologous families and lessons for structural genomics. Protein Eng. 14:209-217. McCarthy AD, Hardie DG. (1984) Fatty acid synthase: an example of protein evolution by gene fusion. Trends Biochem. Sci. 9:60-63. • Modrek B, Lee C. (2002) A genomic view of alternative splicing. Nat Genet. 30:13-19. • Moller S, Leser U, Fleischmann W, Apweiler R. (1999) EDITtoTrEMBL: a distributed approach to high-quality automated protein sequence annotation. Bioinformatics. 15:219-227. Moran NA, Mira A. (2001) The process of genome shrinkage in the obligate symbiont Buchnera aphidicola. Genome Biol. 2:RESEARCH0054. Epub 2001 Nov 14. Mulder NJ, Apweiler R, Attwood TK, Bairoch A, Barrell D, Bateman A, Binns D, Biswas M, Bradley P, Bork P, Bucher P, Copley RR, Courcelle E, Das U, Durbin R, Falquet L, Fleischmann W, Griffiths-Jones S, Haft D, Harte N, Hulo N, Kahn D, Kanapin A, Krestyaninova M, Lopez R, Letunic I, Lonsdale D, Silventoinen V, Orchard SE, Pagni M, Peyruc D, Ponting CP, Selengut JD, Servant F, Sigrist CJ, Vaughan R, Zdobnov EM. (2003) The InterPro Database, 2003 brings increased coverage and new features. Nucleic Acids Res. 31:315-318. Murzin A. G., Brenner S. E., Hubbard T., Chothia C. (1995). SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247:536-540. Natale DA, Shankavaram UT, Galperin MY, Wolf YI, Aravind L, Koonin EV. (2000) Towards understanding the first genome sequence of a crenarchaeon by genome annotation using clusters of orthologous groups of proteins (COGs). Genome Biol. 1:RESEARCH0009. Epub 2000 Nov 06. Ochman H, Moran NA. (2001) Genes lost and genes found: evolution of bacterial pathogenesis and symbiosis. Science. 292:1096-1099. Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M. (1999) KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 27:29-34. Ohno S, Wolf U, Atkin NB. (1968) Evolution from fish to mammals by gene duplication. Hereditas. 59:169-187. Ohta T. (1989) Role of gene duplication in evolution. Genome. 31:304-310. • • • • • • • • • • • • • • • • • • • • • • • • Oliveros JC, Blaschke C, Herrero J, Dopazo J, Valencia A. (2000) Expression profiles and biological function. Genome Inform Ser Workshop Genome Inform.11:106-117. Olmea O, Valencia A. (1997) Improving contact predictions by the combination of correlated mutations and other sources of sequence information. Fold Des. 2:S25-32. Ouzounis C, Casari G, Valencia A, Sander C. (1996) Novelties from the complete genome of Mycoplasma genitalium. Mol Microbiol. 20:898-900. Ouzounis C. (1999) Orthology: another terminology muddle. Trends Genet. 15:445. Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N. (1999) The use of gene clusters to infer functional coupling. Proc Natl Acad Sci U S A. 96:2896-2901. Park J, Karplus K, Barrett C, Hughey R, Haussler D, Hubbard T, Chothia C. (1998) Sequence comparisons using multiple sequences detect twice as many remote homologues as pairwise methods. J. Mol. Biol., 284:1201-1210. Park J, Teichmann S, Hubbard T, Chothia C. (1997) Intermediate sequences increase the detection of homology between sequences. J. Mol. Biol. 273:349-354. Pavlidis P, Weston J, Cai J, Noble WS. (2002) Learning gene functional classifications from multiple data types. J Comput Biol. 9:401-411. Pawson T, Nash P. (2003) Assembly of cell regulatory systems through protein interaction domains. Science. 300:445-452. Pazos F, Helmer-Citterich M, Ausiello G, Valencia A. (1997) Correlated mutations contain information about proteinprotein interaction. J Mol Biol. 271:511-523. Pazos F, Valencia A. (2001) Similarity of phylogenetic trees as indicator of protein-protein interaction. Protein Eng. 14:609-614. Pearson, W. R. (1996). Effective Protein Sequence Comparison. Methods in Enzymology 266:227-258. Pearson W, Lipman D. (1988) Improved tools for biological sequence comparison. Proc. Natl Acad. Sci. USA. 85:2444-2448. Pearson WR. (1998) Empirical statistical estimates for sequence similarity searches. J. Mol. Biol. 276:71-84. Pellegrini M, Marcotte EM, Thompson MJ, Eisenberg D, Yeates TO. (1999) Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. Proc Natl Acad Sci U S A. 96:4285-4288. Piatigorsky J, Wistow G. (1991) The recruitment of crystallins: new functions precede gene duplication. Science. 252:1078-1079. • Ponting CP. (2001) Issues in predicting protein function from sequence. Brief Bioinform. 2:19-29. • Portugaly E, Kifer I, Linial M. (2002) Selecting targets for structural determination by navigating in a graph of protein families. Bioinformatics. 18:899-907. Portugaly E, Linial M. (2000) Estimating the probability for a protein to have a new fold: A statistical computational • 91 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • model. Proc Natl Acad Sci U S A. 97:5161-5166. Rabiner LR. (1989) A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE 77:257-286. Reich J, Mitchell A, Goble C, Attwood T. (2001). Toward More Intelligent Annotation Tools: A Prototype. IEEE Intelligent Systems in Biology, 16:42-51. Remm M, Storm CE, Sonnhammer EL. (2001) Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J Mol Biol. 314:1041-1052. Riley M. (1993) Functions of the gene products of Escherichia coli. Microbiol Rev. 57:862-952. Roberts GC, Smith CW. (2002) Alternative splicing: combinatorial output from the genome. Curr Opin Chem Biol. 6:375-383. Rossmann MG, Argos P. (1981) Protein folding. Annu. Rev. Biochem. 50:497-532. Rost B, Honig B, Valencia A. (2002) Bioinformatics in structural genomics. Bioinformatics. 18:897-898. Rost B, Liu J. (2003) The PredictProtein server. Nucleic Acids Res. 31:3300-3304. Rouze P, Pavy N, Rombauts S. (1999) Genome annotation: which tools do we have for it? Curr Opin Plant Biol. 2:90-95. Rust AG, Mongin E, Birney E. (2002) Genome annotation techniques: new approaches and challenges. Drug Discov Today. 7:S70-76. Saitou N, Nei M. (1987) The neighbor-joining method: a new method for reconstructing phylogenetic trees.Mol Biol Evol. 4:406-425. Sakata K, Nagamura Y, Numa H, Antonio BA, Nagasaki H, Idonuma A, Watanabe W, Shimizu Y, Horiuchi I, Matsumoto T, Sasaki T, Higo K. (2002) RiceGAAS: an automated annotation system and database for rice genome sequence. Nucleic Acids Res. 30:98-102. Salamov AA, Suwa M, Orengo CA, Swindells MB. (1999) Combining sensitive database searches with multiple intermediates to detect distant homologues. Protein Eng. 12:95-100. Salzberg SL. (2003) Genomics: Yeast rises again. Nature. 423:233-234. Schultz J, Milpetz F, Bork P, Ponting CP. (1998) SMART, a simple modular architecture research tool: identification of signaling domains. Proc Natl Acad Sci U S A. 95:5857-5864. Schulze-Kremer S. (1998) Ontologies for Molecular Biology. In Proceedings of the Third Pacific Symposium on Biocomputing, 693-704. Schulze-Kremer S. (2002) Ontologies for molecular biology and bioinformatics. In Silico Biol. 2:179-193. Segal E, Shapira M, Regev A, Pe'er D, Botstein D, Koller D, Friedman N. (2003) Module networks: identifying regulatory modules and their condition-specific regulators from gene expression data. Nat Genet. 34:166-176. Shigenobu S, Watanabe H, Hattori M, Sakaki Y, Ishikawa H. (2000) Genome sequence of the endocellular bacterial symbiont of aphids Buchnera sp. APS. Nature. 407:81-86. Shi J, Malik J. Normalized cuts and image segmentation. (1997) Proc. Of the IEEE Conf. On Comp. Vision and Pattern Recognition, 731-737. Sigrist CJ, Cerutti L, Hulo N, Gattiker A, Falquet L, Pagni M, Bairoch A, Bucher P. (2002) PROSITE: a documented database using patterns and profiles as motif descriptors. Brief Bioinform. 3:265-274. Smith B, Williams J, Schulze-Kremer S. (2003) The Ontology of the Gene Ontology. Forthcoming in Proceedings of AMIA Symposium 2003. Smith TF, Zhang X. (1997) The challenges of genome sequence annotation or "the devil is in the details". Nat Biotechnol. 15:1222-1223. Sonnhammer EL, Eddy SR, Durbin R. (1997) Pfam: a comprehensive database of protein domain families based on seed alignments. Proteins. 28:405-420. Stein L. (2001) Genome annotation: from sequence to biology. Nat Rev Genet. 2:493-503. Stevens R, Baker P, Bechhofer S, Ng G, Jacoby A, Paton NW, Goble CA, Brass A. (2000) TAMBIS: transparent access to multiple bioinformatics information sources. Bioinformatics. 16:184-185. Stevens R, Goble CA, Bechhofer S. (2000) Ontology-based knowledge representation for bioinformatics. Brief Bioinform. 1:398-414. Stoesser G, Tuli MA, Lopez R, Sterk P. (1999) The EMBL Nucleotide Sequence Database. Nucleic Acids Res. 27:18-24. Suzek BE, Ermolaeva MD, Schreiber M, Salzberg SL. (2001) A probabilistic method for identifying start codons in bacterial genomes. Bioinformatics. 17:1123-1130. Tamames J. (2001) Evolution of gene order conservation in prokaryotes. Genome Biol. 2:RESEARCH0020. Epub 2001 Jun 01 Tamas I, Klasson L, Canback B, Naslund AK, Eriksson AS, Wernegreen JJ, Sandstrom JP, Moran NA, Andersson SG. (2002) 50 million years of genomic stasis in endosymbiotic bacteria. Science. 296:2376-2379. Tatusov RL, Koonin EV, Lipman DJ. (1997) A Genomic Perspective on Protein Families. Science 278:631-636. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV. (2001) The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. 29:22-28. 92 • • • • • • • • • • • • • • • • • • • Thompson EA. (1973) The method of minimum evolution. Ann Hum Genet. 36:333-340. Thompson JD, Higgins DG, Gibson TJ. (1994) Improved sensitivity of profile searches through the use of sequence weights and gap excision. Comput Appl Biosci. 10:19-29. Todd AE, Orengo CA, Thornton JM. (2001) Evolution of function in protein superfamilies, from a structural perspective. J Mol Biol. 307:1113-1143. Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, Knight JR, Lockshon D, Narayan V, Srinivasan M, Pochart P, Qureshi-Emili A, Li Y, Godwin B, Conover D, Kalbfleisch T, Vijayadamodar G, Yang M, Johnston M, Fields S, Rothberg JM. (2000) A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae. Nature. 403:623-627. Valencia A. (2002) Search and retrieve. Large-scale data generation is becoming increasingly important in biological research. But how good are the tools to make sense of the data? EMBO Reports 3:396-400. van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U, Fernandez JM, Jimenez L, Postigo M, Silva FJ, Tamames J, Viguera E, Latorre A, Valencia A, Moran F, Moya A. (2003) Reductive genome evolution in Buchnera aphidicola. Proc Natl Acad Sci U S A. 100:581-586. Vazquez A, Flammini A, Maritan A, Vespignani A. (2003) Global protein function prediction from protein-protein interaction networks. Nat Biotechnol. 21:697-700. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA, Gocayne JD, Amanatides P, Ballew RM, Huson DH, Wortman JR, Zhang Q, Kodira CD, Zheng XH, Chen L, Skupski M, Subramanian G, Thomas PD, Zhang J, Gabor Miklos GL, Nelson C, Broder S, Clark AG, Nadeau J, McKusick VA, Zinder N, Levine AJ, Roberts RJ, Simon M, Slayman C, Hunkapiller M, Bolanos R, Delcher A, Dew I, Fasulo D, Flanigan M, Florea L, Halpern A, Hannenhalli S, Kravitz S, Levy S, Mobarry C, Reinert K, Remington K, Abu-Threideh J, Beasley E, Biddick K, Bonazzi V, Brandon R, Cargill M, Chandramouliswaran I, Charlab R, Chaturvedi K, Deng Z, Di Francesco V, Dunn P, Eilbeck K, Evangelista C, Gabrielian AE, Gan W, Ge W, Gong F, Gu Z, Guan P, Heiman TJ, Higgins ME, Ji RR, Ke Z, Ketchum KA, Lai Z, Lei Y, Li Z, Li J, Liang Y, Lin X, Lu F, Merkulov GV, Milshina N, Moore HM, Naik AK, Narayan VA, Neelam B, Nusskern D, Rusch DB, Salzberg S, Shao W, Shue B, Sun J, Wang Z, Wang A, Wang X, Wang J, Wei M, Wides R, Xiao C, Yan C, Yao A, Ye J, Zhan M, Zhang W, Zhang H, Zhao Q, Zheng L, Zhong F, Zhong W, Zhu S, Zhao S, Gilbert D, Baumhueter S, Spier G, Carter C, Cravchik A, Woodage T, Ali F, An H, Awe A, Baldwin D, Baden H, Barnstead M, Barrow I, Beeson K, Busam D, Carver A, Center A, Cheng ML, Curry L, Danaher S, Davenport L, Desilets R, Dietz S, Dodson K, Doup L, Ferriera S, Garg N, Gluecksmann A, Hart B, Haynes J, Haynes C, Heiner C, Hladun S, Hostin D, Houck J, Howland T, Ibegwam C, Johnson J, Kalush F, Kline L, Koduru S, Love A, Mann F, May D, McCawley S, McIntosh T, McMullen I, Moy M, Moy L, Murphy B, Nelson K, Pfannkoch C, Pratts E, Puri V, Qureshi H, Reardon M, Rodriguez R, Rogers YH, Romblad D, Ruhfel B, Scott R, Sitter C, Smallwood M, Stewart E, Strong R, Suh E, Thomas R, Tint NN, Tse S, Vech C, Wang G, Wetter J, Williams S, Williams M, Windsor S, Winn-Deen E, Wolfe K, Zaveri J, Zaveri K, Abril JF, Guigo R, Campbell MJ, Sjolander KV, Karlak B, Kejariwal A, Mi H, Lazareva B, Hatton T, Narechania A, Diemer K, Muruganujan A, Guo N, Sato S, Bafna V, Istrail S, Lippert R, Schwartz R, Walenz B, Yooseph S, Allen D, Basu A, Baxendale J, Blick L, Caminha M, Carnes-Stine J, Caulk P, Chiang YH, Coyne M, Dahlke C, Mays A, Dombroski M, Donnelly M, Ely D, Esparham S, Fosler C, Gire H, Glanowski S, Glasser K, Glodek A, Gorokhov M, Graham K, Gropman B, Harris M, Heil J, Henderson S, Hoover J, Jennings D, Jordan C, Jordan J, Kasha J, Kagan L, Kraft C, Levitsky A, Lewis M, Liu X, Lopez J, Ma D, Majoros W, McDaniel J, Murphy S, Newman M, Nguyen T, Nguyen N, Nodell M, Pan S, Peck J, Peterson M, Rowe W, Sanders R, Scott J, Simpson M, Smith T, Sprague A, Stockwell T, Turner R, Venter E, Wang M, Wen M, Wu D, Wu M, Xia A, Zandieh A, Zhu X. (2001) The sequence of the human genome. Science. 291:1304-51. Vitkup D, Melamud E, Moult J, Sander C. (2001) Completeness in structural genomics. Nat Struct Biol. 8:559-566. Wagner A. (2001) The yeast protein interaction network evolves rapidly and contains few redundant duplicate genes. Mol Biol Evol. 18:1283-1292. Watts RL, Watts DC. (1968) Gene duplication and the evolution of enzymes. Nature. 217:1125-1130. Whelan S, de Bakker PI, Goldman N. (2003) Pandit: a database of protein and associated nucleotide domains with inferred trees. Bioinformatics. 19:1556-1563. Wilson CA, Kreychman J, Gerstein M. (2000) Assessing annotation transfer for genomics: quantifying the relations between protein sequence, structure and function through traditional and probabilistic scores. J Mol Biol. 297:233249. Winston PH. (1992) Artificial Intelligence. Addison-Wesley. Wolfe KH, Shields DC. (1997) Molecular evidence for an ancient duplication of the entire yeast genome. Nature. 387:708-713. Wu CH, Huang H, Arminski L, Castro-Alvear J, Chen Y, Hu ZZ, Ledley RS, Lewis KC, Mewes HW, Orcutt BC, Suzek BE, Tsugita A, Vinayaka CR, Yeh LS, Zhang J, Barker WC. (2002) The Protein Information Resource: an integrated public resource of functional annotation of proteins. Nucleic Acids Res. 30:35-37. Wu Z, Leahy R. (1993) An optimal graph theoretic approach to data clustering: Theory and its application to image segmentation. PAMI 11, 1101-1113. Wyrick JJ, Young RA. (2002) Deciphering gene expression regulatory networks. Curr Opin Genet Dev. 12:130-136. Xie H, Wasserman A, Levine Z, Novik A, Grebinskiy V, Shoshan A, Mintz L. (2002) Large-scale protein annotation through gene ontology. Genome Res. 12:785-794. 93 • • • Yona G, Linial N, Linial M. (1999) ProtoMap: automatic classification of protein sequences, a hierarchy of protein families, and local maps of the protein space. Proteins. 37:360-378. Yuan, Y. P., Eulenstein, O., Vingron, M. & Bork, P. (1998) Towards detection of orthologues in sequence databases. Bioinformatics. 14:285-289. Zuckerkandl E, Pauling L. (1965) Molecules as documents of evolutionary history. J Theor Biol. 8:357-366. 94 Anexo - Publicaciones • Abascal F, Valencia A. (2002) Clustering of proximal sequence space for the identification of protein families. Bioinformatics. 18:908-921. • van Ham RC, Kamerbeek J, Palacios C, Rausell C, Abascal F, Bastolla U, Fernandez JM, Jimenez L, Postigo M, Silva FJ, Tamames J, Viguera E, Latorre A, Valencia A, Moran F, Moya A. (2003) Reductive genome evolution in Buchnera aphidicola. Proc Natl Acad Sci U S A. 100:581-586. • Abascal F, Valencia A. (2003) capítulo "Bioinformática" en Gen-Ética. Ed. Ariel. 139-160 (no incluido en el anexo). • Abascal F, Valencia A. (2003) Automatic annotation of protein function based on family identification. Proteins. In press. 95