Capítulo 5 Preguntas de discusión: 1.- Cuál es la diferencia entre los dos tipos de conección: neighboring y hard link, usados por el servidor Entrez? JULIO: Antes de responder esta pregunta lo que debe quedarnos claro es que: Entrez constituye un sistema de recuperacion de informacion en varias bases de datos relacionadas (linked databases) como es proveer acceso a: PubMed: The biomedical literature (PubMed) Nucleotide sequence database (Genbank) Protein sequence database Structure: three-dimensional macromolecular structures Genome: complete genome assemblies PopSet: population study data sets OMIM: Online Mendelian Inheritance in Man Taxonomy: organisms in GenBank Books: online books ProbeSet: Gene statement Omnibus (GEO) 3D Domains: domains from Entrez Structure Abajo se muestran estas bases de datos en mas detalle y que en la actualidad (2001) abarca la busqueda en Entrez: NCBI DATABASES Links to other resources or NCBI databases are available from the links to the right of each citation and from the Display pull-down menu. PubMed will only process the first 500 items with links when using the Display pull-down menu. The following links are available: Protein - Amino acid (protein) sequences from Swiss-Prot, PIR, PRF, PDB, and translated protein sequences from the DNA sequences databases. Nucleotide - DNA sequences from GenBank, EMBL, and DDBJ. PopSet - The PopSet database contains aligned sequences submitted as a set from a population, phylogenetic or mutation study describing such events as evolution and population variation. Structure - The Molecular Modeling Database (MMDB) contains 3-dimensional structures determined by X-ray crystallography and NMR spectroscopy. Genome - Provides access to records and graphic displays of entire genomes and chromosomes for megabase sequences obtained from large-scale sequencing of genomes and chromosomes. ProbeSet - Gene statement data repository and online resource for the retrireview of gene statement data from any organism or artificial source. OMIM - Catalog of human genes and genetic disorders. Books - In collaboration with book publishers, NCBI is adapting textbooks for the web and linking them to PubMed to provide background so users can explore unfamiliar concepts found in search results. The Books link displays a facsimile of the abstract, in which some phrases are hypertext links. These phrases correspond to terms that are also found in the books available at NCBI. Clicking on a hypertext links you to a list of book pages in which the phrase is found. Osea la aplicacion Entrez permite un acceso grupal a : registros de MEDLINE, secuencias de DNA, de proteinas, informacion en 3D y de mapeo genetico (localizacion de locus en cromosomas). De este modo toda la informacion puede ser evaluada en un sola busqueda (a diferencia del modo Retrieve). Asi Entrez ofrece una recuperacion integral por el uso de dos tipos de conexion entre las entradas o registros de bases de datos: neighboring and hard links. En el modo de búsqueda de Neighboring se realizan las búsquedas DENTRO de una base de datos a la vez la asociación de registros de acuerdo a la similaridad el establecimiento de las relaciones por neighboring se basa en mediciones de similaridad en base a BLAST y VLAST (Basic Local Alignment Search Tool) and VAST (Vector Analysis Search Tool). The BLAST compares sequence data to one another. The algorithm in the BLAST attempts to find similarity alignment with certain statistical criteria and no gaps while the VAST use sets of coordinate data of alignment for comparing similarity. The BLAST is easier to use and more popular while the VAST provides precise information. en el caso de hard Link: se establece una búsqueda entre varias bases de datos a la vez las búsquedas son por asociación logica entre registro: si buscamos secuencia de un cosmido en MEDLINE entonces se establece un link (hard link) al registro en la base de datos de nucleótidos, y si esta secuencia codifica una proteina entonces este registro es asociado por un link a un registro de la base de las proteinas y asi a la base de estructura, de taxonomia,etc. CARMEN: Las relaciones neighboring permiten entradas dentro de la misma base de datos en la que uno se encuentra, mientras que la relación hard link permite relacionar entradas entre las diferentes bases de datos donde hay una conección lógica entre estas mismas entradas. VANESSA: Como bien lo han dicho, las relaciones de “neighboring” (vecindad) permiten conectar una entrada con otra entrada relacionada, dentro de una misma base de datos en el sistema Entrez del NCBI. Esto es realizado a través de algoritmos que permiten, por ej., el alineamiento de secuencias tanto de nucleótidos como de proteínas (BLAST), así como de datos estructurales de proteínas a través de coordenadas 3D (VAST). Los “hard links”, por otro lado, relacionan entradas entre diferentes bases de datos. Lo que es importante recalcar es que partiendo tan sólo de una sola búsqueda, ambos tipos de relaciones (“neighboring” y “hard links”) permiten contar rápidamente con una vasta información actualizada, existente en diferentes bases de datos, y cruzar dicha información. YANINA: Estoy de acuerdo respecto a las diferencias, en Neighboring la conección se establece a una determinada database y permite hacer búsquedas amplias respecto a un tema dado mientras que en Hard Links se establecen conecciones entre diferentes databases ampliando el rango de búsqueda y brindando una mayor información relacionada a la entrada dada. WILLIAMS: Entrez permite que la especificación de interrogaciones tenga acceso a documentos de MEDLINE o a expedientes de la secuencia, pero agrega un concepto valioso llamado " neighboring. " NEIGHBORING permite que un usuario localice las referencias o las secuencias relacionadas con un articulo o una secuencia dada. El usuario puede pedir Entrez " para encontrar todos los articulos que sean como éste " o " encuentre todas las secuencias similares. " Los neighboring usan los algoritmos desarrollados en los NCBI que relacionan registros dentro de la misma base de datos por medidas estadísticas de la semejanza. Las " hard link “, conectan entradas en diversas bases de datos. Para cada expediente de MEDLINE, hay “hard link” a cualquier secuencia de la proteína o del nucleotide que fuera publicada en ese artículo. Las secuencias citadas de la proteína o del nucleotide tienen “hard link” recíprocos a los registros nuevos de MEDLINE. Las secuencias del nucleotide y las proteínas derivadas de ellas por la traducción conceptual también tienen “hard link” unas a otras. SUSAN: Como se ha mencionado anteriormente las herramientas neighboring y hard links del sistema Entrez fueron creadas para brindar a los usuarios la posibilidad de manejar la información de manera más versátil. Debido a que Entrez incluye diversas bases de datos como lo ha mencionado Julio, a partir de los “neighbors” de la secuencia de una proteína por ejemplo se puede identificar rápidamente otros miembros de la misma familia, incluyendo aquellos cuyas estructuras 3D son conocidas. Los neighbors de una secuencia y/o estructura dada son el resultado de tipos específicos de vínculos cruzados que unen una entrada de base de datos a otras entradas de moléculas relacionadas dentro de la misma base de datos. Los hard links son aplicados para interrelacionar una entrada con diferentes bases de datos (PubMed, Protein, Nucleotide, Structure, Genome, PopSet, OMIM, Taxonomy, Books, ProbeSet, 3Ddomains) de esta manera el sistema Entrez provee a sus usuarios la posibilidad de adquirir una gran cantidad de información en los diferentes campos a partir de la introducción de un solo dato. 2.- En qué situaciones durante la búsqueda de información relacionada, se usa específicamente el sistema ‘neighboring’ y en que otras el sistema ‘hard links’? JULIO: Para ver claro les muestro como se representan las bases de datos que pueden asociarse y que por medio del programa Entrez los registros accedidos estan asociados a: Secuencias, estructuras, referencias, taxonomia.etc las búsquedas por HARD LINKS son las conexiones entre hexágonos, y las flechas son las busquedas por NEIGHBORING. Hard links realiza busquedas sobre diversas caracteristicas (normalmente dificilmente asociables y de diferente TIPO), mientras que neighboring es mas especifico (no debemos confundirnos y creer que en este caso la busqueda es RESTRINGIDA). Asi vemos que la búsqueda de datos por uso de la asociación (HARD LINKS) entre bases de datos seria util si uno desea hacer búsquedas sobre por ejemplo un gen, su proteina, secuencias genicas y aminoacídicas relacionadas, datos estructurales y funcionales, distribución en taxones y su ubicación genomica. Si nosotros solo deseariamos información como para ver una famila de genes o proteinas solo buscaríamos en una sola base de datos (de péptidos, de genes, etc) y asi podriamos ver la gran variabilidad a nivel de secuencias (haciendo un alineamiento de las secuencias) o por simple inspección (tamaño, intrones, número de genes, ubicación en uno o en varios cromosomas, en una familia de plantas o en una misma especie, etc). También solo podemos estudiar estructuras , etc. CARMEN: En el caso de neighboring, un usuario quien está observando una secuencia dada, puede hacer que el ENTREZ encuentre todas las secuencias que son similares a la secuencia de interés. El establecimiento de una relación de neighboring dentro de una base de datos está dada en una medida estadística de similitud. En el caso de neighboring, si uno se encuentra en la entrada MEDLINE, por ejemplo, con una secuancia de un cósmido, se puede establecer un hard link entre la entrada del MEDLINE y el nucleótido correspondiente. Si uno abre la lectura de la armadura de un cósmido que codifica para una proteína conocida, se establece un hard link entre la entrada de nucleótidos y la entrada de proteínas. Si el registro de proteínas tiene una estructura deducida experimentalmente, se podría establecer un hard link entre el registro de proteínas y el registro estructural. VANESSA: Entonces, por los ejemplos que mencionan podemos ver que las conexiones “neighboring” permiten encontrar secuencias relacionadas a la secuencia de interés (ej: por alineamiento de secuencias nucleotídicas, aminoacídicas, datos estructurales de proteínas). Esto es de utilidad cuando se buscan homologías ya sea a nivel de secuencias (BLAST) como a nivel estructural (ej: detección de homologías remotas a través del algoritmo VAST), por ej. en el caso de un estudio filogenético-evolutivo, o cuando se quiere correlacionar estructura-función de una proteína que se quiere caracterizar con respecto a otra relacionada y cuya estructura es conocida y está disponible. En el caso de “hard links”, estas relaciones son mucho más útiles cuando uno necesita correlacionar, por ej., la información nucleotídica (DNA, cDNA) con la de la(s) proteína(s) codificadas por dicha secuencia, por ej. cuando se trabaja con enzimas o proteínas que se expresan diferencialmente en tejidos (= isoformas o isoenzimas); también cuando se requiere cruzar las informaciones sobre secuencias nucleotídicas – aminoacídicas, y la información estructural, con otras bases de datos conteniendo información sobre la ubicación del gen de interés en el mapa físico de un cromosoma en particular, información taxonómica, entre otros. YANINA: Neighboring puede emplearse cuando se cuenta con una secuencia “X” y se quiere determinar si presenta similitudes con otras reportadas anteriormente empleando herramientas de alineamiento como Blast, y Vast, siendo posible encontrar relaciones estructurales aún contando con dominios individuales. En el caso de Hard Links se puede emplear cuando al contar con una secuencia de aminoácidos se quiere establecer todas las relaciones posibles de evaluación ( la secuencia de nucleótidos que le dio origen, estructura, homologías, etc ) obteniendo la mayor cantidad de información basado en una única consulta. SUSAN: Las conexiones neighboring son muy útiles por ejemplo como menciona Vanessa para encontrar secuencias relacionadas a una secuencia específica, si por ejemplo ingresamos a la base de datos Nucleotide de Entrez y escribimos Dengue Peru el sistema nos va a arrojar todas aquellas secuencias de aislamientos peruanos reportados en el GenBank, si escogemos una de ellas y luego utilizamos el link Related sequences, el cual sería un neighboring link, esto nos dará como resultado una lista de secuencias las cuales presentan entre si una alta homología. Esto nos serviría por ejemplo para encontrar secuencias que pertenezcan a un mismo subtipo genético. Siguiendo con el mismo ejemplo, a partir de una secuencia de un aislamiento peruano del virus Dengue, nosotros podemos utilizar los hard links para averiguar si existe una estructura 3D de la proteína codificada por la secuencia de nucleótidos, para este propósito utilizaríamos entonces los hard links Protein y luego 3D Structure dentro de Blinks, los resultados obtenidos nos permiten observar que en la base de datos Structure de Entrez esta presente la estructura 3D de la glicoproteina E del virus de la encefalitis transmitida por garrapatas, perteneciente a la misma familia del virus Dengue, la cual nos serviría como base para realizar el modelaje molecular. Capítulo 6 The NCBI Data Model Notas importantes: Un modelo, ya sea biológico, matemático, físico o químico, permite estudiar un fenómeno natural a través de una imitación del mismo, siendo el aspecto más importante, la capacidad de predicción de situaciones que bajo condiciones normales son inaceptables naturalmente. Obviamente la utilidad de un modelo se basa en el grado de similitud con el fenómeno natural. Ejemplos de modelos: modelos de transmisión de enfermedades, modelos de evolución, modelos de intervenciones en poblaciones, modelo químico de una molécula, modelos de datos como el NCBI. El modelo de datos del NCBI define una vasta clase de objetos denominados ‘Sequence Identifiers’ (SeqId), asi como objetos centrales tales como secuencias (biological sequence: Bioseq), colecciones o conjuntos de secuencias (Bioseqsets), anotaciones de secuencias (Seq-Annot), y descripción de secuencias (Seq-Descr). Preguntas de discusión: 1.- Qué se entiende por un modelo de datos? (Les recomiendo leer la sección ‘Some Examples of the Model’ de la página 122, para entender de una manera mas concreta el concepto de ‘Modelos de Datos’.) CARMEN : Modelo de datos significa la capacidad de relación entre dos objetivos importantes. Los modelos de datos del NCBI modelan las secuencias de DNA y proteínas, cuyo proceso de traducción es representado como un link entre las dos secuencias, de esta manera llega a ser muy fácil analizar la secuencia de proteínas derivada de la traducción del CDS por BLAST o por cualquier otra herramienta de búsqueda de secuencias. Una colección de secuencias de DNA y su proteína traducida se llama Nuc prot set, y es la representación interna en uso del NCBI para estos datos. La navegación proporcionada por el ENTREZ refleja más directamente la estructura de los datos. La secuencia de proteínas derivada de las traducciones desde el GenBank que retornan de las búsquedas del BLAST son secuencias de proteínas del set Nuc prot. También, los modelos de datos del NCBI definen un tipo de secuencia que representa directamente una serie segmentaria (secuencias codantes, exones) llamada secuencia segmentaria, que contiene instrucciones de cómo ha sido construída desde otras secuencias. La secuencia segmentaria puede tener un nombre, un número de acceso, citaciones, comentarios, al igual que otros registros. Cuando se hace el escape del Gen Bank, como el caso del Nuc prot, los set Seg se fraccionan a múltiples registros y la secuencia segmentaria misma no es visible. Sin embargo, en la gráfica del ENTREZ la secuencia segmentaria es visible como una línea que conecta todos los componentes de secuencia. Estas secuencias segmentarias no tienen el requerimiento de los gaps entre las piezas, y de hecho, las piezas pueden superponerse. Esto las hace ideal para representar grandes secuencias como el genoma bacteriano. VANESSA: Un modelo de datos busca relacionar datos de distintas fuentes de una manera consistente y práctica que reúna y refleje un contexto particular o un fenómeno específico. Para ello es importante conocer los detalles del modelo y cómo funciona. Un modelo de datos debe facilitar la recuperación de la información, y debe ser estable en un tiempo razonable. Debe a su vez poder ser expandido sin necesidad de cambiar los datos existentes. Por ej., el modelo de datos del NCBI es un buen modelo de información relacionada al manejo de secuencias biológicas. La definición del modelo se basa fundamentalmente en elementos de datos que pueden ser medibles en el laboratorio, tales como la secuencia de una molécula aislada. El modelo de datos del NCBI relaciona datos de secuencias (por ej.: secuencias de ADN, proteínas) realizando una descripción explícita de los datos experimentales. A su vez permite una interacción entre la literatura publicada y la información de secuencias de ADN, proteínas codificadas, mapas cromosómicos de los genes, y las estructuras 3D de proteínas, ello facilitado por las conexiones de “neighboring” y “hard links” dentro y entre las bases de datos, respectivamente. YANINA: Como lo señalan Carmen y Vanesa, un modelo de datos corresponde a un sistema que permite integrar la información desde dos puntos de vista como son el DNA y las Proteínas. El NCBI Data Model presenta el proceso de traducción como un link entre las dos secuencias en donde las anotaciones referentes a las proteínas son consideradas y se permite analizar sin mayores problemas las secuencias de proteínas derivadas de la traducción de secuencias codificantes evitándose la pérdida de información al hacer esta retrospección. El NCBI Model permite obtener una determinada secuencia ( DNA genómico codificante ) de una manera completa y continua explicando la manera como se construyó y brindando la información necesaria para su evaluación ahorrando tiempo y espacio. WILLIAMS: Un modelo de base de datos consiste específicamente en relacionar las secuencias de DNA y proteìnas, un modelo de datos es el NCBI Entrez es una base de datos que proporciona un sistema de búsqueda que combina documentos conteniendo secuencias nucleotídicas o proteicas, estructuras en 3D, y sus respectivas referencias en Medline; su potencialidad reside en las numerosas referencias cruzadas que presenta entre las distintas bases de datos, así como un sistema computerizado de similitudes entre documentos, lo que permite ofrecer el conjunto de documentos mas similares al requerido. Por ejemplo, para una determinada secuencia de una base de datos, Entrez nos ofrece todas aquellas secuencias de las bases de datos que poseen una mayor homologia con dicha secuencia basada en BLAST o bien todas las referencias bibliográficas de Medline que contengan el termino requerido. SUSAN: De acuerdo a lo anterior, un modelo de datos nos permite entonces relacionar de una manera práctica información específica a partir de un criterio dado. Por ejemplo, en el caso del gen NF1 nos permitiría interrelacionar las variables gen (NF1), locus (17q11.2), secuencia de nucleótidos (ccccagc..), proteína (neurofibromina 1), estructura (datos 3D) e incluso fenotipo (neurofibromatosis), tomando el fenotipo como el resultado de la expresión de uno o mas genes. Así mismo, esta búsqueda se ve enriquecida por la implementación consistente de referencias bibliográficas y citaciones presentes en el modelo de datos del NCBI.