The NCBI Data Model

Anuncio
Capítulo 5
Preguntas de discusión:
1.- Cuál es la diferencia entre los dos tipos de conección: neighboring y hard
link, usados por el servidor Entrez?
JULIO: Antes de responder esta pregunta lo que debe quedarnos claro es que:
Entrez constituye un sistema de recuperacion de informacion en varias bases de datos
relacionadas (linked databases) como es proveer acceso a:
PubMed: The biomedical literature (PubMed)
Nucleotide sequence database (Genbank)
Protein sequence database
Structure: three-dimensional macromolecular structures
Genome: complete genome assemblies
PopSet: population study data sets
OMIM: Online Mendelian Inheritance in Man
Taxonomy: organisms in GenBank
Books: online books
ProbeSet: Gene statement Omnibus (GEO)
3D Domains: domains from Entrez Structure
Abajo se muestran estas bases de datos en mas detalle y que en la actualidad (2001)
abarca la busqueda en Entrez:
NCBI DATABASES
Links to other resources or NCBI databases are available from the links to the right of
each citation and from the Display pull-down menu. PubMed will only process the first
500 items with links when using the Display pull-down menu. The following links are
available:
Protein - Amino acid (protein) sequences from Swiss-Prot, PIR, PRF, PDB, and
translated protein sequences from the DNA sequences databases.
Nucleotide - DNA sequences from GenBank, EMBL, and DDBJ.
PopSet - The PopSet database contains aligned sequences submitted as a set from a
population, phylogenetic or mutation study describing such events as evolution and
population variation.
Structure - The Molecular Modeling Database (MMDB) contains 3-dimensional structures
determined by X-ray crystallography and NMR spectroscopy.
Genome - Provides access to records and graphic displays of entire genomes and
chromosomes for megabase sequences obtained from large-scale sequencing of
genomes and chromosomes.
ProbeSet - Gene statement data repository and online resource for the retrireview of gene
statement data from any organism or artificial source.
OMIM - Catalog of human genes and genetic disorders.
Books - In collaboration with book publishers, NCBI is adapting textbooks for the web and
linking them to PubMed to provide background so users can explore unfamiliar concepts
found in search results. The Books link displays a facsimile of the abstract, in which some
phrases are hypertext links. These phrases correspond to terms that are also found in the
books available at NCBI. Clicking on a hypertext links you to a list of book pages in which
the phrase is found.
Osea la aplicacion Entrez permite un acceso grupal a : registros de MEDLINE,
secuencias de DNA, de proteinas, informacion en 3D y de mapeo genetico (localizacion
de locus en cromosomas). De este modo toda la informacion puede ser evaluada en un
sola busqueda (a diferencia del modo Retrieve). Asi Entrez ofrece una recuperacion
integral por el uso de dos tipos de conexion entre las entradas o registros de bases de
datos: neighboring and hard links.

En el modo de búsqueda de Neighboring
se realizan las búsquedas DENTRO de una base de datos a la vez
la asociación de registros de acuerdo a la similaridad
el establecimiento de las relaciones por neighboring se basa en mediciones de
similaridad en base a BLAST y VLAST
(Basic Local Alignment Search Tool) and VAST (Vector Analysis Search Tool). The
BLAST compares sequence data to one another. The algorithm in the BLAST attempts to
find similarity alignment with certain statistical criteria and no gaps while the VAST use
sets of coordinate data of alignment for comparing similarity. The BLAST is easier to use
and more popular while the VAST provides precise information.
 en el caso de hard Link:
se establece una búsqueda entre varias bases de datos a la vez
las búsquedas son por asociación logica entre registro: si buscamos secuencia de un
cosmido en MEDLINE entonces se establece un link (hard link) al registro en la base de
datos de nucleótidos, y si esta secuencia codifica una proteina entonces este registro es
asociado por un link a un registro de la base de las proteinas y asi a la base de
estructura, de taxonomia,etc.
CARMEN: Las relaciones neighboring permiten entradas dentro de la misma base de
datos en la que uno se encuentra, mientras que la relación hard link permite relacionar
entradas entre las diferentes bases de datos donde hay una conección lógica entre estas
mismas entradas.
VANESSA: Como bien lo han dicho, las relaciones de “neighboring” (vecindad) permiten
conectar una entrada con otra entrada relacionada, dentro de una misma base de datos
en el sistema Entrez del NCBI. Esto es realizado a través de algoritmos que permiten, por
ej., el alineamiento de secuencias tanto de nucleótidos como de proteínas (BLAST), así
como de datos estructurales de proteínas a través de coordenadas 3D (VAST). Los “hard
links”, por otro lado, relacionan entradas entre diferentes bases de datos. Lo que es
importante recalcar es que partiendo tan sólo de una sola búsqueda, ambos tipos de
relaciones (“neighboring” y “hard links”) permiten contar rápidamente con una vasta
información actualizada, existente en diferentes bases de datos, y cruzar dicha
información.
YANINA: Estoy de acuerdo respecto a las diferencias, en Neighboring la conección se
establece a una determinada database y permite hacer búsquedas amplias respecto a un tema
dado mientras que en Hard Links se establecen conecciones entre diferentes databases
ampliando el rango de búsqueda y brindando una mayor información relacionada a la entrada
dada.
WILLIAMS: Entrez permite que la especificación de interrogaciones tenga acceso a
documentos de MEDLINE o a expedientes de la secuencia, pero agrega un concepto
valioso llamado " neighboring. "
NEIGHBORING permite que un usuario localice las referencias o las secuencias
relacionadas con un articulo o una secuencia dada. El usuario puede pedir Entrez " para
encontrar todos los articulos que sean como éste " o " encuentre todas las secuencias
similares. " Los neighboring usan los algoritmos desarrollados en los NCBI que relacionan
registros dentro de la misma base de datos por medidas estadísticas de la semejanza.
Las " hard link “, conectan entradas en diversas bases de datos. Para cada expediente
de MEDLINE, hay “hard link” a cualquier secuencia de la proteína o del nucleotide que
fuera publicada en ese artículo. Las secuencias citadas de la proteína o del nucleotide
tienen “hard link” recíprocos a los registros nuevos de MEDLINE. Las secuencias del
nucleotide y las proteínas derivadas de ellas por la traducción conceptual también tienen
“hard link” unas a otras.
SUSAN: Como se ha mencionado anteriormente las herramientas neighboring y hard
links del sistema Entrez fueron creadas para brindar a los usuarios la posibilidad de
manejar la información de manera más versátil. Debido a que Entrez incluye diversas
bases de datos como lo ha mencionado Julio, a partir de los “neighbors” de la secuencia
de una proteína por ejemplo se puede identificar rápidamente otros miembros de la
misma familia, incluyendo aquellos cuyas estructuras 3D son conocidas. Los neighbors
de una secuencia y/o estructura dada son el resultado de tipos específicos de vínculos
cruzados que unen una entrada de base de datos a otras entradas de moléculas
relacionadas dentro de la misma base de datos. Los hard links son aplicados para
interrelacionar una entrada con diferentes bases de datos (PubMed, Protein, Nucleotide,
Structure, Genome, PopSet, OMIM, Taxonomy, Books, ProbeSet, 3Ddomains) de esta
manera el sistema Entrez provee a sus usuarios la posibilidad de adquirir una gran
cantidad de información en los diferentes campos a partir de la introducción de un solo
dato.
2.- En qué situaciones durante la búsqueda de información relacionada, se
usa específicamente el sistema ‘neighboring’ y en que otras el sistema ‘hard
links’?
JULIO: Para ver claro les muestro como se representan las bases de datos que pueden
asociarse y que por medio del programa Entrez los registros accedidos estan asociados
a: Secuencias, estructuras, referencias, taxonomia.etc
las búsquedas por HARD LINKS son las conexiones entre hexágonos, y las flechas son
las busquedas por NEIGHBORING.
Hard links realiza busquedas sobre diversas caracteristicas (normalmente dificilmente
asociables y de diferente TIPO), mientras que neighboring es mas especifico (no
debemos confundirnos y creer que en este caso la busqueda es RESTRINGIDA).
Asi vemos que la búsqueda de datos por uso de la asociación (HARD LINKS) entre bases
de datos seria util si uno desea hacer búsquedas sobre por ejemplo un gen, su proteina,
secuencias genicas y aminoacídicas relacionadas, datos estructurales y funcionales,
distribución en taxones y su ubicación genomica.
Si nosotros solo deseariamos información como para ver una famila de genes o proteinas
solo buscaríamos en una sola base de datos (de péptidos, de genes, etc) y asi podriamos
ver la gran variabilidad a nivel de secuencias (haciendo un alineamiento de las
secuencias) o por simple inspección (tamaño, intrones, número de genes, ubicación en
uno o en varios cromosomas, en una familia de plantas o en una misma especie, etc).
También solo podemos estudiar estructuras , etc.
CARMEN: En el caso de neighboring, un usuario quien está observando una secuencia
dada, puede hacer que el ENTREZ encuentre todas las secuencias que son similares a la
secuencia de interés. El establecimiento de una relación de neighboring dentro de una
base de datos está dada en una medida estadística de similitud. En el caso de
neighboring, si uno se encuentra en la entrada MEDLINE, por ejemplo, con una
secuancia de un cósmido, se puede establecer un hard link entre la entrada del MEDLINE
y el nucleótido correspondiente. Si uno abre la lectura de la armadura de un cósmido que
codifica para una proteína conocida, se establece un hard link entre la entrada de
nucleótidos y la entrada de proteínas. Si el registro de proteínas tiene una estructura
deducida experimentalmente, se podría establecer un hard link entre el registro de
proteínas y el registro estructural.
VANESSA: Entonces, por los ejemplos que mencionan podemos ver que las conexiones
“neighboring” permiten encontrar secuencias relacionadas a la secuencia de interés (ej:
por alineamiento de secuencias nucleotídicas, aminoacídicas, datos estructurales de
proteínas). Esto es de utilidad cuando se buscan homologías ya sea a nivel de
secuencias (BLAST) como a nivel estructural (ej: detección de homologías remotas a
través del algoritmo VAST), por ej. en el caso de un estudio filogenético-evolutivo, o
cuando se quiere correlacionar estructura-función de una proteína que se quiere
caracterizar con respecto a otra relacionada y cuya estructura es conocida y está
disponible. En el caso de “hard links”, estas relaciones son mucho más útiles cuando uno
necesita correlacionar, por ej., la información nucleotídica (DNA, cDNA) con la de la(s)
proteína(s) codificadas por dicha secuencia, por ej. cuando se trabaja con enzimas o
proteínas que se expresan diferencialmente en tejidos (= isoformas o isoenzimas);
también cuando se requiere cruzar las informaciones sobre secuencias nucleotídicas –
aminoacídicas, y la información estructural, con otras bases de datos conteniendo
información sobre la ubicación del gen de interés en el mapa físico de un cromosoma en
particular, información taxonómica, entre otros.
YANINA: Neighboring puede emplearse cuando se cuenta con una secuencia “X” y se quiere
determinar si presenta similitudes con otras reportadas anteriormente empleando
herramientas de alineamiento como Blast, y Vast, siendo posible encontrar relaciones
estructurales aún contando con dominios individuales. En el caso de Hard Links se puede
emplear cuando al contar con una secuencia de aminoácidos se quiere establecer todas las
relaciones posibles de evaluación ( la secuencia de nucleótidos que le dio origen, estructura,
homologías, etc ) obteniendo la mayor cantidad de información basado en una única
consulta.
SUSAN: Las conexiones neighboring son muy útiles por ejemplo como menciona
Vanessa para encontrar secuencias relacionadas a una secuencia específica, si por
ejemplo ingresamos a la base de datos Nucleotide de Entrez y escribimos Dengue Peru
el sistema nos va a arrojar todas aquellas secuencias de aislamientos peruanos
reportados en el GenBank, si escogemos una de ellas y luego utilizamos el link Related
sequences, el cual sería un neighboring link, esto nos dará como resultado una lista de
secuencias las cuales presentan entre si una alta homología. Esto nos serviría por
ejemplo para encontrar secuencias que pertenezcan a un mismo subtipo genético.
Siguiendo con el mismo ejemplo, a partir de una secuencia de un aislamiento peruano del
virus Dengue, nosotros podemos utilizar los hard links para averiguar si existe una
estructura 3D de la proteína codificada por la secuencia de nucleótidos, para este
propósito utilizaríamos entonces los hard links Protein y luego 3D Structure dentro de
Blinks, los resultados obtenidos nos permiten observar que en la base de datos Structure
de Entrez esta presente la estructura 3D de la glicoproteina E del virus de la encefalitis
transmitida por garrapatas, perteneciente a la misma familia del virus Dengue, la cual nos
serviría como base para realizar el modelaje molecular.
Capítulo 6
The NCBI Data Model
Notas importantes:
Un modelo, ya sea biológico, matemático, físico o químico, permite estudiar un fenómeno
natural a través de una imitación del mismo, siendo el aspecto más importante, la
capacidad de predicción de situaciones que bajo condiciones normales son inaceptables
naturalmente. Obviamente la utilidad de un modelo se basa en el grado de similitud con el
fenómeno natural.
Ejemplos de modelos: modelos de transmisión de enfermedades, modelos de evolución,
modelos de intervenciones en poblaciones, modelo químico de una molécula, modelos de
datos como el NCBI.
El modelo de datos del NCBI define una vasta clase de objetos denominados ‘Sequence
Identifiers’ (SeqId), asi como objetos centrales tales como secuencias (biological
sequence: Bioseq), colecciones o conjuntos de secuencias (Bioseqsets), anotaciones de
secuencias (Seq-Annot), y descripción de secuencias (Seq-Descr).
Preguntas de discusión:
1.- Qué se entiende por un modelo de datos? (Les recomiendo leer la sección ‘Some
Examples of the Model’ de la página 122, para entender de una manera mas concreta el
concepto de ‘Modelos de Datos’.)
CARMEN : Modelo de datos significa la capacidad de relación entre dos objetivos
importantes. Los modelos de datos del NCBI modelan las secuencias de DNA y
proteínas, cuyo proceso de traducción es representado como un link entre las dos
secuencias, de esta manera llega a ser muy fácil analizar la secuencia de proteínas
derivada de la traducción del CDS por BLAST o por cualquier otra herramienta de
búsqueda de secuencias. Una colección de secuencias de DNA y su proteína
traducida se llama Nuc prot set, y es la representación interna en uso del NCBI para
estos datos. La navegación proporcionada por el ENTREZ refleja más directamente la
estructura de los datos. La secuencia de proteínas derivada de las traducciones
desde el GenBank que retornan de las búsquedas del BLAST son secuencias de
proteínas del set Nuc prot.
También, los modelos de datos del NCBI definen un tipo de secuencia que representa
directamente una serie segmentaria (secuencias codantes, exones) llamada
secuencia segmentaria, que contiene instrucciones de cómo ha sido construída desde
otras secuencias. La secuencia segmentaria puede tener un nombre, un número de
acceso, citaciones, comentarios, al igual que otros registros. Cuando se hace el
escape del Gen Bank, como el caso del Nuc prot, los set Seg se fraccionan a
múltiples registros y la secuencia segmentaria misma no es visible. Sin embargo, en
la gráfica del ENTREZ la secuencia segmentaria es visible como una línea que
conecta todos los componentes de secuencia. Estas secuencias segmentarias no
tienen el requerimiento de los gaps entre las piezas, y de hecho, las piezas pueden
superponerse. Esto las hace ideal para representar grandes secuencias como el
genoma bacteriano.
VANESSA: Un modelo de datos busca relacionar datos de distintas fuentes de una
manera consistente y práctica que reúna y refleje un contexto particular o un fenómeno
específico. Para ello es importante conocer los detalles del modelo y cómo funciona. Un
modelo de datos debe facilitar la recuperación de la información, y debe ser estable en un
tiempo razonable. Debe a su vez poder ser expandido sin necesidad de cambiar los datos
existentes. Por ej., el modelo de datos del NCBI es un buen modelo de información
relacionada al manejo de secuencias biológicas. La definición del modelo se basa
fundamentalmente en elementos de datos que pueden ser medibles en el laboratorio,
tales como la secuencia de una molécula aislada. El modelo de datos del NCBI relaciona
datos de secuencias (por ej.: secuencias de ADN, proteínas) realizando una descripción
explícita de los datos experimentales. A su vez permite una interacción entre la literatura
publicada y la información de secuencias de ADN, proteínas codificadas, mapas
cromosómicos de los genes, y las estructuras 3D de proteínas, ello facilitado por las
conexiones de “neighboring” y “hard links” dentro y entre las bases de datos,
respectivamente.
YANINA: Como lo señalan Carmen y Vanesa, un modelo de datos corresponde a un
sistema que permite integrar la información desde dos puntos de vista como son el DNA y
las Proteínas. El NCBI Data Model presenta el proceso de traducción como un link entre
las dos secuencias en donde las anotaciones referentes a las proteínas son consideradas
y se permite analizar sin mayores problemas las secuencias de proteínas derivadas de la
traducción de secuencias codificantes evitándose la pérdida de información al hacer esta
retrospección. El NCBI Model permite obtener una determinada secuencia ( DNA
genómico codificante ) de una manera completa y continua explicando la manera como
se construyó y brindando la información necesaria para su evaluación ahorrando tiempo y
espacio.
WILLIAMS: Un modelo de base de datos consiste específicamente en relacionar las
secuencias de DNA y proteìnas, un modelo de datos es el NCBI Entrez es una base de
datos que proporciona un sistema de búsqueda que combina documentos conteniendo
secuencias nucleotídicas o proteicas, estructuras en 3D, y sus respectivas referencias en
Medline; su potencialidad reside en las numerosas referencias cruzadas que presenta entre
las distintas bases de datos, así como un sistema computerizado de similitudes entre
documentos, lo que permite ofrecer el conjunto de documentos mas similares al requerido.
Por ejemplo, para una determinada secuencia de una base de datos, Entrez nos ofrece todas
aquellas secuencias de las bases de datos que poseen una mayor homologia con dicha
secuencia basada en BLAST o bien todas las referencias bibliográficas de Medline que
contengan el termino requerido.
SUSAN: De acuerdo a lo anterior, un modelo de datos nos permite entonces relacionar
de una manera práctica información específica a partir de un criterio dado. Por ejemplo,
en el caso del gen NF1 nos permitiría interrelacionar las variables gen (NF1), locus
(17q11.2), secuencia de nucleótidos (ccccagc..), proteína (neurofibromina 1), estructura
(datos 3D) e incluso fenotipo (neurofibromatosis), tomando el fenotipo como el resultado
de la expresión de uno o mas genes. Así mismo, esta búsqueda se ve enriquecida por la
implementación consistente de referencias bibliográficas y citaciones presentes en el
modelo de datos del NCBI.
Descargar