Bases de datos de estructuras de proteinas Entrar en Expasy http://www.expasy.org/sprot/ • • • • • Encontrar la información relativa a deoxyuridine 5'-triphosphate nucleotidohydrolase (dUTPase) para E coli y obtener la secuencia en formato FASTA. Realizar directamente desde Swiss-Prot un alineamiento de cinco secuencias de dUTPase ¿Cuántas entradas aparecen al utilizar la palabra "insulin" en la descripción?. ¿Qué diferencia existe entre tener activado o no el cuadro denominado "Append and prefix” para hacer la búsqueda?. ¿Cómo podrías concretar más y por ejemplo buscar únicamente la secuencia del precursor de la insulina humana (INS)?. A partir de la secuencia de la insulina humana y utilizando cuando convenga los enlaces que haya en la ficha del SwissProt responde a: ¿Cuántos aminoácidos tiene el precursor de la insulina humana? ¿Cuál es el aminoácido que ocupa la posición no. 29 en la secuencia de la insulina en SwissProt?. ¿En qué cromosoma se encuentra el gen de la insulina humana?. ¿En qué locus se encuentra el gen de la insulina humana? -Accede a la ficha del SwissProt del receptor humano de las Low density lipoprotein receptor LDL (Gen LDLR) y responde a las siguientes preguntas: ¿Cuántos puentes disulfuro existen en esta proteína?. Localiza su primer puente disulfuro. ¿ Qué significa "variant" en el campo de las características de la secuencia ?. ¿Todas las variantes que se conocen para esta proteína originan alguna enfermedad?. ¿Qué es la hipercolesterolemia familiar (FH)?. 2. Tras secuenciar un gen puede necesitarse conocer la estructura tridimensional de la proteína correspondiente. Para lo cual puede pedirse la colaboración con un grupo de cristalografía de proteínas o de resonancia magnética nuclear. Mientras tanto hay distintas herramientas informáticas que nos pueden dar alguna información sobre la posible estructura de la proteína, vamos a practicar con algunas accesibles desde la base de datos Expasy http://us.expasy.org/ Secuencia: MASVRKAFPRRLVGLTSLRAVSTSSMGTLPKQVKIVEVGPRDGLQNEKSIVPTPVKIRLI DMLSEAGLPVIEATSFVSPNWVPQMADHSDVLKGIQKFPGINYPVLTPNMKGFEEAVAAG AKEVSVFGAVSELFTRKNANCSIEESFQRFAGVMQAAQAASISVRGYVSCALGCPYEGKV SPAKVAEVAKKLYSMGCYEISLGDTIGVGTPGLMKDMLTAVMHEVPVTALGVHCHDTIGQ ALANTLVALQMGVSVVDSSVAGLGGCPYAKGASGNLATEDLVYMLNGLGIHTGVNLQKLL EAGDFICQALNRKTSSKVAQATCKL Análisis de la estructura primaria de proteínas: • • • Protparam. Ir a “Proteomics and sequence análisis tools” de Expasy Determina la hidrofobicidad característica de los elementos transmembrana usando. ProtScale. Buscar si es una proteína estable, determinar su coeficiente de extinción y su vida media. Peptidecutter Predicción de la estructura secundaria • Buscar en ScanProsite los perfíles y patrones para la secuencia anterior de proteínas: http://us.expasy.org/tools/scanprosite/ • PSIPRED Protein Structure Prediction Server. http://bioinf.cs.ucl.ac.uk/psipred/psiform.html • Predict protein server. http://www.embl-heidelberg.de/predictprotein/predictprotein.html Búscar los dominios para esta proteína • InterPro http://www.ebi.ac.uk/interpro/index.html Buscar estructuras terciarias en PDB http://www.rcsb.org/pdb/ • La estructura de 1CRZ. Aparecerá una molécula que puede obtenerse en varios formatos (VRML, Rasmol...). Pinchar en Ribbons (500x500). Guardar en formato JPEG. • Para visualizar la estructura tridimensional entramos http://www.ncbi.nlm.nih.gov/Structure/ e introduce 1CRZ. • Instalaros el programa http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml • Visualizar la estructura. Desde View. Elige la opción “Find pattern option” y localiza la región FSPDG. Con Style puedes elegir diferentes maneras de visualizar la proteína en MMDB Cn3D BÚSQUEDAS con KEGG http://www.genome.ad.jp/egg/ . Base de datos de Rutas metabólicas: Pathway Database”. • Entrar en: “Metabolism”. “Carbohydrate Metabolism”. Elegir “Reference Pathways” “Glycolysis/Gluconeogenesis”. LIGAND contiene enlaces a otras bases de datos. “5.3.1.1” es la entrada “triose-phosphate isomerase” de la sección “ENZYME” de la base de datos “LIGAND”. Hemos entrado por el sistema “DBGET/LinkDB”. Entra en el gen que codifica la triosa-fosfato isomerasa en E. coli (ECO: b3919). Esta enlazada con la base “GENES”, que es el catálogo de genes en KEGG. Entra en el enlace Posición que muestra el mapa genómico Entra en “Motif”. Así encuentras los probables motivos estructurales en la enzima. Entra en el enlace con el Protein Data Bank (PDB) y examina la estructura tridimensional de la enzima. (“3TIM”). Se puede lanzar directamente “FASTA-genes”, “BLAST”… • Desde el circuito inicial se puede entrar a la base de datos COMPOUND del “gliceraldehido-3P”. • Se puede seleccionar una ruta metabólica para un organismo en concreto “Homo Sapiens”. Obteniéndose la ruta específica. Los recuadros en fondo verde representan enzimas cuyos genes se han identificado en el genoma de Homo Sapiens. Enlazan con la base “GENES”. Entra en “5.3.1.1”. Nos lleva a la entrada “7167”. • Vuelve a la ruta completa. Toca arriba en “Ortholog Table”. Aparece una tabla completa de ortólogos que participan en la ruta. • Toca arriba en “Select organisms”. Selecciona dos de ellos (antes, “Clear”) y toca en “Draw ortholog table”. Comparación de mapas genómicos • • • • Toca “KEGG” para entrar en “KEGG - Table of Contents”. Busca en “2.2. Complete Genomes”, “Escherichia coli K-12 MG1655” y toca en “Map”. Busca abajo “Genome comparison tools”. Selecciona “Salmonella Typhi”, “Dot matrix” “Overall Homology Map”: Muestra los genes de cada genoma sobre los ejes mediante triángulos que indican la dirección de transcripción. Los puntos indican los pares de genes homólogos por encima de un valor umbral. • • • Moviendo el ratón sobre un triángulo (gen) o sobre un punto (par de homólogos), aparece la identificación del gen o genes. Si pulsas el botón izquierdo sobre un punto, la identificación de los dos genes homólogos queda en la pantalla hasta que pulses sobre un sitio sin punto. Si pulsas en un triángulo (gen) accedes a la entrada correspondiente en la base de datos “GENES”. Para buscar rutas metabólicas que conectan dos compuestos • • Entra en “Pathway Database” y en “Generate posible reaction paths” En “Enter initial substrate” introduce el primer metabolito (pyruvate). En “Enter final product” introduce el segundo metabolito (acetate) En “Enter cut off length” introduce el máximo nº de reacciones entre los dos • ¿Cuántas posibles rutas aparecen”. Pide un diagrama de los resultados. EJERCICIOS con KEGG: • • • Compara los mapas genómicos de: E. coli K12 MG1655 y H. influenzae. E. coli K12 MG1655 y Salmonella typhi. ¿Obtienes alguna conclusión? Busca agrupaciones génicas en dos genomas: E. coli K12 MG 1655 y H. influenzae. Explora el ciclo del citrato (oxidante o reductor) en varias especies: E. coli K12 MG1655, Methanococcus jannaschii, Thermoplasma acidophilum, S. cerevisiae. ¿Están presentes todas las enzimas en las cuatro especies? Calcula la distancia (o similaridad de secuencia) entre algunas de las enzimas del ciclo en dos de las especies elegidas. ¿Qué plegamientos y motivos aparecen en la malato deshidrogenasa? Obtén las posibles rutas entre citrato y glucosa (longitud máxima: 6 reacciones). Búsquedas con BioCyc http://biocyc.org/ • Obtener toda la información posible: buscar el gen trp para E-coli K-12 reacción enzimática que cataliza la Pyruvate dehydrogease Enzima 2.7.1.40 Glucosa Biosíntesis. Realizar la misma búsqueda desde “list of pathways”. Visualiza la Ontología de genes. Compuestos en E. Coli que contengan en su nombre tryp. Añadir a esta búsqueda que tengan un peso molecular mayor de 200Da. Búsquedas con OMIM http://www.ncbi.nlm.nih.gov/Entrez/ • • • • Diferencias entre una búsqueda básica y avanzada para localizar los genes relacionados con cancer que se encuentran en el cromosoma 11 y que su modo de herencia es autosomal dominante. Compara los resultados obtenidos, selecciona 3 de ellos y guárdalos. Comprobar las opciones de búsqueda Preview/index con el término allergic” OMIM Gene Map: búsqueda de hemocromatosis (6p21.3) OMIM Morbid Map búsqueda de hemocromatosis Ejercicios con OMIM • • • • • ¿Qué genes humanos se relacionan con la hipertensión? ¿Cuáles se encuentran en el cromosoma 17? Busca las entradas de OMIM que contienen información sobre variaciones alélicas para este gen. Busca la secuencia de proteína que interviene en la regulación de la conductancia transmembrana en la fibrosis quistita (CFTR) Obtener desde OMIM la información relativa de p53 en Locuslink y en la p53 Mutation Database Busquedas con SRS http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession • • • • • • • • • • ¿Cuántas secuencias de 16S rRNA existen en EMBL? Averígualo utilizando distintos campos de búsqueda: Description, Keywords, Features?. ¿Qué hace la Hexoquinasa?. Obtén la secuencia de todas las hexoquinasas de la levadura. Obtén el gen de la hexoquinasa A de la levadura Busca la cadena "RIBULOSE*" en el campo Keywords en EMBL. Cuantos nombres aparecen para el enzima RubisCO ? Recupera las secuencias promotoras del conejo. Utiliza la clave "TATAen el campo Features (FtKy). Después recupera de estas secuencias las que no presentan splicing alternativo. Buscar enzima oxidasa y selecciona la vista de “Protein Chart” ¿Cuantas entradas aparecen en la versión actual de EMBL? Usa la opción Databases. ¿Cuantas de las entradas de SwissProt aparecen enlazadas a PDB? ¿Cuantas entradas de PIR aparecen enlazadas con SwissProt? Recupera la entrada de SwissProt ACHG_HUMAN. ¿A cuantas entradas de la base de datos EMBL se halla enlazado? Recupera la entrada de SwissProt ACHG_HUMAN. Usa el modo de navegación para desplazarte a la entrada de Prosite con la que se halla enlazado.