Enfermedades Raras Bioinformática Enfermedades Raras Bioinformática La estructura de las proteínas Estructura de las Proteínas O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática Enfermedades Raras Obtención de la Estructura 3D de Proteínas (b) (a) (c) (a) Cristalografía de rayos X (gran resolución para proteínas cristalizadas) (b) Resonancia magnética nuclear (proteínas en disolución de pequeño tamaño (c) Microscopia electrónica 3D (reconstruye proyecciones/grandes complejos, no a resolución atómica. 2010 O. Trelles, PhD. O. Trelles, PhD. 2010 Bioinformática BD de estructuras de proteínas HEADER TITLE TITLE COMPND COMPND COMPND SOURCE SOURCE KEYWDS EXPDTA AUTHOR AUTHOR REVDAT SPRSDE JRNL JRNL JRNL JRNL JRNL REMARK REMARK REMARK REMARK REMARK DBREF DBREF SEQRES SEQRES HELIX HELIX HELIX TURN SSBOND SSBOND SSBOND CRYST1 ORIGX1 SCALE1 SCALE2 MODEL ATOM ATOM ATOM 2010 HORMONE 08-OCT-96 2HIU NMR STRUCTURE OF HUMAN INSULIN IN 20% ACETIC ACID, 2 ZINC-FREE, 10 STRUCTURES MOLECULE: INSULIN; 2 CHAIN: A, B; 3 BIOLOGICAL_UNIT: HETERODIMER ORGANISM_SCIENTIFIC: HOMO SAPIENS; 2 ORGANISM_COMMON: HUMAN INSULIN, HORMONE, GLUCOSE METABOLISM NMR, 10 STRUCTURES Q.X.HUA,S.N.GOZANI,R.E.CHANCE,J.A.HOFFMANN,B.H.FRANK, 2 M.A.WEISS 1 01-APR-97 2HIU 0 01-APR-97 2HIU 1HIU HEADER AUTH Q.X.HUA,S.N.GOZANI,R.E.CHANCE,J.A.HOFFMANN, ATOM AUTH 2 B.H.FRANK,M.A.WEISS ATOM TITL STRUCTURE OF A PROTEIN IN A KINETIC TRAP REF NAT.STRUCT.BIOL. V. 2 129 1995 ATOM ATOM REFN ASTM NSBIEW US ISSN 1072-8368 2024 ATOM 1 NUMBER OF NON-HYDROGEN ATOMS USED IN REFINEMENT. ATOM 1 PROTEIN ATOMS : 785 ATOM 1 NUCLEIC ACID ATOMS : 0 ATOM 1 HETEROGEN ATOMS : 0 ATOM 1 SOLVENT ATOMS : 0 2HIU A 1 21 SWS P01308 INS_HUMAN 90 ATOM 110 2HIU B 1 30 SWS P01308 INS_HUMAN 25 ATOM54 ATOMLEU 1 A 21 GLY ILE VAL GLU GLN CYS CYS THR SER ILE CYS SER ATOM 2 A 21 TYR GLN LEU GLU ASN TYR CYS ASN ATOM 1 1 ILE A 2 THR A 8 1 ATOM 2 2 LEU A 13 TYR A 19 1 ATOM 3 3 SER B 9 CYS B 19 1 ATOM 1 T1 GLY B 20 GLY B 23 ATOM 1 CYS A 6 CYS A 11 ATOM 2 CYS A 7 CYS B 7 ATOM 3 CYS A 20 CYS B 19 ATOM 1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 ATOM 1.000000 0.000000 0.000000 0.00000 ATOM 1.000000 0.000000 0.000000 0.00000 0.000000 1.000000 0.000000 0.00000 1 1 N GLY A 1 -6.132 6.735 1.016 1.00 0.00 2 CA GLY A 1 -4.686 6.753 1.376 1.00 0.00 3 C GLY A 1 -3.864 6.149 0.235 1.00 0.00 HYDROLASE(O-GLYCOSYL) 1 N ARG 1 2 CA ARG 1 3 C ARG 1 4 O ARG 1 5 CB ARG 1 6 CG ARG 1 7 CD ARG 1 8 NE ARG 1 9 CZ ARG 1 10 NH1 ARG 1 11 NH2 ARG 1 12 N THR 2 13 CA THR 2 14 7 C THR 2 15 7 O THR 2 1611 CB THR 2 17 OG1 THR 2 18 CG2 THR 2 19 N ASP 3 20 CA ASP 3 21 C ASP 3 22 O ASP 3 23 CB ASP 3 (X) 6.350 6.324 6.334 7.356 5.009 4.526 3.012 2.515 2.352 2.588 1.895 5.206 5.197 4.781 4.716 4.452 3.089 5.066 4.497 4.020 4.987 4.530 2.951 (Y) 34.124 32.707 32.484 32.060 32.300 33.584 33.793 34.238 33.394 32.086 33.858 32.767 32.618 33.870 33.930 31.426 31.502 30.133 34.900 36.132 37.273 38.398 36.717 (Z) 50.750 50.379 48.874 48.316 50.934 51.604 51.724 50.431 49.423 49.557 48.262 48.261 46.826 46.108 44.845 46.229 46.538 46.701 46.908 46.259 45.992 45.795 47.185 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 153L 41.90 54.68 14.63 23.75 40.20 56.81 64.62 63.14 37.38 56.33 59.78 15.22 15.40 23.28 20.96 12.40 20.80 26.07 31.19 35.11 19.94 29.83 28.17 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 153L 2 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 N C C O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras Bioinformática Predicción de la Estructura 3D Organización estructural de las proteínas Basada en patrones característicos presentes en las estructuras. CATH : Protein structure classification organiza todas las estructuras en 4 grandes niveles 256 PEs simula de 2-3 ns/día. (detalles http://cathwww.biochem.ucl.ac.uk/latest/class.html) Escala de procesos biológicos: mili- a micro-seg Otras clasificaciones : SCOP: http://scop.berkeley.edu/ DALI : http://ekhidna.biocenter.helsinki.fi/dali/start Homología de Secuencias O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática Semejanza estructural Propiedades Construcción Refinamiento Físico/Químicas del modelo dinámico O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática Transcriptó Transcriptómica: mica: Datos de Expresió Expresión Gé Génica Expresión génica Los experimentos de expresión génica permiten observar la respuesta dinámica en el tiempo de miles de genes bajo determinadas condiciones experimentales. 2010 O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras Bioinformática Fichero de adquisición 2-colour experiments LaserOnTime=0 0 ScanRegion=0,0,0,0 Supplier= Flags Normalize Block Column Row Name ID X Y Dia. 0 0 1 1 1 Gots | B406F950 mPasc74 1660 6000 120 0 0 1 2 1 TgdlX | NG029650 mTrel29 1880 5970 130 -50 0 1 3 1 xGarc25 2070 5990 160 0 0 1 4 1 xPere29 2290 5970 130 0 0 5 MedianB635 1 xChag34 2480 5970 140 F635 MedianF635 Mean F6351SD B635 Mean B635 SD % > B635+1S% > B635+2SF635 % Sat. F532 Median 0 0 1 2595 6 2690 5960 0 170 15129 14770 106 1 114 50xVigu36 100 100 11579 18145 18042 1942 106 119 95 100 100 0 15473 106 108 14 105 113 74 0 0 0 61 134 142 38 103 116 156 0 0 0 76 163 F532 SD184 B532 MedianB532 63 105 B532 SD 205 % > B532+1S% 819 > B532+2SF532 0 113 F532 Mean Mean % Sat. 0Ratio of Med 0 Ratio of Mea 155 465 1528 103 171 706 11381 2239 56 64 37 100 1004 04 1,304 0 1,29595 15474 1341 56 68 53 100 100 0 1,17 1,163 64 14 55 63 42 3 0 0 0,326 0,348 84 24 50 55 35 35 10 0 1,127 1,139 142 73 50 74 175 16 0 0 0,976 0,864 Median of RaMean of Rati Ratios SD (63Rgn Ratio (6 Rgn R² (635/5Log Ratio (63F635 MedianF532 MedianF635 Mean - F532 Mean 162 293 53 68 151 10 4 0 1,229 3,342 1,285 1,301 3,04 1,252 0,946 -0,585 15022 11522 14663 11324 1,169 1,159 2,77 1,174 0,981 -0,741 18039 15416 17935 15418 1,374 1,441 9,329 0,697 0,579 -2,585 1 5 3 9 1,069 1,104 6,125 6,217 0,441of MediSum -0,795 of MeanF 30 38 34 Sum Pixels B26Pixels Index 0,882 0,817 5,089 4,72 0,694 26544 -1,003 25987 58 62 79 92 120 681 1 1,131 1,24 6,011 5,373 0,805 33455 -0,67 33353 51 108 120 42 685361 2 O. Trelles, PhD. 2010 Enfermedades Raras Pre P+07 Software PreP Bioinformática 6 56 120 93 12 72 171 469 208 120 156 208 2010 Enfermedades Raras 1032 671 755 989 3 4 5 6 O. Trelles, PhD. Bioinformática From slides to G -E matrix G-E User friendly desktop application +07 version • • • • • • • 2010 Supervised Lowess Probability graphs: PP, QQ, PN. Statistic Tests New –advancedadvanced- filters. New formats: GenePix, GenePix, ArrayPro.. ArrayPro.. New saving methods Documentation and guided examples. www.bitlab-es.com/prep ANNOTATIONS Metadata label Id1 annotation1 Id2 annotatoin2 … O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras engene a web-based tool for GE processing engene : a gene expression data Visualization Visualization processing and exploratory analysis tool O. Trelles, PhD. Enfermedades Raras Bioinformática ••KKMeans Means Distances Distances ••Fuzzy FuzzyKKMeans Means • Euclidean • Euclidean ••Double Threshold Double Threshold ••Correlation Correlation ••Hierarchical Hierarchical ••Absolute AbsoluteCorrelation Correlation ••SOM SOM ••Manhattan Manhattan ••Batch SOM Batch SOM ••Weighted Weighted ••Fuzzy FuzzySOM SOM Pre-processing Pre-processing ••KerDenSOM KerDenSOM ••Data filling Data filling ••Fuzzy FuzzyKohonen Kohonen Clustering Clustering ••Mean/Median Mean/MedianCentering Centering ••Threshold Threshold ••Logarithmic LogarithmicTransform Transform Post-processing ••Normalization Post-processing Normalization ••Silhouette ••Sammon Silhouettevalue valueoptimisation optimisation Sammon ••KDD, association rules ••Statistical KDD, association rules StatisticalSignificance Significance ••Weighted WeightedSchema Schema(GA) (GA) ••PC PCAnalysis Analysis 2010 Enfermedades Raras Gene -Expression results Gene-Expression InterPro Keywords GO Pathway Class A ••DNA DNAarrays arrays ••Cluster Clusterprofiles profiles ••Maps Maps ••Silhouettes Silhouettes ••Trees Trees ••U-Matrix U-Matrix ••Histograms Histograms Clustering Clustering www.bitlab-es.com/engenet 2010 Bioinformática Class B Aplicaciones favoritas O. Trelles, PhD. Bioinformática Expresión Diferencial Clustering Clasificación KDD: Reglas de Asociación 2010 O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras Bioinformática NCBI - GEO Búsquedas sobre “Perfiles de Expresión” revisados y anotados; incluyendo características calculadas. Ofrece enlaces a otras fuentes de información Otras Bases de datos O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática Enfermedades Raras NCBI - GEO [A] Descripción del array [B] Anotaciones (Txt-tab) [C] Descripción material biológico O. Trelles, PhD. 2010 Bioinformática NCBI - GEO [D] Valores medidos (Txt-tab) [E] Datos originales en crudo [F] Datos procesados y resultados B D 2010 F O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras NCBI - GEO DDBJ: Japan O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática Bioinformática O. Trelles, PhD. 2010 Enfermedades Raras DDBJ: Japan Bioinformática Ensembl Proporcionar anotaciones de alta calidad públicamente • Anotación automática (mRNA/Protein) • Pipeline de anotación automática • Revisión manual (VEGA) • Interfaz programática (API) • BioMart (minería de datos) • Integración con otras BD (DAS) • Análisis comparativo. 2010 O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras Bioinformática Ensembl Tipo de anotaciones disponibles Base de datos de desórdenes génicos humanos, en particular monogénicos • Genes – transcritos / modelos peptidos (codificante y no codificante (ncRNAs)) + de 18 mil genes y enfermedades • ID en otras BD • cDNA mapeado, peptidos, microarray, clones BAC, etc. Interés: Enfermedades hereditarias • Otras características genómicas: bandas citogenéticas, marcadores, repeticiones etc. Ejemplo: Descripciones y enlaces (enfermedad) Sickle cell anemia • Datos comparativos: ortólogos, parálogos, familia de proteínas, alineamiento de genomas, regiones sinténicas... (gen asociado) HBB (búsquedas en ENTREZ) Búsquedas de texto: Autor, gene ID, cromosoma.. Beta globin -> 100 resultados que incluyen: Gen / Genes relacionados / Enfermedades asociadas • Datos de Variaciones: SNP • Datos de regulación: mejor conjunto regulador (ENCODE) • Datos externos (DAS) O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática O. Trelles, PhD. 2010 Enfermedades Raras PHARMGKB Bioinformática PharmaGKB Platinum Pathway Pharmacokinetics Pharmacodynamics Representación de los genes candidatos involucrados en el metabolismo de platinum y fármacos 2010 O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática Enfermedades Raras GeneCards Bioinformática GeneCards El motor de búsqueda recupera información relevante y detallada GeneCards® BD genes humanos con información integrada. • Genómica, proteómica y transcriptomica. • Ortólogos • Enfermedades • SNP • Expresión génica • Función • Enlaces. O. Trelles, PhD. 2010 Enfermedades Raras Bioinformática O. Trelles, PhD. 2010 Enfermedades Raras GeneCards Bioinformática HPR Atlas GeneALaCart: batch-querying retrieval of multiple-gene information GeneDecks sets of associated genes through similarity of GeneCards annotation to a selected gene. GeneNote: human genes and expression profiles in healthy tissues. An expression profile for each gene in the human genome Gene and tissue clustering based on expression profiles Genome ranking to the gene's tendency for tissue specificity GeneAnnot revised and improved annotation of Affymetrix probe-sets GeneLoc integrated map for each human chromosome GeneTide automated system for human transcripts annotation 2010 O. Trelles, PhD. 2010 O. Trelles, PhD. Enfermedades Raras Bioinformática HPR Atlas 2010 O. Trelles, PhD.