Víctor Maojo Grupo de Informática Biomédica Universidad Politécnica de Madrid vmaojo@fi.upm.es Visión general Q Proyecto Integrado financiado por la Comisión Europea (ICT for Health) Q 2006-2010 Q 25 socios de Europa y Japón Q Motivo: Diseño de nuevos modelos de ensayos clínicos en el marco de la medicina personalizada Q Integración de información clínica y genómica altamente heterogénea 2 Q El proyecto europeo integrado Advancing Clinico-Genomic Trials on Cancer (ACGT) pretende dar solución a estos problemas mediante el desarrollo de una plataforma basada en servicios Grid para el soporte de ensayos clínicos postgenómicos. 3 Núcleos del Proyecto 4 Q Infraestructura Grid para ensayos clínicos Q Ensayos clínico-genómicos en cáncer Q Desarrollo de una ontología de cáncer Q Desarrollo de un mediador semántico de servicios Web Q Modelización in-silico de diseño de nuevos medicamentos Q Minería de datos clínico-genómicos Organizaciones virtuales Analytical Services Tool 1 Tool 2 Clinical data Grid-Enabled Client Gene Database Research Center Research Center Protein Database Virtual Organizations Grid Services Infrastructure Tool 3 (Metadata, Registry, Publishing, Query, Invocation, Security, etc.) Grid Data Service Grid Data Services Tool 4 Analytical Services Grid Data Service Image Microarray Tool 2 Grid Portal 5 Analytical Services Research Center Tool 3 Grid Data Service Motivaciones Necesidad de integración de información y recursos de naturaleza heterogénea: Q ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ ¾ 6 Imágenes DICOM Microarrays SNP’s, Mutaciones Marcadores moleculares Proteínas Fenotipos Genotipos Información “ómica”: genómica, proteómica, metabolómica, muy heterogénea Fuentes bibliográficas (PubMed…) HIS Marcadores de expresión génica … - Secuenciadores de ADN - Alineadores de Secuencias ADN - Comparadores de Secuencias ADN - Comparadores de Proteínas - Análisis de microarrays - Búsquedas bibliográficas - Simuladores 3D Un ejemplo concreto en Informática Biomédica Extracción de conocimiento desde fuentes de datos masivas, remotas y heterogéneas e Integración con información clínica para investigación y cuidado del paciente 7 Fuentes de Información específicas Más de 950 bases de datos públicas de genes, proteínas y enfermedades, 110 más que en 2005 (más miles de BDs privadas) 8 Ejemplo: OXFORD (Instituto Europeo de BioInformática – EBI) 9 OXFORD: Ejemplo de acceso a una BD específica 10 Extracción de información de BD Públicas Document EntryName: CECA_AEDAE AccesionNumber: P82592 SecondaryAccesionNumber: Q95PI9 ReleaseDate: Release 44, July 2004 LastModificationDate: Release 44, July 2004 AnnotationLastModificationDate: Release 45, October 2004 ProteinName: Cecropin A [Precursor] Synonyms: None GeneName: Name: CECA DiseaseOrigin: Aedes aegypti (Yellowfever mosquito); http://www.expasy.org/cgi-bin/get-entr... TaxID: 7159; http://www.ebi.ac.uk/newt/display?search=7159&from=ca Taxonomies Taxonomy: Eukaryota; http://www.expasy.org/cgi-bin/get-entries?OC=Eukaryota Taxonomy: Metazoa; http://www.expasy.org/cgi-bin/get-entries?OC=Metazoa Taxonomy: Arthropoda; http://www.expasy.org/cgi-bin/get-entries?OC=Arthropoda 11 Problemática a Resolver 12 Q No existe un buscador de recursos Q En los índices o sitios web existentes tan sólo existen listas planas de recursos. No pueden realizarse búsquedas temáticas o por funcionalidad de los mismos Q Para su uso se requiere personal altamente especializado en el manejo del mismo Q Imposibilidad de combinar recursos entre sí de manera automática Modelo distribuido Modelo distribuido 13 Naturaleza Distribuida BD Biomédica Centros de Desarrollo Hospitales 14 Necesidad de integración Q 15 Las miles de bases de datos disponibles son muy heterogéneas: ¾ Plataformas ¾ Sistemas Operativos ¾ Sistemas Gestores de Bases de Datos ¾ Estructuras ¾ Semántica muy diferente Fase I Fase II P.I Idea de ACGT P.II P.I Integración Virtual Fase III P.I P.II P.I P.II P.II P.II P.I P.I Fase IV 16 Minería de datos Evaluación Resultados y visualización Tissue Cell Radiology - Imaging - Histopathology Organ Modeling - Simulations - Immunochemistry e-Cell modeling Molecular imaging Mol. Pathway Gene/Protein Interactions RNA DNA ACGTTCGCT 17 Proteomics Functional Genomics Genomics INFOrmatics Organ Clinic - Specialty - BIOlogy System MEDicine Integración Portal Clinical Data Mediator Query Query Interface Interface Management and Trial Builder Workflow Authoring Computational Biology Semantic Mediator Workflow Management and Enactment Master Ontology Ontology VO Management Knowledge Discovery Services Bioinformatics and Knowledge Discovery Services Layer Data Wrappers Wrappers (OGSA-DAI) Mobile GAS GDMS GRMS Advanced Grid Middleware Layer GRAM RFT GridFTP Common Grid Infrastructure Layer 18 Data Browsers User Access Layer Security Services Layer DomainSpecific (Pseudo-Anonymization, etc.) Generic Security Services (Access & Identity Control) Visualization tools MDS Interfaz Clínico-Genómico External Clinical (Cancer) Information Sources Patient Clinical Information OncoIS LabIS HistoPathIS Clinical Information Laboratory Information Indicators HistoPathology Information Demographics History Physiological Medical Informatics Clinical Practice Hematological Biochemical Information Modeling Clinical Data Models Ontology Data Analysis DSS ks c o l B gn i ild u B 19 Images Tumor Sample/Tissue Data Extraction Gateways Information Modeling Visualization PACS BioInformatics Functional Genomics Genomic Data Models GeneIS Genomic Information DNA-sequences Gene-Expression profiles Differential Gene - Markers Patient Genomic Information External Genomic Information Sources Estructura de pilotos en ACGT User Applications and services layer in support of The ACGT Integration Layer, the ACGT Tools and Services Simulation and Visualization Tools U U U … U D D Knowledge Discovery Tools D Ontologies and mediation tools D D U U D D D D D Basic GRID technology and security User Data and Public Databases Layer 20 Clinical pilots D Distributed Biomedical Data Orquestación de Servicios Grid Resource at domain 1 Resource at domain 2 Resource brokering and orchestration Data Data source source Processing Processing engine engine Data Data Mining Mining Visualisation Visualisation Resource at domain 3 Library of components Resource at domain 4 Workflow editor 21 Mediador en ACGT 22 Mapping con una ontología de dominio 23 Modelo de homogeneización desarrollado en la UPM Mapping Semántico 24 ONTOLOGÍAS DE DOMINIO EN EL “MAPPING” 25 Unificación de bases de datos 26 Execution track of a query PHILIPS UPM 27 PSNC Busquedas en repositorios virtuales 28 Busquedas en repositorios virtuales 29 INTEGRATED KNOWLEDGE SPACES GENES GENES PROTEINS PROTEINS PATHWAYS PATHWAYS … … DISEASES DISEASES APPLICATION-LEVEL REASONING DRUG DRUG RESPONSES RESPONSES METHODS METHODS COMPANIES COMPANIES PRODUCTS PRODUCTS PEOPLE PEOPLE -- SNA SNA BUSINESS BUSINESS EVENTS EVENTS PATENTS PATENTS GY LO O T ON 30 G NIN O S REA LAYER-SPECIFIC REASONING MULTIPLE ANALYSIS TOOLS BEA GRAPH QUERY ON ENTIRE CORPUS DOWN MEDLINE How are genes P38 and ERK connected? underlying bibliography DRILL TAXONOMY OVERLAY QUERY ON CONCEPTS KINASES Which of these genes are Kinases? TERM FREQUENCY TABLE QUERY ON UNDERLYING BIBLIOGRAPHY or CLUSTER What are these papers talking about? 31 ANALYSIS Buscando enlaces entre enfermedades Bipolar Disorder Potential Link Rheumatoid Arthritis 32 33 34 Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S R Symptom S R S R Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S S R R Pharmacotherapy Symptom S R Surgical Proc. Radiotherapy S S S R R R Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S S R R Pharmacotherapy Symptom S R Surgical Proc. Radiotherapy S S S R R R Radiotherapy of Lung S Abdominal Radiotherapy R S R Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S S R R Pharmacotherapy S Symptom R Duration SingleDose Surgical Proc. A A TotalDose S Radiotherapy S Begin A S R R R End S R Device S Radiotherapy of Lung A Field A A R Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S S R R Pharmacotherapy S Symptom R Surgical Proc. Radiotherapy Duration SingleDose A A TotalDose Begin S S S R R R A End S R Device S Radiotherapy of Lung A Field A A R Disease Tumor S S R Personal Data R S R Patient Therapeutic Procedure Measurements S S R R Pharmacotherapy S Symptom R Duration SingleDose Surgical Proc. A A TotalDose S Radiotherapy S Begin A S R R R End S R Device S Radiotherapy of Lung A Field A A R Vista general de la Ontología de ACGT 41 42 Oncosimulador en ACGT 43 Q Sistema para crear una simulación témporo-espacial de los límites de un tumor y su respuesta a terapias específicas de quimioterapia y radioterapia Q Experimentos “in-silico” Q Usado en nefroblastoma y cáncer de mama SYNOPTIC BLOCK DIAGRAM OF THE ONCOSIMULATOR THERAPY DECISION NO FURTHER SCHEME? YES PREDICTION EVALUATION PREDICTION IMAGING DATA TUMOR & NORMAL TISSUE RESPONSE SIMULATION CANDIDATE THERAPEUTIC SCHEME RADIOBIOLOGICAL PHARMACODYNAMIC PARAMETERS GENE/PROTEIN NETWORK 44 GENE EXPRESSION DATA (MICROARRAYS) GENOTYPING BIOPSY MATERIAL BLOOD SAMPLE Región tumoral al inicio de la radioterapia 45 Resultados 8 semanas después con dosis diferentes de radiación 46 4D (3D + time) visualization GBM with mutant p53 1.0E+11 1.0E+10 Number of alive tumour cells ... 1.0E+09 1.0E+08 1.0E+07 AHF- 48Gy 1.0E+06 HF- 81.6Gy 1.0E+05 1.0E+04 1.0E+03 1.0E+02 1.0E+01 1.0E+00 0 1 2 3 4 Time (weeks) AHF-48Gy 47 HF-81.6Gy 5 6 7 8 48 49 AHF-48Gy 50 HF-81.6Gy Conclusiones Q ACGT propone un nuevo modelo de diseño e implementación de ensayos clínico-genómicos Q La infraestructura Grid promete modelos computacionalmente distribuidos y más potentes Q Cuestión clave: Mediación semántica de servicios múltiples, adaptados en workflows a cada usuario (simulación, data mining, integración, etc) 51