México DF , 26 Noviembre 2013 Fundamentos de la Web Semántica y su aplicabilidad para descubrir conocimiento en fuentes de datos biológicas Luis Fernando Castillo Ossa Twitter: @luisfercastillo Luis.castillo@ucaldas.edu.co www.luisfercastillo.com Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Agenda Introducción XML - RDF Web Semántica Agentes para la Web Semantica Ejemplos Aplicaciones (Coffee Transcriptome) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Introducción Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Introducción • Web 3.0 podría ser la realización y extensión del concepto de la “Web semántica”?. Las investigaciones académicas están dirigidas a desarrollar programas que puedan razonar, basados en descripciones lógicas y agentes “inteligentes". • La nueva tendencia es LOD (Linked Open Data) Datos abiertos enlazados, permitirá tener acceso a múltiples fuentes de información para identificar relaciones entre los datos Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Modelo de datos de XML a RDF (Concepts and Abstract Syntax W3C Recommendation 10 February 2004) Resource Description Framework (RDF) La información es un grafo dirigido etiquetado que modela las relaciones entre objetos – Nodos: recursos – Arcos: propiedades Las oraciones tienen de la forma: sujeto predicado objeto Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] 5 Web de datos vs. información Tomado de: Claudio Gutierrez / Carlos Hurtado (U. Chile) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] 6 Pagina web Casa Blanca (USA) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] RDF RDF (Modelo Datos para la Web Semántica ) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] RDF (Representaciones) RDF/XML <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:u="http://bio2rdf.org/uniprot:" <rdf:Description rdf:about=“&u;Q16665"> <rdf:type rdf:resource=“&u;Protein"/> </rdf:Description> </rdf:RDF> RDF/N3 PREFIX u: <http://bio2rdf.org/uniprot:> <u:Q16665> a <u:Protein> . EBI : 14-01-10 Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] 9 Reglas para Compartir Datos en la WEB (Tim Bernes Lee - 2006) fundamentos LOD 1. Usar URIs para nombrar las cosas. 2. Usar HTTP URIs para que la gente puede buscar los nombres 3. Cuando alguien busca información de una URI, proveer información util usando los standard (RDF, SPARQL) 4. Incluir enlaces a otras URIs, para que se puedan descubrir nuevas cosas Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project (Marzo 2008) Acceso Abierto a los Datos Enlazados Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project (Sept 2008) Acceso Abierto a los Datos Enlazados Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project (Julio 2009) Acceso Abierto a los Datos Enlazados Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project (Sept 2011) Acceso Abierto a los Datos Enlazados Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project (Sept 2011) Acceso Abierto a los Datos Enlazados Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Proyecto Europeo 2010 - 2014 http://www.w3.org/2011/gld/wiki/GLD_Life_cycle Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Linking Open (LOD) Data Project • Los datos están libres para su uso • Son “entendibles” por las máquinas formatos (OWL-RDF) • Pueden ser visualizados utilizando protocolos web • Los datos tienen relaciones entre ellos, lo cual “amplia”su significado. Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] http://www.w3.org/blog/hcls/ • HCLS • Neurocommons – http://sciencecommons.org/projects/healthcommons/ • Bio2RDF EB : 14-01-10 Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] 18 Bio2RDF The Bio2RDF project uses open-source Semantic Web technologies to provide interlinked life science data to support biological knowledge discovery (Modificado el 17 de Abril de 2012) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Bio2RDF • 40 Bases de Datos (Datos Biológicos) • Más de 30.000 millones de tripletas (RDF) • Tiene Servidores Espejo en: – Quebec (Canadá) – Ottawa – Brisbane (Australia) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Bio2RDF tiene mucha información datos biológicos EBI : [14-01-10 Luis Fernando Castillo Ossa @luisfercastillo , http://www.luisfercastillo.com ] 21 Bio2RDF describe utiliza SPARQL http://bio2rdf.org/ns:id CONSTRUCT { ?s ?p ?o . } WHERE { ?s ?p ?o . FILTER(?s = <http://bio2rdf.org/ns:id>). } Sent to http://ns.bio2rdf.org/sparql?query=... EBI : [14-01-10 Luis Fernando Castillo Ossa @luisfercastillo , http://www.luisfercastillo.com ] 22 Razonadores e inferencia tomando como base el significado “Semantica" fact uniprot:P0506 7 is a Uniprot:Protein is a is a chebi:Polyatomi c ontology Entity Knowledge base Author: Michel Dumontier EBI : [14-01-10 Luis Fernando Castillo Ossa @luisfercastillo , http://www.luisfercastillo.com ] 23 Inferencias para Generar Conocimiento Amyloid precursor protein Alzheimer Disease label label is involved in uniprot:P0506 7 is a omim:10430 0 is a Protein Disease Knowledge base Author: Michel Dumontier EBI : [14-01-10 Luis Fernando Castillo Ossa @luisfercastillo , http://www.luisfercastillo.com ] 24 Quien utilizará la Web Semántica El papel de los Agentes. La Web semántica esta enfocada a los usuarios ¿quiénes son los usuarios de una Web semántica? Sin duda alguna, los agentes "inteligentes" Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Secuenciación Masiva ADN Las técnicas de alto rendimiento permiten secuenciar -obtener o leer la secuencia del ADN- masivamente Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Café Café y la riqueza de la Biodiversidad Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Roya del Cafeto • El conocimiento de la variabilidad genética del organismo causante de la roya, el hongo Hemileia vastatrix, es crucial para desarrollar estrategias de manejo de la enfermedad. Sin embargo, el ciclo de vida del hongo, y su dependencia de la planta de café hacen muy difícil su estudio a nivel de laboratorio Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Café Canephora Coffee (Robusta Coffee) Arabica Coffee (Mild Coffee) kapakata Coffee Liberica Coffee Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Reification Cenicafé Datasets(II) Cenicafé IPR: Interpro Interpro contig GO etc go: others RDF Protein Sequence results >sequence 1 consisting of 1000 residues. GVAVWYGGFMFDWLCDESLEVWEGQKFQTDWLRPFFPYVKVKDTW KKIGQNAGLSCGWKKTETKQAYVHQYAELDSAYIIKTNKSKCYNQ FPYGFSWCFMHIPGTLMGKKHLMHDAMEEDGMENCSWPIMPSQMG VFIIRGMHVSGHSLCRNGCCDGPMVWQRTRQPVTFHSLFEWGAQY CAPGGDRDKAEVMCDCICFANVYEMMDYDWHIRYLTPDLAAGMFS MVRVDGSWVLEIYVYTPVYTFHWCDSMNKPPHMNRHNMHWFYSPM NFTVFWYNRDFRPYTWTTTAVPLIRIEMLGTDTPPWNVKYLVMNK VQPDHFFVRVYPMETHEEHRTNSKCDDHSESFENCNYQQIAGCQY AVDSAKGMIVMGCHAFGRSMMVPHDDEIWIECVGLMWMVKVEDNK TCMPNLKREDADIEG Gene Ontolgy Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Procedimiento encontrar relaciones (I) Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Resultados(I) Results of the functional relationships associated PDB Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Resultados (II) Results of the functional relationships associated Kinase term Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Resultados (III) Results of the functional relationships associated Kinase term Search made ith sesame CEN relations, visualization in sgvizler Luis w Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ] Preguntas luisfercastillo@gmail.com Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]