Bioinformática y Biología Computacional Ignacio Rojas, Héctor Pomares, Julio Ortega, Francisco Ortuño Departamento de Arquitectura y Tecnología de Computadores Universidad de Granada. Julio 2013 (irojas@ugr.es) o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) Una brevísima lección de Biología. • Células • Genes • Del gen a la expresión génica • Proteínas • Complejos macromoleculares • Interacciones macromoleculares • Rutas metabólicas Los seres vivos están hechos de células. Citoplasma ADN Membrana Citoplasmática Orgánulos Núcleo Membrana nuclear El material genético se encuentra en el núcleo. Cromosomas Cromosoma (Visibles durante la reproducción celular) Estructura del núcleo Los cromosomas estan formados por ADN. Doble Hélice de ADN Cromosoma Detalle de la hebra Desenrollado de DNA Los cromosomas estan formados por ADN. ·Fragmento de una secuencia de DNA de "dinosaurio" (Parque Jurásico) Expresión génica: El Dogma Central de la Biología. El concepto es simple ... ... y el proceso complicado Ya podemos definir qué es un gen... Un gen es la región del ADN que codifica una proteína ... Aunque no todo es tan fácil: • Una secuencia de ADN puede codificar varias proteínas, pues presenta tres patrones de lectura. • Una secuencia de ADN puede codificar varias proteínas por splicing-alternativo. Aminoácidos y proteinas El término proteína fue propuesto en 1838 por el sueco J. J. Berzelius para resaltar la importancia estas moléculas, y proviene del griego proteios, que significa "primero o principal". Las proteínas son las moléculas orgánicas más abundantes en las células, constituyendo el 5O % o más de su peso seco. Se encuentran distribuidas por toda la célula, y son fundamentales tanto estructural como funcionalmente. Se calcula que una célula de mamífero puede contener hasta 10 000 proteínas diferentes; sin embargo, en las plantas debido al elevado contenido en celulosa, la presencia de proteínas es mucho menor. Aunque químicamente están formadas por carbono, hidrógeno, oxígeno, nitrógeno y a veces azufre, las hay que contienen elementos adicionales, fósforo, hierro, cobre, magnesio, cinc o iodo. Aminoácidos Aminoácidos En resumen: o ADN: 4 nucleótidos (A, C, T, G) o ARN: 4 nucleótidos (A, C, U, G) o PROTEINAS: 20 aminoácidos 3 nucleótidos = 1 aminoácidos Proteínas Las proteínas son cadenas de aminoácidos unidos por enlaces peptídicos. Hay 20 aminoácidos distintos en las proteínas de los seres vivos. Estructura primaria. (sec. aminoácidos) Secuencia de Aminoácidos Estructura secundaria Estructura terciaria (dominios) Estructura 3D (Forma) Estructura cuaternaria Función Biológica Rutas Metabólicas. o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) ¿Qué es la bioinformática? Estadística Matemáticas Biología Medicina Farmacía BIOINFORMÁTICA Algoritmos Programación Paralelización Aplicaciones Bases de datos Minería de datos BIOINFORMÁTICA: Investigación, desarrollo o aplicación de herramientas y técnicas computacionales para expandir el uso de datos biológicos, médicos y medioambientales, incluyendo la adquisición, almacenamiento, organización, análisis o visualización de dichos datos (NIH BISTI Consortium ). Bioinformática y Biología Computacional. Biology in the 21st century is being transformed from a purely lab-based science to an information science as well. Fuente: National Center for Biotechnology Information Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. Fuente: National Center for Biotechnology Information La “Bioinformática” ha evolucionado, de forma que ya no sólo se trata de almacenar y organizar la información sino de analizar, visualizar e interpretar mediante métodos matemáticos y computacionales Biología Computacional. ¿Qué es la bioinformática? Principales aplicaciones dentro de la bioinformática: Estructuras Secuencias Genes Proteínas Enfermedades BIOINFORMÁTICA Mapas genéticos Bioinformática y Biología Computacional. ¿Por qué es tan importante? ...Porque la ingente cantidad de datos y la complejidad de sus relaciones hacen inviable su procesamiento manual. ...Porque se necesita una perspectiva global del diseño experimental y del análisis de resultados. ...Porque la disponibilidad de archivos digitales permite generar hipótesis verificables sobre la función/estructura de un gen o proteína de interés por medio de la identificación de secuencias similares en organismos mejor caracterizados. Principales áreas de trabajo en bioinformática. Genómica Funcional: predicción de función Análisis de secuencias biológicas: comparación de parejas de secuencias, búsquedas en bases de datos, alineamientos múltiples, visualización Análisis de expresión de genes y datos de DNA microarrays: preparación de datos (detección de outliers, normalización, relleno de datos, etc) Análisis en Proteómica Identificación de Proteínas Expresión diferencial de Proteínas Interacción Proteína-Proteína Redes de Interacción Bioinformática estructural Modelado de proteínas Biología evolutiva (filogenia) Principales tipos de datos en bioinformática. Secuencias de ADN y Proteínas y sus anotaciones. Motivos, perfiles, dominios. Modelos: HMMs. Estructura de proteínas: modelos atómicos, y datos moleculares de resolución media. Redes de interacción. Estructura de la información: Ontologías. Datos de expresión génica. Datos de expresión de proteínas: Geles 1D y 2D. Datos de espectrometría de masa. Datos de Microscopia (confocal, video y electrónica). Texto científico. Bioinformática y Bases de Datos. • Base de datos EMBL: Crecimiento desde Jun/1982 hasta Jun/2010 ·Crecimiento exponencial! Bioinformática y Bases de Datos. • Base de Datos de secuencia SwissProt: Crecimiento desde Sept/1986 hasta Jul/2005 Identificación de Proteínas = Comparación de secuencias = Alineamiento. Bioinformática y Bases de Datos. • Base de Datos de estructuras PDB: Crecimiento desde Oct/1992 hasta Ene/2000 Bases de Datos en Biología Molecular. PRINTS Patent USPTO INTERPRO BLOCKS PIR PFAM PROSITEDOC LOCUS LINK NRL3D DOMO Patent JPO SWISSFAM PROSITE TREMBL TFMATRIX UNIGENE TFSITE EMBL DDBJ DBSTS TFCLASS Medline PRODOM DSSP GENEPEPT Patent PCT GSDB TFCELL TIGR SWISSPROT Entrez PDB GENBANK RHDB SNP OMIM Clinical DB KEGG dbSNP Contact SNP Consortium Microbial Genomes STKE WIT Fly Base ENZYME FASTA BLAST dbSNP Population Celera GENETICCODE HUGO GDB TAXONOMY EBI SSEARCH C. Elegans CLUSTALW Introducción genómica CÉLULA CROMOSOMA ADN ARN Transcripción ARN POLIMERASA DOGMA CENTRAL PROTEINAS RIBOSOMA Traducción o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) PRINCIPALES RETOS DE LA BIOINFORMÁTICA. BIG DATA ¿Hacia la medicina personalizada? o Human Genome Project (finalizado en 2006): o ∼ 38.000 genes secuenciados 3.200 millones de pares de bases. o 250.000-300.000 proteínas diferentes. o 2,1 millones de pequeñas variaciones (single nucleotide polymorphism or SNP). o Secuenciación masiva (NGS): o ∼ 60.000 millones pares de bases en una ejecución (max. 1 día). o 53.558.214 SNPs anotados (Junio 2012) “A decade’s perspective on DNA sequencing technology” Elaine R. Mardis Nature 470, 198–203 (10 February 2011) ¿Qué hacer con tantos datos? ¡NECESIDAD DE ANÁLISIS! o Análisis de funcionalidad: No se conoce la función de ∼40% de secuencias de aminoácidos (Mistry et al. 2013, DataBase). o Análisis estructural: No se conoce la estructura de ∼50% de las familias de proteínas (Mosca et al. 2013, Nat. Meth.) o Otras anotaciones: Interacciones, variantes, familias filogenéticas, etc. APLICACIÓN CLÍNICA Y FARMACÉUTICA ¿Dónde se encuentran los datos? SECUENCIAS ADN Proteínas GenBank: Base de datos americana (NIH) de secuencias genéticas. 1,8E+11 Uniprot:Base de datos con secuencias y funcionalidad de proteínas. 1,80E+08 GenBank 1,6E+11 1,60E+08 1,4E+11 1,40E+08 1,2E+11 1,20E+08 1E+11 1,00E+08 8E+10 8,00E+07 6E+10 6,00E+07 4E+10 4,00E+07 2E+10 2,00E+07 Secuencias 0 jul-98 abr-01 ene-04 oct-06 jul-09 abr-12 Bases 0,00E+00 dic-14 AMBOS RefSeq: Base de datos integrada con secuencias ADN, transcritos y proteínas ¿Dónde se encuentran los datos? FUNCIONALIDAD Pfam: Colección de familias de proteínas caracterizadas por sus regiones funcionales (dominios). Gene Ontology: Vocabulario controlado de términos (ontología) para describir las características de genes y proteínas. ESTRUCTURAS 3D 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 Nuevas Total 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Número de estructuras PDB: Repositorio de estructuras 3D para largas cadenas moleculares (proteínas y genes). ¿Por qué la computación? oCreación y mantenimiento BBDD. oTratamiento eficiente de la información. oIntegración de datos. oExtracción de conocimiento útil. •Comparación de datos. •Predicción/Clasificación de nuevos datos. •Realimentación a BBDD. Big Data y Bioinformática La información es poder. Y muchísima información es muchísimo poder El 90% de los datos se ha generado en los dos últimos años. Cada 24 horas se producen 24 trillones de bytes de información. Actualmente solo se procesan el 1% de los datos que se generan Big Data y Bioinformática CERN proceso de datos Manejar Petabytes (lo que puede equivaler a 250.000 millones de páginas de texto) Un robot busca entre 37 petabytes de datos del Centro de Computación para la Investigación de Energia de EE.UU o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) APLICACIONES I: ANÁLISIS DE MICROARRAYS Introducción a los microarrays o Objetivo: Determinar la EXPRESIÓN DE GENES para individuos concretos. o Analisis comparativo: – – – – Tipos de células: cerebro vs. hígado. Desarrollo: feto vs. adulto. Enfermedades: sano vs. enfermo. Tratamientos y pronósticos: tratados vs. no tratados. Microarray original Hibridación Grupo 1 Grupo 2 Lectura resultados Genómica: Tecnología DNA Microarrays. Almacenamiento Análisis de Datos Visualización Interpretación/Anotación Publicación en repositorio público Tecnología DNA Microarrays. Proceso (I) Aliter, Junio 2005. Tecnología DNA Microarrays. Proceso (III) On the surface A Aliter, Junio 2005. B In solution 4 copies of gene A, 1copy of gene B After Hybridization A B Tecnología DNA Microarrays. Proceso (II) Aliter, Junio 2005. ¿Cómo se hace el microarray? Aliter, Junio 2005. Tecnologías de Microarrays: •Short oligonucleotide arrays (Affymetrix) •cDNA or spotted arrays (Brown/Botstein). •Long oligonucleotide arrays (Agilent Inkjet) •Fiber-optic arrays Las tecnologías difieren fundamentalmente en: – La forma en que el DNA es depositado en el sustrato (spotting, lithography, Inkjet printingm,...). – Longitud de la secuencia del DNA que es depositada (secuencia completa o fragmentos del gen). – El tipo de señal que se mide de cada spot (e.g. fluorescencia) . La tecnología del cDNA microarray Aliter, Junio 2005. El ADN complementario o ADNc es un ADN de cadena sencilla. Se sintetiza a partir de una hebra simple de ARNm maduro. Se suele utilizar para la clonación de genes propios de células eucariotas en células procariotas, debido a que, dada la naturaleza de su síntesis, carece de intrones Arrayer (Robot): Aliter, Junio 2005. Laboratorio de Microarrays Automated Slide Processor Gen III Arrayer Scanner with Automated Slide Loader Aliter, Junio 2005. Microarray Gridder Aliter, Junio 2005. Tecnologías en microarrays Método de generación o ADN Arrays Oligo Array (Affymetrix) Grupos de samples Canal Único Doble Canal cADN Oligo (Sintetizado) ---- cDNA spotted Affymetrix Illumina Agilent Illumina Agilent o Protein Arrays: Unión por anticuerpos o unión por proteínas cADN Array (Stanford) Análisis de microarrays Análisis de calidad Eliminación outliers Normalización Análisis diferencial Anotaciones Análisis Calidad: Boxplots, MA Plots, Histogramas, Distancias, Principal Component Analysis (PCA). Outliers: Se eliminan aquellas muestras de baja calidad según los análisis anteriores. Normalización: • Evitar variaciones técnicas (estudio de variaciones biológicas). • Corrección de fondo, Robust Microarray Average (RMA), loess, Variance Stabilizing Transform (VST). Análisis diferencial: • Comparar grupos de estudio para determinar expresión diferencial de genes. • Destacar genes expresados diferencialmente. Anotaciones: Completar información de genes destacados: funcionalidad, estructura, familia, … Computación en microarrays PROBLEMA DE CLASIFICACIÓN Dado un array con miles de genes, ¿cómo determinar a que grupo pertenece? Regresión o Regresión logística o Regresión de Cox o LS-SVM o… Clasificación o Redes Neuronales o SVMs o Clustering o… Medidas o Test estadísticos o Matriz de confusión o Fold-change o… Dificultades a las que nos enfrentamos: o Ruido o Dimensionalidad (N<<F): • N: número de individuos/pacientes (decenas o cientos). • F: decenas de miles de valores de expresión de genes. Caso real: Diagnóstico en cáncer Microarray de genes N F 40 23 controles Análisis de calidad 17 pacientes 33297 N F 35 20 controles 15 pacientes 14570 Outliers Test T-test con ajuste FDR P-Value <0.01 FC 2 Genes 12 genes expresados Análisis diferencial Caso real: Pronóstico en cáncer Microarray de proteínas N 12 controles 27 F Análisis de calidad 15 pacientes 509 proteínas N 25 F 11 controles 14 pacientes 509 proteínas Outliers INDICE DE PRONÓSTICO 45 PI-5 proteinas 40 PI-3 proteinas 35 PI-4 proteinas 30 25 Logarítmica (PI-5 proteinas) 20 Método Regresión de Cox P-Value <0.01 Pronóstico Tiempo supervivencia (larga vs corta duración) Proteínas 5 proteínas destacadas 15 R² = 0,9257 R² = 0,9056 10 5 R² = 0,7269 0 0 5 10 15 20 25 30 35 40 45 Conclusiones en microarrays o Relegado parcialmente por la secuenciación masiva. o Uso clínico muy destacado todavía: o Más barato que la secuenciación masiva. o Menos potente que la secuenciación masiva. o Más útil y sencillo para el análisis de expresión diferencial. o Facilidades para el análisis, disponibles en R: o Tecnologías: Affymetrix, Illumina, Agilent, etc. o Librerías para el análisis diferencial: affy, lumi, limma, etc. o Integración entre diferentes tecnologías o incluso con secuenciación masiva o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) APLICACIONES II: SECUENCIACIÓN MASIVA (NGS) Introducción a la secuenciación masiva o Objetivo: o Determinar el orden de nucleótidos (G, A, T o C) en una cadena de ADN. o Extraer la máxima información posible. ¡INFORMACIÓN ≠ DATOS! o Útil en áreas de biotecnología o diagnóstico clínico. o Aplicaciones: – RNA-seq: detección de splicing alternativo, expresión de mRNA – Resecuenciación: anotación genómica, descubrimiento de mutaciones. – Secuenciación ‘de novo’: secuencias nuevas. – ChIP-seq: interacciones proteína-ADN, factores de transcripción,... – … Tecnologías en NGS Roche 454 Solexa/Illumina SOliD Longitud lecturas 700 bp 50-250 bp 50+25 bp Lecturas por ejecución >1 millón > 3.000 millones >1.200 millones Tiempo por ejecución 10 horas 1 a 10 días 1 a 2 semanas Tamaño fichero 1Gb 600 Gb/ejecución 200 Gb/ejecución Precisión 99,9% 98% 99,9% Coste por base $10 $0.05 - $0.15 $0.13 Ventajas Rápido Lecturas largas Coste aceptable Más lecturas Bajo coste Más lecturas Inconvenientes Alto coste Menos lecturas Equipamiento caro Menos preciso Más lento Demasiada información para ser analizadas en un ordenador estándar Procedimiento en NGS Fragmentación Procesamiento Preparación librería Reads “An Introduction to Next-Generation Sequencing Technology” Illumina, 2012 Procesamiento de datos NGS Análisis de calidad Preprocesamiento Anotación Mapeo Calidad y preprocesamiento en NGS FastQC: Herramienta de control de calidad de datos de secuenciación FastX: Filtrar por calidad o longitud de la lectura, cortar peores sectores.. Mapeo y anotación en NGS MAPEO BWA Reads hasta 200bp. Alineamiento con huecos. No usa calidad de reads. BOWTIE Muy rápido para reads cortos. Alineamiento sin huecos. No usa calidad. TOPHAT Bowtie mejorado. Alineamiento con huecos. ANOTACIÓN Secuencias Bases de datos Gene Ontology KEGG maps InterPro Enzyme Expresión diferencial RNA-Seq Controles Reads Pacientes Se dice que un gen está expresado diferencialmente si se observa una diferencia estadísticamente significativa en el número de reads de un gen concreto entre dos condiciones diferentes. Reads Gen 1 Gen 2 Gen 1 Gen 2 Normalización: RPKM, Upper-quartile, TMM, … Paquetes en R: edgeR, DESeq, baySeq, NOISeq … Secuenciación vs Microarrays Secuenciación PROS • Descubrimiento nuevas regiones. • Medida discreta. • Calidad y versatilidad. • Precio. • Procesamiento y CONTRAS análisis complejo. • Falta de bancos de tests bien definidos. Microarrays • Precio. • Protocolos muy conocidos. • Gran número de herramientas. computacionales accesibles. • Limitado a genoma conocido. • Sensibilidad limitada. • Errores por hibridación. • Diseño específico para cada problema. Aplicaciones con NGS o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) APLICACIONES III: ALINEAMIENTO DE SECUENCIAS Alineamiento de secuencias Objetivo: Comparar nuevas secuencias con otras ya anotadas para inferir y predecir sus características biológicas Bases de datos Secuencias COMPUTACÌÓN Alineamiento Nueva Secuencia Características Árboles filogenéticos Estructuras secundaria y 3D Motifs o regiones conservadas Evaluación de alineamientos Es necesaria una evaluación adecuada para conocer la calidad del alineamiento: 1. Basada en matrices C S T P A G N D E Q H R K M I L V F Y W 12 0 -2 -3 -2 -3 -4 -5 -5 -5 -3 -4 -5 -5 -2 -6 -2 -4 0 -8 C 2 1 1 1 1 1 0 0 -1 -1 0 0 -2 -1 -3 -1 -3 -3 -2 S 3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T 6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 A 2. Basada en referencias BLOSUM Point Accepted Mutation (PAM) Alineamiento 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -2 -5 -5 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -4 -2 -4 N 4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7 D 4 2 1 -1 0 -2 -2 -3 -2 -5 -4 -7 E 4 3 1 1 -1 -2 -2 -2 -5 -4 -5 Q 6 2 0 -2 -2 -2 -2 -2 0 -3 H 6 3 0 -2 -3 -2 -4 -4 2 R 5 0 -2 -3 -2 -5 -4 -3 K 6 2 4 2 0 -2 -4 M 5 2 4 1 -1 -5 I 6 2 2 -1 -2 L 4 -1 -2 -6 V 9 7 0 F 10 0 17 Y W BAliBASE OxBench Referencia Calidad / Score Metodologías de alineamiento Programación dinámica A C G T - A 1 -1 -1 -1 -2 C -1 1 -1 -1 -2 G -1 -1 1 -1 -2 T -1 -1 -1 1 -2 - -2 -2 -2 -2 -2 AG-C AAAC Alineamientos progresivos Métodos: ClustalW, Muscle, HMMT, Kalign Alineamientos basados en consistencia Métodos: TCoffee, ProbCons, MAFFT, MSACons Problemas con alineamientos Problema Los métodos sólo utilizaban la información propia de la secuencia para alinear Los alineamientos bajan su calidad para secuencias alejadas evolutivamente Solución Incrementar la información aportada para realizar el alineamiento: Estructura secundaria y 3D Homologías Regiones funcionales (dominios) Métodos 3DCoffee Promals MO-SAStrE Los alineamientos difieren según el método de alineamiento aplicado Integrar diversas metodologías y elección de la más adecuada según las características concretas del problema AlexSys PACAlCI No existe un consenso claro en las medidas de calidad para alineamientos Introducir también información adicional en las medidas de calidad de los alineamientos STRIKE CAO LS-SVM score Tiempo de computación muy alto al incrementar la información analizada Supercomputación y paralelización Problemas con alineamientos Número de secuencias 4-150 secuencias Longitud 50-2000 aminoácidos PRECISIÓN DE ALINEAMIENTO TIEMPO DE ALINEAMIENTO (sec.) 1,0 180 0,9 160 o RV11 incluye secuencias menos 0,8 0,7 140 120 similares PEOR CALIDAD 0,6 100 0,5 80 0,4 60 0,3 0,2 o Coste computacional MUY ELEVADO 0,1 0,0 al incluir datos adicionales PROGRESIVOS BASADOS EN CONSISTENCIA 40 20 0 CON DATOS ADICIONALES PROGRESIVOS BASADOS EN CONSISTENCIA CON DATOS ADICIONALES Predicción de calidad (PACAlCI) Alineamientos multiobjetivo (MO-SAStrE) Aplicaciones de alineamientos Predicción de estructuras a partir de alineamientos Aplicaciones de alineamientos Reconstrucción de árboles filogenéticos a partir de alineamientos o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) OTRAS APLICACIONES PROTEÓMICA HUMAN GENOME PROJECT Proteómica Introducción proteómica Estructura primaria: Cadena de aminoácidos. Aminoácidos β-strands 3D structure α-helix Estructura secundaria: Enlaces de hidrógeno producidos entre aminoácidos (hélices o pliegues). Estructura terciaria: Estructura 3D formada por la estructura secundaria. Determina la funcionalidad de la proteína. Estructura cuaternaria: Composición de varias cadenas o varias proteínas. La interacción de proteínas está relacionada con la funcionalidad. Bioinformática: ¡MUCHO DÓNDE EXPLORAR! Predicción de interacciones Predicción de estructuras proteína-proteína. terciarias Bioinformática clínica Data mining en Bioinformática … Y MUCHO MÁS! HUMAN GENOME PROJECT http://exploreable.files.wordpress.com/2011/05/hgpsummary.jpg SNP (Single Nucleotide Polymorphism) Variación en la secuencia de ADN que afecta a una sola base (adenina (A), timina (T), citosina (C) o guanina (G)) SNP (Single Nucleotide Polymorphism) HapMap el catálogo de variaciones genéticas comunes (también llamadas polimorfismos) que están presentes en la especie humana. Su contenido describe en qué consisten dichas variaciones, en qué sitios del genoma suceden y cómo se distribuyen en las diferentes poblaciones. Regiones codificantes/no-codificantes, exones/intrones, genes, etc. El proyecto en sí no se encarga de usar esta información para relacionar los polimorfismos con enfermedades Base de datos de SNPs del NCBI una vez completada una fase. El libre acceso a la información hace que de ella puedan disponer todas las instituciones investigadoras biomédicas a nivel mundial, para hallar nuevos métodos de prevención, diagnóstico y tratamiento de enfermedades. 30 tríos (padres e hijo) de Nigeria. 30 tríos de Estados Unidos de origen europeo. 44 individuos sin relación genética de Japón (Tokyo). 45 individuos sin parentesco de China (Peking) Italianos y residentes norteamericanos de origen chino o sudamericano, alcanzando un número de 1184 personas Los objetivos principales son encontrar: Genes asociados a condiciones patológicas del ser humano. Factores genéticos que contribuyen a la variación individual en la respuesta a factores ambientales. Diferencias de susceptibilidad a infecciones. Diferentes perfiles de respuesta a fármacos. Personalización de los tratamientos médicos para mejorar la eficacia y reducir sus efectos adversos. Empresas como 23andMe ofrecen análisis genéticos basados en el análisis de SNPs: riesgo a padecer ciertas enfermedades, como , diabetes, trastorno bipolar. o Introducción de biología Contenidos o Introducción de bioinformática o Principales retos en bioinformática. Big Data. o Aplicaciones o Análisis de microarrays o Análisis de datos de secuenciación masiva (NGS) o Alineamientos de secuencia o Otras aplicaciones. Human Genome Project. o Clustering en Bioinformática (si hay tiempo?) ¿ Preguntas ? Los humanos somos 99.9% genéticamente idénticos ALGORITMOS DE CLUSTERING EN BIOINFORMÁTICA Clustering • El significado de cluster en problemas de clasificación • Medidas de similaridad • Algoritmos de clustering – Clustering jerárquico • Agglomerative clustering • Divisive clustering • Clustering no jerárquico (non-hierarchical): • K-medias • Fuzzy C-means • SOM Computación de altas prestaciones en Bioinformatica I.Rojas Curso 2006-2007 D / 95 Clustering • Supongamos que queremos transmitir en este ejemplo de dos dimensiones, las coordenadas de los puntos, con resolución muy baja (2 bits) Utilizar algoritmos de clustering ¿Qué es un cluster? • Un conjunto de entidades que son similares (entidades de diferentes cluster no son similares) • Una agregación de puntos en el espacio de entrada de forma que: la distancia entre cualquier par de puntos en un cluster es menor que la distancia entre un punto cualquiera en un cluster y cualquier otro punto que no este en ese mismo cluster • Conexión de regiones en espacios multidimensionales, que contienen una densidad relativamente alta de puntos –Separados por otras regiones con densidades relativamente bajas de puntos Generalmente una entidad se representa mediante un vector de atributos (puede considerarse un punto en un espacio ndimensional) Distancia • Distancia Euclidean D / 98 Algoritmo de clustering K-Means • Donde ||es una medida de distancia entre un punto y el centro del cluster Ejemplo: tenemos 4 tipos de medicinas, y cada objeto (medicina) tiene 2 atributos (feature) Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature) Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature) Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature) Computación de altas prestaciones en Bioinformatica I.Rojas Curso 2006-2007 Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature) K-Means Clustering D / 106 K-Means Clustering • Máximo local? D / 107 Aplicación de KNN para dato desconocido Computación de altas prestaciones en Bioinformatica I.Rojas D / 108 Variantes sobre el algoritmo básico D / 109 Computación de altas prestaciones en Bioinformatica I.Rojas D / 110 Aplicación de KNN en bioinformática • Ejemplo en bioinformática Aplicación de KNN en bioinformática D / 112 Hierarchical Clustering. Aplicación en Bioinformática Single Ave. Complete Ejemplo de cluster jerarquico D / 114 Distancia entre objetos Primer paso Ejemplo de cluster jerarquico D / 115 Ejemplo de cluster jerarquico D / 116 Ejemplo en Matlab D / 117 Ejemplo en Matlab D / 118 ¿ Preguntas ? Los humanos somos 99.9% genéticamente idénticos