Bioinformática en la era post

Anuncio
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Bioinformática en la era
post-genómica
Ascanio Rojas A.
Centro Nacional de Cálculo Científico, ULA. CPTM.
ascanio@ula.ve
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
En esta Charla:
• Introducción a la Bioinformática
• Genómica
• Uso de la información genética y
Bases de datos
• El futuro de la genómica
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Un poco de historia
-
1866 Gregor Mendel describe los mecanismos
de la herencia
1868 Friedrich Miescher descubre el ADN en el
núcleo
1909 El término ‘gen’ se usa por primera vez
1944 se identifica el ADN como el material de la
herencia
1953 F. Crick J. Watson resuelven la estructura
del ADN
1955 S. Ochoa y A. Körnberg descifran el
código genético
1956 Identificados 23 pares de cromosomas
humanos
1969 Se aísla el primer gen, en una bacteria.
1972 Stanley Cohen desarrolla la tecnología
recombinante.
1977 F. Sanger, A. Maxam y W. Gilbert,
desarrollan el método de secuenciación del
ADN.
-
1982 el NIH y Los Alamos National Laboratory
establecen la base de datos GenBank, dando
inicio a la bioinformática.
- 1984 Se crean las primeras plantas transgénicas y se
discute por primera vez el genoma humano
- 1985 Un año después se inventa la técnica de la PCR
- 1986 Se prueba la vacuna de Hepatitis B (Ing.
Genética). Se inventa la primer equipo automático
de secuenciación
- 1989 Se identifican los Sequence-tagged sites (STS)
- 1990 Inicia El Proyecto del Genoma Humano.
- 1996 Secuenciado el genoma de la levadura de la
cerveza. Nace en Escocia Dolly, el primer
mamífero clonado. El único cordero resultante de
277 fusiones de óvulos. Es sacrificada el 14 de
febrero de 2003.
- 2003 Se publica la versión completa del genoma
Humano.
…continuará.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
El ADN
• El cuerpo humano tiene 100 trillones de células.
• En el núcleo hay ~2 m de ADN enrollados en una estructura
de unos 0,0001 cm, ordenados en 46 crosomomas.
•
Todo el ADN de estas células podría estirarse e ir y volver
hasta el sol 600 veces (la secuencia llenaría 200 guías
telefónicas de 500 páginas)
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Que es la bioinformática?
National Center for Biotechnology Information (NCBI, 2001):
“Bioinformática es un campo de la ciencia en el cual confluyen varias disciplinas tales
como: biología, computación y tecnología de la información. El fin último de este campo
es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas
globales a partir de las cuales se puedan discernir principios unificadores en biología. Al
comienzo de la "revolución genómica", el concepto de bioinformática se refería sólo a la
creación y mantenimiento de base de datos donde se almacena información biológica,
tales como secuencias de nucleótidos y aminoácidos. ….
Harvey y Mc. Meekin, 2002
Bioinformática es la aplicación del desarrollo de la computación y las matemáticas que
permite la administración, análisis y comprensión de datos para resolver preguntas
biológicas. (con conexiones a medi-, quimio-, neuro-, etc. informática). Modificado de:
Center for Research on Innovation and Competition
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Informática
World Wide Web (Web o www.) o Red Global
Mundial es un sistema de documentos de hipertexto
o hipermedios enlazados y accesibles a través de
Internet. Con un navegador Web se visualiza
contenido en texto, imágenes, vídeos u otros
contenidos multimedia, y navegar a través de ellas
usando hiperenlaces. Creada en 1990 Tim BernersLee y Robert Cailliau en el CERN (Ginebra, Suiza)
Una dirección IP es un número que identifica de
manera lógica y jerárquica a una interfaz de un
dispositivo
(habitualmente
una
computadora)
dentro de una red.
IPv4
4.294.967.296 (232) direcciones de red diferentes
IPv6
340.282.366.920.938.463.463.374.607.431.768.211.456 (2128 ó 340 sextillones)
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Bases de datos en Bioinformática
National Center for Biotechnology Information (NCBI)
Creada en 1979 en the LANL (Los Alamos, CA). Mantenida desde 1992
NCBI (Bethesda, MD, USA).
European Bioinformatics Institute (EBI)
Creada en 1980 en The European Molecular Biology Laboratory
in Heidelberg. Es mantenida por el EBI- Cambridge, desde 1994.
GenomeNet Inició 1984, en the National Institute of
Genetics (NIG) Mishima, Japón. Mantenida por Center for
Information Biology and DNA Data Bank of Japan.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Genoma La totalidad del ADN de un organismo
Fago λ
Escherichia coli
Levadura
Caenorhabditis elegans
Drosophila melanogaster
Humano
Mitocondrial humano
5×104 pb
4×106 pb
2×107 pb
8×107 pb
2×108 pb
3×109 pb
1.6×104 pb
Genómica Conjunto de ciencias y técnicas
dedicadas al estudio exhaustivo del
funcionamiento, evolución y origen de los genomas.
Los estudios genómicos se caracterizan por su interdisciplinaridad
debido a que el gran número de datos generados que requiere de
conocimientos biológicos, estadísticos e informáticos.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Números del Genoma Humano
• Nuclear: 3.200 millones pb / Mitocondrial: 16.600 pb
• ~38.000 genes (el doble que la mosca del vinagre, un tercio
más que el gusano común y 5.000 genes más que la planta
Arabidopsis)
• 99,99% de código es compartido entre
humanos (difieren en 1.250 letras)
• 5 % del genoma codifica proteínas (se
estima que existen ~300.000 proteínas).
• 25 % de genoma no codifica nada o se
desconoce su función
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Secuenciación
Es un conjunto de métodos y técnicas
bioquímicas cuya finalidad es la determinación
del orden de los nucleótidos (A, C, G y T) en un
oligonucleótido de ADN.
El método clásico de terminación de la cadena o método de Sanger. (Usando
didesoxinucleótidos trifosfato –ddNTPs- como terminadores de la cadena de
ADN). Se lee en ~700 pb en cada lectura, aunque no están agrupadas en
cromosomas…
Secuencia1
ACC AGA ATA CC
Secuencia 2
TC
CAG AAT AA
Secuencia3
TA CCC GTG ATC CA
AGG CAT ACC AGA ATA CCC GTG ATC CAG AAT AAG C
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
• A diferencia del sistema de Sanger (67.000 bases/hora), el nuevo método 454
puede determinar 20 millones bases en 4,5 horas. En 5 días se secuencia y anota el
genoma de una bacteria completo
• El costo por genoma decae: 300 millones $ en 2003, 1 millón $ en 2007, 60.000 $
2009 y 5.000 dólares para mediados de año.
• El Premio Archon X ha ofrecido 10 millones $ al grupo que logre secuenciar 100
genomas humanos en 10 días por 10.000 dólares o menos.
PacBio (+1,000 bases)
espera comercializar en
2010 máquinas de segunda
generación que puede llevar
a cabo la secuenciación del
genoma por 1.000 dólares
en 2013.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Estado actual de los Proyectos genomas
• Grupos multidisciplinares
• Interacción entre centros de investigación
• Generación de una cantidad ingente de datos
• Análisis complejos y Fechas ajustadas
• Grandes presupuestos
• Genomas anotados: 1865
• Proyectos Genomas: 11148
• Microbios: 299
• Arqueas: 206
• Bacterias: 6730
• Eucariotas: 2007
Last Update: 2018-06 @www.genomesonline.org
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Números
600 millones de pb/año se añaden a bases de datos, haciendo que
se duplique tamaño de las BD cada 14 meses aproximadamente
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Fernández X. 2009
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Incidencia de la Bioinformática, la genómica y la filogenética
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Science 2.0
“Collaborative Commons”
Open Notebook Science
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
YouTube-EDU
Más de 200 universidades
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Nuevas tecnologías Nuevos retos
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
1000 Genomes
Producirá más de 20TB de datos en secuencia...
• Fase piloto. 60 muestras HapMap secuenciadas (low coverage)
• Segunda fase piloto. Dos tríos de europeos y africanos (high coverage)
• Tercera fase piloto. Secuenciando 1.000 genes en 1,000 individuos (high
coverage).
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Personal Genomics
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
La era post genómica
Transcriptóma
Un transcrito es una copia de RNA de un gen. El
transcriptoma son todas las copias de RNA en una
célula, tejido o individuo
Proteómica
El proteoma son todas las proteínas de una
célula, tejido o individuo
Metabolómica
El metaboloma son todas las moléculas de
una célula, tejido o individuo que producen
las proteínas del proteoma.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Proteómica
• Proteómica es el estudio a gran escala de proteínas, en particular de su
estructura y función. Es considerada el siguiente paso en el estudio de un
sistema biológico, luego de la genómica.
• Es más complicada que la genómica debido a que el genoma es
relativamente constante, el proteoma difiere de una célula a otra y de un
momento a otro (más complejo en sistema eucariontes).
• Matrix assisted laser
desorption/ionization time-offlight mass spectrometry
(MALDI-TOF-MS)
• Electrospray fourier-transform
ion cyclotron mass
spectrometry (ESI-FTICR MS)
http://www.proteinatlas.org
Cantidad de genes:
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Medicina genómica
Uso rutinario de análisis genotípicos para mejorar el cuidado de la salud6
tiene sus pilares en la capacidad de conocer los SNPs de cada individuo y de
modificar el medio ambiente en que este se desarrolla.
• No es reactiva
• Se
• Predictiva y preventiva
centra
en
individuos
y
poblaciones
• Proviene de la genómica y otras ‘ómicas’
• Enfoque bioinformático apoyándose
en nuevas tecnologías analíticas.
Estudios de asociación genética (GWAS)
Los estudios de “asociación genética” buscan establecer la relación estadística entre
variables genéticas poblacionales y un fenotipo determinado (rasgo, riesgo de
enfermedad, etc.)
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Farmacogenómica
Disciplina que estudia el efecto de la variabilidad genética de un
individuo en su respuesta a determinados fármacos.
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ejemplos
Cantidad de genes
Parásito
Total
Analizado
Único
T. brucei 9,068
8,082
26 %
T. cruzi
12,000
10,834
32 %
L. major
8,311
7,624
12 %
El proteoma general es bien conservado
(mas de 6000 COGs compartidos)
Tc y Lm (intracelulares) comparten mas
genes
Tc y Tb comparten mas que Lm
La mayoría de los genes únicos son proteínas
de superficie
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Distribución de dominios proteicos
1617 Dominios proteicos (Pfam& TIGRFAM)
• 73% presentes en otros eucariotas
• 10% de archeobacteria
• 17% de origen procariota
Pocos dominios propios de grupo
Menos de 5% únicos de una especie
• L.major PF01187
o Macrophage migration inhibitory factor
• T.brucei PF03238
o VSG expression site associated gene
• T.cruzi PF05577
o Serine carboxipeptidase S28
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Gracias…
Ascanio Rojas A.
Descargar