Resumen de la propuesta: El término “Ómicas” se refiere a un

Anuncio
Resumen de la propuesta:
El término “Ómicas” se refiere a un nuevo campo de investigación en el que todos los
datos biológicos obtenidos a partir de varios estudios, incluyendo la genómica, transcriptómica
y proteómica están ampliamente recogidos, integrados y analizados para descifrar la
naturaleza biológica de los organismos vivos. La maravillosa innovación de hoy en la
tecnología de secuenciación del ADN nos ha permitido acelerar notablemente la acumulación y
el análisis de diversos datos biológicos. Esto ha dado lugar a un cambio de la investigación de
las ómicas a la siguiente generación en la que la cantidad de datos biológicos para ser
manejados se ha incrementado en dos o más órdenes de magnitud que los que se analizaban
hasta la fecha. También se generan nuevos conjuntos de datos a partir de campos de
investigación emergentes, tales como epigenómica y metagenómica.
La secuenciación tradicional de ADN incluye varios métodos y tecnologías que se usan
para determinar el orden de las bases nucleoítidicas en una molécula de ADN. Entre los
métodos más ampliamente utilizados
está el de Sanger (Schuster Nature methods
2008;5(1):16–18), tecnología utilizada para la secuenciación del genoma humano, cuyo primer
borrador se publicó en 2001, una conquista que necesitó de Celera Genomics y el consorcio
público un esfuerzo de 10 años y un coste final estimado de 3 billones de dólares.
(http://en.wikipedia.org/wiki/Human_Genome_Project).
La gran demanda de secuenciación de bajo coste ha impulsado el desarrollo de las
tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación,
produciendo miles o millones de secuencias a la vez (Hall, J. Exp. Biol. 2007;210(Pt 9):1518–
25; Church Sci. Am. 2006;294(1):46–54). La tecnologías de alto rendimiento de secuenciación,
también conocida como secuenciación de nueva generación (NGS en sus siglas en inglés),
tienen por objeto reducir el coste de la secuenciación del ADN más allá de lo que es posible
con el método Sanger. La diferencia principal entre NGS y la secuenciación convencional en
capilares es la capacidad de procesar millones de lecturas de secuencia en paralelo, en lugar
de 96 o 384 a la vez. Este rendimiento masivo en paralelo puede requerir uno o dos ciclos de
secuenciación para completar un experimento.
Las aplicaciones de NGS van más allá de la secuenciación del ADN en sí. Es posible
hacer transcriptómica secuenciando completamente el ARN presente (RNAseq) o secuenciar
smallRNAs para un organismo dado (smallRNAseq). Es posible estudiar las interacciones
proteína-ADN (ChIPseq), o incluso estudiar a comunidades enteras de microorganismos
(metagenómica). Tal vez una de las aplicaciones más interesantes de NGS en la era de la
medicina molecular es "la secuenciación del exoma" o "secuenciación dirigida" (Mamanova et
al., Nat Methods. 2010;7(2):111-8.). El exoma se define como el conjunto de exones de genes
que codifican el conjunto de proteínas existentes, y constituyen aproximadamente 50 MB del
genoma humano, alrededor de 1,5% de la totalidad del genoma. Esta técnica se ha convertido
en un poderoso nuevo enfoque para identificar los genes que subyacen a los trastornos
mendelianos. Pasar de la secuenciación del genoma completo a la secuenciación del exoma
tiene algunas ventajas, como aliviar el proceso de análisis de datos. Además permite la
determinación de casi la totalidad de la variación codificante presente en un genoma humano
(Bamshad et al., Nat Rev Genet. 2011;12(11):745-55). El desarrollo de la secuenciación del
exoma lo ha convertido en un área de práctica para el diagnóstico genético.
La secuenciación de exomas alivia los tres principales desafíos que presenta la
secuenciación masiva para convertirse en una herramienta clínicamente relevante: el coste de
la prueba, la identificación de variantes en la secuencia y la interpretación de los resultados. El
desarrollo de nuevos reactivos para la preparación de muestras hace que sea posible la
captura de esta parte del genoma en un solo paso en un solo tubo por menos de $100. La
actual máquina de secuenciación de Illumina HiSeq produce cerca de 20 Gb de secuencia por
línea, por alrededor de $1500, lo que equivale a una cobertura de 400X del exoma. Dado que
los actuales métodos de bioinformática sólo requieren una cobertura óptima de 50-100X para el
descubrimiento de variantes, se consigue multiplexar de 4 a 8 muestras en una sola línea. Por
lo tanto la secuenciación del exoma se puede utilizar para escanear la totalidad de los genes
de un paciente por menos de $500 entre la propia secuenciación y los costes de preparación
de la muestra. Dado que el exoma es una cantidad mucho menor de la secuencia de todo el
genoma, y se centra en las regiones mejor caracterizadas, la tarea de identificación de
variantes se simplifica. El problema de falsos positivos se reduce tanto por el menor grado de
secuencia y por la mayor cobertura (≥ 50X). El reto de la interpretación también se reduce en
gran medida ya que los exones son, por definición, codificantes de proteínas. Todas las
variantes exónicas puede ser caracterizadas, como el cambio de aminoácido (o crear
frameshifts y / o codones stop), y el impacto probable de un cambio de aminoácido en una
proteína puede ser evaluado por los algoritmos existentes. Además la mayoría de los genes
puede caracterizarse aún más por el conocimiento existente sobre la función de las proteínas,
tales como vías metabólicas y reguladoras, así como bases de datos de información clínica
genética y farmacogenética.
Con la tecnología NGS que está desarrollando actualmente, se prevé que en los
próximos años el coste seguirá bajando a precios más asequibles, lo que hace de la
secuenciación a gran escala del genoma una herramienta coste-efectiva y comparable a otras
pruebas diagnósticas. Como el número de aplicaciones a la práctica médica siguen
aumentando con la información genómica, incluida la capacidad para guiar la dosis de
fármacos o para determinar si el tratamiento con quimioterapia puede suponer un beneficio
para un paciente de cáncer, la integración de esta nueva tecnología en la práctica clínica será
inevitable. La capacidad de secuenciar completamente el genoma humano a un coste
sustancialmente reducido con NGS ha impulsado un esfuerzo internacional para secuenciar
miles de genomas humanos (http://www.1000genomes.org), lo que conducirá a la
caracterización y catalogación de la variación genética humana a un nivel sin precedentes.
En esta nueva generación va a ser muy difícil integrar y analizar estas vastas
cantidades de datos sin el conocimiento especializado de los bioinformáticos. Para hacer frente
a estas tendencias científicas actuales, Progenika ha establecido una unidad dedicada
mediante la integración de las actividades de investigación, tanto en la genómica y los campos
de ciencias de la computación. El servicio de genómica funcional de Progenika tiene como
objetivo emplear tecnologías “Ómicas” nuevas y aplicarlas a la creación de un sistema de
análisis a gran escala equipado con una línea de producción de alto rendimiento de datos
utilizando NGS y bioinformática de alta calidad. El sistema aplicado por el servicio de genómica
funcional sirve como motor para el apoyo a diversas actividades de investigación “Ómicas”. Las
actividades del servicio de genómica funcional también crearán oportunidades de investigación
interdisciplinarios, y promoverá la colaboración con los laboratorios de investigación de la
UPV/EHU.
Descripción técnica breve del proyecto, requisitos y necesidades
El principal objetivo de Progenika en este proyecto es desarrollar protocolos de análisis
estandarizados para aplicar a los datos generados por los secuenciadores de nueva
generación. Para ello, se requiere una revisión bibliográfica extensa de las diferentes
metodologías y bases de datos existentes. A partir del listado de las distintas metodologías de
análisis de datos, se dividirán en función de la aplicación de secuenciación masiva a la que van
dirigidas, y se creará un flujo de análisis adecuado.
Existe una complejidad añadida debido a la rápida evolución de esta nueva tecnología
y paralelamente a la evolución de los algoritmos de alineamiento y detección de cambios. Es
por tanto necesaria una monitorización y actualización permanente del estado del arte para
poder aplicar las mejores metodologías en cada momento.
El campo de la Bioinformática o la Biología Computacional, es un campo extenso que
aúna el conocimiento de varias ciencias, incluyendo la biología, la matemática, la estadística,
las tecnologías de la información y las ciencias computacionales. Como tal, se requiere de
personal ampliamente cualificado en cada una de sus ramas, haciendo de este campo uno de
los más complejos pero a su vez más requeridos en la época actual de las “Ómicas”. Por tanto,
la Bioinformática o la Biología Computacional demandan personas altamente motivadas para
contemplar la formación en todas estas ciencias y mantener un conocimiento actualizado. El
conocimiento previo de las bases de la biología molecular y la genética junto con la experiencia
en el manejo de ordenadores es fundamental para el desarrollo de las cualidades requeridas.
La incorporación de un investigador en esta área del servicio de genómica funcional de
Progenika permitiría aumentar la capacidad de I+D+i de la unidad y de la empresa, así como la
formar personal altamente cualificado para el desarrollo de una carrera profesional en
Bioinformática. Es importante reseñar que el tutor sugerido en la presente propuesta es doctor
por la UPV/EHU, codirigido por los Drs. J Javier Meana del Departamento de Farmacología y
Antonio Martínez, consejero delegado de Progenika Biopharma S.A. Por lo tanto, es previsible
que tras la finalización del presente proyecto, una vez conseguidos los objetivos de formación,
el candidato tenga posibilidades razonables de formar parte del grupo de servicios de
genómica funcional de Progenika.
Funciones del doctorando en el proyecto
El doctorando asumirá las siguientes responsabilidades en el proyecto:
- Recopilación y revisión de todo el conocimiento público previo en relación con el
proyecto: bibliografía, proyectos previos, bases de datos genéticas…
- Redacción del plan del proyecto: fases, hitos, cronograma previsto, requerimientos,…
- Cumplimiento de los hitos y objetivos según el plan anterior.
- Revisión de hito y análisis de resultados supervisados por su tutor. Reuniones de
seguimiento.
- Redacción de informes de hitos e informe final del proyecto.
- Patentes y publicaciones en congresos y revistas científicas a partir de los resultados
obtenidos en el proyecto.
Perfil del candidato
El candidato ideal ha de tener un conocimiento previo de las bases de la biología
molecular y la genética. La experiencia en el manejo de ordenadores a un nivel avanzado es
deseable. Se valoran los conocimientos de programación en cualquier lenguaje, junto con
conocimientos de estadística.
Descargar