Resumen de la propuesta: El término “Ómicas” se refiere a un nuevo campo de investigación en el que todos los datos biológicos obtenidos a partir de varios estudios, incluyendo la genómica, transcriptómica y proteómica están ampliamente recogidos, integrados y analizados para descifrar la naturaleza biológica de los organismos vivos. La maravillosa innovación de hoy en la tecnología de secuenciación del ADN nos ha permitido acelerar notablemente la acumulación y el análisis de diversos datos biológicos. Esto ha dado lugar a un cambio de la investigación de las ómicas a la siguiente generación en la que la cantidad de datos biológicos para ser manejados se ha incrementado en dos o más órdenes de magnitud que los que se analizaban hasta la fecha. También se generan nuevos conjuntos de datos a partir de campos de investigación emergentes, tales como epigenómica y metagenómica. La secuenciación tradicional de ADN incluye varios métodos y tecnologías que se usan para determinar el orden de las bases nucleoítidicas en una molécula de ADN. Entre los métodos más ampliamente utilizados está el de Sanger (Schuster Nature methods 2008;5(1):16–18), tecnología utilizada para la secuenciación del genoma humano, cuyo primer borrador se publicó en 2001, una conquista que necesitó de Celera Genomics y el consorcio público un esfuerzo de 10 años y un coste final estimado de 3 billones de dólares. (http://en.wikipedia.org/wiki/Human_Genome_Project). La gran demanda de secuenciación de bajo coste ha impulsado el desarrollo de las tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias a la vez (Hall, J. Exp. Biol. 2007;210(Pt 9):1518– 25; Church Sci. Am. 2006;294(1):46–54). La tecnologías de alto rendimiento de secuenciación, también conocida como secuenciación de nueva generación (NGS en sus siglas en inglés), tienen por objeto reducir el coste de la secuenciación del ADN más allá de lo que es posible con el método Sanger. La diferencia principal entre NGS y la secuenciación convencional en capilares es la capacidad de procesar millones de lecturas de secuencia en paralelo, en lugar de 96 o 384 a la vez. Este rendimiento masivo en paralelo puede requerir uno o dos ciclos de secuenciación para completar un experimento. Las aplicaciones de NGS van más allá de la secuenciación del ADN en sí. Es posible hacer transcriptómica secuenciando completamente el ARN presente (RNAseq) o secuenciar smallRNAs para un organismo dado (smallRNAseq). Es posible estudiar las interacciones proteína-ADN (ChIPseq), o incluso estudiar a comunidades enteras de microorganismos (metagenómica). Tal vez una de las aplicaciones más interesantes de NGS en la era de la medicina molecular es "la secuenciación del exoma" o "secuenciación dirigida" (Mamanova et al., Nat Methods. 2010;7(2):111-8.). El exoma se define como el conjunto de exones de genes que codifican el conjunto de proteínas existentes, y constituyen aproximadamente 50 MB del genoma humano, alrededor de 1,5% de la totalidad del genoma. Esta técnica se ha convertido en un poderoso nuevo enfoque para identificar los genes que subyacen a los trastornos mendelianos. Pasar de la secuenciación del genoma completo a la secuenciación del exoma tiene algunas ventajas, como aliviar el proceso de análisis de datos. Además permite la determinación de casi la totalidad de la variación codificante presente en un genoma humano (Bamshad et al., Nat Rev Genet. 2011;12(11):745-55). El desarrollo de la secuenciación del exoma lo ha convertido en un área de práctica para el diagnóstico genético. La secuenciación de exomas alivia los tres principales desafíos que presenta la secuenciación masiva para convertirse en una herramienta clínicamente relevante: el coste de la prueba, la identificación de variantes en la secuencia y la interpretación de los resultados. El desarrollo de nuevos reactivos para la preparación de muestras hace que sea posible la captura de esta parte del genoma en un solo paso en un solo tubo por menos de $100. La actual máquina de secuenciación de Illumina HiSeq produce cerca de 20 Gb de secuencia por línea, por alrededor de $1500, lo que equivale a una cobertura de 400X del exoma. Dado que los actuales métodos de bioinformática sólo requieren una cobertura óptima de 50-100X para el descubrimiento de variantes, se consigue multiplexar de 4 a 8 muestras en una sola línea. Por lo tanto la secuenciación del exoma se puede utilizar para escanear la totalidad de los genes de un paciente por menos de $500 entre la propia secuenciación y los costes de preparación de la muestra. Dado que el exoma es una cantidad mucho menor de la secuencia de todo el genoma, y se centra en las regiones mejor caracterizadas, la tarea de identificación de variantes se simplifica. El problema de falsos positivos se reduce tanto por el menor grado de secuencia y por la mayor cobertura (≥ 50X). El reto de la interpretación también se reduce en gran medida ya que los exones son, por definición, codificantes de proteínas. Todas las variantes exónicas puede ser caracterizadas, como el cambio de aminoácido (o crear frameshifts y / o codones stop), y el impacto probable de un cambio de aminoácido en una proteína puede ser evaluado por los algoritmos existentes. Además la mayoría de los genes puede caracterizarse aún más por el conocimiento existente sobre la función de las proteínas, tales como vías metabólicas y reguladoras, así como bases de datos de información clínica genética y farmacogenética. Con la tecnología NGS que está desarrollando actualmente, se prevé que en los próximos años el coste seguirá bajando a precios más asequibles, lo que hace de la secuenciación a gran escala del genoma una herramienta coste-efectiva y comparable a otras pruebas diagnósticas. Como el número de aplicaciones a la práctica médica siguen aumentando con la información genómica, incluida la capacidad para guiar la dosis de fármacos o para determinar si el tratamiento con quimioterapia puede suponer un beneficio para un paciente de cáncer, la integración de esta nueva tecnología en la práctica clínica será inevitable. La capacidad de secuenciar completamente el genoma humano a un coste sustancialmente reducido con NGS ha impulsado un esfuerzo internacional para secuenciar miles de genomas humanos (http://www.1000genomes.org), lo que conducirá a la caracterización y catalogación de la variación genética humana a un nivel sin precedentes. En esta nueva generación va a ser muy difícil integrar y analizar estas vastas cantidades de datos sin el conocimiento especializado de los bioinformáticos. Para hacer frente a estas tendencias científicas actuales, Progenika ha establecido una unidad dedicada mediante la integración de las actividades de investigación, tanto en la genómica y los campos de ciencias de la computación. El servicio de genómica funcional de Progenika tiene como objetivo emplear tecnologías “Ómicas” nuevas y aplicarlas a la creación de un sistema de análisis a gran escala equipado con una línea de producción de alto rendimiento de datos utilizando NGS y bioinformática de alta calidad. El sistema aplicado por el servicio de genómica funcional sirve como motor para el apoyo a diversas actividades de investigación “Ómicas”. Las actividades del servicio de genómica funcional también crearán oportunidades de investigación interdisciplinarios, y promoverá la colaboración con los laboratorios de investigación de la UPV/EHU. Descripción técnica breve del proyecto, requisitos y necesidades El principal objetivo de Progenika en este proyecto es desarrollar protocolos de análisis estandarizados para aplicar a los datos generados por los secuenciadores de nueva generación. Para ello, se requiere una revisión bibliográfica extensa de las diferentes metodologías y bases de datos existentes. A partir del listado de las distintas metodologías de análisis de datos, se dividirán en función de la aplicación de secuenciación masiva a la que van dirigidas, y se creará un flujo de análisis adecuado. Existe una complejidad añadida debido a la rápida evolución de esta nueva tecnología y paralelamente a la evolución de los algoritmos de alineamiento y detección de cambios. Es por tanto necesaria una monitorización y actualización permanente del estado del arte para poder aplicar las mejores metodologías en cada momento. El campo de la Bioinformática o la Biología Computacional, es un campo extenso que aúna el conocimiento de varias ciencias, incluyendo la biología, la matemática, la estadística, las tecnologías de la información y las ciencias computacionales. Como tal, se requiere de personal ampliamente cualificado en cada una de sus ramas, haciendo de este campo uno de los más complejos pero a su vez más requeridos en la época actual de las “Ómicas”. Por tanto, la Bioinformática o la Biología Computacional demandan personas altamente motivadas para contemplar la formación en todas estas ciencias y mantener un conocimiento actualizado. El conocimiento previo de las bases de la biología molecular y la genética junto con la experiencia en el manejo de ordenadores es fundamental para el desarrollo de las cualidades requeridas. La incorporación de un investigador en esta área del servicio de genómica funcional de Progenika permitiría aumentar la capacidad de I+D+i de la unidad y de la empresa, así como la formar personal altamente cualificado para el desarrollo de una carrera profesional en Bioinformática. Es importante reseñar que el tutor sugerido en la presente propuesta es doctor por la UPV/EHU, codirigido por los Drs. J Javier Meana del Departamento de Farmacología y Antonio Martínez, consejero delegado de Progenika Biopharma S.A. Por lo tanto, es previsible que tras la finalización del presente proyecto, una vez conseguidos los objetivos de formación, el candidato tenga posibilidades razonables de formar parte del grupo de servicios de genómica funcional de Progenika. Funciones del doctorando en el proyecto El doctorando asumirá las siguientes responsabilidades en el proyecto: - Recopilación y revisión de todo el conocimiento público previo en relación con el proyecto: bibliografía, proyectos previos, bases de datos genéticas… - Redacción del plan del proyecto: fases, hitos, cronograma previsto, requerimientos,… - Cumplimiento de los hitos y objetivos según el plan anterior. - Revisión de hito y análisis de resultados supervisados por su tutor. Reuniones de seguimiento. - Redacción de informes de hitos e informe final del proyecto. - Patentes y publicaciones en congresos y revistas científicas a partir de los resultados obtenidos en el proyecto. Perfil del candidato El candidato ideal ha de tener un conocimiento previo de las bases de la biología molecular y la genética. La experiencia en el manejo de ordenadores a un nivel avanzado es deseable. Se valoran los conocimientos de programación en cualquier lenguaje, junto con conocimientos de estadística.