Práctica X: Genómica comparativa Objetivo: Ø Conocer y emplear diversos programas bioinformáticos para realizar estudios de genómica comparativa. Objetivos particulares: • • Analizar las secuencias de genomas de varios organismos empleando diversos programas bioinformáticos. Evaluar los cambios en el contenido de genes y proteínas y los reordenamientos de genomas. INTRODUCCIÓN En el transcurso de la evolución, los genomas pueden sufrir muchos cambios a pequeña y gran escala. Los cambios locales tales como la sustitución, inserción y eliminación de nucleótidos se han observado en estudios comparativos de genes individuales. La recombinación, sin embargo, puede causar cambios a gran escala, tales como la pérdida y ganancia de genes, la duplicación y reordenamiento de los genomas. La importancia del análisis de este tipo de cambios radica en la comprensión de los procesos biológicos, tales como la evolución de los organismos. La enorme cantidad de datos genómicos que están aportando las diversas tecnologías de secuenciación actuales, requieren el desarrollo de nuevas técnicas computacionales que permitan la exploración e interpretación de esta información. Lo anterior ha dado pauta al diseño y la creación de diversos programas bioinformáticos. Las alineaciones múltiples de los genomas constituyen un análisis de gran importancia al respecto, ya que pueden identificar cambios evolutivos en el ADN mediante la alineación de las regiones homólogas de la secuencia. RESURSOS INFORMÁTICOS ftp://ftp.ncbi.nlm.nih.gov/ (Sitio ftp del NCBI). MUMmer. http://www.ncbi.nlm.nih.gov/sutils/geneplot.cgi/ (Página del programa Geneplot). http://www.webact.org/ (Página del programa WebACT). Mauve. 1 http://bacmap.wishartlab.com/ (Página del atlas interactivo para explorar genomas bacterianos. 2 DESARROLLO 1.- Descarga y obtención de información biológica depositada en la base de datos “genome” del NCBI. Pasos: 1. 2. 3. 4. 5. Ingresar al sitio www.ncbi.nlm.nih.gov Dar click en Genome en la parte de “popular resources” a la derecha de la página. En la sección de “custom resources”dar click en microbes. Seleccionar “complete genomes” en la parte derecha de la pantalla. Dar click en “Download Reports from FTP site y descargar el archivo prokaryotes.txt. 6. Abrir el archivo con Excel y convertirlo en una tabla, una vez realizado esto, realizar una serie de filtros para encontrar los organismos que se encuentran listados en el archivo “organismos de estudio.txt” depositado en el banco de datos del curso. 7. Construir una serie de gráficos utilizando información biológica importante (tamaño genómico, %GC, número de plásmidos, relación #genes/#proteínas, etc). 2.- Navegación sobre el sitio BacMap. BacMap es una base de datos visual interactiva que contiene cientos de mapas de genomas bacterianos totalmente etiquetados, en los cuales se puede realizar acercamientos y búsquedas. Una de las grandes cualidades de BacMap es que tiene un filtro con características biológicas muy completo con el cual se pueden realizar búsquedas muy específicas. Pasos: 1. Dirigirse al sitio http://bacmap.wishartlab.com/ 2. Realizar una búsqueda utilizando los filtros para el organismo Escherichia coli 536. 3. Observar que información proporciona la tabla mostrada y dar click en cada link de esta. ¿Qué información encuentra?, ¿Qué tipos de mapas se muestran?. Mencione que información se encuentra en el link genome statistics. 3.- Explorando el genoma humano con mapviewer del NCBI. 1. Ingresar al sitio http://www.ncbi.nlm.nih.gov/projects/mapview/ 2. Ubicar Homo sapiens y seleccionar la anotación 106. 3. Seleccionar el cromosoma 11 y buscar el gen HBB. ¿Cuál es su nombre? Descarga de datos. 3 Pasos: 1. Ingresar al sitio ftp://ftp.ncbi.nlm.nih.gov/. 2. Entrar a la carpeta genomes->bacteria 3. Localizar la carpeta con el nombre del organismo y descargar el archivo *.fna para cada genoma a emplearse (tabla 1). Tabla 1. Clave NCBI Nombre del organismo NC_008463 NC_002516 NC_008570 Pseudomonas aeruginosa str. UCBPP-PA14 Pseudomonas aeruginosa str. PAO1 Aeromonas hydrophila subsp. hydrophila str. ATCC 7966 Número de ORFs 5892 5571 4121 Contenido de GC (%) 66.3 66.6 61.5 Tamaño del genoma (pb) 6537648 6264404 4744448 Alineamientos de genomas. MUMmer MUMmer es un programa libre que permite alinear de forma rápida secuencias largas de DNA y de aminoácidos, el manejo de datos es estructurado en árboles de sufijos para la búsqueda eficiente de patrones utilizando unidades llamadas MUMs. Incluye algunas paqueterías gráficas para el análisis comparativo de secuencias como el de genomas completos. Pasos para utilizar MUMmer: 1. Ejecutar los comandos mummer y mummerplot a través de la terminal: mummer -mum -b -c -l longitud archivo1.fna archivo2.fna >comparacion.mums mummerplot -x "[0,longitud1]" -y "[0,longitud2]" -postscript -p mummer comparacion.mums 2. Convertir el archivo de resultados con la instrucción: ps2pdf mummer.ps grafica.pdf 3. Realizar los pasos 1 y 2 para cada comparación (NC_008463 vs NC_002516 y NC_002516 vs NC_008570) 4. Observar las gráficas obtenidas. Geneplot 4 Es un programa que permite la comparación de parejas de genomas, identificando proteínas homólogas, mostrando las similitudes entre genomas bacterianos y visualizando estos datos. Pasos para utilizar Geneplot: 1. 2. 3. 4. Ingresar al sitio: http://www.ncbi.nlm.nih.gov/sutils/geneplot.cgi. Seleccionar los dos organismos a comparar en las listas de la base de datos del sitio. Procesar los datos mediante el botón compare selected pair. Realizar los pasos 2 y 3 para todas las comparaciones (NC_008463 vs NC_002516 y NC_002516 vs NC_008570). 5. Observar los datos de las proteínas homólogas. 6. Ingresar a uno de los resultados de proteínas homólogas dando click debajo de bl2seq, observar el alineamiento y los resultados de éste. WebACT WebACT permite realizar comparaciones entre secuencias genómicas de procariontes utilizando Artemis Comparison Tool (ACT), herramienta desarrollada por el Instituto Sanger; permitiendo además la visualización de dichas comparaciones. Las comparaciones se realizan empleando blastn y pueden observarse entre secuencias genómicas previamente procesadas y cuya información se encuentra almacenada dentro de la base de datos del sitio o se pueden comparar secuencias proporcionadas por el usuario. Todas las comparaciones pre-computadas y/o generadas por el usuario se pueden visualizar en línea usando una versión WebStart de ACT o se pueden descargar. Pasos para utilizar WebACT: 1. Ingresar al sitio: http://www.webact.org. 2. Ingresar a la pestaña Generate (se pueden comparar de 2 a 5 secuencias). 3. En la sección del número de secuencias ingresar 3 y cargar cada secuencia de los genomas a comparar. 4. Ajustar los parámetros en Blast Search Options, según los siguientes valores: program : blastn nucleotide match score (-r) : 1 nucleotide mismatch penalty (-q) : -1 gap opening penalty (-G) : 5 gap extension penalty (-E) : 2 wordsize (-W) : 11 marcar: low complexity filtering e-value : 0.0001 5 5. Enviar los datos para su procesamiento mediante el botón submit. 6. Descargar el archivo con los resultados y abrirlo empleando la terminal y la instrucción: javaws resultadosACT.jnlp 7. Observar los resultados obtenidos. Mauve Mauve es un sistema para construir de manera eficiente múltiples alineaciones del genoma tomando en cuenta la presencia de eventos evolutivos a gran escala, como los reordenamientos y las inversiones. Durante el proceso de alineación, Mauve identifica segmentos conservados que parecen ser internamente libres de reordenamientos del genoma. Estas regiones se denominan Locally Collinear Blocks (LCB). Múltiples alineaciones del genoma proporcionan una base para la investigación sobre la genómica comparativa y el estudio de la dinámica evolutiva. Pasos para utilizar Mauve: 1. Ejecutar el programa ingresando en la terminal la instrucción: Mauve. 2. Ingresar a File->Align with progressiveMauve. 3. Utilizando el botón Add Sequence ingresar todas las secuencias genómicas descargadas previamente en la práctica. En la sección Output File ingresar el nombre del archivo de salida y dar un click en Align. 4. Observar los resultados obtenidos. Guía para el reporte de la práctica. 1. Reporte las gráficas obtenidas con MUMmer, Geneplot, WebACT y Mauve, indicando que se observa en cada una de ellas. 2. Indique las diferencias y semejanzas observadas entre las gráficas obtenidas con cada programa. 3. Al observar los resultados de los análisis de genómica comparativa, ¿qué puede decir acerca de los organismos empleados en cuanto a similitudes, diferencias y características evolutivas? Preguntas extra. 1. Indique las diferencias entre los programas empleados para realizar comparaciones genómicas. 2. ¿Qué diferencia hay entre hacer comparaciones genéticas y genómicas? 3. ¿Qué es una inserción, eliminación, inversión, trasposición y duplicación? 6 4. ¿Cómo evolucionan los genomas? Referencias 1. Altschul S. F., Gish W., Miller W., Myers E. W. y Lipman D. J. (1990). "Basic local alignment search tool". J Mol Biol 215(3): 403-10. 2. Carver T. J., Rutherford K. M., Berriman M., Rajandream M. A., Barrell B. G. y Parkhill J. (2005). "ACT: the Artemis Comparison Tool". Bioinformatics 21(16):3422-3. 3. Darling A. E., Mau B., y Perna N. T. (2010). “progressiveMauve: Multiple Genome Alignment with Gene Gain, Loss, and Rearrangement”. PLoS One. 5(6):e11147. 4. Delcher A. L., Kasif S., Fleischmann R. D., Peterson J., White O. y Salzberg S. L. (1999). "Alignment of whole genomes". Nucleic Acids Res 27(11): 2369-76. 5. Delcher A. L., Phillippy A., Carlton J. y Salzberg S. L. (2002). "Fast algorithms for large-scale genome alignment and comparison". Nucleic Acids Res 30(11): 247883. Kurtz S., Phillippy A., Delcher A. L., Smoot M., Shumway M., Antonescu C., et al. (2004). "Versatile and open software for comparing large genomes". Genome Biol 5(2): R12. 7