Biol. 3030 – Biología del Desarrollo Ejercicio 7 – Bioinformática y Secuenciación Bioinformática Bioinformactica es un nuevo campo de la biotecnología que se ocupa en el almacenamiento y la manipulación de secuencias de información de DNA de las cuales se puede obtener información biológica útil. Casi rutinariamente, datos del análisis de secuencias de DNA son sometidos a una base de datos usando la internet (WWW) para identificar genes o productos de genes. Secuenciación Para el análisis de una secuencia se realizan cuatro reacciones enzimáticas por separado, una por cada nucleótido. Cada reacción contiene la DNA polimerasa, el templado de cadena sencilla que se quiere secuenciar, un iniciador (primer) que se le unirá, los cuatro nucleótidos trifosfatados, y alguno de os deoxinucleotidos marcado radioactivamente como [32]P-ATP y el amortiguador apropiado. Las reacciones contienen los dideoxitrifosfatados como sigue: la de G contiene dideoxiGTP, la de C dideoxiCTP, la de A dideoxiATP y la de G dideoxiGTP. Las concentraciones de estos son ajustadas para que sean incorporadas a la cadena creciente al azar y con baja frecuencia. Una vez el dideoxi es incorporado, la Síntesis de DNA se detiene porque esta base esta modificada de manera que no tiene el 3’OH necesario para la adición del próximo nucleótido a la azúcar. La incorporación de este dideoxinucloeotido facilita la generación de fragmentos dentro de fragmentos y asi determinar la ubicación de los nucleótidos en el Figura 1. Ejemplo de reacción dideoxyGTP con DNA. Una reacción contendrá fragmentos generados millones de cadenas crecientes y por lo tanto grupos de fragmentos dentro de fragmentos. Cada fragmento terminado en una posición distinta correspondiente al la incorporación al azar del dideoxiNTP. Como un ejemplo de estos fragmentos dentro de fragmentos producidos por una reacción hipotética de G de un pedazo de DNA contiene: - dATP, dTTP, dCTP, dGTP y [32]P-ddGTP - DNA pol y amortiguador 1 - Templado de DNA, La reacción generara fragmentos todos terminados en ddGTP radioactivo de distintos tamaños, (Figura 1) unos dentro de otros que son complementarios a la secuencia que usted quiere secuenciar. Fragmentos similares se obtendrán para cada ddNTP en sus respectivas reacciones. Es obvio que juntos todos los fragmentos generados por las reacciones dideoxi G, A, T , C agrupados contendrán fragmentos de todos los tamaños sucesivos de todos los nucleótidos para la secuencia de la figura 2 Figura 2 – Representación grafica de una autoradiografía electroforesis separando los fragmentos generados. La figura muestra la reacción G que contiene los fragmentos de 21, 23, 25, 29, 31nucleotidos de longitud. Diez y siete de ellos son parte del primer y el resto son añadidos durante la síntesis de novo. Los productos de las reacciones G, A, T, y C son separados en una gel de PAGE vertical. En el carril 1 esta la reacción G y en el 2 la de A y así sucesivamente. Es importante notar que la cadena siendo secuenciada tendrá las bases opuestas a las que se leen. Por ejemplo la reacción G en el tubo identificara las C en el templado siendo secuenciado. Luego de la electroforesis se realiza una autoradiografia colocando la gel sobre una película de rayos X. Como los fragmentos emiten radioactividad su posición se podrá detectar como bandas oscuras en la película. Además de isotopos de fosforo también se pueden usar métodos no isotópicos sino fluorescentes y secuenciadores automatizados que ya reemplazan los isotópicos. Una gel tendrá varios grupos de reacciones de secuenciación GATC. En la figura 2 las bandas oscuras representan las bandas producidas por la radioactividad emitida por cada fragmento que donde termina la síntesis con la base dideoxi correspondiente. La secuencia deducida 2 del autoradiograma es la complementaria al DNA usado como templado. Este método de secuenciación se conoce como Sanger. Los datos de la secuenciación de DNA tiene usos limitado a menos que se pueda convertir en información biológica útil. Bioinformática es el componente critico de la secuenciación porque se involucra en unir la tecnología computacional con la biotecnología. El uso diseminado del internet ha hecho posible la adquisición con relativa facilidad de información de distintos proyectos de genomas. En un análisis típico, como primer paso, luego de obtener la data de secuenciación de DNA, el biólogo molecular buscara similaridades de DNA usando varias bases de datos en el WWW. Esta búsqueda lo dirigirá a la identificación de DNA secuenciado o a identificar su relación con genes relacionados. Las regiones codificantes para proteínas pueden ser identificadas fácilmente por la composición de nucleótidos. Asi mismo las regiones no codificantes se pueden identificar por la interrupción debido a codones de terminación. El significado funcional de las nuevas secuencias de DNA seguirá en aumento y será cada vez mas importante según se continúe generando mas y mas información y generándose mas y mejores motores de búsqueda. Ejercicio practico: Introducción En este momentos varios grupos de investigación alrededor del mundo están inmersos en la determinación de la secuencia del genoma humano. Avances en la secuenciación del DNA y en la bioinformática hace y hará posible que esta información se pueda usar como una herramienta de diagnostico clínico. Es de notar que varios genomas mas pequeños como el de Sacharomyces cerevisiae y Helicobacter pilori ya están completos. El propósito de este ejercicio es introducir al estudiante a la bioinformática. Para que se obtenga experiencia en la búsqueda en bases de datos, los estudiantes utilizaran servicios gratuitos ya ofrecidos por el NCBI y que se puede acceder a través del WWW. Al presente ya hay varios de estos como GenBank, secuencias de nucleótidos en EMBL, las traducciones de los CDS no redundantes de GenBank (secuencias de proteínas). Los estudiantes pueden usar cualquiera de estas bases de datos asi como otras disponibles en el internet para este ejercicio. Para simplificar se ilustrara el uso del NCBI. Estos ejercicios involucran el uso de BLASTN para comparar secuencias de nucleótidos y BLASTP para secuencias de aminoácidos en las bases de datos. 1. Google NCBI National Center for Biotechnology 2. Aparece lo siguiente - esta es la pagina de entrada del NCBI. 3 3. Escoges sequence analysis y en la pagina que aparece bajas y escoges Basic Local Aligment Search Tool (BLAST). 4. Al llegar a la siguiente escoges nucleotide blast. Además de este hay otras opciones pero son para nosotros lo que nos interesa es para secuencias de nucleótidos. 5. bajo nucleotide blast, click en el standard nucleotidenucleotide BLAST (blastn). Las otras opciones son mas complicadas para aplicaciones especificas. Aquí hay tres secciones: - enter query sequence - choose search set - program selection 4 6. Para comenzar a entrar la secuencia escribe lo siguiente exactamente: atgcccggccccccaggggggcagaggcgccgc. Puede ser minúscula o mayúsculas. Una vez escrita la secuencia, click en el Blast . 7. A veces el servidor esta ocupado y los resultados tardan, solo hay que tratar de nuevo. A continuación hay un ejemplo de cómo se pueden esperar los resultados> 5 Al observar el reporte del Blastn nuestra secuencia presenta un pareo mejor con la proteína efectora CD42 humana. Esta fue la que obtuvo la mayor puntuación. Revisión de las dos secuencias alineadas muestra que nuestra secuencia de 32 nucleótidos es idéntica al segmento de nucleótido de CDC42. Como regla general, una identidad de nucleótidos de mas de 21 pb entre dos muestras indica usualmente que las secuencias están relacionadas. Excepción los poli A. Ejercicio 1: Para familiarizarse con las autoradiografias lea la secuencia #1. - comience en la flecha y léala desde abajo por los primeros 20 nucleótidos. Regístrela y sométala al NCBI con blastn. - Comiéncela de nuevo pero léala hasta cubrir 30 nucleótidos. Registre, sométala usando blastn. - La secuencia se puede introducir directamente o leer, pasarla a un papel y luego al programa. - Es critico que usted no confunda los carriles mientras lee. La gel contiene carriles para A, C, G T de izquierda a derecha. - Leer secuencias implica leer desde 53, esto se consigue de abajo hacia arriba. - Note que la mayor parte del espacio entre nucleótidos y la intensidad de las bandas es básicamente similar. Ignore las bandas pálidas y escoja las oscuras. Resultados para muestra 1: - cuales son los nombres de los genes? - A cuales especies pertenecen los genes? Ejercicio 2 Ahora que estas familiarizado con la búsqueda por blast, lea la secuencia para la autoradiografia 2. Si hay duda en cuales bandas escoger, use su juicio. 6 Ahora Lea la secuencia, comenzando unos 6 cm mas arriba del comienzo. Debe leer como sigue 5’…ggacgacggtatggaatagagaggaagttcct..3’ - Someta la secuencia usando blasn - Recuerde que la secuencia se introduce 53 - El DNA es DS y contiene hebra superior 53 y la inferior 35. Algunas veces estas corresponden a la hebra codificante y no codificante. - Si hay duda de las posiciones exactas con bandas exactas, use una N que significa que puede ser cualquier nucleótido. - Una vez se reciba los resultados, baje y busque - Cual es el nombre del gen? - Compárela con la secuencia del genbank, cual hebra usted leyó? Ejercicio 3. - Las secuencias se pueden acceder buscando en el GenBank por su numero de acceso. - La información mostrada describe la secuencia del DNA y o el gen, los científicos que contribuyeron y cierta información como la proteína y la secuencia de aminoácido para el cual codifica. - Resultados para la muestra 3: - Cual es el nombre del gen? - Aproximadamente cuantos aminoácidos tiene este gen? Ejercicio 4 - Esta sección demuestra la interacción de dos proteínas codificadas por dos genes. Las interacciones proteína a proteína juegan un rol importante en virtualmente todos los procesos celulares.: - Transducción de señal Lea la secuencia de DNA de la muestra 4. Comience desde abajo y registre la secuencia Luego comience 1/3 de la secuencia mas arriba y lea la secuencia desde ahí. Someta cada secuencia por separado usando Blastn Resultados de la muestra 4: - esta muestra contiene dos secuencias de DNA, Cuales son los nombres de los genes? - Cuales son las funciones de las dos proteínas codificadas? - Como estas proteínas interactúan en una célula? Parte II – Secuenciación: 7 Aunque la secuenciación del DNA existe desde los tempranos 1970, no fue hasta los 90s que el proceso completo fue automatizado. En particular la automatización por secuenciadores de DNA analiza rápida y eficientemente reacciones de secuenciación en un secuenciador de un solo carril donde corren todas las reacciones dideoxi con fluorocromos fluorescentes. De esta forma se pensaba secuenciar el genoma humano para el 2002, pero se logro terminar para el 2006. El proyecto del genoma human pretendía determinar la localización de los 80-100000 genes del genoma humano. La combinación de la secuenciación y la bioinformática crearía una herramienta muy útil para el diagnostico clínico. La revolución genética continuara generando nuevos descubrimientos. Mientras los científicos siguen identificando genes que causan enfermedades o diferencias fenotípicas hay un peligro creciente de ver los seres humanos como meramente un conjunto de genes. Entendiendo lo ético, legal, y social con sus implicaciones en el conocimiento genético y en el desarrollo de pólizas y opciones para la consideración publica. Por ejemplo los desordenes psiquiátricos que se están tratando de caracterizar científicamente como esquizofrenia, la inteligencia y la conducta criminal en términos de genes. La ética detrás del monitoreo prenatal para enfermedades en embriones humanos Los datos determinados por el lector laser es enviados a la por los robots es impresa a colores con picos para cada color: Ejercicio 1: Ahora que estas familiarizados en la entrada de datos, lea el análisis de la secuencia del secuenciador automático 1, 2, 3, (cualquier carril). Se le proveerán ejemplos de los reportes de un secuenciador automático. Note los colores de los picos que son verdes, azules, negros y rojos, cada uno especificando un nucleótido, (A, C, G, y T, respectivamente). Para la secuencia que se le proveyó: - lea la secuencia de DNA de uno de las hojas impresas - Identifique la secuencia de nucleótidos de este análisis de gel (100-200) - Escriba aproximadamente 70 bases en la caja de búsqueda usand blastn de NCBI. - Usando blastn busque la base de datos NR, identifique el gen que esta secuencia identifica - Pueden variar los nombres - La secuencia es siempre entrada 53 8 - DNA es cadena doble, y pueden ser codificante o no codificante la cadena que se lee. Cual es el nombre del gen? Comparado al genBank, cual es la cadena que usted leyó? Ejercicio # 2 - Las secuencias se pueden acceder usando el numero de acceso de GenBank - La información mostrada describe la secuencia de DNA y el gene, los científicos e información de la proteína y los aminoácidos para los cuales codifica - Intercambien el documento del secuenciador con otro grupo - Someta la secuencia a un análisis blast. Referencias: NCBI – National Center for Biotechnology Information CSHL – Cold Spring Harbor Laboratory – Animations 9