Genómica funcional Adanay M ARTÍN P ÉREZ C INVESTAV 1 de agosto del 2013 Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 1 / 56 Introducción Introducción El campo de la genómica abarca dos áreas principales, la genómica estructural y la genómica funcional. La primera se ocupa principalmente de las estructuras del genoma, con un enfoque en el estudio del mapeo y ensamble del mismo, así como su anotación y comparación. La última hace énfasis principalmente en las funciones de los genes en todo el genoma. El énfasis aquí está en el alto rendimiento, que es el análisis simultáneo de todos los genes en un genoma. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 2 / 56 Introducción Introducción Esta función es de hecho lo que separa a la genómica de la biología molecular tradicional, que estudia sólo un gen a la vez. El análisis de alto rendimiento de todos los genes expresados también se denomina análisis de transcriptoma, que es el análisis de la expresión de todo el conjunto de moléculas de ARN producidas por una célula bajo un conjunto de condiciones dadas. En la práctica, el ARN mensajero (ARNm) es la única especie de ARN que se estudia. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 3 / 56 Introducción Introducción El análisis de transcriptoma facilita nuestra comprensión de cómo los conjuntos de genes trabajan juntos para formar las vías metabólicas, de regulación y señalización dentro de la célula. Además revela los patrones de genes coexpresados y corregulados y permite la determinación de las funciones de los genes que fueron caracterizados con anterioridad. En resumen, la genómica funcional ofrece información sobre las funciones biológicas de todo el genoma a través del análisis de expresión automatizado de alto rendimiento. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 4 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Etiquetas de secuencias expresadas Uno de los enfoques de alto rendimiento es la secuenciación de etiquetas de secuencias expresadas (expressed sequence tags) (EST). Las EST son secuencias cortas obtenidas a partir de clones de ADNc (ADN complementario) y sirven como identificadores cortos de genes. Las EST son típicamente del rango de 200 a 400 nucleótidos de longitud obtenidos a partir de ya sea el extremo 5’ o 3’ de los insertos de ADNc. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 5 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Etiquetas de secuencias expresadas Existen varias bibliotecas de clones de ADNc que se preparan mediante la transcripción inversa de poblaciones aisladas de ARNm utilizando diferentes técnicas. Para generar datos de EST, se seleccionan al azar clones de las bibliotecas de ADNc. Los datos de EST son capaces de proporcionar una estimación aproximada de los genes que se expresan de forma activa en un genoma bajo una condición fisiológica en particular. Esto es debido a que las frecuencias de EST particulares reflejan la abundancia del ARNm correspondiente en una célula, que a su vez corresponde a los niveles de expresión génica bajo la condición dada. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 6 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Desventajas Las secuencias EST suelen ser de baja calidad, ya que se generan de forma automática y sin verificación; y por lo tanto contienen altos porcentajes de errores. Muchas bases son determinadas como ambiguas y representadas por N. Las secuencias de genes en el extremo 3’ tienden a ser más fuertemente representadas que aquellas en el extremo 5’, debido a las técnicas utilizadas de transcripción inversa. Por desgracia, las secuencias del extremo 3’ son también más propensas a errores, debido a la baja calidad de base al comienzo de la secuencia. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 7 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Desventajas Otro problema de las EST es la presencia de clones quiméricos debido a artefactos de clonación en la construcción de la biblioteca, en la que más de una transcripción se liga a un clon resultante del extremo 5’ de un gen y el extremo 3’ de otro gen. Se ha estimado que hasta el 11 % de los clones de ADNc pueden ser quiméricos. Además, principalmente representan transcripciones abundantes y altamente expresadas. Los genes débilmente expresados apenas se encuentran en una secuenciación EST. A pesar de estas limitaciones, la tecnología EST sigue siendo ampliamente utilizada. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 8 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Ventajas Las bibliotecas EST se pueden generar fácilmente a partir de diversas líneas de células, tejidos y órganos en diversas etapas de desarrollo. Aunque las EST individuales son propensas a errores, toda una colección de EST contiene información valiosa. A menudo, después de la consolidación de múltiples secuencias EST, se puede derivar un ADNc de longitud completa. La rápida acumulación de secuencias EST ha llevado a la creación de bases de datos públicas y privadas para archivar los datos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 9 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas dbEST La base de datos dbEST (www.ncbi.nlm.nih.gov/dbEST/) contiene colecciones de EST para un gran número de organismos (> 250). La base de datos se actualiza regularmente para reflejar el progreso de varios proyectos de secuenciación EST. Cada secuencia EST recién presentada es sujeta a una búsqueda de similitud en base de datos. Si se encuentra una fuerte similitud con un gen conocido, es anotado en consecuencia. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 10 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Construcción de índices EST Uno de los objetivos de la bases de datos de EST es organizar y consolidar los datos de EST en gran medida redundantes, para mejorar la calidad de la información de secuencias y que los datos puedan ser utilizados para extraer el ADNc de longitud completa. El proceso incluye una etapa de preprocesamiento que elimina los vectores contaminantes. Por ejemplo, para detectar secuencias de vectores bacterianos se puede utilizar Vecscreen. Esto es seguido por una etapa de agrupamiento que asocia secuencias EST con genes únicos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 11 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Construcción de índices EST El siguiente paso es derivar secuencias de consenso por fusión redundante, EST superpuestas y corregir errores, dando como resultado secuencias EST más largas. El procedimiento es algo similar al ensamble de genoma. Por último, las regiones de codificación se definen a través de la utilización de algoritmos de búsqueda de genes basados en HMM. Esto ayuda a excluir intrones potenciales y secuencias 3’ no traducidas. Una vez que se identifica la secuencia de codificación, ésta puede ser anotada traduciéndola en secuencias de proteínas para búsquedas de similitud en base de datos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 12 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Construcción de índices EST Las EST compiladas también se pueden alinear con la secuencia genómica si está disponible para identificar el locus del genoma del gen expresado, así como los límites intrón-exón del gen. Esto se realiza generalmente mediante el programa SIM4 (http://pbil.univ-lyon1.fr/sim4.php). El proceso de agrupación que reduce la redundancia de EST y produce una colección de secuencias EST no redundantes y anotadas se conoce como índice de construcción genética. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 13 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas UniGene UniGene (www.ncbi.nlm.nih.gov/UniGene/) es una base de datos de clústeres EST. Cada grupo es un conjunto de secuencias EST superpuestas que se procesan computacionalmente para representar un único gen expresado. La base de datos se construye sobre la base de información combinada de dbEST, GenBank, bases de datos de ARNm y ADN genómico. Sólo se agrupan EST de extremos 3’ para minimizar el problema de quimerismo. El siguiente paso es eliminar las secuencias contaminantes que incluyen vectores bacterianos. Las EST resultantes se utilizan para la búsqueda contra una base de datos de genes únicos conocidos (base de datos EGAD) con el programa BLAST. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 14 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas UniGene La etapa de compilación identifica secuencias solapadas y deriva secuencias de consenso utilizando el programa de CAP3. Durante este paso, los errores en EST individuales se corrigen; y las secuencias son entonces divididas en grupos y ensambladas en contigs. El resultado final es un conjunto de agrupaciones no redundantes y orientadas a genes, conocidas como UniGene. Cada clúster UniGene representa un gen único anotando su función e información del locus del gen, así como información relacionada con el tipo de tejido donde el gen se ha expresado. El procedimiento de agrupación se resume en la siguiente figura. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 15 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas Pasos para procesar secuencias EST para la construcción de la bases de datos UniGene Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 16 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas TIGR Gene Indices TIGR Gene índices (www.tigr.org/db /tgi.shtml) es una base de datos de EST que utiliza un método de agrupación diferente de UniGene. En este caso se recopilan datos de dbEST, GenBank ARNm y datos de ADN genómico, además de la propia base de datos de secuencia TIGR. Las secuencias sólo se agrupan si son más del 95 % idénticas en las comparaciones por pares de regiones de nucleótidos de longitud mayor a 40. Se utiliza BLAST y FASTA para identificar las secuencias que se solapan. En la etapa de ensamble de secuencias, se utilizan tanto TIGR Assembler como CAP3 para construir contigs, produciendo el llamado consenso provisional o tentativo (TC). Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 17 / 56 Enfoque basado en secuencias Etiquetas de secuencias expresadas TIGR Gene Indices Para evitar el quimerismo, se agrupan transcripciones sólo si coinciden plenamente con los genes conocidos. La asignación funcional se da luego al TC y se basa fuertemente en búsquedas BLAST en bases de datos de proteínas. Los índices de genes TIGR sirven como una alternativa a las agrupaciones UniGen y muestran secuencias recopiladas EST, anotación funcional y resultados de búsqueda de similitud en bases de datos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 18 / 56 Enfoque basado en secuencias SAGE SAGE El análisis en serie de la expresión génica (serial analysis of gene expression) (SAGE) es otro enfoque de alto rendimiento basado en secuencias para el análisis de la expresión global de genes. En este método, se toman fragmentos cortos de ADN (por lo general 15 pares de bases [pb]) a partir de secuencias de ADNc y se utilizan como marcadores únicos de las transcripciones de genes. Los fragmentos de secuencias se denominan etiquetas, que posteriormente son analizadas computacionalmente de manera consecutiva (en serie). Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 19 / 56 Enfoque basado en secuencias SAGE Ventajas Si un clon promedio tiene un tamaño de 700 pb, puede contener hasta 50 etiquetas de secuencias (15 pb cada una), lo que significa que el método SAGE puede ser al menos cincuenta veces más eficiente que la secuenciación EST. Por lo tanto, el análisis SAGE ofrece mejores oportunidades de detectar los genes expresados débilmente. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 20 / 56 Enfoque basado en secuencias SAGE Desventajas La escala y el coste de la secuenciación requerida para el análisis SAGE son prohibitivos para la mayoría de los laboratorios. Es sensible a los errores de secuenciación debido al pequeño tamaño de las etiquetas de oligonucleótidos para la representación de la transcripción. Además, una etiqueta SAGE correcta a veces puede corresponder a varios genes o a ningún gen en absoluto. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 21 / 56 Enfoque basado en secuencias SAGE Herramientas de software para el análisis SAGE SAGEmap (www.ncbi.nlm.nih.gov/SAGE/) SAGE xProfiler (www.ncbi.nlm.nih.gov/SAGE/sagexpsetup.cgi) SAGE Genie (http://cgap.nci.nih.gov/SAGE) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 22 / 56 Enfoque basado en micro-arrays Enfoque basado en micro-arrays El método de perfiles de expresión génica global más utilizado en la investigación genómica actual es el enfoque basado en micro-arrays de ADN. Un micro-array (o chip génico) es una superficie sólida (de vidrio o plástico) a la cual se une una matriz de alta densidad de oligómeros de ADN que representan la totalidad del genoma de la especie en estudio. Cada oligómero sirve como una sonda para la unión a un único ADNc. Toda la población de ADNc, marcada con colorantes fluorescentes o radioisótopos, se hibridizan con las sondas de oligonucleótidos en el chip. La cantidad de fluorescentes o marcadores radiactivos en cada posición refleja la cantidad de ARNm correspondiente en la célula. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 23 / 56 Enfoque basado en micro-arrays Diseño de oligonucleótidos Diseño de oligonucleótidos Los micro-arrays de ADN se generan mediante la fijación de oligonucleótidos sobre un soporte sólido, tal como un portaobjetos de vidrio, utilizando un dispositivo robótico. Un oligonucleótido es una secuencia corta de ADN o ARN. Su longitud está típicamente en el intervalo de veinticinco hasta setenta bases de largo. Para diseñar secuencias óptimas de oligonucleótidos para micro-arrays, se utilizan los siguientes criterios. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 24 / 56 Enfoque basado en micro-arrays Diseño de oligonucleótidos Criterios para el diseño de oligonucleótidos Las sondas deben ser lo suficientemente específicas para minimizar la hibridación cruzada con los genes no específicos. Esto requiere búsquedas BLAST contra bases de datos de genomas para encontrar regiones de secuencias con menos similitud con los genes no objetivo. Las sondas deben ser sensibles y carentes de regiones de baja complejidad (una cadena de nucleótidos idénticos). Las secuencias de oligonucleótidos no deben formar estructuras internas secundarias estables, tales como una estructura de horquilla (hairpin), lo que podría interferir con la reacción de hibridación. Programas como como Mfold pueden ayudar a detectar estructuras secundarias. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 25 / 56 Enfoque basado en micro-arrays Diseño de oligonucleótidos Criterios para el diseño de oligonucleótidos El diseño debe estar cerca del extremo 3’ del gen debido a que la colección de ADNc a menudo está predispuesta para el extremo 3’. Además, por conveniencia, todas las sondas deberían tener una temperatura de fusión aproximadamente igual y un contenido de GC de 45 % a 65 %. Actualmente se han desarrollado varios programas que utilizan estas normas en el diseño de secuencias de sondas de micro-arrays. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 26 / 56 Enfoque basado en micro-arrays Diseño de oligonucleótidos Herramientas de software para el diseño de oligonucleótidos Actualmente se han desarrollado varios programas que utilizan estas normas en el diseño de secuencias de sondas de micro-arrays. OligoWiz (www.cbs.dtu.dk/services/OligoWiz/) OligoArray (http://berry.engin.umich.edu/oligoarray2/) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 27 / 56 Enfoque basado en micro-arrays Colecciones de datos Colecciones de datos El tipo más común de protocolo de micro-arrays es el micro-array de dos colores, que consiste en etiquetar un conjunto de ADNc a partir de una condición experimental con un colorante (Cy5, fluorescencia roja) y otro conjunto de ADNc a partir de una condición de referencia (los controles) con otro colorante (Cy3, fluorescencia verde). Cuando las dos muestras de ADNc etiquetadas de forma diferente se mezclan en igual cantidad y se dejan hibridizar con las sondas de ADN en los chips, los patrones de expresión de genes de ambas muestras se pueden medir simultáneamente. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 28 / 56 Enfoque basado en micro-arrays Colecciones de datos Colecciones de datos La imagen del micro-array hibridado es capturada mediante un escáner láser que escanea cada punto del micro-array. Dos longitudes de onda del haz de láser se utilizan para excitar los tintes fluorescentes rojos y verdes y producir fluorescencia roja y verde, que se detecta mediante un tubo fotomultiplicador. Por lo tanto, para cada punto del micro-array, se registran señales de fluorescencia verde y roja. Las dos imágenes de fluorescencia se superponen para crear una imagen compuesta, que indica los niveles relativos de expresión de cada gen. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 29 / 56 Enfoque basado en micro-arrays Colecciones de datos Colecciones de datos Si un gen se expresa a un nivel más alto en la condición experimental (rojo) que en el control (verde), el punto muestra un color rojo plato. Si el gen se expresa a un nivel inferior que el control, el punto aparece verdoso. Si se tiene la misma cantidad de fluorescencia verde y roja, da como resultado una mancha amarilla. La imagen de color se almacena como un archivo de ordenador (en formato TIFF) para su posterior procesamiento. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 30 / 56 Enfoque basado en micro-arrays Procesamiento de imágenes Procesamiento de imágenes El procesamiento de imágenes consiste en localizar y cuantificar los puntos de hibridación y separar las señales de hibridación verdaderas del ruido de fondo. El ruido de fondo y los artefactos producidos en este paso incluyen la hibridación no específica, las irregularidades de la superficie de deslizamiento, y la presencia de contaminantes tales como el polvo. Los programas de ordenador se utilizan para localizar correctamente los límites de las manchas y medir las intensidades de las imágenes in situ después de restar los píxeles de fondo. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 31 / 56 Enfoque basado en micro-arrays Procesamiento de imágenes Procesamiento de imágenes Luego, las señales se convierten en números y se informan como proporciones entre Cy5 y Cy3 para cada punto. Esta proporción representa los cambios relativos de expresión y refleja el cambio en la cantidad de ARNm en condiciones experimentales versus condiciones de control. Los datos se presentan a menudo como falsos colores de diferentes intensidades de rojo y verde en función de si las relaciones están por encima o por debajo de 1 respectivamente. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 32 / 56 Enfoque basado en micro-arrays Procesamiento de imágenes Procesamiento de imágenes Las regiones con cantidades igual de ARNm experimental y de control (amarillo en los datos en bruto), se muestran en negro. Las imágenes en falso color se presentan en cuadros en una matriz de genes versus condiciones, para que los genes expresados pueden ser analizados más fácilmente. Los fabricantes de escáneres de micro-arrays suelen ofrecer programas de software para llevar a cabo el análisis de imágenes de micro-arrays. También existe un pequeño número de programas de software libre de procesamiento de imágenes disponibles en Internet. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 33 / 56 Enfoque basado en micro-arrays Herramientas de procesamiento de imágenes Herramientas de procesamiento de imágenes ArrayDB (http://genome.nhgri.nih.gov/arraydb/) ScanAlyze (http://rana.lbl.gov/EisenSoftware.htm) TIGR Spotfinder (http://www.tigr.org/softlab/) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 34 / 56 Enfoque basado en micro-arrays Transformación y normalización de datos Transformación y normalización de datos Tras el procesamiento de imágenes, los datos de expresión de genes digitalizados tienen que ser procesados antes de poder identificar los genes expresados diferencialmente. Este proceso se conoce como normalización de los datos y está diseñado para corregir el sesgo debido a las variaciones en la recopilación de datos de micro-arrays como consecuencia de las diferencias biológicas intrínsecas. Cuando la intensidad de fluorescencia Cy5 se representa frente a Cy3, la mayoría de los datos se agrupan cerca de la parte inferior izquierda del diagrama, que muestra una distribución no normal de los datos en bruto. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 35 / 56 Enfoque basado en micro-arrays Transformación y normalización de datos Transformación y normalización de datos Se cree que esto es un resultado del desequilibrio de intensidades de rojo y verde durante el muestreo in situ, lo que resulta ineficaz en la discriminación de los genes expresados diferencialmente. La normalización de los datos ofrece una manera mucho más fácil para su comparación y visualización. A veces, los datos no se ajustan a una relación lineal, debido a errores de muestreo sistemático. En este caso, una regresión no lineal puede producir un mejor ajuste y ayudar a eliminar el sesgo. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 36 / 56 Enfoque basado en micro-arrays Transformación y normalización de datos Diagrama de dispersión del análisis de expresión génica que muestra el proceso de normalización de datos. Intensidad de la señal de fluorescencia de Cy5 frente Cy3. Los mismos datos después de la transformación a logaritmo de base 2. Intensidad media logarítmica frente a la relación de las dos intensidades de fluorescencia. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 37 / 56 Enfoque basado en micro-arrays Transformación y normalización de datos Herramientas de transformación y normalización de datos Los dos programas siguientes están disponibles gratuitamente. Los mismos se especializan en el análisis de imágenes y la normalización de datos. Arrayplot (www.biologie.ens.fr/fr/genetiqu/puces/publications/arrayplot/index.ht SNOMAD (http://pevsnerlab.kennedykrieger.org/snomadinput.html) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 38 / 56 Enfoque basado en micro-arrays Análisis estadístico Análisis estadístico La única manera de asegurar que un gen que parece estar expresado diferencialmente lo está realmente es llevando a cabo múltiples experimentos replicados y pruebas estadísticas. Los experimentos repetidos proporcionan puntos de datos replicados que ofrecen información sobre la variabilidad de los datos de expresión en una condición particular. Para estas pruebas, es común el uso de un nivel de confianza del 95 % para distinguir los grupos de datos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 39 / 56 Enfoque basado en micro-arrays Análisis estadístico Análisis estadístico El principal obstáculo para la obtención de múltiples conjuntos de datos replicados es el costo: los experimentos de micro-arrays son extremadamente caros para los laboratorios de investigación regulares. Si los conjuntos de datos replicados están disponibles, las pruebas estadísticas rigurosas como ast-test y el análisis de la varianza (ANOVA) pueden llevarse a cabo para probar la hipótesis nula de que un punto de datos dado no es significativamente diferente de la media de la distribución de los datos. La información sobre la distribución de los puntos de datos en condiciones particulares puede ayudar a responder a la cuestión de si la diferencia es significativa. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 40 / 56 Enfoque basado en micro-arrays Análisis estadístico Herramientas para el análisis estadístico MA-ANOVA (www.jax.org/staff/churchill/labsite/software/anova/) Cyber-T (http://visitor.ics.uci.edu/genex/cybert/)v Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 41 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Clasificación de datos de micro-arrays Una de las características clave del análisis de micro-arrays de ADN es el estudio de la expresión de muchos genes en paralelo y la identificación de grupos de genes que exhiben patrones de expresión similares. Los patrones de expresión similares son a menudo un resultado del hecho de que los genes implicados están en la misma vía metabólica y tienen funciones similares. Para descubrir los genes con patrones de expresión similares se requiere dividir los datos en subconjuntos de acuerdo a su similitud. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 42 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Medidas de distancia El primer paso hacia la clasificación de genes es definir una medida de la distancia o diferencia entre los genes. Esto requiere la conversión de la matriz de la expresión génica en una matriz de distancia. La distancia puede ser expresada como la distancia euclidiana o el coeficiente de correlación de Pearson. La distancia euclidiana está dada por la siguiente fórmula qP n 2 d= i=1 (xi − yi ) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 43 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Medidas de distancia Las distancias euclidianas son ampliamente utilizadas pero cuando las variaciones entre los genes son muy pequeñas, los perfiles de genes pueden ser muy difíciles de diferenciar. Como alternativa, se puede utilizar un coeficiente de correlación de Pearson entre dos grupos de puntos de datos. Éste mide la similitud general entre las tendencias o formas de los dos conjuntos de datos. En esta medida, una correlación positiva perfecta es 1 y una correlación negativa perfecta es -1. P d = 1/n ni=1 ((xi − x̄)/(sdi ))((yi − ȳ )/(sdi )) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 44 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Clasificación supervisada y no supervisada En base a las distancias calculadas entre los genes en un perfil de expresión, los genes con patrones de expresión similares pueden ser agrupados. El análisis de clasificación puede ser con o sin supervisión. Un análisis supervisado se refiere a la clasificación de los datos en un conjunto de categorías predefinidas. Un análisis no supervisado no asume categorías predefinidas, pero identifica las categorías de datos de acuerdo a la similitud de los patrones reales. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 45 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Clasificación supervisada y no supervisada Los algoritmos de agrupamiento se pueden dividir en dos tipos, aglomerantes y divisivos. Un método de aglomeración comienza agrupando dos puntos y va fusionando sucesivamente los grupos de datos de acuerdo a su similitud, hasta que se combinan todos los grupos. Un método de división funciona al revés, agrupando todos los puntos de datos en un solo grupo y dividiendo sucesivamente los datos en grupos más pequeños según su diversidad, hasta que se resuelvan todos los niveles jerárquicos. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 46 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Método de agrupación jerárquico En un método de agrupación jerárquico se produce una estructura arbórea que representa una jerarquía. En las hojas de los árboles se colocan los perfiles de expresión de genes que están más cerca entre sí. El patrón de ramificación del árbol ilustra el grado de relación entre los grupos de genes relacionados. Es importante señalar que a pesar de que se produce una estructura de árbol como resultado final, éste no tiene sentido evolutivo, sino que simplemente representa las agrupaciones de patrones de similitud en la expresión génica. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 47 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Método de agrupación k-means En contraste con los algoritmos de agrupación jerárquica, la agrupación k-means no produce un dendrograma, en su lugar clasifica los datos particionándolos en cada paso. Por lo tanto, es un enfoque de división. En este método, los datos se dividen en k grupos. El valor de k se define normalmente al azar, pero se puede ajustar si los resultados son insatisfactorios. El patrón de ramificación del árbol ilustra el grado de relación entre los grupos de genes relacionados. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 48 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Método de agrupación k-means En cada paso del algoritmo los puntos se asignan al azar a cada grupo y se calcula la media del grupo (centroide). También se calculan las distancia desde cada punto hacia el centroide. Si se encuentra un punto de datos más cerca del centroide de un grupo determinado que de cualquier otro centroide, se retiene en la partición. De lo contrario, está sujeto a reasignación en la siguiente iteración. Este proceso se repite hasta que las distancias entre los puntos de datos y los nuevos centroides ya no disminuyan. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 49 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Método de agrupación k-means El método de k-means puede no ser tan preciso como la agrupación jerárquica, dado que es sensible a la selección del número arbitrario inicial de clústeres. Si no se consideran todas las particiones iniciales posibles, se puede alcanzar una solución subóptima. Sin embargo, computacionalmente hablando, es más rápido que la agrupación jerárquica y sigue siendo ampliamente utilizado. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 50 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Mapas de auto-organización Este método es en principio similar al método de k-means. Es un algoritmo de reconocimiento de patrones que emplea redes neuronales. Se inicia mediante la definición de un número de nodos. Los puntos de datos se asignan inicialmente a los nodos al azar. Se calcula la distancia entre los puntos de datos de entrada y los centroides. Después de muchas iteraciones, se alcanza un patrón de agrupamiento estabilizado con distancias mínimas de los puntos de datos a los centroides. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 51 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Mapas de auto-organización Las diferencias entre SOM (self-organizing mappings) y k-means es que en SOM los nodos no son tratados como entidades aisladas, sino que considera las conexiones a otros nodos. El cálculo de los valores de los centroides de SOM tiene en cuenta no sólo la información dentro de cada grupo, sino también la información de grupos adyacentes. Esto permite que el análisis sea mejor en el manejo de datos ruidosos. Este tipo de algoritmo también es mucho más lento que el método de k-means. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 52 / 56 Enfoque basado en micro-arrays Clasificación de datos de micro-arrays Programas de agrupamiento Cluster (http://rana.lbl.gov/EisenSoftware.htm) EPCLUST (www.ebi.ac.uk/EP/EPCLIST) TIGR TM4 (www.tigr.org/tm4) Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 53 / 56 Conclusiones Conclusiones El análisis de transcriptoma utilizando EST, SAGE y micro-arrays de ADN constituye el núcleo de la genómica funcional y es clave para la comprensión de las interacciones de los genes y su regulación a nivel de todo el genoma. El muestreo EST, aunque ampliamente utilizado, tiene una serie de inconvenientes en cuanto a las tasas de errores, la eficiencia y el costo. El alto rendimiento de SAGE y los enfoques de micro-arrays de ADN proporcionan una medida más cuantitativa de la expresión génica global. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 54 / 56 Conclusiones Conclusiones SAGE mide los niveles de expresión de ARNm absolutos, mientras que los micro-arrays indican los niveles de expresión relativos del ARNm. Los micro-arrays de ADN actualmente gozan de mayor popularidad debido a la relativa facilidad de la experimentación. Las técnicas de agrupación de datos de micro-arrays más populares incluyen la agrupación jerárquica, SOM, y k-means. Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 55 / 56 Conclusiones Conclusiones En conclusión, entre las tres técnicas para el estudio de la expresión génica global, la más popular es micro-arrays de ADN, el cual tiene la capacidad de proporcionar información que no es posible con las técnicas tradicionales. Sin embargo, también hay que ser conscientes de sus limitaciones. Esta técnica es un procedimiento de múltiples etapas en que errores y sesgos se pueden introducir en cada paso (secuenciación, procesamiento de imágenes, normalización, y elección del método de clasificación). Adanay M ARTÍN P. (C INVESTAV) Genómica funcional 1 de agosto del 2013 56 / 56