BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 1 XLVII Congreso Nacional de Ciencias Biológicas Fecha: Octubre 08, 2012 Conferencista: Juliana Soto Girón, Msc TRANSCRIPTOMICA: análisis estadísticos para microarreglos Objetivos: Conocer los fundamentos de la experimentación con microarreglos y los análisis de la expresión génica en varias Manejar algunos paquetes software útiles en la interpretación de los datos de expresión extraidos de una plataforma de microarreglos. Aplicar técnicas de minería de datos más habituales en bioinformática al análisis de datos procedentes de microarreglos. 1. Ejercicio práctico 1. Descarga programa RMA Descargue e instale RMA del siguiente URL: http://rmaexpress.bmbolstad.com/ En la página del programa dele clic en la opción Windows versión para descargar la actual versión de widows. Doble clic en el archivo ejecutable RMAexpress1.0.5. Habilite los permisos de instalación En el setup dele clic en next y luego install Doble clic en el para abrirlo 2. Descarga de las plataformas de expresión de genes para analizar Ingrese a la base de datos GEO Datasets del NCBI en el siguiente URL: http://www.ncbi.nlm.nih.gov/gds Para este ejercicio se utilizaran los datos del experimento “Estrogen effect on breast cancer cell line: time course” con el dataset GDS3285 y la plataforma GPL570. El estudio consiste en un análisis de expresión génica temporal de células MCF-7 con cáncer de mama tratadas con estrógeno por un tiempo de 12 horas. Para mayor información leer: Carroll JS, Meyer CA, Song J, Li W et al. Genome-wide analysis of estrogen receptor binding sites. Nat Genet 2006 Nov;38(11):1289-97. Dentro de la base de datos busque e ingrese al data set GDS3285. En la opción Reference Series haga clic en la serie GSE1124 Descargue el archivo.tar de los valores de expresión de la serie GSE1124 y guarde los archivos .CEL (tras descomprimir el archivo .tar) en una misma carpeta: BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 2 XLVII Congreso Nacional de Ciencias Biológicas Supplementary file GSE11324_RAW.tar Size 102.1 Mb Download (ftp)(http)(custom) File type/resource TAR (of CEL) Nota: los archivos .CEL contienen la información de las imágenes escaneadas de cada una de las sondas del array como también su ubicación física (coordenadas de fila y de columna). En el archivo .CDF está la información del mapa del microarray necesario para la correlación en la localización de la sonda-set y permite correlacionar los valores de intensidad entre las sondas y los nombres de los genes. Descargue el HG-U133_Plus_2.cdf de la plataforma de Affymetrix [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array en el siguiente URL: http://www.aroma-project.org/chipTypes/HGU133_Plus_2, descomprímalo y guárdelo en la misma carpeta donde están el archivos. CEL Tiempo en que se midió la expresión en cada una de las muestras GSM286031 0hr 1 GSM286032 0hr 2 GSM286033 0hr 3 GSM286034 3hr 1 GSM286035 3hr 2 GSM286036 3hr 3 GSM286037 6hr 1 GSM286038 6hr 2 GSM286039 6hr 3 GSM286040 12hr 1 GSM286041 12hr 2 GSM286042 12hr 3 3. Ejecutar RMA, cargar archivos y Doble clic en el ejecutable de RMA para abrirlo Clic en file y luego en Read Unprocessed files. Seleccione primero el archivo .CDF y clic en open seleccione los arhicvos.CEl y clic en open Aparecerá un cuadro indicando que los archivos se están cargando. Clic en File y luego en Compute RMA measure en la nueva ventana: Select Preprocessing steps están los parámetros para hacer la normalización de los datos. Clic ok para normalizar los valores de expresión. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 3 XLVII Congreso Nacional de Ciencias Biológicas Después de que termine el análisis aparece un mensaje en la consola: “Done computing RMA expression Measure”. En la opción File del menú aparecerán varias opciones para guardar el resultado: • Write Results to file (log scale): valores de expresión a escala logarítmica en un archivo de texto • Write Results to file (natural scale): valores de expresión en logaritmo natural en un archivo de texto • Export expression values: valores de expresión en formato de archivo binario. 4. Visualización de los datos: clic en la opción show y luego en Visualize Raw Data. Aparecerá otra ventana. En la opción Draw, clic en Boxplots La gráfica que aparece consiste en los boxplots de las intensidades de los PM (perfect match) en log2 para cada uno de los array (experimentos). En la opción Draw, clic en Density plots. La gráfica que se muestra es una curva de densidad de las intensidades de los PM en log2, cada curva representa un experimento. 5. Descarga e instalación del programa Mev (MultiExperiment Viewer): Descargue el programa del URL: http://www.tm4.org/mev/ Doble clic en el archivo ejecutable Mev, En la opción file, clic en Load Data, en la nueva ventana clic en Browse y cargue el archivo con los valores normalizados en formato .txt. Para cargar la plataforma de affimetrix puede ser de dos opciones: conectándose con el servidor y descargarla de forma automática o subirla desde un archivo local (se utiliza el archivo .CDF con las anotaciones de los genes). Cuando los dos archivos estén listos, clic en Load. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 4 XLVII Congreso Nacional de Ciencias Biológicas 6. Análisis de la expresión de genes con MeV Después de cargar los datos, aparecerá un Heatmap que representa los valores de expresión en un rango de rojo (sobre-expresado) a verde (reprimido). Cada fila hace referencia a un gen y cada columna a un array/experimento. Si quiere conocer la información básica de su data set, haga clic en analysis Results y luego en Data Source Selection Information. Encontrará el número de genes y de muestras que se están analizando. Filtrado: Muchos conjuntos de datos contienen decenas a cientos de miles de genes, por lo que el filtrado de los que contienen poca información biológica facilita el análisis. Para el filtrado haga clic en la opción Adjust Data, luego en Data Filters, luego Variance Filter: coloque el valor del porcentaje que desea filtrar (default: 50%, cambiarlo a 35%), entre mas bajo el porcentaje, menos se seleccionaran. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 5 XLVII Congreso Nacional de Ciencias Biológicas - Los datos filtrados se pueden visualizar en la opción Data Filter: Expression Image en el resumen de los análisis (columna izquierda). - Para modificar los colores del heat map, clic en Display, luego Color scheme, y Rainbow Scheme. Análisis de agrupamiento de muestras y genes: - clic en Clustering, luego Hierarchical Clustering. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 6 XLVII Congreso Nacional de Ciencias Biológicas - Parámetros (by default): - Distance Metric Selection: Pearson correlation or Euclidean distance - seleccione solo Gene Tree y luego ok - para mirar el nuevo agrupamiento, clic en HCL en la columna izquierda. Para sub-agrupar genes con patrón de expresión similar, seleccione la línea que los agrupa (concatena) y luego clic contrario, seleccione Store Cluster. En la nueva ventana, en la opción Cluster Laber coloque un nombre o identificación para ese sub-grupo y puede modificar el color del nuevo cluster, luego clic ok. Para mayor detalle de los subgrupos de genes, haga clic derecho y seleccione Gene Tree properties... La opción Distance Threshold Adjustment, es para ajustar el número de clusters necesarios. Entre mas baja la distancia, mas agrupamientos se formaran con distancias cortas. K-means: - en el menú seleccione Clustering, luego k-Means/Medians Clustering - seleccione Cluster Genes, y en Current Metric: Euclidean Distance. Seleccione el numero de clusters a formarse (default:10), eso depende de la muestra y de la información que se tenga - clic en ok - en la columna izquierda aparece el resultado del KMC-genes: . Expression images: el heat map de cada cluster . Centroid graphs: muestra la variación dentro y entre los clusters. Y el número de genes de cada uno. . Expression Graphs: muestra la variación en la expresión génica respecto a un punto medio (línea rosada) para cada cluster. Análisis estadísticos 1. prueba T: - en el menú seleccione Statistics, luego t Test. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 7 XLVII Congreso Nacional de Ciencias Biológicas - En la nueva tabla, seleccione Between Seubjects y luego agrupe las muestras/experimentos de interés en dos grandes grupos A y B, las que no interesan seleccione neither group. - Seleccione Assume equal variance y luego Ok - en la columna izquierda aparecerá la opción T Test donde encontrara el heatmap, la distribución y las tablas para los genes significativos y no-significativos. - En la opcion Table views seleccione Significant genes, y luego haga clic derecho dentro de la tabla y seleccione store entire cluster, puede colocarle un nombre al cluster y un color que lo identifique. - En la columna izquierda encontrara la opción de volcano plot, en donde aparecerá un grafico mostrando las diferencias de las medias de los grupos A y B en donde cada punto representa un gen ya sea rojo (diferencia) o negro (no-diferencias), indicando si hay diferencias estadísticas entre los dos grupos (ver figura). BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 8 XLVII Congreso Nacional de Ciencias Biológicas 2. ANOVA: Analysis of Variance: - en el menú seleccione Statistics, luego One-way ANOVA Parámetros . Number of groups: indique el número de grupos de acuerdo a su hipótesis a probar. Clic ok Seleccione las muestras/experimentos de interes que quiera evaluar en los grupos definidos (si considera algunas muestras como no presentativas, identifiquelas como “Not in groups”). En la parte de abajo de la ventana aparecen tres pestañas indicando los parámetros del análisis estadístico: . Permutations of F- Distribution: dos opciones de pruebas para calcular del valor de p (F-distribution y permutation test) . P-value/False Discovery parameters: permite hacer el análisis con la corrección de ajuste del valor de p. . Hierarchical Clusters: para producir un cluters con los elementos seleccionados (significant genes o all clusters) - clic ok BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 9 XLVII Congreso Nacional de Ciencias Biológicas - otra ventana con los parámetros para efectuar el HCL - clic ok Resultados En la columna izquierda aparecerán los resultados del ANOVA junto con el cluster HCL. Indicando los valores de expresión de los genes significativos en forma de heatmap. Tabla y gráficas (ver figura de abajo). Análisis de componentes principales (PCA: Principal Components Analysis) En el menú seleccione Data Reduction, luego Principal Components Analysis Parámetros Sample selection: genes o muestras centering mode: media, mediana, ninguna. Algorithm Optimization: el tipo de algoritmo para generar los agrupamientos BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 10 XLVII Congreso Nacional de Ciencias Biológicas clic ok Resultados En la columna izquierda aparecerán los resultados del PCA. En la opcion Axis Scaling Parameters aparecen las graficas en 2D y 3D de los 3 principales componentes que abarcan la mayor información de los datos. Además en las opciones de PC plots y PC information se encuentra la información general de cada uno de los componentes producidos por el análisis. Por ejemplo: Principal Component 1 Principal Component 2 Principal Component 3 Principal Component 4 Principal Component 5 Principal Component 6 Principal Component 7 27.782 98.880 % 00.194 00.690 % 00.059 00.210 % 00.021 00.073 % 00.015 00.054 % 00.015 00.052 % 00.011 00.041 % First 2 components: 99.570 % First 3 components: 99.780 % Información Suplementaria Los siguientes artículos han sido escogidos para reforzar los conceptos que hemos analizado durante esta actividad. Manual de MEV (MultiExperiment Viewer), Version 4.7.0. 2011 http://www.tm4.org/mev_manual/anova.html RMAExpress Users Guide: http://rmaexpress.bmbolstad.com/RMAExpress_UsersGuide.pdf Jamilet Miranda, Ricardo Bringas. 2008. Análisis de datos de microarreglos de ADN. Parte I: Antecedentes de la tecnología y diseño experimental. Biotecnología Aplicada, 25 (2). Jamilet Miranda, Ricardo Bringas. Análisis de datos de microarreglos de ADN. Parte II: Cuantificación y análisis de la expresión génica. 2008. Biotecnología Aplicada. 25 (4) BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 11 XLVII Congreso Nacional de Ciencias Biológicas ESTO NO VA # of terminal nodes indica el numero de genes presentes en ese subgrupo. (NO SE OJO) Each individual line represents one gene, and the pink line in the middle shows the average expression of all the genes in each sample. QUEDA faltando ese grafica de grises y la linea rosada del subgrupo/. Para mi: to get different graphs and charts for each cluster created click the box on the right Create Cluster Viewers. These can be very useful visualization tools as well being able to look closer at each cluster. Dependiendo la distancia utilizada obtenemos diferentes clusters. La distancia euclídia nos sirve para ver relaciones entre las muestras viendo similitudes globales y la correlación para agrupar los genes según su patrón de expresión, ver las tendencias de la expresión de los genes. Tiene sentido que un gen se active o se inhiba más que otro a lo largo del desarrollo o respecto a varios tejidos. Pero no que un gen se activa o se inhiba entre dos muestras distintas, la expresión es más alta o más baja pero no hablamos de activación o inhibición. Por el momento nos vamos a fijar únicamente en como han quedado distribuidas las muestras. He marcado con colores algunas de las distribuciones que son significativas y se agrupan como podríamos esperar. En concreto las seis muestras de control (dos pares de tres replicas) deberían estar todas en la misma rama, pero no es así, al mismo nivel se incluyen dos, una de una hora y 0.1 uM, y otra de 0.1 uM y tres horas. Una consideración a tener en cuenta es que la función heatmap() calcula las distancias entre genes y muestras usando un modelo euclideo, esta no es la forma más apropiada para tratar los datos de microarrays, especialmente en los experimentos de dosificación y evolución temporal. En general para este tipo de experimentos se ha demostrado mejores resultados con distancias tipo pearson o spearson Análisis mediante cluster jerárquico. En el caso de los métodos jerárquicos los datos se ordenan en niveles de manera que los niveles superiores contienen a los inferiores. La jerarquía construida permite obtener también una partición de los datos en grupos. Se utiliza la matriz de distancias o similitudes entre los elementos de la matriz original los de datos. Los algoritmos jerárquicos pueden ser de dos tipos: De división y de Aglomeración. El algoritmo de división asume que en un primer paso todos los datos conforman un solo conglomerado. Este cluster se va dividiendo sucesivamente en conglomerados más pequeños de acuerdo a algún criterio seleccionado previamente. El resultado de este procedimiento se representa por el dendograma. En el algoritmo de aglomeración cada observación inicialmente es un conglomerado y en cada paso se asocian los conglomerados mas similares hasta llegar a un solo cluster. En el dendograma la escala vertical representa la distancia. La distancia entre dos conglomerados que se calcula según un algoritmo predeterminado. El algoritmo de cluster jerárquico pueden ser. ••• Linkage promedio: promedio de las distancias de las observaciones en cada cluster. Linkage simple: la menor distancia entre las observaciones de cada cluster Linkage completo: la mayor distancia entre las observaciones de cada cluster. BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 12 XLVII Congreso Nacional de Ciencias Biológicas