5. Descarga e instalación del programa Mev (MultiExperiment Viewer)

Anuncio
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 1
XLVII Congreso Nacional de Ciencias Biológicas
Fecha: Octubre 08, 2012
Conferencista: Juliana Soto Girón, Msc
TRANSCRIPTOMICA: análisis estadísticos para microarreglos
Objetivos:
Conocer los fundamentos de la experimentación con microarreglos y los análisis de la expresión
génica en varias
Manejar algunos paquetes software útiles en la interpretación de los datos de expresión extraidos
de una plataforma de microarreglos.
Aplicar técnicas de minería de datos más habituales en bioinformática al análisis de datos
procedentes de microarreglos.
1. Ejercicio práctico
1. Descarga programa RMA
 Descargue e instale RMA del siguiente URL: http://rmaexpress.bmbolstad.com/
 En la página del programa dele clic en la opción Windows versión para descargar la actual versión
de widows.
 Doble clic en el archivo ejecutable RMAexpress1.0.5.
 Habilite los permisos de instalación
 En el setup dele clic en next y luego install
 Doble clic en el para abrirlo
2. Descarga de las plataformas de expresión de genes para analizar
Ingrese a la base de datos GEO Datasets del NCBI en el siguiente URL:
http://www.ncbi.nlm.nih.gov/gds
Para este ejercicio se utilizaran los datos del experimento “Estrogen effect on breast cancer cell line: time
course” con el dataset GDS3285 y la plataforma GPL570. El estudio consiste en un análisis de expresión
génica temporal de células MCF-7 con cáncer de mama tratadas con estrógeno por un tiempo de 12
horas. Para mayor información leer: Carroll JS, Meyer CA, Song J, Li W et al. Genome-wide analysis of
estrogen receptor binding sites. Nat Genet 2006 Nov;38(11):1289-97.
Dentro de la base de datos busque e ingrese al data set GDS3285.
En la opción Reference Series haga clic en la serie GSE1124
Descargue el archivo.tar de los valores de expresión de la serie GSE1124 y guarde los archivos .CEL (tras
descomprimir el archivo .tar) en una misma carpeta:
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 2
XLVII Congreso Nacional de Ciencias Biológicas
Supplementary file
GSE11324_RAW.tar
Size
102.1 Mb
Download
(ftp)(http)(custom)
File type/resource
TAR (of CEL)
Nota:
los archivos .CEL contienen la información de las imágenes escaneadas de cada una de las sondas del
array como también su ubicación física (coordenadas de fila y de columna). En el archivo .CDF está la
información del mapa del microarray necesario para la correlación en la localización de la sonda-set y
permite correlacionar los valores de intensidad entre las sondas y los nombres de los genes.
Descargue el HG-U133_Plus_2.cdf de la plataforma de Affymetrix [HG-U133_Plus_2] Affymetrix Human
Genome U133 Plus 2.0 Array en el siguiente URL: http://www.aroma-project.org/chipTypes/HGU133_Plus_2, descomprímalo y guárdelo en la misma carpeta donde están el archivos. CEL
Tiempo en que se midió la expresión en cada una de las muestras
GSM286031
0hr 1
GSM286032
0hr 2
GSM286033
0hr 3
GSM286034
3hr 1
GSM286035
3hr 2
GSM286036
3hr 3
GSM286037
6hr 1
GSM286038
6hr 2
GSM286039
6hr 3
GSM286040
12hr 1
GSM286041
12hr 2
GSM286042
12hr 3
3. Ejecutar RMA, cargar archivos y








Doble clic en el ejecutable de RMA para abrirlo
Clic en file y luego en Read Unprocessed files.
Seleccione primero el archivo .CDF y clic en open
seleccione los arhicvos.CEl y clic en open
Aparecerá un cuadro indicando que los archivos se están cargando.
Clic en File y luego en Compute RMA measure
en la nueva ventana: Select Preprocessing steps están los parámetros para hacer la normalización
de los datos.
Clic ok para normalizar los valores de expresión.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 3
XLVII Congreso Nacional de Ciencias Biológicas

Después de que termine el análisis aparece un mensaje en la consola: “Done computing RMA
expression Measure”.

En la opción File del menú aparecerán varias opciones para guardar el resultado:
• Write Results to file (log scale): valores de expresión a escala logarítmica en un archivo de texto
• Write Results to file (natural scale): valores de expresión en logaritmo natural en un archivo de texto
• Export expression values: valores de expresión en formato de archivo binario.
4. Visualización de los datos:


clic en la opción show y luego en Visualize Raw Data. Aparecerá otra ventana.
En la opción Draw, clic en Boxplots
La gráfica que aparece consiste en los boxplots de las intensidades de los PM (perfect match) en log2
para cada uno de los array (experimentos).

En la opción Draw, clic en Density plots.
La gráfica que se muestra es una curva de densidad de las intensidades de los PM en log2, cada curva
representa un experimento.
5. Descarga e instalación del programa Mev (MultiExperiment Viewer):



Descargue el programa del URL: http://www.tm4.org/mev/
Doble clic en el archivo ejecutable Mev,
En la opción file, clic en Load Data, en la nueva ventana clic en Browse y cargue el archivo con los
valores normalizados en formato .txt.
Para cargar la plataforma de affimetrix puede ser de dos opciones: conectándose con el servidor y
descargarla de forma automática o subirla desde un archivo local (se utiliza el archivo .CDF con las
anotaciones de los genes).

Cuando los dos archivos estén listos, clic en Load.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 4
XLVII Congreso Nacional de Ciencias Biológicas
6. Análisis de la expresión de genes con MeV

Después de cargar los datos, aparecerá un Heatmap que representa los valores de expresión en
un rango de rojo (sobre-expresado) a verde (reprimido). Cada fila hace referencia a un gen y cada
columna a un array/experimento.

Si quiere conocer la información básica de su data set, haga clic en analysis Results y luego en
Data Source Selection Information. Encontrará el número de genes y de muestras que se están
analizando.

Filtrado:
Muchos conjuntos de datos contienen decenas a cientos de miles de genes, por lo que el filtrado de los
que contienen poca información biológica facilita el análisis. Para el filtrado haga clic en la opción Adjust
Data, luego en Data Filters, luego Variance Filter: coloque el valor del porcentaje que desea filtrar (default:
50%, cambiarlo a 35%), entre mas bajo el porcentaje, menos se seleccionaran.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 5
XLVII Congreso Nacional de Ciencias Biológicas
-
Los datos filtrados se pueden visualizar en la opción Data Filter: Expression Image en el resumen
de los análisis (columna izquierda).
-
Para modificar los colores del heat map, clic en Display, luego Color scheme, y Rainbow Scheme.

Análisis de agrupamiento de muestras y genes:
-
clic en Clustering, luego Hierarchical Clustering.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 6
XLVII Congreso Nacional de Ciencias Biológicas
-
Parámetros (by default):
-
Distance Metric Selection: Pearson correlation or Euclidean distance
-
seleccione solo Gene Tree y luego ok
-
para mirar el nuevo agrupamiento, clic en HCL en la columna izquierda. Para sub-agrupar genes
con patrón de expresión similar, seleccione la línea que los agrupa (concatena) y luego clic
contrario, seleccione Store Cluster.
En la nueva ventana, en la opción Cluster Laber coloque un nombre o identificación para ese sub-grupo y
puede modificar el color del nuevo cluster, luego clic ok.
Para mayor detalle de los subgrupos de genes, haga clic derecho y seleccione Gene Tree properties...
La opción Distance Threshold Adjustment, es para ajustar el número de clusters necesarios. Entre mas
baja la distancia, mas agrupamientos se formaran con distancias cortas.

K-means:
-
en el menú seleccione Clustering, luego k-Means/Medians Clustering
-
seleccione Cluster Genes, y en Current Metric: Euclidean Distance. Seleccione el numero de
clusters a formarse (default:10), eso depende de la muestra y de la información que se tenga
-
clic en ok
-
en la columna izquierda aparece el resultado del KMC-genes:
. Expression images: el heat map de cada cluster
. Centroid graphs: muestra la variación dentro y entre los clusters. Y el número de genes de cada uno.
. Expression Graphs: muestra la variación en la expresión génica respecto a un punto medio (línea rosada)
para cada cluster.

Análisis estadísticos
1. prueba T:
-
en el menú seleccione Statistics, luego t Test.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 7
XLVII Congreso Nacional de Ciencias Biológicas
-
En la nueva tabla, seleccione Between Seubjects y luego agrupe las muestras/experimentos de
interés en dos grandes grupos A y B, las que no interesan seleccione neither group.
-
Seleccione Assume equal variance y luego Ok
-
en la columna izquierda aparecerá la opción T Test donde encontrara el heatmap, la distribución y
las tablas para los genes significativos y no-significativos.
-
En la opcion Table views seleccione Significant genes, y luego haga clic derecho dentro de la tabla
y seleccione store entire cluster, puede colocarle un nombre al cluster y un color que lo identifique.
-
En la columna izquierda encontrara la opción de volcano plot, en donde aparecerá un grafico
mostrando las diferencias de las medias de los grupos A y B en donde cada punto representa un
gen ya sea rojo (diferencia) o negro (no-diferencias), indicando si hay diferencias estadísticas entre
los dos grupos (ver figura).
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 8
XLVII Congreso Nacional de Ciencias Biológicas
2. ANOVA: Analysis of Variance:
-
en el menú seleccione Statistics, luego One-way ANOVA
Parámetros
. Number of groups: indique el número de grupos de acuerdo a su hipótesis a probar.
Clic ok
Seleccione las muestras/experimentos de interes que quiera evaluar en los grupos definidos (si considera
algunas muestras como no presentativas, identifiquelas como “Not in groups”).
En la parte de abajo de la ventana aparecen tres pestañas indicando los parámetros del análisis
estadístico:
. Permutations of F- Distribution: dos opciones de pruebas para calcular del valor de p (F-distribution y
permutation test)
. P-value/False Discovery parameters: permite hacer el análisis con la corrección de ajuste del valor de p.
. Hierarchical Clusters: para producir un cluters con los elementos seleccionados (significant genes o all
clusters)
-
clic ok
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 9
XLVII Congreso Nacional de Ciencias Biológicas
-
otra ventana con los parámetros para efectuar el HCL
-
clic ok
Resultados
En la columna izquierda aparecerán los resultados del ANOVA junto con el cluster HCL. Indicando los
valores de expresión de los genes significativos en forma de heatmap. Tabla y gráficas (ver figura de
abajo).
Análisis de componentes principales (PCA: Principal Components Analysis)
En el menú seleccione Data Reduction, luego Principal Components Analysis
Parámetros
Sample selection: genes o muestras
centering mode: media, mediana, ninguna.
Algorithm Optimization: el tipo de algoritmo para generar los agrupamientos
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 10
XLVII Congreso Nacional de Ciencias Biológicas
clic ok
Resultados
En la columna izquierda aparecerán los resultados del PCA. En la opcion Axis Scaling Parameters
aparecen las graficas en 2D y 3D de los 3 principales componentes que abarcan la mayor información de
los datos. Además en las opciones de PC plots y PC information se encuentra la información general de
cada uno de los componentes producidos por el análisis. Por ejemplo:
Principal Component 1
Principal Component 2
Principal Component 3
Principal Component 4
Principal Component 5
Principal Component 6
Principal Component 7
27.782 98.880 %
00.194 00.690 %
00.059 00.210 %
00.021 00.073 %
00.015 00.054 %
00.015 00.052 %
00.011 00.041 %
First 2 components: 99.570 %
First 3 components: 99.780 %

Información Suplementaria
Los siguientes artículos han sido escogidos para reforzar los conceptos que hemos analizado durante
esta actividad.
Manual de MEV (MultiExperiment Viewer), Version 4.7.0. 2011
http://www.tm4.org/mev_manual/anova.html
RMAExpress Users Guide:
http://rmaexpress.bmbolstad.com/RMAExpress_UsersGuide.pdf
Jamilet Miranda, Ricardo Bringas. 2008. Análisis de datos de microarreglos de ADN. Parte I: Antecedentes
de la tecnología y diseño experimental. Biotecnología Aplicada, 25 (2).
Jamilet Miranda, Ricardo Bringas. Análisis de datos de microarreglos de ADN. Parte II: Cuantificación y
análisis de la expresión génica. 2008. Biotecnología Aplicada. 25 (4)
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 11
XLVII Congreso Nacional de Ciencias Biológicas
ESTO NO VA
# of terminal nodes indica el numero de genes presentes en ese subgrupo. (NO SE OJO)
Each individual line represents one gene, and the pink line in the middle shows the average expression of all
the genes in each sample. QUEDA faltando ese grafica de grises y la linea rosada del subgrupo/.
Para mi: to get different graphs and charts for each cluster created click the box on the right Create Cluster
Viewers. These can be very useful visualization tools as well being able to look closer at each cluster.
Dependiendo la distancia utilizada obtenemos diferentes clusters. La distancia euclídia nos sirve para ver
relaciones entre las muestras viendo similitudes globales y la correlación para agrupar los genes según su patrón de
expresión, ver las tendencias de la expresión de los genes. Tiene sentido que un gen se active o se inhiba más que
otro a lo largo del desarrollo o respecto a varios tejidos. Pero no que un gen se activa o se inhiba entre dos muestras
distintas, la expresión es más alta o más baja pero no hablamos de activación o inhibición.
Por el momento nos vamos a fijar únicamente en como han quedado distribuidas las muestras. He marcado con
colores algunas de las distribuciones que son significativas y se agrupan como podríamos esperar. En concreto las seis muestras
de control (dos pares de tres replicas) deberían estar todas en la misma rama, pero no es así, al mismo nivel se incluyen dos,
una de una hora y 0.1 uM, y otra de 0.1 uM y tres horas.
Una consideración a tener en cuenta es que la función heatmap() calcula las distancias entre genes y muestras usando
un modelo euclideo, esta no es la forma más apropiada para tratar los datos de microarrays, especialmente en los
experimentos de dosificación y evolución temporal. En general para este tipo de experimentos se ha demostrado
mejores resultados con distancias tipo pearson o spearson
Análisis mediante cluster jerárquico.
En el caso de los métodos jerárquicos los datos se ordenan en niveles de manera que los niveles superiores contienen a
los inferiores. La jerarquía construida permite obtener también una partición de los datos en grupos. Se utiliza la
matriz de distancias o similitudes entre los elementos de la matriz original los de datos.
Los algoritmos jerárquicos pueden ser de dos tipos: De división y de Aglomeración. El algoritmo de división asume
que en un primer paso todos los datos conforman un solo conglomerado. Este cluster se va dividiendo sucesivamente
en conglomerados más pequeños de acuerdo a algún criterio seleccionado previamente. El resultado de este
procedimiento se representa por el dendograma.
En el algoritmo de aglomeración cada observación inicialmente es un conglomerado y en cada paso se asocian los
conglomerados mas similares hasta llegar a un solo cluster.
En el dendograma la escala vertical representa la distancia. La distancia entre dos conglomerados que se calcula según
un algoritmo predeterminado. El algoritmo de cluster jerárquico pueden ser.
•••
Linkage promedio: promedio de las distancias de las observaciones en cada cluster. Linkage simple: la menor
distancia entre las observaciones de cada cluster Linkage completo: la mayor distancia entre las observaciones de cada
cluster.
BIOINFORMATICA APLICADA PARA EL ESTUDIO COMPARATIVO DE GENOMAS Y TRANSCRIPTOMAS 12
XLVII Congreso Nacional de Ciencias Biológicas
Descargar