Expresión diferencial mediante chips de ADN Master de Genética y Evolución 2010/2011 Genómica Funcional Michael Hackenberg (mlhack@gmail.com) http://bioinfo2.ugr.es/genomicafuncional Definición La expresión diferencial es el cambio de los niveles de expresión de uno o mas genes entre dos o varios condiciones Algunos análisis típicos donde se emplean estas técnicas son: • • • • • Para detectar posibles causas de una enfermedad (muestras sanas frente a muestras patológicos o muestras que corresponden a distintas fases de la enfermedad) Para caracterizar las diferencias entre diferentes tipos celulares (hígado frente a cerebro, etc.) En el desarrollo (no-diferenciado frente a diferenciado o los diferentes fases de diferenciación) Para medir los efectos de estímulos externos: medicamentos, luz, alimentación, sueño, etc Células o organismos mutantes frente al wild-type Métodos experimentales • • • Chips de ADN SAGE Secuenciación masiva Definición Los chips de ADN permiten medir simultáneamente miles de propiedades genómicas como la expresión génica o polimorfismos (tanto SNPs como CNV - variaciones en el número de copias). Principio básico El principio en que se basa la técnica de chip de ADN es la hibridación entre dos hebras complementarios de ADN. Para ello se fijan miles de oligonucelotidos (sondas) en una superficie sólida con el fin de que las moléculas de ARN de las muestran hibridan con ellas. Las muestras se etiquetan con fluoróforos con lo que la intensidad de la luz emitida es proporcional a los niveles de expresión. Un canal frente a dos canales Aparte de las muchas diferencies de fabricación que existen se puede distinguir dos tipos de chips de ADN, los que usan un ‘canal’ y los que usan dos ‘canales’. Los de dos canales miden por lo general la expresión relativa entre dos muestras (caso y control). Las dos muestras hibridan en las mismas sondas (hibridación competitiva). Los chips de un canal miden la expresión absoluta de una muestra. Descripción: Los ficheros CEL almacenan las intensidades para los diferentes ‘spots’ del chip de ADN Existen artefactos que pueden enmascarar la señal biológica o generar una señal falsa (preparación de la muestra, el proceso de hibridación, sesgo de fluoritas, hibridación cruzada, escáner). estos artefactos tienen que ser analizados y corregidos (si es posible) este paso se llama preprocesado y incluye la inspección de los datos crudos, la filtración de muestras con mala calidad, y la normalización. La normalización se puede dividir en 4 pasos • Corrección del ruido de fondo (background correction) • Correcciones dentro de la muestra – within array correction (afecta principalmente los chips de dos canales) • Calibrar las muestras entre si – between array scaling (tomar en cuenta diferencias en las intensidades) • Unir las diferentes sondas que corresponden al mismo gene o transcrito Ruido de fondo en función de la concentración Efecto del escáner sobre los valores de intensidad Objetivo: Medir “cuanto” mas se expresa un gen en una muestra comparado con otra Ratio > 0: El gen i se expresa mas en A que en B Ratio < 0: El gen i se expresa mas en B que en A Ratio = 1: El gen i se expresa dos veces mas en A que en B Ratio = -1: El gen i se expresa dos veces mas en B que en A Normalmente A son los “casos” mientras que B son los “controles” Para estimar si los niveles de expresión de un gen son significativamente diferentes entre dos condiciones, tenemos que analizar las distribuciones de los niveles de expresión en las dos condiciones Definiciones: Error de tipo I: Un error tipo I se da cuando se rechaza erróneamente la hipótesis Ejemplo Hipótesis nula: Los niveles de expresión son iguales en las dos condiciones. Si hemos fijado el nivel de significación en 0.05 y la probabilidad (valor P) es menor que 0.05 rechazamos la hipótesis nula y deducimos que hay expresión diferencial. Un valor P de 0.05 implica que rechazaremos un 5% de las hipótesis erróneamente En un experimento de expresión génica, se pone a prueba simultáneamente miles de hipótesis lo que lleva a la acumulación del error de tipo I Para mantener el nivel de significación del experimento global, hay que corregir los valores p Corrección de Bonferoni: Multiplicar los valores P por el número de tests se controla el familywise error rate (probabilidad de cometer errores de tipo I) Corrección de Benjamini y Hochberg Controla la proporción de hipótesis rechazadas erróneamente indicado si se rechazan muchas hipótesis como es el caso de la expresión diferencial (pocos genes cambian sus niveles de expresión) Babelomics http://babelomics.bioinfo.cipf.es/ permite llevar a cabo diferentes tipos de análisis relacionados con la expresión génica incluyendo la normalización de los datos crudos • • • Detectar genes que se expresan diferencialmente entre dos y mas condiciones Analizar los resultados tanto de los chips de un canal como los de dos canales Detectar genes que se expresan diferencialmente en función a una variable numérica (dosis de un medicamento, etc.) Gene Expression Omnibus (http://www.ncbi.nlm.nih.gov/geo/): Es un repositorio público de datos de microarray (chips de AND) y secuenciación. Además de la posibilidad de buscar y navegar en el repositorio, existen varias herramientas para descargar los datos y ver perfiles curados de la expresión génica. Todas las plataformas que existen en GEO Buscar tanto por el nombre de la ‘plataforma’ (chips de ADN, Illumina Genome Analyzer etc.), el tipo de datos (mRNA, microRNA, SNP) o cualquier palabra clave (cancer)